水木社区手机版
首页
|版面-编程技术(Programming)|
新版wap站已上线
返回
1/1
|
转到
主题:[转载]为什么从 PDF 里面解出文本很难
1楼
|
xiaoju
|
2021-06-07 15:53:19
|
展开
你可以研究一下google books相关的开源项目是怎么用ocr索引图书馆的
【 在 hgoldfish (老鱼) 的大作中提到: 】
:
https://filingdb.com/b/pdf-text-extraction
--
FROM 27.91.71.*
3楼
|
xiaoju
|
2021-06-07 15:55:48
|
展开
扫了一下,觉得在今天问题不是太大
从pdf直接还原excel可能有难度,但从pdf生成txt电子书是已经解决的问题了
【 在 snoopyzhao (只打酱油,不兼职) 的大作中提到: 】
: 标 题: Re: [转载]为什么从 PDF 里面解出文本很难
: 发信站: 水木社区 (Mon Jun 7 15:54:35 2021), 站内
:
:
: 【 在 xiaoju (可爱的龙猫) 的大作中提到: 】
: : 你可以研究一下google books相关的开源项目是怎么用ocr索引图书馆的
:
: 这文章后面也讲了OCR相对于从PDF中提取文字的劣势……
:
: --
:
: ※ 来源:·水木社区 newsmth.net·[FROM: 59.172.4.*]
--
FROM 27.91.71.*
1/1
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版