- 主题:[转载]为什么从 PDF 里面解出文本很难
【 在 xiaoju (可爱的龙猫) 的大作中提到: 】
: 你可以研究一下google books相关的开源项目是怎么用ocr索引图书馆的
这文章后面也讲了OCR相对于从PDF中提取文字的劣势……
--
FROM 59.172.4.*
【 在 KEILLY (米饭) 的大作中提到: 】
: pdf文字可以是分层的
: 比如生成一张pdf的发票:
: 开发人员的思路应该会是先填写红色文字、再填上黑色文字。而且即使是同一种颜色,先后次序也未必是看到的那个顺序。
: ...................
pdf 中的文字有可能还都是转成曲线的,这个便没有办法复制了
--
FROM 117.152.147.*
【 在 KEILLY (米饭) 的大作中提到: 】
: 曲线? 图片吗
PDF 中的文字可以通过一些矢量图形编辑软件转成曲线的,对于这种,估计除了OCR也没有别的办法可以提取了。
--
FROM 59.172.4.*