[转载]为什么从 PDF 里面解出文本很难

水木社区手机版

主题:[转载]为什么从 PDF 里面解出文本很难
2楼|snoopyzhao|2021-06-07 15:54:09|展开
【在 xiaoju (可爱的龙猫) 的大作中提到: 】
: 你可以研究一下google books相关的开源项目是怎么用ocr索引图书馆的

这文章后面也讲了OCR相对于从PDF中提取文字的劣势……
--
FROM 59.172.4.*
31楼|snoopyzhao|2021-06-14 21:26:59|展开
【在 KEILLY (米饭) 的大作中提到: 】
: pdf文字可以是分层的
: 比如生成一张pdf的发票：
: 开发人员的思路应该会是先填写红色文字、再填上黑色文字。而且即使是同一种颜色，先后次序也未必是看到的那个顺序。
: ...................
pdf 中的文字有可能还都是转成曲线的，这个便没有办法复制了
--
FROM 117.152.147.*
33楼|snoopyzhao|2021-06-28 09:00:16|展开
【在 KEILLY (米饭) 的大作中提到: 】
: 曲线？图片吗

PDF 中的文字可以通过一些矢量图形编辑软件转成曲线的，对于这种，估计除了OCR也没有别的办法可以提取了。
--
FROM 59.172.4.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版