[转载]为什么从 PDF 里面解出文本很难

水木社区手机版

主题:[转载]为什么从 PDF 里面解出文本很难
34楼|Bernstein|2021-07-03 12:43:09|展开
向量图形，可放缩的那种，不是图像

【在 KEILLY 的大作中提到: 】
: 曲线？图片吗
: ....................
--
FROM 123.112.22.*
37楼|Bernstein|2021-11-18 04:03:30|展开
可以把文本都直接变成矢量图形，啥也提取不出来

【在 ble 的大作中提到: 】
: 那是因为电子书的PDF本身比较规则啊，按说可以用些方法把版面重排，防止提取。
: 发自「今日水木 on 钛星」
--
FROM 125.33.245.*
38楼|Bernstein|2021-11-18 04:05:17|展开
排出来的显示效果比pdf差远了

【在 sosei 的大作中提到: 】
: EPub格式作为替代很好吧
:
--
FROM 125.33.245.*
39楼|Bernstein|2021-11-18 04:14:36|展开
很早就研究过，大约14、5年前指导某前雇主的员工开发了一个仿abbyy finereader的界面，调某合作方的ocr API来处理某种类pdf文档格式中的图片，把图片转成文字。

当时也考虑过从排版过的类pdf文档中提取文本的问题，首先是需要自动推断文件排版的算法，这个当时开发的人凑了一个，不怎么好使；另外，需要像ocr界面那样，人工逐页审核自动推断出的文本框位置和顺序是否合理，不合理的话需要干预

如果是那种已经转成矢量格式的文本，似乎没啥法子可以处理...

这里的一个根本问题是，从可编辑格式生成pdf格式的过程中，顺序信息实际上丢失了...

【在 hgoldfish 的大作中提到: 】
: https://filingdb.com/b/pdf-text-extraction
--
FROM 125.33.245.*
41楼|Bernstein|2021-11-18 12:57:30|展开
只有pdf的情况呢？
提取信息还得找上游的可编辑格式，epub实际上只是个html的封装
屏幕显示、打印、人眼阅读，pdf的效果好很多

【在 sosei 的大作中提到: 】
: PDF是不是应该只限定为生成纸张打印输出的文件
: 内容交流用EPub。方便提取按语义提取信息
:
--
修改:Bernstein FROM 125.33.245.*
FROM 125.33.245.*
43楼|Bernstein|2021-11-18 13:04:40|展开
这种有防篡改、防跑版的需求
pdf的问题只是排版前的各种语义信息丢失得比较厉害

【在 sosei 的大作中提到: 】
: 就说不该把pdf这种格式用错地方
: 上市公司年报用pdf发布，真是差劲
:
--
FROM 125.33.245.*