很早就研究过,大约14、5年前指导某前雇主的员工开发了一个仿abbyy finereader的界面,调某合作方的ocr API来处理某种类pdf文档格式中的图片,把图片转成文字。
当时也考虑过从排版过的类pdf文档中提取文本的问题,首先是需要自动推断文件排版的算法,这个当时开发的人凑了一个,不怎么好使;另外,需要像ocr界面那样,人工逐页审核自动推断出的文本框位置和顺序是否合理,不合理的话需要干预
如果是那种已经转成矢量格式的文本,似乎没啥法子可以处理...
这里的一个根本问题是,从可编辑格式生成pdf格式的过程中,顺序信息实际上丢失了...
【 在 hgoldfish 的大作中提到: 】
:
https://filingdb.com/b/pdf-text-extraction--
FROM 125.33.245.*