- 主题:请教PDF文字提取的工具, PDF为繁体竖版
这图片很多模糊, 是原本就印刷不清晰,还是扫描造成的 ?
【 在 jjslove 的大作中提到: 】
: 早期的报纸, 如图, 有能提取文字的么, 谢谢[upload=1][/upload]
--
FROM 60.2.184.*
ocr精度如果95%,阅读观感也是很差的。
这种是不是得上大模型训练,不过,又需要标签训练数据。
【 在 weiwei5987 的大作中提到: 】
: 看着像图片,这得ocr识别吧
--
FROM 125.121.44.*
pdf 反人类的,是面向印刷的,保证任何系统上排版不变形。
如果不是图片扫描的文本类型的pdf,你看到的任何一个字都有可能存储在文件的任何位置,是乱序的。render的过程需要整个文档在内存里展开。
有个兄弟提到可以用大模型来处理,我觉得可以试试。
【 在 jjslove 的大作中提到: 】
: 早期的报纸, 如图, 有能提取文字的么, 谢谢[upload=1][/upload]
--
FROM 223.70.167.*