请教PDF文字提取的工具, PDF为繁体竖版

水木社区手机版

主题:请教PDF文字提取的工具, PDF为繁体竖版
10楼|bluemind|2024-09-09 15:04:21|只看此ID
这图片很多模糊，是原本就印刷不清晰，还是扫描造成的？

【在 jjslove 的大作中提到: 】
: 早期的报纸, 如图, 有能提取文字的么, 谢谢[upload=1][/upload]
--
FROM 60.2.184.*
11楼|saynothing|2024-09-10 16:43:49|只看此ID
ocr精度如果95%，阅读观感也是很差的。
这种是不是得上大模型训练，不过，又需要标签训练数据。

【在 weiwei5987 的大作中提到: 】
: 看着像图片，这得ocr识别吧
--
FROM 125.121.44.*
12楼|philzhang|2024-09-11 09:50:26|只看此ID
pdf 反人类的，是面向印刷的，保证任何系统上排版不变形。

如果不是图片扫描的文本类型的pdf，你看到的任何一个字都有可能存储在文件的任何位置，是乱序的。render的过程需要整个文档在内存里展开。

有个兄弟提到可以用大模型来处理，我觉得可以试试。

【在 jjslove 的大作中提到: 】
: 早期的报纸, 如图, 有能提取文字的么, 谢谢[upload=1][/upload]
--
FROM 223.70.167.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版