水木社区手机版
首页
|版面-创业者论坛(Entrepreneur)|
新版wap站已上线
返回
1/1
|
转到
主题:请教PDF文字提取的工具, PDF为繁体竖版
12楼
|
philzhang
|
2024-09-11 09:50:26
|
展开
pdf 反人类的,是面向印刷的,保证任何系统上排版不变形。
如果不是图片扫描的文本类型的pdf,你看到的任何一个字都有可能存储在文件的任何位置,是乱序的。render的过程需要整个文档在内存里展开。
有个兄弟提到可以用大模型来处理,我觉得可以试试。
【 在 jjslove 的大作中提到: 】
: 早期的报纸, 如图, 有能提取文字的么, 谢谢[upload=1][/upload]
--
FROM 223.70.167.*
1/1
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版