[转载]为什么从 PDF 里面解出文本很难

水木社区手机版

主题:[转载]为什么从 PDF 里面解出文本很难
1楼|xiaoju|2021-06-07 15:53:19|展开
你可以研究一下google books相关的开源项目是怎么用ocr索引图书馆的

【在 hgoldfish (老鱼) 的大作中提到: 】
: https://filingdb.com/b/pdf-text-extraction
--
FROM 27.91.71.*
3楼|xiaoju|2021-06-07 15:55:48|展开
扫了一下，觉得在今天问题不是太大

从pdf直接还原excel可能有难度，但从pdf生成txt电子书是已经解决的问题了

【在 snoopyzhao (只打酱油，不兼职) 的大作中提到: 】
: 标题: Re: [转载]为什么从 PDF 里面解出文本很难
: 发信站: 水木社区 (Mon Jun 7 15:54:35 2021), 站内
:
:
: 【在 xiaoju (可爱的龙猫) 的大作中提到: 】
: : 你可以研究一下google books相关的开源项目是怎么用ocr索引图书馆的
:
: 这文章后面也讲了OCR相对于从PDF中提取文字的劣势……
:
: --
:
: ※ 来源:·水木社区 newsmth.net·[FROM: 59.172.4.*]
--
FROM 27.91.71.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版