[转载]为什么从 PDF 里面解出文本很难

水木社区手机版

主题:[转载]为什么从 PDF 里面解出文本很难
楼主|hgoldfish|2021-06-07 15:16:08|只看此ID
https://filingdb.com/b/pdf-text-extraction
--
FROM 117.24.207.*
1楼|xiaoju|2021-06-07 15:53:19|只看此ID
你可以研究一下google books相关的开源项目是怎么用ocr索引图书馆的

【在 hgoldfish (老鱼) 的大作中提到: 】
: https://filingdb.com/b/pdf-text-extraction
--
FROM 27.91.71.*
2楼|snoopyzhao|2021-06-07 15:54:09|只看此ID
【在 xiaoju (可爱的龙猫) 的大作中提到: 】
: 你可以研究一下google books相关的开源项目是怎么用ocr索引图书馆的

这文章后面也讲了OCR相对于从PDF中提取文字的劣势……
--
FROM 59.172.4.*
3楼|xiaoju|2021-06-07 15:55:48|只看此ID
扫了一下，觉得在今天问题不是太大

从pdf直接还原excel可能有难度，但从pdf生成txt电子书是已经解决的问题了

【在 snoopyzhao (只打酱油，不兼职) 的大作中提到: 】
: 标题: Re: [转载]为什么从 PDF 里面解出文本很难
: 发信站: 水木社区 (Mon Jun 7 15:54:35 2021), 站内
:
:
: 【在 xiaoju (可爱的龙猫) 的大作中提到: 】
: : 你可以研究一下google books相关的开源项目是怎么用ocr索引图书馆的
:
: 这文章后面也讲了OCR相对于从PDF中提取文字的劣势……
:
: --
:
: ※ 来源:·水木社区 newsmth.net·[FROM: 59.172.4.*]
--
FROM 27.91.71.*
4楼|KDr2|2021-06-08 07:13:17|只看此ID
pdf 还原 excel 也是在解决中的，看这个 http://pdflux.com/

【在 xiaoju (可爱的龙猫) 的大作中提到: 】
: 扫了一下，觉得在今天问题不是太大
: 从pdf直接还原excel可能有难度，但从pdf生成txt电子书是已经解决的问题了
--
FROM 113.201.131.*
5楼|MetalSlugX|2021-06-08 08:41:23|只看此ID
卖家秀不错

不知道实际使用怎么样
不知道多少钱

【在 KDr2 (R2D2) 的大作中提到: 】
: pdf 还原 excel 也是在解决中的，看这个 http://pdflux.com/
--
FROM 171.106.23.*
6楼|iMx|2021-06-08 09:09:51|只看此ID
感觉是逆向的
如果从生成pdf的代码考虑，问题的可能性就没那么多了，一个字被用什么方式渲染出来，是有限种方式吧

【在 hgoldfish (老鱼) 的大作中提到: 】
: https://filingdb.com/b/pdf-text-extraction
--
FROM 119.131.204.*
7楼|z16166|2021-06-08 10:07:16|只看此ID
所以繁体pdf没法完美转成简体pdf啊

即便是pdf转为rtf，也不是完美的。
--
FROM 123.118.187.*
8楼|MetalSlugX|2021-06-08 10:42:19|只看此ID
【在 KDr2 (R2D2) 的大作中提到: 】
: pdf 还原 excel 也是在解决中的，看这个 http://pdflux.com/
它的公众号文章里，居然说adobe给大家带来了flash
差评啊
--
FROM 171.106.23.*
9楼|cyberdyne|2021-06-08 19:52:41|只看此ID
求问是否有相对好的解决方案，有时候看港股财报，头大。
【在 z16166 的大作中提到: 】
: 所以繁体pdf没法完美转成简体pdf啊
: 即便是pdf转为rtf，也不是完美的。
--
FROM 117.136.101.*