水木社区手机版
首页
|版面-编程技术(Programming)|
新版wap站已上线
返回
下页
|
尾页
|
1/5
|
转到
主题:[转载]为什么从 PDF 里面解出文本很难
楼主
|
hgoldfish
|
2021-06-07 15:16:08
|
只看此ID
https://filingdb.com/b/pdf-text-extraction
--
FROM 117.24.207.*
1楼
|
xiaoju
|
2021-06-07 15:53:19
|
只看此ID
你可以研究一下google books相关的开源项目是怎么用ocr索引图书馆的
【 在 hgoldfish (老鱼) 的大作中提到: 】
:
https://filingdb.com/b/pdf-text-extraction
--
FROM 27.91.71.*
2楼
|
snoopyzhao
|
2021-06-07 15:54:09
|
只看此ID
【 在 xiaoju (可爱的龙猫) 的大作中提到: 】
: 你可以研究一下google books相关的开源项目是怎么用ocr索引图书馆的
这文章后面也讲了OCR相对于从PDF中提取文字的劣势……
--
FROM 59.172.4.*
3楼
|
xiaoju
|
2021-06-07 15:55:48
|
只看此ID
扫了一下,觉得在今天问题不是太大
从pdf直接还原excel可能有难度,但从pdf生成txt电子书是已经解决的问题了
【 在 snoopyzhao (只打酱油,不兼职) 的大作中提到: 】
: 标 题: Re: [转载]为什么从 PDF 里面解出文本很难
: 发信站: 水木社区 (Mon Jun 7 15:54:35 2021), 站内
:
:
: 【 在 xiaoju (可爱的龙猫) 的大作中提到: 】
: : 你可以研究一下google books相关的开源项目是怎么用ocr索引图书馆的
:
: 这文章后面也讲了OCR相对于从PDF中提取文字的劣势……
:
: --
:
: ※ 来源:·水木社区 newsmth.net·[FROM: 59.172.4.*]
--
FROM 27.91.71.*
4楼
|
KDr2
|
2021-06-08 07:13:17
|
只看此ID
pdf 还原 excel 也是在解决中的,看这个
http://pdflux.com/
【 在 xiaoju (可爱的龙猫) 的大作中提到: 】
: 扫了一下,觉得在今天问题不是太大
: 从pdf直接还原excel可能有难度,但从pdf生成txt电子书是已经解决的问题了
--
FROM 113.201.131.*
5楼
|
MetalSlugX
|
2021-06-08 08:41:23
|
只看此ID
卖家秀不错
不知道实际使用怎么样
不知道多少钱
【 在 KDr2 (R2D2) 的大作中提到: 】
: pdf 还原 excel 也是在解决中的,看这个
http://pdflux.com/
--
FROM 171.106.23.*
6楼
|
iMx
|
2021-06-08 09:09:51
|
只看此ID
感觉是逆向的
如果从生成pdf的代码考虑,问题的可能性就没那么多了,一个字被用什么方式渲染出来,是有限种方式吧
【 在 hgoldfish (老鱼) 的大作中提到: 】
:
https://filingdb.com/b/pdf-text-extraction
--
FROM 119.131.204.*
7楼
|
z16166
|
2021-06-08 10:07:16
|
只看此ID
所以繁体pdf没法完美转成简体pdf啊
即便是pdf转为rtf,也不是完美的。
--
FROM 123.118.187.*
8楼
|
MetalSlugX
|
2021-06-08 10:42:19
|
只看此ID
【 在 KDr2 (R2D2) 的大作中提到: 】
: pdf 还原 excel 也是在解决中的,看这个
http://pdflux.com/
它的公众号文章里,居然说adobe给大家带来了flash
差评啊
--
FROM 171.106.23.*
9楼
|
cyberdyne
|
2021-06-08 19:52:41
|
只看此ID
求问是否有相对好的解决方案,有时候看港股财报,头大。
【 在 z16166 的大作中提到: 】
: 所以繁体pdf没法完美转成简体pdf啊
: 即便是pdf转为rtf,也不是完美的。
--
FROM 117.136.101.*
下页
|
尾页
|
1/5
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版