- 主题:[转载]为什么从 PDF 里面解出文本很难
PDF是不是应该只限定为生成纸张打印输出的文件
内容交流用EPub。方便提取按语义提取信息
【 在 Bernstein 的大作中提到: 】
: 排出来的显示效果比pdf差远了
:
--
FROM 101.24.90.*
只有pdf的情况呢?
提取信息还得找上游的可编辑格式,epub实际上只是个html的封装
屏幕显示、打印、人眼阅读,pdf的效果好很多
【 在 sosei 的大作中提到: 】
: PDF是不是应该只限定为生成纸张打印输出的文件
: 内容交流用EPub。方便提取按语义提取信息
:
--
修改:Bernstein FROM 125.33.245.*
FROM 125.33.245.*
就说不该把pdf这种格式用错地方
上市公司年报用pdf发布,真是差劲
【 在 Bernstein 的大作中提到: 】
: 只有pdf的情况呢?
: 提取信息还得找上游的可编辑格式,epub实际上只是个html的封装
:
--
FROM 101.24.90.*
这种有防篡改、防跑版的需求
pdf的问题只是排版前的各种语义信息丢失得比较厉害
【 在 sosei 的大作中提到: 】
: 就说不该把pdf这种格式用错地方
: 上市公司年报用pdf发布,真是差劲
:
--
FROM 125.33.245.*
发两个版本
一个用于信息检索
一个pdf版本专用打印
完美解决
TeX是PDF的竞品吗
【 在 Bernstein 的大作中提到: 】
: 这种有防篡改、防跑版的需求
: pdf的问题只是排版前的各种语义信息丢失得比较厉害
:
--
修改:sosei FROM 101.24.90.*
FROM 101.24.90.*