- 主题:[转载]为什么从 PDF 里面解出文本很难
PDF是不是应该只限定为生成纸张打印输出的文件
内容交流用EPub。方便提取按语义提取信息
【 在 Bernstein 的大作中提到: 】
: 排出来的显示效果比pdf差远了
:
--
FROM 101.24.90.*
就说不该把pdf这种格式用错地方
上市公司年报用pdf发布,真是差劲
【 在 Bernstein 的大作中提到: 】
: 只有pdf的情况呢?
: 提取信息还得找上游的可编辑格式,epub实际上只是个html的封装
:
--
FROM 101.24.90.*
发两个版本
一个用于信息检索
一个pdf版本专用打印
完美解决
TeX是PDF的竞品吗
【 在 Bernstein 的大作中提到: 】
: 这种有防篡改、防跑版的需求
: pdf的问题只是排版前的各种语义信息丢失得比较厉害
:
--
修改:sosei FROM 101.24.90.*
FROM 101.24.90.*