原文是照片导入的文档
acrobat文字识别后,错误百出
本来想识别后方便搜索,但是就它这个识别结果,很多东西根本搜不到。
例如,原文是eat ice cream or chocolate sometimes.
白描识别一点问题没有,原文档也很清晰,
acrobat中文、英文模式识别结果分别为:
eat i ce crean1 or chocolate someti mes
eat ice crean1 or choco late sometimes
福昕之类的软件也都差不多。
根本找不到一个识别非常准确(像白描这样)
然后同时识别后能生成可搜索图像的pdf文件的
--
FROM 202.98.13.*