夸了白描那么多,也说说它的缺点。
1、不能按格式输出扫描结果。意思就是源文件的文字有一定布局,不是单纯的从上到下,就像word中在文本框中输入文字,然后文本框可以放在页面任何位置。例如左上有一块文字,右下有一块,两者在纵向分布上还有一定重叠,横向没有重叠。这种时候,白描还是从上到下识别,在两块文字重叠区间,会先识别左侧的文字,然后识别右侧另一块区域里的文字,最终导致两段文字交织在一起。
输出txt的时候是如此,即使选择docx的时候也是如此,根本没有按原文格式布局输出文字。原文的图片也都没有了。
实现按原文布局输出不是什么难事,连我多年前的高拍仪带的ocr软件都能实现。福昕PDF365也能实现(选择输出word格式时),里面也会保留图片。
2、识别中会丢失文字。有的时候文字离边界比较近(但与边界间仍有空间)的时候会不被识别。而,有时候甚至遮住了半个文字的时候它都能识别。
还有一种情况是,文字根本不在边界附近,而是在整个图片中,周围的其他文字都被正常识别了。而其中偶尔就会有一点文字没有被识别。不知原因。刚才用福昕PDF365的时候也碰到一次这种情况。
--
FROM 202.98.13.*