白描的缺点

水木社区手机版

主题:白描的缺点
楼主|wuduan|2024-01-30 11:49:45|只看此ID
夸了白描那么多，也说说它的缺点。
1、不能按格式输出扫描结果。意思就是源文件的文字有一定布局，不是单纯的从上到下，就像word中在文本框中输入文字，然后文本框可以放在页面任何位置。例如左上有一块文字，右下有一块，两者在纵向分布上还有一定重叠，横向没有重叠。这种时候，白描还是从上到下识别，在两块文字重叠区间，会先识别左侧的文字，然后识别右侧另一块区域里的文字，最终导致两段文字交织在一起。
输出txt的时候是如此，即使选择docx的时候也是如此，根本没有按原文格式布局输出文字。原文的图片也都没有了。
实现按原文布局输出不是什么难事，连我多年前的高拍仪带的ocr软件都能实现。福昕PDF365也能实现（选择输出word格式时），里面也会保留图片。
2、识别中会丢失文字。有的时候文字离边界比较近（但与边界间仍有空间）的时候会不被识别。而，有时候甚至遮住了半个文字的时候它都能识别。
还有一种情况是，文字根本不在边界附近，而是在整个图片中，周围的其他文字都被正常识别了。而其中偶尔就会有一点文字没有被识别。不知原因。刚才用福昕PDF365的时候也碰到一次这种情况。
--
FROM 202.98.13.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版