由于白描隐藏的限制用户大量使用行为,我不得不再次寻找能替代它的软件。说实话,没找到。微信和白描的识别效果差不了太多,但是微信没法大批量识别。我这里所说的大批量识别是指源文件为大量单个的图像文件,批量导入软件,软件单独对每个图像文件进行ocr。测试的几个软件里,白描和福昕PDF365可以实现。当然,如果首先把这些图片文件合成为一个pdf,那么acrobat和福昕高级pdf编辑器也可以一次性对很多页面或者很多pdf文件进行识别。
总体而言,白描识别效果最好,除了分行有时候不正确以外(例如原文分两行,它自动给识别成一行),没有任何识别错误。当然这得归功于背后的百度识别引擎。它连人民教育出版社那几个手写体都识别的一字不差(对比其他几个软件)。我甚至怀疑它内部预存了某些常见手写体单位名称、标志等的文字的图像,到时候通过比对就可以识别的一字不差。所以,暂时我还离不开白描,白描对于偶尔识别一下是足够的、效果非常好,而且价格便宜。但是白描恶心的地方在于,没有在任何地方说它的软件使用有限制,例如每天识别不能超过多少张,相反,它说没有任何限制。它这是采取欺骗的手段,夸大自己软件的功能。然后在背地里采取恶心的手段限制你的使用,限制的时候还不说是你识别的太多了,它说服务器压力过大。而实际上你要是换到网页版不登录账号使用,又可以正常使用了,说明服务器压力并非过大。而是来自你这个人的压力过大。我打算自己琢磨百度的识别引擎,交钱也愿意交,让我用就行。
微信的识别效果也非常好,除了人教那几个手写体之外,其他的没有错误。(中英文的括号和标点符号等识别不一样,都是无所谓的事)
其他几个识别结果中都有一些错误,例如错字,又如把句号识别为0或者“口”,把1识别为i等等。
下面是几个软件识别的结果与标准文字的差别对比。黑色的字表示与标准文字一致,红色字是标准文字有但是识别后结果没有的,绿色文字是识别后结果有,标准文字没有的。白描的识别结果出了分行之外与标准文字一致,就不放了。
下面是acrobat的识别结果

下面是福昕PDF365的识别结果

下面是福昕高级PDF编辑器的识别结果

下面是微信的识别结果

--
FROM 202.98.13.*