又试了几个ocr软件，白描微信胜出

水木社区手机版

主题:又试了几个ocr软件，白描微信胜出
楼主|wuduan|2024-01-30 11:03:30|只看此ID
由于白描隐藏的限制用户大量使用行为，我不得不再次寻找能替代它的软件。说实话，没找到。微信和白描的识别效果差不了太多，但是微信没法大批量识别。我这里所说的大批量识别是指源文件为大量单个的图像文件，批量导入软件，软件单独对每个图像文件进行ocr。测试的几个软件里，白描和福昕PDF365可以实现。当然，如果首先把这些图片文件合成为一个pdf，那么acrobat和福昕高级pdf编辑器也可以一次性对很多页面或者很多pdf文件进行识别。
总体而言，白描识别效果最好，除了分行有时候不正确以外（例如原文分两行，它自动给识别成一行），没有任何识别错误。当然这得归功于背后的百度识别引擎。它连人民教育出版社那几个手写体都识别的一字不差（对比其他几个软件）。我甚至怀疑它内部预存了某些常见手写体单位名称、标志等的文字的图像，到时候通过比对就可以识别的一字不差。所以，暂时我还离不开白描，白描对于偶尔识别一下是足够的、效果非常好，而且价格便宜。但是白描恶心的地方在于，没有在任何地方说它的软件使用有限制，例如每天识别不能超过多少张，相反，它说没有任何限制。它这是采取欺骗的手段，夸大自己软件的功能。然后在背地里采取恶心的手段限制你的使用，限制的时候还不说是你识别的太多了，它说服务器压力过大。而实际上你要是换到网页版不登录账号使用，又可以正常使用了，说明服务器压力并非过大。而是来自你这个人的压力过大。我打算自己琢磨百度的识别引擎，交钱也愿意交，让我用就行。
微信的识别效果也非常好，除了人教那几个手写体之外，其他的没有错误。（中英文的括号和标点符号等识别不一样，都是无所谓的事）
其他几个识别结果中都有一些错误，例如错字，又如把句号识别为0或者“口”，把1识别为i等等。
下面是几个软件识别的结果与标准文字的差别对比。黑色的字表示与标准文字一致，红色字是标准文字有但是识别后结果没有的，绿色文字是识别后结果有，标准文字没有的。白描的识别结果出了分行之外与标准文字一致，就不放了。
下面是acrobat的识别结果

下面是福昕PDF365的识别结果

下面是福昕高级PDF编辑器的识别结果

下面是微信的识别结果

--
FROM 202.98.13.*
1楼|xiaoda|2024-07-17 14:11:26|只看此ID
可以试试Umi-OCR
--
FROM 113.208.113.*