实际上不是自编的
我只是写了几条语句调用了百度的文字识别api。
百度的文字识别api真的很厉害!
我用一篇文档图片进行测试,
共1980个字符,只有一处英文句号那个点没被识别出来。
其余全部正确。
而且,识别结果是带位置信息的。
所以,可以不费劲的存储成和源文档布局差不多的word或者pdf。
而某个软件也是调用了百度的api,识别结果却差强人意,不知道那软件是咋编的。
同样用上面的文档图片测试,
有24个文字字符未被识别,另加8个标点字符未被识别。
有时候一个短语里,在不确定的位置抠出几个字符不识别,其余的识别。
注:这可是一篇印刷体文档截屏的图片。
--
FROM 202.98.17.*