并非严格测试,但也能说明点问题:
wps文字识别功能还须改进。
用了一张图片,印刷体文档,中英混排。
共1980字符。
wps识别结果的正确率还挺高,只有一处小写w(位于单词now中)被识别为大写。
但有21处以上的空格未被识别,有37个字符涉及词序颠倒。
有时换行被识别为一行,这可以,没问题,但是单词之间空格消失,例如
Can you go and get
some more?
被识别为Can you go and getsome more?
有时本来就是两行,它自作主张的合并为一行。合并为一行也就罢了,两句之间不留空格。
有时出现词语词序颠倒,
例如Did you go anywhere interesting...
被识别为 Didanywheregoyouinteresting...
有时本来位于一行开头的单词,出现在了行末,和下一行合在一起。已经严重影响原文结构,导致错误的表达了原文的意思。
而同样的文档,用百度识别引擎,只出现了一处英文句号那个点未被识别。
其余全部正确。
--
FROM 202.98.17.*