异体字和缺笔,甚至字形信息,都很重要。
学过鲁迅写的课文吗?敬缺末笔。
不熟悉的领域,不要乱说。
【 在 biyele 的大作中提到: 】
: 1. 电子化有两个层面,先扫描,再OCR。在OCR这个层面,你举了一个甲骨文的案例,代表性不足,目前大部分的中文文献,用机器学习都可以精准识别。就是甲骨文和一些规律性差的字体,国内很多地方目前都在研究,阿里巴巴研究院,云南的高校,都在做这个课题。相信不远的将来会被攻破。
: 2. 即使完全OCR不了,扫描文献也比字板有着更多无法比拟的优势。比如清晰度。我传一个亚里斯多德的抄写手稿,这是一般清晰度的,你已经可以看到纸的纹理了。更高清晰的,你可以看到字符最细微的笔画的细节。对于纸本书,你除非用显微镜来看,要不然你是不可能达到这个效果的。对于难以识别的手稿,电子化更是不二的选择。现在研究手稿的学者,都是对着高清屏幕看,我从来没有看过一个人还是用放大镜来看纸本,去他们古典系,学者们盯着一排排电脑放着几十倍上百倍的手稿看。
: 3. 电子化的文献,你随时随地都可以查,在家里,在学校,在火车上飞机上,在外地开会的宾馆里,你什么地方都可以做研究。你收集了一堆纸版书,你就只能在被奴役在那边才能开展研究。
: ...................
--
FROM 183.198.10.*