- 主题:没人琢磨让大参数AI遍历一边中国古籍吗
二十四史带上注,大抵几千万字了。用Bert、GPT跑一跑差不多是够的。不过,标注团队比较难找到靠谱儿的。
【 在 ericzeng 的大作中提到: 】
: 绝逼不够
:
--
FROM 111.201.73.*
那是要训练一个通用模型,而且要求效果足够好,还得是跨语言的。
用二十四史训练一个入门级的,能用文言文问答中国古代史的模型,大体是够的。只要标注得当。
再加上,文言文语言上相对成熟,二十四史例题比较规范,所以总体还好……
【 在 ericzeng 的大作中提到: 】
: 晕,大模型参数都以十亿计,几千万字就能训练出来?
:
--
FROM 111.201.73.*
可以搜“语料库”,然后多看几个,有的语料库可以把搜索范围限定到某些史书。
【 在 gqzhb 的大作中提到: 】
: 其实 我想要个 在线搜索 史书原文的网站。。。
: 这应该是前置吧
--
修改:molar FROM 111.201.73.*
FROM 111.201.73.*
嗯比如北大ccl语料库我之前用过,可以限定“古汉语”。您可以百度下有没有更多的,有专用数据库就更好了。
【 在 gqzhb 的大作中提到: 】
: 多谢,我研究研究
--
修改:molar FROM 111.201.73.*
FROM 111.201.73.*