没人琢磨让大参数AI遍历一边中国古籍吗

水木社区手机版

主题:没人琢磨让大参数AI遍历一边中国古籍吗
4楼|molar|2023-09-08 11:58:40|展开
二十四史带上注，大抵几千万字了。用Bert、GPT跑一跑差不多是够的。不过，标注团队比较难找到靠谱儿的。

【在 ericzeng 的大作中提到: 】
: 绝逼不够
:
--
FROM 111.201.73.*
7楼|molar|2023-09-08 12:26:58|展开
那是要训练一个通用模型，而且要求效果足够好，还得是跨语言的。

用二十四史训练一个入门级的，能用文言文问答中国古代史的模型，大体是够的。只要标注得当。

再加上，文言文语言上相对成熟，二十四史例题比较规范，所以总体还好……

【在 ericzeng 的大作中提到: 】
: 晕，大模型参数都以十亿计，几千万字就能训练出来？
:
--
FROM 111.201.73.*
8楼|molar|2023-09-08 12:40:21|展开
可以搜“语料库”，然后多看几个，有的语料库可以把搜索范围限定到某些史书。

【在 gqzhb 的大作中提到: 】
: 其实我想要个在线搜索史书原文的网站。。。
: 这应该是前置吧
--
修改:molar FROM 111.201.73.*
FROM 111.201.73.*
12楼|molar|2023-09-08 12:55:19|展开
嗯比如北大ccl语料库我之前用过，可以限定“古汉语”。您可以百度下有没有更多的，有专用数据库就更好了。
【在 gqzhb 的大作中提到: 】
: 多谢，我研究研究
--
修改:molar FROM 111.201.73.*
FROM 111.201.73.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版