没人琢磨让大参数AI遍历一边中国古籍吗

水木社区手机版

主题:没人琢磨让大参数AI遍历一边中国古籍吗
楼主|dragonfly112|2023-09-07 16:46:58|只看此ID
没准能比人类多看出来点啥
--
FROM 218.249.201.*
1楼|ericzeng|2023-09-07 22:45:44|只看此ID
古籍才有几个字？不够大模型吃

【在 dragonfly112 的大作中提到: 】
: 没准能比人类多看出来点啥 ...
--
FROM 120.245.122.*
2楼|bjmvi|2023-09-07 23:12:06|只看此ID
估计够大模型瞎编史书了
【在 ericzeng 的大作中提到: 】
: 古籍才有几个字？不够大模型吃
:
--
FROM 98.164.217.*
3楼|ericzeng|2023-09-08 11:32:42|只看此ID
绝逼不够

【在 bjmvi 的大作中提到: 】
: 估计够大模型瞎编史书了 ...
--
FROM 124.64.17.*
4楼|molar|2023-09-08 11:58:40|只看此ID
二十四史带上注，大抵几千万字了。用Bert、GPT跑一跑差不多是够的。不过，标注团队比较难找到靠谱儿的。

【在 ericzeng 的大作中提到: 】
: 绝逼不够
:
--
FROM 111.201.73.*
5楼|ericzeng|2023-09-08 12:04:26|只看此ID
晕，大模型参数都以十亿计，几千万字就能训练出来？

【在 molar 的大作中提到: 】
: 二十四史带上注，大抵几千万字了。用Bert、GPT跑一跑差不多是够的。不过，标注团队比较难找到靠谱儿的。 ...
--
FROM 124.64.17.*
6楼|gqzhb|2023-09-08 12:06:35|只看此ID
其实我想要个在线搜索史书原文的网站。。。

这应该是前置吧
【在 dragonfly112 的大作中提到: 】
: 没准能比人类多看出来点啥
--
FROM 218.60.148.*
7楼|molar|2023-09-08 12:26:58|只看此ID
那是要训练一个通用模型，而且要求效果足够好，还得是跨语言的。

用二十四史训练一个入门级的，能用文言文问答中国古代史的模型，大体是够的。只要标注得当。

再加上，文言文语言上相对成熟，二十四史例题比较规范，所以总体还好……

【在 ericzeng 的大作中提到: 】
: 晕，大模型参数都以十亿计，几千万字就能训练出来？
:
--
FROM 111.201.73.*
8楼|molar|2023-09-08 12:40:21|只看此ID
可以搜“语料库”，然后多看几个，有的语料库可以把搜索范围限定到某些史书。

【在 gqzhb 的大作中提到: 】
: 其实我想要个在线搜索史书原文的网站。。。
: 这应该是前置吧
--
修改:molar FROM 111.201.73.*
FROM 111.201.73.*
9楼|ericzeng|2023-09-08 12:41:52|只看此ID
谷歌就能干呀

【在 gqzhb 的大作中提到: 】
: 其实&nbsp;我想要个&nbsp;在线搜索&nbsp ...
--
FROM 124.64.17.*