zero和go都是闭源的,不好做对比,我拿相当于zero的自训练模型kataGo做例子。
目前流行的kataGo模型规模有3个,分别是20b 40b 60b(blocks,可理解为探索深度,还有一个参数channal,理解为探索广度),60b训练好的模型的大小是40b的三倍,每步花费时间是两倍。但现在通过调整b和c的权重,训练出来的棋力最高的模型是40b的,训练时间达到900盘以后,强度就不会提升了。
如果使用低算力显卡,2秒一步规则下最强的是新开发的18b模型。
这里说明两个问题:
一. 模型并不是参数越多、探索深度越深就越强;模型到达一定规模后强度会下降;
二. AI棋力的强弱只和参数的权重有关,达到一定的训练时间后,和训练时间也没有关系。
只要把这两层关系套到gpt里就可以知道,gpt的强度已经是极限,除了不能自学习的硬伤外,gpt的模型已经达到一个分水岭,再增加参数可能会使gpt的能力下降;要增加gpt强度最有效方法是改进训练方法,kataGo 20b256c的模型的参数只有20*256*2=10240,调参数权重是可以的,但gpt有多达17亿个参数,人工调权重是不可能的。
【 在 lvsoft 的大作中提到: 】
: alpha zero和alpha go没本质区别...两者在框架和参数规模上都是一样的。
: 两者唯一的区别就是alpha go master版本刚开始用人类棋谱学习,之后才自我对弈提升。而zero版本一开始就从自我对弈开始。
: master如果持续自我对弈下去,也是会超越停止进化的zero的。说的更简单一点,master和zero的区别,仅仅在于进化过程中喂的养分的区别。以此证明了喂养人类棋谱对进化速度起了反作用,仅此而已...
: ...................
--
FROM 113.70.182.*