看到AlphaStar的介绍,它们还内部搞了联赛
“为了鼓励联赛的多样性,每个智能体有不同的学习目标,一个智能体的目标可能是击败另一个特定的智能体,而其它的智能体的目标可能是要击败竞争对手的整体分布。”
也就是中间可能出现互相克制,但是最后总体练基本上不被克制。
不过这是假设没到瓶颈的阶段,现在看着各家elo提升曲线,log型收敛似乎还是很明显的吧?
到了上限不知道会怎么样。
【 在 GunL 的大作中提到: 】
: 是因为训练方法。
: 神经网络,刨去模型结构和容量的影响,它的表现基本取决于训练数据集。
: 所以反证一下,如果手上有一个模型A,用它产生数据,然后经过训练得到了一个“克制”它的模型B;
: ...................
--
FROM 45.147.200.*