有一段时间没做nlp了,恶补了近3年的nlp进展
发现基于人类反馈的强化学习,以及价值模型是很重要的部分
价值模型通过学习人类看到同样的提示词下对于不同生成结果的反馈,可以给出强化学习生成的下的排序结果,或者评价分数
而价值模型需要通过一个小数据集去学习,构造,来源Anthropic以及openai自己积累数据
前者给价值模型一个人类公认的价值准则。是AI宪法
看到AI宪法很扎眼,因为宪法一旦变化,AI就会出现问题。
比如宪法中要求如实反馈、需要符合人类价值这样的训练数据。如果另立一套宪法数据,在原有的基础上进行一些修改,比如以现有计算机、机器等设备的价值为第一价值,那么得到的模型结果将完全不同
--
FROM 117.136.39.*