例如最近苹果团队发了一个文(附图1),结论是“大模型”并没有真正学会推理。最简单的例子,把一些小学水平应用题中的主角从Alice改成Bob,大模型的“计算”正确率就可能显著下降。这说明大模型并不真正理解应用题的题意,而只是机械地死记硬背了若干应用题而已。而且死记硬背得非常蹩脚,连主角改名这个trick都能让大模型失控。这种水准的智能,跟智障有何区别呢,呵呵。
另外,最近最近nature也有一篇论文(附图2),看题目就一目了然了——“大模型不可靠”。
做语言应用这种对准确率的要求不那么高的任务,都错漏百出可用性很差。这样的架构去做对可靠性要求很高的自动驾驶?呵呵
哄蒙最近的事故越来越多,快吹不下去了,这不是偶然的。因为这套架构之下,根本没法像水军吹嘘的那样——随着数据和算力的增加,问题和bug会自动解决。这样说的人,或者不懂,或者是真坏,呵呵。
--
FROM 111.167.232.*