deepseek r1 做的确实是 1-10,但确实很有价值。Chatgpt o1 做的是 0-1.
现在的推理模型主要就是 o1 和 r1。 deepseek 火并不是因为降低成本。降低成本是 12 月发的 V3 模型,那时候没火起来。火起来的是这次的 r1 推理模型,确实有了创新,发现了一种新的训练推理能力的配方,去掉了中间的SFT,直接用RL训练推理能力,效果出奇的好。因为这个发现,首先在国外的 reddit 和 X 上火热的讨论起来,然后传播到国内学术媒体,进而抖音一些人开始推送。因为效果确实不错,也就破圈了。
--
FROM 111.193.88.*