暗涌:这次MLA创新是如何发生的?听说idea最早来自一个年轻研究员的个人兴趣?
梁文锋:在总结出Attention架构的一些主流变迁规律后,他突发奇想去设计一个替代方案。不过从想法到落地,中间是一个漫长的过程。我们为此组了一个team,花了几个月时间才跑通。
暗涌:这种发散性灵感的诞生和你们完全创新型组织的架构很有关系。幻方时代,你们就很少自上而下地指派目标或任务。但AGI这种充满不确定性的前沿探索,是否多了管理动作?
梁文锋:DeepSeek也全是自下而上。而且我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要push他。探索过程中,他遇到问题,自己就会拉人讨论。不过当一个idea显示出潜力,我们也会自上而下地去调配资源。
暗涌:听说DeepSeek对于卡和人的调集非常灵活。
梁文锋:我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。
暗涌:一种松散的管理方式也取决于你们筛选到了一批强热爱驱动的人。听说你们很擅长从细节招人, 可以让一些非传统评价指标里优秀的人被选出来。
梁文锋:我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。
#发自zSMTH@RMX3366
--
※ 来源:水木社区 [39.148.108.*(河南–鹤壁-移动)]
#修改自zSMTH@RMX3366
※ 修改:pkupctner 于 Jan 26 23:24:09 2025 [39.148.108.*(河南–鹤壁-移动)]
※ 来源:水木社区 [39.148.108.*(河南–鹤壁-移动)]
#修改自zSMTH@RMX3366
※ 修改:·pkupctner 于 Jan 26 23:25:21 2025 修改本文·[FROM: 39.148.108.*]
※ 来源:·水木社区
http://www.mysmth.net·[FROM: 39.148.108.*]
修改:pkupctner FROM 39.148.108.*
FROM 39.148.108.*