【 在 happy1985 的大作中提到: 】
: 美团刚刚发布了名为“长猫(LongCat-Flash)”的开源大模型,拥有高达5600亿参数,采用了动态计算机制与MoE(专家混合)架构。模型会根据上下文需求动态激活186亿到313亿参数,平均约270亿,提升了效率和资源利用率。通过PID控制和ScMoE(Shortcut-connected MoE)架构,有效解决了大规模模型的通信瓶颈,并在成千上万加速器上实现了高速推理。
:
: 训练方面,美团团队采用了超参数迁移策略、模型增长机制以及多种稳定性和可复现性措施,保证训练过程稳定无突发异常。官方基准测试显示,LongCat-Flash在多个通用领域和智能体任务中表现优异,部分测试结果优于GPT-4.1、Claude4等国际主流模型。
:
: 这不就有了。。。。
:
:
: #发自zSMTH@NTH-AN00
: --
:
: ※ 来源:水木社区 [221.218.159.*(北京–朝阳区-联通)]
:
: #修改自zSMTH@NTH-AN00
发自「快看水母 于 iPhone 11 Pro」
--
FROM 114.86.43.*