转载一篇文章 //居然能发链接了
-----------------
先看硬数据。MiMo-V2-Flash[9] 在 SWE-Bench Verified[10] 上拿了 73.4%,开源第一
。AIME 2025[11] 数学竞赛 94.1%,接近 GPT-5 的 94.6%。输出速度大约 150 tokens
/s,比 DeepSeek-V3.2[12] 快三倍左右。Pro 版在 Artificial Analysis[13] 的全球
智力排名挤进了前十,国产排第二。
你猜怎么着,Pro 版发布前还玩了一手匿名测试。它在 OpenRouter 上以代号 Hunter
Alpha 跑了一周,调用量突破 1T tokens,好几天登顶日榜,直到身份曝光大家才反应
过来是小米的模型。
但跑分归跑分。知乎社区的实测反馈比较中肯:中文输出质量确实不错,摆脱了国产模
型常见的 Markdown 堆砌问题,数学推理路径比较巧妙。不过代码能力偏科明显,Pyth
on 表现最好,其他语言差一截。CSDN 上的评测[14]也指出复杂代码任务不如 Kimi K2
[15]。Flash 版的幻觉率 48% 偏高,Pro 版降到了 30%,但跟 DeepSeek 和 Claude 比
还有差距。还有一个实际问题,GitHub Issues[16] 上有人反馈付费版内容审核过严,
时不时触发 Moderation Block。
说白了,目前 MiMo 的定位是又快又便宜的日常干活模型,不是能替代 Claude 或 GPT
-5 的全能选手。但这个价格,拿来跑批量任务、做 Agent 工作流、处理长文本,性价
比确实炸裂。
真正的野心不在 API
小米做大模型的逻辑和 DeepSeek、月之暗面这些纯 AI 公司完全不同。它手里有 9 亿
台 IoT 设备、1.4 亿月活小爱同学,还有一个正在起量的汽车业务。大模型负责人罗福
莉[17](前 DeepSeek 研究员)的思路很清楚:MiMo 不需要做最聪明的模型,它需要做
最能嵌入硬件生态的模型。
https://zhuanlan.zhihu.com/p/2017942345581098675
--
修改:pixYY FROM 120.225.117.*
FROM 120.225.117.*