Re: 有人用hermes agent吗？

水木社区手机版

展开|楼主|同主题展开|溯源|返回

主题:Re: 有人用hermes agent吗？
pixYY|2026-04-18 13:06:09|
转载一篇文章 //居然能发链接了

-----------------

先看硬数据。MiMo-V2-Flash[9] 在 SWE-Bench Verified[10] 上拿了 73.4%，开源第一
。AIME 2025[11] 数学竞赛 94.1%，接近 GPT-5 的 94.6%。输出速度大约 150 tokens
/s，比 DeepSeek-V3.2[12] 快三倍左右。Pro 版在 Artificial Analysis[13] 的全球
智力排名挤进了前十，国产排第二。

你猜怎么着，Pro 版发布前还玩了一手匿名测试。它在 OpenRouter 上以代号 Hunter
Alpha 跑了一周，调用量突破 1T tokens，好几天登顶日榜，直到身份曝光大家才反应
过来是小米的模型。

但跑分归跑分。知乎社区的实测反馈比较中肯：中文输出质量确实不错，摆脱了国产模
型常见的 Markdown 堆砌问题，数学推理路径比较巧妙。不过代码能力偏科明显，Pyth
on 表现最好，其他语言差一截。CSDN 上的评测[14]也指出复杂代码任务不如 Kimi K2
[15]。Flash 版的幻觉率 48% 偏高，Pro 版降到了 30%，但跟 DeepSeek 和 Claude 比
还有差距。还有一个实际问题，GitHub Issues[16] 上有人反馈付费版内容审核过严，
时不时触发 Moderation Block。

说白了，目前 MiMo 的定位是又快又便宜的日常干活模型，不是能替代 Claude 或 GPT
-5 的全能选手。但这个价格，拿来跑批量任务、做 Agent 工作流、处理长文本，性价
比确实炸裂。

真正的野心不在 API

小米做大模型的逻辑和 DeepSeek、月之暗面这些纯 AI 公司完全不同。它手里有 9 亿
台 IoT 设备、1.4 亿月活小爱同学，还有一个正在起量的汽车业务。大模型负责人罗福
莉[17]（前 DeepSeek 研究员）的思路很清楚：MiMo 不需要做最聪明的模型，它需要做
最能嵌入硬件生态的模型。

https://zhuanlan.zhihu.com/p/2017942345581098675
--
修改:pixYY FROM 120.225.117.*
FROM 120.225.117.*