gemma怎样,也是小模型
【 在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】
: DeepSeek V3开始,文学能力就很强。DeepSeek-V3的最大问题是喜欢胡说八道,这里包括过高的幻觉和过于发散的思路。V4就好了很多。
:
: 豆包是上不了台面的。我甚至觉得可能只是一个7-30b的小模型,不太聪明的样子。
: qwen本来就主打小模型。我甚至觉得别家是先大模型,然后再蒸馏出小模型。他们家似乎是先做个小模型,然后把它撑大作为大模型发布,仅仅是为了完成KPI。qwen的大模型我没感觉到比小模型有任何强的地方,很多时候甚至还更差。
--
FROM 223.104.42.*