qwen2.5-coder-32b,这是它开放的最大的专用模型。
然后就是qwen2.5-72b通用模型了。
实测都不行。我测试coding能力喜欢用两个case来测,
一个是让它写一个不是那么简单的rust应用,另一个是让它写openscad,去设计一个3d零件模型。
前者考验它的最基本的coding能力,后者考验它对3d空间的理解力。
qwen2.5-coder-32b,qwen2.5-72b我都测过,从coding的角度来说我没有看出两者有什么明显区别。表现甚至写出来的代码都几乎是一样的。
rust基本上写不出没有语法错误的结果,并且让它多次修改也改不对。
openscad也一样,画不出我想要的模型,而且不是画不出的问题,存在一些根本性的理解层面的问题。
作为对比, claude 3.5 sonnet在coding方面有很大概率可以一遍过,openscad这方面能get我的想法,并且几乎正确的做出我想要的模型。它在openscad上的问题是它做的模型的坐标值还是会有几个mm的偏差,需要人介入微调下参数值,但所有的坐标变换过程在逻辑层吗都是正确的。
最后,关于qwen网上的评价两极分化,我看到很多人猛吹的,包括国外也有很多人觉得qwen是最好的开源模型,也有不少团队基于qwen的模型为基座二次训练出了很不错的模型。但我也看到很多人跟我一样,认为qwen有刷分嫌疑,高分低能。包括qwen自己,也有人测试发现qwen2还不如qwen1.5,有退步的嫌疑。
【 在 FlawZero 的大作中提到: 】
: qwen不至于吧,是qwen2.5-coder吗,多大参数?
: 我看不少人说72b好用来着
:
--
修改:lvsoft FROM 101.229.189.*
FROM 101.229.189.*