二三十。不过8b模型太弱,基本没啥用。70b的64G内存可以装下,内存占用48G,
显存占用4-5G,很慢,每秒一个token,然后代码能力不如刚发布的27b的mistral-small。
70b已经不能用一张5090搞定了,27b的勉强可以。
中文能力deepseek超强,西方语言最强的似乎是mistral。
做高考理科导数题,这几个模型都在胡说八道,第一问很多模型都会,第二问起只有deepseek
在线版好一些,做出一问,第二问整出一个不寻常的简单证明,后面就不会了。
在线版的deepseek代码能力还不错,我就不折腾本地的了。对了,数学和编程一定要用英语
跟他对话,英语的代码能力和数学能力似乎比中文的强很多。
【 在 hgoldfish 的大作中提到: 】
: 每秒可以出几个 token?
--
FROM 116.235.194.*