- 主题:QwQ 32B
我用4卡3090跑了下fp16版,最大token只能拉到88k,再多就爆显存了。然后这种情况下速度感觉也不够快,vllm跑了22token/s左右。
不过这个bench是google gemini写的,我对它不是很有信心,但也懒得去看细节了,姑且认为这个结果是对的吧。
【 在 poocp 的大作中提到: 】
: 我喜欢用LM Studio跑后台服务方式。
: Qwen-QwQ-32B Q4_K_M 4bit GGUF 19.85GB 版本,4090显卡很合适。
:
--
FROM 222.68.51.*
是,最早是deep claude,现在有deep gemini。
【 在 tgfbeta 的大作中提到: 】
: 也有拿推理模型写CoT然后掐断转gemini续写的
--
FROM 117.135.80.*
我没用它做太复杂的测试,主要是22token这速度还是不够快。
单卡4b倒是挺快的,我跟这个版本聊了几个小时。
总体感觉这货确实是很有实力的模型,这个体量实用度很高。当然距离claude还有很大的距离,但也算是突破实用阈值的模型了。
【 在 poocp 的大作中提到: 】
: 它思考过程还是挺久的,不过本地运行的智力水平已经满足很多场景了,我单张显卡让它改个小程序每次都要想2分多钟。最大词元数用的默认值4k。
: 你四张卡最大88k词元出现过长输入死循环吗?
:
--
FROM 117.135.80.*