QwQ 32B

水木社区手机版

主题:QwQ 32B
12楼|lvsoft|2025-03-10 08:55:42|展开
我用4卡3090跑了下fp16版，最大token只能拉到88k，再多就爆显存了。然后这种情况下速度感觉也不够快，vllm跑了22token/s左右。
不过这个bench是google gemini写的，我对它不是很有信心，但也懒得去看细节了，姑且认为这个结果是对的吧。

【在 poocp 的大作中提到: 】
: 我喜欢用LM Studio跑后台服务方式。
: Qwen-QwQ-32B Q4_K_M 4bit GGUF 19.85GB 版本，4090显卡很合适。
:
--
FROM 222.68.51.*
16楼|lvsoft|2025-03-10 13:26:27|展开
是，最早是deep claude，现在有deep gemini。

【在 tgfbeta 的大作中提到: 】
: 也有拿推理模型写CoT然后掐断转gemini续写的
--
FROM 117.135.80.*
17楼|lvsoft|2025-03-10 13:28:52|展开
我没用它做太复杂的测试，主要是22token这速度还是不够快。
单卡4b倒是挺快的，我跟这个版本聊了几个小时。

总体感觉这货确实是很有实力的模型，这个体量实用度很高。当然距离claude还有很大的距离，但也算是突破实用阈值的模型了。
【在 poocp 的大作中提到: 】
: 它思考过程还是挺久的，不过本地运行的智力水平已经满足很多场景了，我单张显卡让它改个小程序每次都要想2分多钟。最大词元数用的默认值4k。
: 你四张卡最大88k词元出现过长输入死循环吗？
:
--
FROM 117.135.80.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版