Re: QwQ 32B

水木社区手机版

展开|楼主|同主题展开|溯源|返回

上一篇|下一篇|同主题上篇|同主题下篇

主题:Re: QwQ 32B
lvsoft|2025-03-10 08:55:42|
我用4卡3090跑了下fp16版，最大token只能拉到88k，再多就爆显存了。然后这种情况下速度感觉也不够快，vllm跑了22token/s左右。
不过这个bench是google gemini写的，我对它不是很有信心，但也懒得去看细节了，姑且认为这个结果是对的吧。

【在 poocp 的大作中提到: 】
: 我喜欢用LM Studio跑后台服务方式。
: Qwen-QwQ-32B Q4_K_M 4bit GGUF 19.85GB 版本，4090显卡很合适。
:
--
FROM 222.68.51.*

上一篇|下一篇|同主题上篇|同主题下篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版