我用4卡3090跑了下fp16版,最大token只能拉到88k,再多就爆显存了。然后这种情况下速度感觉也不够快,vllm跑了22token/s左右。
不过这个bench是google gemini写的,我对它不是很有信心,但也懒得去看细节了,姑且认为这个结果是对的吧。
【 在 poocp 的大作中提到: 】
: 我喜欢用LM Studio跑后台服务方式。
: Qwen-QwQ-32B Q4_K_M 4bit GGUF 19.85GB 版本,4090显卡很合适。
:
--
FROM 222.68.51.*