QwQ 32B

水木社区手机版

主题:QwQ 32B
5楼|poocp|2025-03-08 00:34:18|展开
4090跑起来很舒服，大小正好。
另外内存也能跑，128GB内存。

【在 chndgnx 的大作中提到: 】
: 量化后最小的版本20G，本机跑不起来啊（太慢了）
:
--
FROM 171.213.145.*
10楼|poocp|2025-03-09 16:21:29|展开
我喜欢用LM Studio跑后台服务方式。
Qwen-QwQ-32B Q4_K_M 4bit GGUF 19.85GB 版本，4090显卡很合适。

【在 omelet 的大作中提到: 】
: 用的 ollama 跑的么？
: INT8 的量化版本还是什么？
--
FROM 171.213.143.*
13楼|poocp|2025-03-10 10:09:43|展开
它思考过程还是挺久的，不过本地运行的智力水平已经满足很多场景了，我单张显卡让它改个小程序每次都要想2分多钟。最大词元数用的默认值4k。
你四张卡最大88k词元出现过长输入死循环吗？

【在 lvsoft 的大作中提到: 】
: 我用4卡3090跑了下fp16版，最大token只能拉到88k，再多就爆显存了。然后这种情况下速度感觉也不够快，vllm跑了22token/s左右。
: 不过这个bench是google gemini写的，我对它不是很有信心，但也懒得去看细节了，姑且认为这个结果是对的吧。
:
--
FROM 171.213.143.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版