水木社区手机版
首页
|版面-人工智能(AI)|
新版wap站已上线
返回
1/1
|
转到
主题:QwQ 32B
5楼
|
poocp
|
2025-03-08 00:34:18
|
展开
4090跑起来很舒服,大小正好。
另外内存也能跑,128GB内存。
【 在 chndgnx 的大作中提到: 】
: 量化后最小的版本20G,本机跑不起来啊(太慢了)
:
--
FROM 171.213.145.*
10楼
|
poocp
|
2025-03-09 16:21:29
|
展开
我喜欢用LM Studio跑后台服务方式。
Qwen-QwQ-32B Q4_K_M 4bit GGUF 19.85GB 版本,4090显卡很合适。
【 在 omelet 的大作中提到: 】
: 用的 ollama 跑的么?
: INT8 的量化版本还是什么?
--
FROM 171.213.143.*
13楼
|
poocp
|
2025-03-10 10:09:43
|
展开
它思考过程还是挺久的,不过本地运行的智力水平已经满足很多场景了,我单张显卡让它改个小程序每次都要想2分多钟。最大词元数用的默认值4k。
你四张卡最大88k词元出现过长输入死循环吗?
【 在 lvsoft 的大作中提到: 】
: 我用4卡3090跑了下fp16版,最大token只能拉到88k,再多就爆显存了。然后这种情况下速度感觉也不够快,vllm跑了22token/s左右。
: 不过这个bench是google gemini写的,我对它不是很有信心,但也懒得去看细节了,姑且认为这个结果是对的吧。
:
--
FROM 171.213.143.*
1/1
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版