水木社区手机版
首页
|版面-人工智能(AI)|
新版wap站已上线
返回
1/1
|
转到
主题:QwQ 32B
19楼
|
wangstone
|
2025-03-10 20:13:18
|
展开
没事你跑什么FP16
INT8 99%精度
【 在 lvsoft 的大作中提到: 】
: 我用4卡3090跑了下fp16版,最大token只能拉到88k,再多就爆显存了。然后这种情况下速度感觉也不够快,vllm跑了22token/s左右。
: 不过这个bench是google gemini写的,我对它不是很有信心,但也懒得去看细节了,姑且认为这个结果是对的吧。
:
--
FROM 124.79.118.*
1/1
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版