它思考过程还是挺久的,不过本地运行的智力水平已经满足很多场景了,我单张显卡让它改个小程序每次都要想2分多钟。最大词元数用的默认值4k。
你四张卡最大88k词元出现过长输入死循环吗?
【 在 lvsoft 的大作中提到: 】
: 我用4卡3090跑了下fp16版,最大token只能拉到88k,再多就爆显存了。然后这种情况下速度感觉也不够快,vllm跑了22token/s左右。
: 不过这个bench是google gemini写的,我对它不是很有信心,但也懒得去看细节了,姑且认为这个结果是对的吧。
:
--
FROM 171.213.143.*