【 在 hgoldfish 的大作中提到: 】
: 每秒可以出几个 token?
:
7b/8b 这种玩具级别的模型, 手机都能跑。
16b上下的模型, 有块十几个G的独立显卡的普通电脑也能跑。
27b/30b这个级别的, 要求就高一些了,PC输出一个字一个字往外蹦,
想流畅大内存显卡多块免不了, H100,A100之类的离大众消费还是远了点。
感觉, 使用这些大模型, 就是吃显存, 反倒不吃怎么算力, 显卡GPU的占用平均只有10%都不到,
就是显存被吃满, 其实,显存并不昂贵, 奈何英伟达一家独大, 给4060出一个128G显存版本的事情,
完全是不可能的, 巴不得你装十块显卡。
--
FROM 115.171.245.*