Reddit上有人拿M1 Ultra 128G 跑70b的8bit量化,速度7-9 tokens /s
一般认为8bit量化已经非常非常接近16bit了,很多时候6bit量化就非常接近了。
【 在 stevenwyy 的大作中提到: 】
: m2ultra 192G已退货
: llama2 70B GPU跑满推理起来都吃力,大概3tokens/s左右,再复杂点的应用就更别提了。不如自己finetuneGPT3.5了,GPT4 finetuning已经对部分用户开放了
--
FROM 101.254.182.*