我试下来llama2满血的跑出来在gpt4面前回应都很离谱了,前后各种falcon,airoboros都试过了,有的甚至比llama2好点,但还是gpt太强。所以量化后再快也意义不大,除非那天gpt4开源了。
【 在 haili (人尔有窍 风吹为籁) 的大作中提到: 】
: Reddit上有人拿M1 Ultra 128G 跑70b的8bit量化,速度7-9 tokens /s
:
: 一般认为8bit量化已经非常非常接近16bit了,很多时候6bit量化就非常接近了。
:
--
FROM 39.144.105.*