- 主题:mac跑大模型怎么样呢?
m2ultra 192G已退货
llama2 70B GPU跑满推理起来都吃力,大概3tokens/s左右,再复杂点的应用就更别提了。不如自己finetuneGPT3.5了,GPT4 finetuning已经对部分用户开放了
【 在 artech51 (artech51) 的大作中提到: 】
: 准备买个m3 max 128G跑大模型推理,gpu据说能用上?效果怎么样?
: --
:
:
--
FROM 39.144.44.*
可能未来GPT3开源了有点用,现在llama2还是不靠谱
【 在 omelet (老郭) 的大作中提到: 】
: 算不错了吧
: pc的话,都不知道怎么能跑起70b的大模型
:
: 【 在 stevenwyy 的大作中提到: 】
--
FROM 39.144.44.*
我试下来llama2满血的跑出来在gpt4面前回应都很离谱了,前后各种falcon,airoboros都试过了,有的甚至比llama2好点,但还是gpt太强。所以量化后再快也意义不大,除非那天gpt4开源了。
【 在 haili (人尔有窍 风吹为籁) 的大作中提到: 】
: Reddit上有人拿M1 Ultra 128G 跑70b的8bit量化,速度7-9 tokens /s
:
: 一般认为8bit量化已经非常非常接近16bit了,很多时候6bit量化就非常接近了。
:
--
FROM 39.144.105.*
我用下来mistral 7B这个模型还行,水平可以接近3.5。不过还是要看使用场景,同样的基础模型微调出来效果也会有蛮大差异的
【 在 omelet (老郭) 的大作中提到: 】
: 请教下你觉得哪个开源模型最好?
: 和gpt差距那么大么?
:
: 【 在 stevenwyy 的大作中提到: 】
--
FROM 39.144.107.*