mac跑大模型怎么样呢？

水木社区手机版

主题:mac跑大模型怎么样呢？
16楼|stevenwyy|2023-11-07 16:49:19|展开
m2ultra 192G已退货
llama2 70B GPU跑满推理起来都吃力，大概3tokens/s左右，再复杂点的应用就更别提了。不如自己finetuneGPT3.5了，GPT4 finetuning已经对部分用户开放了

【在 artech51 (artech51) 的大作中提到: 】
:  准备买个m3 max 128G跑大模型推理，gpu据说能用上？效果怎么样？
:  --
:
:
--
FROM 39.144.44.*
18楼|stevenwyy|2023-11-08 08:26:04|展开
可能未来GPT3开源了有点用，现在llama2还是不靠谱

【在 omelet (老郭) 的大作中提到: 】
:  算不错了吧
:  ｐｃ的话，都不知道怎么能跑起７０ｂ的大模型
:
:  【在 stevenwyy 的大作中提到: 】
--
FROM 39.144.44.*
21楼|stevenwyy|2023-11-08 16:20:07|展开
我试下来llama2满血的跑出来在gpt4面前回应都很离谱了，前后各种falcon,airoboros都试过了，有的甚至比llama2好点，但还是gpt太强。所以量化后再快也意义不大，除非那天gpt4开源了。

【在 haili (人尔有窍风吹为籁) 的大作中提到: 】
:  Reddit上有人拿M1 Ultra 128G 跑70b的8bit量化，速度7-9 tokens /s
:
:  一般认为8bit量化已经非常非常接近16bit了，很多时候6bit量化就非常接近了。
:
--
FROM 39.144.105.*
23楼|stevenwyy|2023-11-08 20:27:09|展开
我用下来mistral 7B这个模型还行，水平可以接近3.5。不过还是要看使用场景，同样的基础模型微调出来效果也会有蛮大差异的

【在 omelet (老郭) 的大作中提到: 】
:  请教下你觉得哪个开源模型最好？
:  和ｇｐｔ差距那么大么？
:
:  【在 stevenwyy 的大作中提到: 】
--
FROM 39.144.107.*