mac跑大模型怎么样呢？

水木社区手机版

主题:mac跑大模型怎么样呢？
19楼|haili|2023-11-08 12:05:47|展开
大部分人都量化跑，4bit，4090的24G刚好可以跑。

即使服务端vllm/lmdepoly不量化也是按fp16模式跑的，按32bit算的估计就没正经玩过本地推理。

另外Mac的统一内存只有3/4可以作为显存，所以拿着32G内存的mac去比4090的估计是云。

然后M3 max现在400gb带宽，推理速度应该不如M1/M2 Ultra的800GB带宽版本。
性价比最佳的是M1/M2 Ultra的官翻版本 Mac Studio。

reddit上有人跑了 M1/M2速度，M2快一些不太明显，比较有价值的是4bit/8bit量化。
https://www.reddit.com/r/LocalLLaMA/comments/16oww9j/running_ggufs_on_m1_ultra_part_2/

【在 artech51 的大作中提到: 】
: 4090的话是不是跑不了34B？
--
FROM 101.254.182.*
20楼|haili|2023-11-08 12:09:29|展开
Reddit上有人拿M1 Ultra 128G 跑70b的8bit量化，速度7-9 tokens /s

一般认为8bit量化已经非常非常接近16bit了，很多时候6bit量化就非常接近了。

【在 stevenwyy 的大作中提到: 】
: m2ultra 192G已退货
: llama2 70B GPU跑满推理起来都吃力，大概3tokens/s左右，再复杂点的应用就更别提了。不如自己finetuneGPT3.5了，GPT4 finetuning已经对部分用户开放了
--
FROM 101.254.182.*
26楼|haili|2023-11-14 17:37:33|展开
放狗搜mac studio 官翻，苹果官网，只不过大模型有意义还得128GB，那么还是3w起。

【在 hxg05 的大作中提到: 】
: 什么是官翻版？哪里有卖？
--
FROM 101.254.182.*