- 主题:mac跑大模型怎么样呢?
大部分人都量化跑,4bit,4090的24G刚好可以跑。
即使服务端vllm/lmdepoly不量化也是按fp16模式跑的,按32bit算的估计就没正经玩过本地推理。
另外Mac的统一内存只有3/4可以作为显存,所以拿着32G内存的mac去比4090的估计是云。
然后M3 max现在400gb带宽,推理速度应该不如M1/M2 Ultra的800GB带宽版本。
性价比最佳的是M1/M2 Ultra的官翻版本 Mac Studio。
reddit上有人跑了 M1/M2速度,M2快一些不太明显,比较有价值的是4bit/8bit量化。
https://www.reddit.com/r/LocalLLaMA/comments/16oww9j/running_ggufs_on_m1_ultra_part_2/
【 在 artech51 的大作中提到: 】
: 4090的话是不是跑不了34B?
--
FROM 101.254.182.*
Reddit上有人拿M1 Ultra 128G 跑70b的8bit量化,速度7-9 tokens /s
一般认为8bit量化已经非常非常接近16bit了,很多时候6bit量化就非常接近了。
【 在 stevenwyy 的大作中提到: 】
: m2ultra 192G已退货
: llama2 70B GPU跑满推理起来都吃力,大概3tokens/s左右,再复杂点的应用就更别提了。不如自己finetuneGPT3.5了,GPT4 finetuning已经对部分用户开放了
--
FROM 101.254.182.*
放狗搜mac studio 官翻,苹果官网,只不过大模型有意义还得128GB,那么还是3w起。
【 在 hxg05 的大作中提到: 】
: 什么是官翻版?哪里有卖?
--
FROM 101.254.182.*