Re: mac跑大模型怎么样呢？

水木社区手机版

展开|楼主|同主题展开|溯源|返回

上一篇|下一篇|同主题上篇|同主题下篇

主题:Re: mac跑大模型怎么样呢？
haili|2023-11-08 12:05:47|
大部分人都量化跑，4bit，4090的24G刚好可以跑。

即使服务端vllm/lmdepoly不量化也是按fp16模式跑的，按32bit算的估计就没正经玩过本地推理。

另外Mac的统一内存只有3/4可以作为显存，所以拿着32G内存的mac去比4090的估计是云。

然后M3 max现在400gb带宽，推理速度应该不如M1/M2 Ultra的800GB带宽版本。
性价比最佳的是M1/M2 Ultra的官翻版本 Mac Studio。

reddit上有人跑了 M1/M2速度，M2快一些不太明显，比较有价值的是4bit/8bit量化。
https://www.reddit.com/r/LocalLLaMA/comments/16oww9j/running_ggufs_on_m1_ultra_part_2/

【在 artech51 的大作中提到: 】
: 4090的话是不是跑不了34B？
--
FROM 101.254.182.*

上一篇|下一篇|同主题上篇|同主题下篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版