大部分人都量化跑,4bit,4090的24G刚好可以跑。
即使服务端vllm/lmdepoly不量化也是按fp16模式跑的,按32bit算的估计就没正经玩过本地推理。
另外Mac的统一内存只有3/4可以作为显存,所以拿着32G内存的mac去比4090的估计是云。
然后M3 max现在400gb带宽,推理速度应该不如M1/M2 Ultra的800GB带宽版本。
性价比最佳的是M1/M2 Ultra的官翻版本 Mac Studio。
reddit上有人跑了 M1/M2速度,M2快一些不太明显,比较有价值的是4bit/8bit量化。
https://www.reddit.com/r/LocalLLaMA/comments/16oww9j/running_ggufs_on_m1_ultra_part_2/
【 在 artech51 的大作中提到: 】
: 4090的话是不是跑不了34B?
--
FROM 101.254.182.*