苹果跑大模型也不想传说中那么给力啊

水木社区手机版

主题:苹果跑大模型也不想传说中那么给力啊
楼主|iwannabe|2025-05-18 19:41:27|只看此ID
也就是个玩具的水平
mac studio m3 ultra, 512g内存/显存， 671b q4_k_m， gpu和内存都跑满了，10几个
tokens/s

32b，内存不算多，8%，但是gpu总是跑满，20多个tokens/s

如果在一台里加上嵌入和rerank模型（知识库标配），基本上都很卡
--
修改:iwannabe FROM 27.38.223.*
FROM 27.38.223.*
1楼|mindcontrol|2025-05-18 20:04:49|只看此ID
就是内存优势
算力有限

【在 iwannabe (I wanna be) 的大作中提到: 】
:  也就是个玩具的水平
:  mac studio m3 ultra, 512g内存/显存， 671b q4_k_m， gpu和内存都跑满了，10几个
:  tokens/s
:
--
FROM 60.21.121.*
2楼|kirbyzhou|2025-05-18 23:40:20|只看此ID
671b 十几个token可以了吧。

我看他们测试AI-395，70b+q8的，每秒才几个token。

【在 iwannabe 的大作中提到: 】
: 也就是个玩具的水平
: mac studio m3 ultra, 512g内存/显存， 671b q4_k_m， gpu和内存都跑满了，10几个
: tokens/s
: ...................
--
FROM 124.64.129.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版