- 主题:苹果跑大模型也不想传说中那么给力啊
也就是个玩具的水平
mac studio m3 ultra, 512g内存/显存, 671b q4_k_m, gpu和内存都跑满了,10几个
tokens/s
32b,内存不算多,8%,但是gpu总是跑满,20多个tokens/s
如果在一台里加上嵌入和rerank模型(知识库标配),基本上都很卡
--
修改:iwannabe FROM 27.38.223.*
FROM 27.38.223.*
就是内存优势
算力有限
【 在 iwannabe (I wanna be) 的大作中提到: 】
: 也就是个玩具的水平
: mac studio m3 ultra, 512g内存/显存, 671b q4_k_m, gpu和内存都跑满了,10几个
: tokens/s
:
--
FROM 60.21.121.*
671b 十几个token可以了吧。
我看他们测试AI-395,70b+q8的,每秒才几个token。
【 在 iwannabe 的大作中提到: 】
: 也就是个玩具的水平
: mac studio m3 ultra, 512g内存/显存, 671b q4_k_m, gpu和内存都跑满了,10几个
: tokens/s
: ...................
--
FROM 124.64.129.*