mac跑大模型怎么样呢？

水木社区手机版

主题:mac跑大模型怎么样呢？
20楼|haili|2023-11-08 12:09:29|只看此ID
Reddit上有人拿M1 Ultra 128G 跑70b的8bit量化，速度7-9 tokens /s

一般认为8bit量化已经非常非常接近16bit了，很多时候6bit量化就非常接近了。

【在 stevenwyy 的大作中提到: 】
: m2ultra 192G已退货
: llama2 70B GPU跑满推理起来都吃力，大概3tokens/s左右，再复杂点的应用就更别提了。不如自己finetuneGPT3.5了，GPT4 finetuning已经对部分用户开放了
--
FROM 101.254.182.*
21楼|stevenwyy|2023-11-08 16:20:07|只看此ID
我试下来llama2满血的跑出来在gpt4面前回应都很离谱了，前后各种falcon,airoboros都试过了，有的甚至比llama2好点，但还是gpt太强。所以量化后再快也意义不大，除非那天gpt4开源了。

【在 haili (人尔有窍风吹为籁) 的大作中提到: 】
:  Reddit上有人拿M1 Ultra 128G 跑70b的8bit量化，速度7-9 tokens /s
:
:  一般认为8bit量化已经非常非常接近16bit了，很多时候6bit量化就非常接近了。
:
--
FROM 39.144.105.*
22楼|omelet|2023-11-08 19:59:28|只看此ID
请教下你觉得哪个开源模型最好？
和ｇｐｔ差距那么大么？

【在 stevenwyy 的大作中提到: 】
: 我试下来llama2满血的跑出来在gpt4面前回应都很离谱了，前后各种falcon,airoboros都试过了，有的甚至比llama2好点，但还是gpt太强。所以量化后再快也意义不大，除非那天gpt4开源了。
--
FROM 222.129.3.*
23楼|stevenwyy|2023-11-08 20:27:09|只看此ID
我用下来mistral 7B这个模型还行，水平可以接近3.5。不过还是要看使用场景，同样的基础模型微调出来效果也会有蛮大差异的

【在 omelet (老郭) 的大作中提到: 】
:  请教下你觉得哪个开源模型最好？
:  和ｇｐｔ差距那么大么？
:
:  【在 stevenwyy 的大作中提到: 】
--
FROM 39.144.107.*
24楼|hxg05|2023-11-14 04:24:21|只看此ID
什么是官翻版？哪里有卖？
【在 haili 的大作中提到: 】
: 大部分人都量化跑，4bit，4090的24G刚好可以跑。即使服务端vllm/lmdepoly不量化也是按fp16模式跑的 ...
--
FROM 27.128.33.*
25楼|lvsoft|2023-11-14 09:24:55|只看此ID
简单，7950x3d，上128G内存就随便跑了。
反正mac那gpu还不如4060，聊胜于无。

这里又有个被林xx忽悠的，真当m3u > 8张4090呢

【在 omelet 的大作中提到: 】
: 算不错了吧
: ｐｃ的话，都不知道怎么能跑起７０ｂ的大模型
:
--
FROM 180.102.34.*
26楼|haili|2023-11-14 17:37:33|只看此ID
放狗搜mac studio 官翻，苹果官网，只不过大模型有意义还得128GB，那么还是3w起。

【在 hxg05 的大作中提到: 】
: 什么是官翻版？哪里有卖？
--
FROM 101.254.182.*