- 主题:mac跑大模型怎么样呢?
Reddit上有人拿M1 Ultra 128G 跑70b的8bit量化,速度7-9 tokens /s
一般认为8bit量化已经非常非常接近16bit了,很多时候6bit量化就非常接近了。
【 在 stevenwyy 的大作中提到: 】
: m2ultra 192G已退货
: llama2 70B GPU跑满推理起来都吃力,大概3tokens/s左右,再复杂点的应用就更别提了。不如自己finetuneGPT3.5了,GPT4 finetuning已经对部分用户开放了
--
FROM 101.254.182.*
我试下来llama2满血的跑出来在gpt4面前回应都很离谱了,前后各种falcon,airoboros都试过了,有的甚至比llama2好点,但还是gpt太强。所以量化后再快也意义不大,除非那天gpt4开源了。
【 在 haili (人尔有窍 风吹为籁) 的大作中提到: 】
: Reddit上有人拿M1 Ultra 128G 跑70b的8bit量化,速度7-9 tokens /s
:
: 一般认为8bit量化已经非常非常接近16bit了,很多时候6bit量化就非常接近了。
:
--
FROM 39.144.105.*
请教下你觉得哪个开源模型最好?
和gpt差距那么大么?
【 在 stevenwyy 的大作中提到: 】
: 我试下来llama2满血的跑出来在gpt4面前回应都很离谱了,前后各种falcon,airoboros都试过了,有的甚至比llama2好点,但还是gpt太强。所以量化后再快也意义不大,除非那天gpt4开源了。
--
FROM 222.129.3.*
我用下来mistral 7B这个模型还行,水平可以接近3.5。不过还是要看使用场景,同样的基础模型微调出来效果也会有蛮大差异的
【 在 omelet (老郭) 的大作中提到: 】
: 请教下你觉得哪个开源模型最好?
: 和gpt差距那么大么?
:
: 【 在 stevenwyy 的大作中提到: 】
--
FROM 39.144.107.*
什么是官翻版?哪里有卖?
【 在 haili 的大作中提到: 】
: 大部分人都量化跑,4bit,4090的24G刚好可以跑。即使服务端vllm/lmdepoly不量化也是按fp16模式跑的 ...
--
FROM 27.128.33.*
简单,7950x3d,上128G内存就随便跑了。
反正mac那gpu还不如4060,聊胜于无。
这里又有个被林xx忽悠的,真当m3u > 8张4090呢
【 在 omelet 的大作中提到: 】
: 算不错了吧
: pc的话,都不知道怎么能跑起70b的大模型
:
--
FROM 180.102.34.*
放狗搜mac studio 官翻,苹果官网,只不过大模型有意义还得128GB,那么还是3w起。
【 在 hxg05 的大作中提到: 】
: 什么是官翻版?哪里有卖?
--
FROM 101.254.182.*