- 主题:mac跑大模型怎么样呢?
你可以自己算下,34B乘以32bit是多少吧
【 在 artech51 的大作中提到: 】
: 4090的话是不是跑不了34B?
--
FROM 222.129.3.*
估算的话,干脆直接记 1就好了,也就是 7B-BF 就是 7 * 2 = 14 GB 的显存,因为除了参数,推理还需要另外的显存,溢出一点没坏处。
【 在 artech51 的大作中提到: 】
: 4090的话是不是跑不了34B?
--
FROM 222.129.3.*
没比较过,但估计会快不少
【 在 artech51 的大作中提到: 】
: 如果跑7B的话,4090比mbp顶配gpu会快多少呢?
: :
--
FROM 222.129.3.*
可以看看lama。cpp,看看有没有具体benchmark
【 在 artech51 的大作中提到: 】
: 我说了啊,我是想训练量化大模型,所以我当然需要快了,这样才能快速迭代
--
FROM 222.129.3.*
算不错了吧
pc的话,都不知道怎么能跑起70b的大模型
【 在 stevenwyy 的大作中提到: 】
: m2ultra 192G已退货
: llama2 70B GPU跑满推理起来都吃力,大概3tokens/s左右,再复杂点的应用就更别提了。不如自己finetuneGPT3.5了,GPT4 finetuning已经对部分用户开放了
--
FROM 222.129.3.*
请教下你觉得哪个开源模型最好?
和gpt差距那么大么?
【 在 stevenwyy 的大作中提到: 】
: 我试下来llama2满血的跑出来在gpt4面前回应都很离谱了,前后各种falcon,airoboros都试过了,有的甚至比llama2好点,但还是gpt太强。所以量化后再快也意义不大,除非那天gpt4开源了。
--
FROM 222.129.3.*