- 主题:mac跑大模型怎么样呢?
我说了啊,我是想训练量化大模型,所以我当然需要快了,这样才能快速迭代
【 在 Xjt 的大作中提到: 】
: 快也没意义,做推理就你一个人用,你要那么快干啥呢。做fine-tune的话,4090玩玩7B模型微调还是不错的
--
FROM 139.227.98.*
量化炒股?那点东西,不需要大模型吧。
现在个人还能弄到券商的量化接口嘛?怎么交易呢
【 在 artech51 的大作中提到: 】
: 我说了啊,我是想训练量化大模型,所以我当然需要快了,这样才能快速迭代
--
FROM 39.144.106.*
量化炒股确实用不到大模型,所以我关注速度
我问大模型是因为我不想搞清楚显存上限
所以我后来说了我更关注速度啊
个人当然能弄到,我用的是华鑫的
【 在 Xjt 的大作中提到: 】
: 量化炒股?那点东西,不需要大模型吧。
: 现在个人还能弄到券商的量化接口嘛?怎么交易呢
--
FROM 139.227.98.*
没比较过,但估计会快不少
【 在 artech51 的大作中提到: 】
: 如果跑7B的话,4090比mbp顶配gpu会快多少呢?
: :
--
FROM 222.129.3.*
可以看看lama。cpp,看看有没有具体benchmark
【 在 artech51 的大作中提到: 】
: 我说了啊,我是想训练量化大模型,所以我当然需要快了,这样才能快速迭代
--
FROM 222.129.3.*
谢谢哈
【 在 omelet 的大作中提到: 】
: 可以看看lama。cpp,看看有没有具体benchmark
:
--
FROM 139.227.98.*
m2ultra 192G已退货
llama2 70B GPU跑满推理起来都吃力,大概3tokens/s左右,再复杂点的应用就更别提了。不如自己finetuneGPT3.5了,GPT4 finetuning已经对部分用户开放了
【 在 artech51 (artech51) 的大作中提到: 】
: 准备买个m3 max 128G跑大模型推理,gpu据说能用上?效果怎么样?
: --
:
:
--
FROM 39.144.44.*
算不错了吧
pc的话,都不知道怎么能跑起70b的大模型
【 在 stevenwyy 的大作中提到: 】
: m2ultra 192G已退货
: llama2 70B GPU跑满推理起来都吃力,大概3tokens/s左右,再复杂点的应用就更别提了。不如自己finetuneGPT3.5了,GPT4 finetuning已经对部分用户开放了
--
FROM 222.129.3.*
可能未来GPT3开源了有点用,现在llama2还是不靠谱
【 在 omelet (老郭) 的大作中提到: 】
: 算不错了吧
: pc的话,都不知道怎么能跑起70b的大模型
:
: 【 在 stevenwyy 的大作中提到: 】
--
FROM 39.144.44.*
大部分人都量化跑,4bit,4090的24G刚好可以跑。
即使服务端vllm/lmdepoly不量化也是按fp16模式跑的,按32bit算的估计就没正经玩过本地推理。
另外Mac的统一内存只有3/4可以作为显存,所以拿着32G内存的mac去比4090的估计是云。
然后M3 max现在400gb带宽,推理速度应该不如M1/M2 Ultra的800GB带宽版本。
性价比最佳的是M1/M2 Ultra的官翻版本 Mac Studio。
reddit上有人跑了 M1/M2速度,M2快一些不太明显,比较有价值的是4bit/8bit量化。
https://www.reddit.com/r/LocalLLaMA/comments/16oww9j/running_ggufs_on_m1_ultra_part_2/
【 在 artech51 的大作中提到: 】
: 4090的话是不是跑不了34B?
--
FROM 101.254.182.*