这个包括后面的都在讨论啥啊?
现在本地玩大模型大部分都是量化跑的啊,很多都量化到4bit。有好显卡就gpu上跑,12G的3060就能跑13B的大模型,3090/4090都能跑34B了,跑得飞快。
没显卡或者显存不够,就是cpu或者显卡/cpu混合跑。
苹果的统一内存带宽高也可以加速,只不过速度比不上显卡(当量化后完全能在显存里面跑的时候),比cpu或者cpu显卡混合强。
能忍受慢配个64G/128G的高端pc,也可以用cpu跑 70b模型,大概每秒吐1~2.5个token。
本地几乎没人用fp16跑大语言模型,然后这些开放模型又不分国内国外,怎么限制国内不能跑?
【 在 Acui 的大作中提到: 】
: 骁龙X Elite表现突出。它能在设备上运行拥有超过130亿参数的生成式AI模型,将AI处理能力提升了4.5倍。这种卓越的AI性能,使得生成式AI不仅是数据中心的特权,更是个人PC终端的实力展现。
: 这句话怎么理解
:
--
FROM 101.254.182.*