llama.cpp全面支持Apple Silicon

水木社区手机版

主题:llama.cpp全面支持Apple Silicon
楼主|tgfbeta|2023-06-05 02:12:16|展开
https://github.com/ggerganov/llama.cpp/pull/1642

M2 Max上7B模型达到40tok/s，完全使用GPU
13B 24tok/s
65B 5tok/s
--
FROM 111.163.122.*
2楼|tgfbeta|2023-06-05 11:03:05|展开
但是M1 Max有64GB统一内存可以玩
M1 Ultra如果花钱可以弄到128GB
这个N卡可能有些麻烦，不知道现在支持不支持组合几张N卡
【在 omelet 的大作中提到: 】
: 跟N卡比起来如何？
: m芯片上GPU规模还是小很多吧？
--
修改:tgfbeta FROM 60.24.249.*
FROM 60.24.249.*
3楼|tgfbeta|2023-06-05 11:08:05|展开
貌似比3090的数值略弱

https://www.reddit.com/r/LocalLLaMA/comments/13h7cqe/detailed_performance_numbers_and_qa_for_llamacpp/

【在 omelet 的大作中提到: 】
: 跟N卡比起来如何？
: m芯片上GPU规模还是小很多吧？
--
FROM 60.24.249.*
4楼|tgfbeta|2023-06-05 11:19:14|展开
按这个架势，过两年iPad上也许就能本地运行LLM了
【在 tgfbeta 的大作中提到: 】
: 貌似比3090的数值略弱
: https://www.reddit.com/r/LocalLLaMA/comments/13h7cqe/detailed_performance_numbers_and_qa_for_llamacpp/
--
FROM 60.24.249.*
22楼|tgfbeta|2023-06-06 14:15:04|展开
4bit/8bit quantization 好像对精确度影响挺大的
【在 syssky 的大作中提到: 】
: 友提：已经有移动端运行的了，全平台覆盖
: https://github.com/mlc-ai/mlc-llm
: 应用商店搜mlc chat直接下载安装运行。
: ...................
--
FROM 60.24.249.*
29楼|tgfbeta|2023-06-08 14:14:31|展开
M2 Ultra简直是卖显卡附赠电脑
【在 mseer 的大作中提到: 】
: 刚发布的m2ultra最高192GB 是不是更赞
--
FROM 60.24.249.*