清华团队让deepseek用4090就能跑满血版

水木社区手机版

主题:清华团队让deepseek用4090就能跑满血版
楼主|mindcontrol|2025-02-21 09:15:35|只看此ID
清华团队突破算力难题：4090显卡单枪匹马就能跑“满血版”DeepSeek-R1！有用户称整套方案成本不到7万元，直降95%以上

　　随着大规模语言模型（LLMs）的不断发展，模型规模和复杂性急剧提升，其部署和推理常常需要巨大的计算资源，这对个人研究者和小型团队带来了挑战。

　　2月10日，清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新：一块24G显存的4090D就可以在本地运行DeepSeek-R1、V3的671B“满血版”。预处理速度最高达到286 tokens/s，推理生成速度最高能达到14 tokens/s。

　　KTransformers通过优化本地机器上的LLM部署，帮助解决资源限制问题。该框架采用了异构计算、先进量化技术、稀疏注意力机制等多种创新手段，提升了模型的计算效率，并具备处理长上下文序列的能力。

　　KTransformers的更新发布后，不少开发者也纷纷用自己的设备进行测试。他们惊喜地发现，本地运行完全没有问题，甚至显存消耗比github里的技术文档中提到的显存消耗还要少，实际内存占用约380G，显存占用约14G。

　　另外，有用户对方案成本进行分项分析后称，只要不到7万元就能实现R1模型的本地运行，与A100/H100服务器动辄200万元的价格相比，便宜了95%以上。

清华团队突破算力难题：24G显存即可运行R1和V3的671B“满血版”

　　之前，671B参数的MoE架构大模型DeepSeek-R1经常出现推理服务器高负荷宕机的现象，而如果选择其他云服务商提供的专属版云服务器则需按GPU小时计费。这一高昂成本让中小团队无力承担，而市面上的“本地部署”方案多为参数量大幅缩水的蒸馏版。

　　但KTransformers开源项目近期的更新，成功打破了大模型推理算力门槛：支持24G显存在本地运行DeepSeek-R1、V3的671B“满血版”。

　　早在DeepSeek-V2时代，这一项目就因“专家卸载”技术出名了，因为它支持236B参数的大模型在仅有24GB显存的消费级显卡上流畅运行，把显存需求砍到十分之一。

　　KTransformers开源项目重点关注的就是在资源有限的情况下进行大模型的本地部署。一名Ktransformers开发团队成员表示：“项目在创始之初就已经讨论过项目的场景和目标，我们所针对的是中小型用户的场景，用领域的话讲，就是低并发+超低显存的场景。而显存目前的成本已经和CPU的内存不是一个数量级了，对于中小用户内存可能完全不缺，但是找一个显存很大的显卡却很难。”
--
FROM 42.86.201.*
1楼|aosp|2025-02-21 10:41:44|只看此ID
希望ollama能实现这个功能

【在 mindcontrol 的大作中提到: 】
: 清华团队突破算力难题：4090显卡单枪匹马就能跑“满血版”DeepSeek-R1！有用户称整套方案成本不到7万元，直降9 ...
--
FROM 144.202.123.*
2楼|chaobill|2025-02-28 17:27:12|只看此ID
不是还有个 2060 的么，4090还是太贵了吧。
2060跑的是小模型？
【在 mindcontrol 的大作中提到: 】
: 清华团队突破算力难题：4090显卡单枪匹马就能跑“满血版”DeepSeek-R1！有用户称整套方案成本不到7万元，直降95%以上
: 　　随着大规模语言模型（LLMs）的不断发展，模型规模和复杂性急剧提升，其部署和推理常常需要巨大的计算资源，这对个人研究者和小型团队带来了挑战。
: 　　2月10日，清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新：一块24G显存的4090D就可以在本地运行DeepSeek-R1、V3的671B“满血版”。预处理速度最高达到286 tokens/s，推理生成速度最高能达到14 tokens/s。
: ...................
--
FROM 112.66.21.*
3楼|pol|2025-03-01 17:13:33|只看此ID
4090已经完全民用化了
民用机器搞定目前世面顶级大模型
这已经非常厉害了

【在 chaobill 的大作中提到: 】
: 不是还有个 2060 的么，4090还是太贵了吧。
: 2060跑的是小模型？
--
FROM 222.94.198.*
4楼|lvsoft|2025-03-02 14:53:14|只看此ID
我早就说过，deepseek是个256moe模型，671b的体量里面是256个3b左右的小模型，一次激活其中8个，所以它的激活参数是37b。说的更直白一点，本质上就是个专业对口的37b小模型。这才是一张卡能跑的前提。

这种跑法每次都需要动态加载激活层，首token延迟很大，并且完全不具备并发能力。
【在 pol 的大作中提到: 】
: 4090已经完全民用化了
: 民用机器搞定目前世面顶级大模型
: 这已经非常厉害了
: ...................
--
FROM 222.68.51.*
5楼|azuresea|2025-03-06 18:54:22|只看此ID
大佬评价下今天刚出的通义千问 QwQ-32B 推理模型？32B模型号称媲美满血版DeepSeek-R1:671B，ollama已上线。

【在 lvsoft 的大作中提到: 】
: 我早就说过，deepseek是个256moe模型，671b的体量里面是256个3b左右的小模型，一次激活其中8个，所以它的激活参数是37b。说的更直白一点，本质上就是个专业对口的37b小模型。这才是一张卡能跑的前提。
: 这种跑法每次都需要动态加载激活层，首token延迟很大，并且完全不具备并发能力。
--
FROM 117.67.191.*
6楼|WXTLJX|2025-03-07 23:09:50|只看此ID
作为一名垃圾佬，我刚搞了个P106打算给娃跑个7B的人工智障玩

【在 mindcontrol 的大作中提到: 】
:
: 清华团队突破算力难题：4090显卡单枪匹马就能跑“满血版”DeepSeek-R1！有用户称整套方案成本不到7万元，直降95%以上
:
: 　　随着大规模语言模型（LLMs）的不断发展，模型规模和复杂性急剧提升，其部署和推理常常需要巨大的计算资源，这对个人研究者和小型团队带来了挑战。
:
--
FROM 223.104.41.*
7楼|finlab|2025-03-10 18:00:19|只看此ID
这种本质上，就是大内存+cpu来运行的方案吧， gpu就是个点缀

双路霄龙，512内存，随便什么显卡都行。

【在 mindcontrol 的大作中提到: 】
: 清华团队突破算力难题：4090显卡单枪匹马就能跑“满血版”DeepSeek-R1！有用户称整套方案成本不到7万元，直降95%以上
: 　　随着大规模语言模型（LLMs）的不断发展，模型规模和复杂性急剧提升，其部署和推理常常需要巨大的计算资源，这对个人研究者和小型团队带来了挑战。
: 　　2月10日，清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新：一块24G显存的4090D就可以在本地运行DeepSeek-R1、V3的671B“满血版”。预处理速度最高达到286 tokens/s，推理生成速度最高能达到14 tokens/s。
: ...................
--
FROM 223.72.91.*
8楼|lvsoft|2025-03-11 13:29:13|只看此ID
qwq-32b不错，能力接近ds r1，至少在32b模型里是天花板没问题。

【在 azuresea 的大作中提到: 】
: 大佬评价下今天刚出的通义千问 QwQ-32B 推理模型？32B模型号称媲美满血版DeepSeek-R1:671B，ollama已上线。
:
--
FROM 117.135.80.*