- 主题:本地部署一个“小”模型,能玩啥呢?
我没有4090。我只有mac mini。只是想自己玩。
不过你说这种企业内部部署的情况还有一个问题,如果只是翻译,和生成文档。那问题不大。如果给程序员用,还涉及到一个和编辑器整合的问题。cursor 自定义接入deepseek只支持chat,不支持自动修改文件。就类似这样的事也挺麻烦的。
【 在 sthgot2give 的大作中提到: 】
: 地老我没事干,昨天试了一下本地部署,用一块4090可以跑Deepseek r1:32B,长篇大论的大段推理整屏输出,输出很流畅,每秒几十字,能有完整模型80%左右的能力。如果再加一块4090应该能跑Deepseek r1:70B,效果能更好一些。
: 企业内部共享,如果100个用户以下应该用不了多少资源,有个8卡服务器应该差不多能对付着用,很多人就是套模板写个报告翻译几篇文章。如果给100个程序员在内部提供编程辅助,可能需要部署几台这种服务器,成本和提升的效率节省下来的码农工资比也应该能接受。
--
FROM 114.241.2.*
两块4090加上64G内存能干点啥?
【 在 sthgot2give 的大作中提到: 】
: 地老我没事干,昨天试了一下本地部署,用一块4090可以跑Deepseek r1:32B,长篇大论的大段推理整屏输出,输出很流畅,每秒几十字,能有完整模型80%左右的能力。如果再加一块4090应该能跑Deepseek r1:70B,效果能更好一些。
: 企业内部共享,如果100个用户以下应该用不了多少资源,有个8卡服务器应该差不多能对付着用,很多人就是套模板写个报告翻译几篇文章。如果给100个程序员在内部提供编程辅助,可能需要部署几台这种服务器,成本和提升的效率节省下来的码农工资比也应该能接受。
--
FROM 39.149.15.*
那个Deepseek r1:70B需要40多G显存,正好能跑。
然后就可以用现成工具基于这个模型做一个Agent,做成网页形式的应用,在本地发布。
比如对话式的剧本/小说/邮件/公文撰写工具,自动化翻译工具,房价股价跟踪分析工具、旅游计划制订工具、跨平台商品比价推荐工具等等。基本上还是语言类的应用。我也还没试,这两天准备试试看。
【 在 upndown 的大作中提到: 】
: 两块4090加上64G内存能干点啥?
:
:
--
FROM 221.217.25.*
有人试过了,不用显卡,把内存弄到768G,可以跑完整版的DeepSeek-r1。成本只要6000美元,不到显卡版本的1/10。当然速度要慢很多,每秒6-8tokens,但个人用应该是足够了。
类似的思路,弄个64G内存跑70B的肯定也可以,不用昂贵的显卡了。
【 在 sthgot2give 的大作中提到: 】
: 那个Deepseek r1:70B需要40多G显存,正好能跑。
: 然后就可以用现成工具基于这个模型做一个Agent,做成网页形式的应用,在本地发布。
: 比如对话式的剧本/小说/邮件/公文撰写工具,自动化翻译工具,房价股价跟踪分析工具、旅游计划制订工具、跨平台商品比价推荐工具等等。基本上还是语言类的应用。我也还没试,这两天准备试试看。
: ...................
--
FROM 223.77.79.*
用几个苹果mac?
【 在 qgg 的大作中提到: 】
: 有人试过了,不用显卡,把内存弄到768G,可以跑完整版的DeepSeek-r1。成本只要6000美元,不到显卡版本的1/10。当然速度要慢很多,每秒6-8tokens,但个人用应该是足够了。
: 类似的思路,弄个64G内存跑70B的肯定也可以,不用昂贵的显卡了。
--
FROM 113.102.38.*
这个当然也可以啊,好多人跑通了
【 在 kingkang 的大作中提到: 】
: 用几个苹果mac?
--
FROM 223.77.79.*
没显卡会很慢的
【 在 qgg 的大作中提到: 】
: 这个当然也可以啊,好多人跑通了
--
FROM 113.102.38.*
个人用够了
【 在 kingkang 的大作中提到: 】
: 没显卡会很慢的
--
FROM 223.77.79.*
1.5B也能用
正确的提问很重要
【 在 chunhui 的大作中提到: 】
: 我没有4090。我只有mac mini。只是想自己玩。
: 不过你说这种企业内部部署的情况还有一个问题,如果只是翻译,和生成文档。那问题不大。如果给程序员用,还涉及到一个和编辑器整合的问题。cursor 自定义接入deepseek只支持chat,不支持自动修改文件。就类似这样的事也挺麻烦的。
--
FROM 221.222.252.*
玩了几天,发现问题不是语言模型能干什么,而是工程化的集成。
在用户实际需求和语言模型之间,缺一个逻辑层,整合语言模型和业务逻辑。目前挺火的Agent和RAG就是做这个的,还需要集成一堆工具,包括网络内容提取、文件分析和矢量化、矢量数据库、视觉模型等等,最后整合一个工作流,才能真的干点实事。
但是这些都还在实验室状态,能用的几个工具,比如ChatBox和AnythingLLM都还简陋的很。
没有这些,就只能尬聊。
--
FROM 221.217.25.*