deepseek 671b r1一出，洋垃圾又要暴涨了

水木社区手机版

主题:deepseek 671b r1一出，洋垃圾又要暴涨了
11楼|bluemind|2025-01-29 16:40:33|展开
能否把你的问题贴一下？我看老外用的很满意

【在 smthhz 的大作中提到: 】
: 随便问了个一个公开api的问题，错的离谱，同样问题gpt4就很正常，在我看来根本不能用啊
--
FROM 60.2.184.*
16楼|bluemind|2025-01-29 18:45:23|展开
哈哈，不知道咋回事。我的：

【在 Acui 的大作中提到: 】
: 怎么搞的

--
FROM 60.2.184.*
18楼|bluemind|2025-01-29 19:41:01|展开
怀疑他们的训练数据是不是不够，得有更多的合作机构提供数据

【在 Elysium888 的大作中提到: 】
:
: 大模型嘛，需要不断训练。比如我刚问它
: 请收集整理最近半年中国的十大新闻事件。
: ...................
--
FROM 60.2.184.*
31楼|bluemind|2025-01-31 17:23:40|展开
一秒钟可以出几个字？

【在 heideggerr 的大作中提到: 】
: 刚刚在5600G、没有独显、16G内存机器上用ollama运行了deepseek-r1-14b模型，虽然比较慢、CPU占用率很高，但是感觉它的<think>...</think>之间的问题扩展过程很不错！
:
--
FROM 60.2.184.*
33楼|bluemind|2025-01-31 17:37:52|展开
还不错啊

【在 heideggerr 的大作中提到: 】
: 没数，附图是我问的第一个问题，应该在1分钟之内输出的，想试试功能可以的，但是确实比较慢，如果问题多的画，感觉有点不太实用。
: [upload=1][/upload][upload=2][/upload]
--
FROM 60.2.184.*
35楼|bluemind|2025-01-31 17:48:23|展开
14B能跑起来就行。好像说存储带宽很重要，你的还有没有详细点配置，SSD啥的

【在 heideggerr 的大作中提到: 】
: 这是第二个问题，用了两分钟才输出完毕，而且它好像混淆了“训练”和“运行”，说得有点含糊其辞、非常不自信的样子。不过人类读者很容易判断，系统一定是采取了某些动态加载的技术，使得那些无关的网络部分根本就没加载到GPU之中，所以它的回答也给出了很多提示，也算是OK的。
: [upload=1][/upload]
--
FROM 60.2.184.*