deepseek 671b r1一出，洋垃圾又要暴涨了

水木社区手机版

主题:deepseek 671b r1一出，洋垃圾又要暴涨了
68楼|haili|2025-02-06 15:37:20|展开
既然有官方url，其实应该把url加进去，但是ds界面不见得支持url内容直接加载（不确定）。

这类问题我估计会用cline或者roo cline这类工具配api去用，这类工具会把url内容抓出来，配合你的问题作为上下文去问。

这才是看大语言模型能力的时候；

一般的越专用的知识点，模型回答越随机（幻觉），和它训练过的内容以及出现频次有关。

【在 smthhz 的大作中提到: 】
: 没联网，深度也用了也不行，不需要联网，从回答的内容看它的知识库有相关数据，而且是个多年前就有的一个api。可能它对这种问题不擅长吧。它可能强在数学题？感觉大部分实际应用场景都不如别的啊，还经常服务器繁忙。
--
FROM 119.57.72.*
86楼|haili|2025-02-07 15:36:11|展开
这只是恰好4o训练到了你对应的API网页呗，或者它见的代码库里面调用这个版本API比较多，恰好学到了。

拿单个例子测试没啥意义，多用就知道了。单纯编码问题，不要求推理，还是 sonnet 3.5 > v3 > 4o >=gemini-pro exp/flash = qwen-coder-32B

【在 smthhz 的大作中提到: 】
: 那为啥chatgpt的4o直接就回答的没问题，也没联网，cline这些都是到具体写代码阶段了吧，我只是要个示例而以，不需要任何上下文。
--
FROM 119.57.72.*
95楼|haili|2025-02-10 15:42:24|展开
差不多就是这个感觉，有人搞了R1+3.5 sonnet的混合api，就是截了R1的think部分直接传sonnet，然后拿最后结果。
【在 Auguster 的大作中提到: 】
: Cline自己说的是：
: Want to pick the right LLM for Cline? Here's what our users actually use (Feb 2025):
: 1. 3.5 Sonnet (200k) - Best coder, $3/15/M in/out
: ...................
--
FROM 119.57.72.*
96楼|haili|2025-02-10 15:45:47|展开
个人经常混用下来的体感。（flash靠ai studio免费，4o/sonnet 3.5 o1/3 mini靠you的混合账号）

只要你把页面拿过去，或者直接ctrl+a作为context给LLM，这之后的编码才是考验llm的逻辑的。

否则会各有侧重点的，以前不同编程语言测下来各模型的能力都有差异。
【在 smthhz 的大作中提到: 】
: 哦，我知道4o本来编码和逻辑方面也不咋样， v3肯定也学了相关页面，编码问题不是太大主要是乱解释，比如拿同服务另一个api参数给这api，编造参数，输出前后不一致，我觉得根本不是没在知识库的问题，所以很怀疑它的能力。你这排名是都自己试过？
--
FROM 119.57.72.*