刚才试验了一下 grok3

水木社区手机版

主题:刚才试验了一下 grok3
20楼|chunhui|2025-02-26 16:07:56|只看此ID
我用vs的插件白嫖试了一下 3.7 thinking。让他改进一个功能在一个文件中。三四次，
我没有添加问题。我点同意之后它自己继续发现其他问题。。。然后弄完了。我还没来
得及逐行看对不对。但至少编译和测试用例都过了。但花掉了一美刀。

还是很厉害的。

【在 personality 的大作中提到: 】
: 请问在cursor里用了Claude-3.7-sonnet-thinking了吗？感觉如何
: 我用了cursor中的thinking，感觉reasoning不弱于deepseek，代码的能力也保持了3.5。在某评测下，3.7 thinking 和 deepseek + claude 3.5 能力差不多。
--
FROM 117.133.52.*
21楼|lvsoft|2025-02-26 16:30:14|只看此ID
是，现在确实有deepgemini这一说。但在gemini出来之前确实只有Claude能这么做。
gemini 2.0 pro我用于逆向。把混淆/反汇编的代码2MB一口气丢进去让它解读，这个是很强的。
但我对它写代码的效率不是很满意，让它写个简单的llm bench，带个ncurses的那种，虽然结果是做出来了，但这个过程不太顺滑。我的评价是它的coding能力还不错，能解决一些问题，但距离claude有显著差距。

但2M token很香，用来填补claude的不足很好
【在 tsa300 的大作中提到: 】
: gemini 2.0 pro 的输入token 容量大，200多万，而且这模型本身也挺强的，不推理经常都比很多推理引擎效果好
:
--
FROM 39.144.104.*
22楼|lvsoft|2025-02-26 16:31:23|只看此ID
没有用thinking。thinking有价值，但不需要处处使用。想明白之后具体的代码写起来是不需要thinking的。人类是这样ai也一样。
【在 personality 的大作中提到: 】
: 请问在cursor里用了Claude-3.7-sonnet-thinking了吗？感觉如何
: 我用了cursor中的thinking，感觉reasoning不弱于deepseek，代码的能力也保持了3.5。在某评测下，3.7 thinking 和 deepseek + claude 3.5 能力差不多。
--
FROM 39.144.104.*
23楼|updatedq|2025-02-26 18:03:34|只看此ID
grok3在x上，不在grok那个软件里面

【在 EnzoFerraris 的大作中提到: 】
: 怎么用3，我现在的app上只能选择2？
--
FROM 222.129.35.*
24楼|personality|2025-02-27 10:45:29|只看此ID
谢谢回答。

我目前是阅读一些开源代码和分析代码逻辑的时候，使用deepseek

在编写业务和测试代码的时候使用claude 3.5

使用3.7 thinking，一个是基于之前对sonnet 3.5的信任，对他的新版本感觉很好奇，另外是我想找到我自己定义的两个场景都可以统一使用的模型（他根据我的提示词，自动帮我选择是reasoning还是knowledge多一些）。目前thinking模型在cursor中已经提示high load无法使用了，等到可以继续试用的时候，再来这个帖子或者起一个新帖子分享
【在 lvsoft 的大作中提到: 】
: 没有用thinking。thinking有价值，但不需要处处使用。想明白之后具体的代码写起来是不需要thinking的。人类是这样ai也一样。
--
FROM 59.82.59.*
25楼|personality|2025-02-27 11:10:42|只看此ID
请问是哪个vscode插件可以白嫖claude 3.7 想也去试试。
【在 chunhui 的大作中提到: 】
: 我用vs的插件白嫖试了一下 3.7 thinking。让他改进一个功能在一个文件中。三四次，
: 我没有添加问题。我点同意之后它自己继续发现其他问题。。。然后弄完了。我还没来
: 得及逐行看对不对。但至少编译和测试用例都过了。但花掉了一美刀。
: ...................
--
FROM 59.82.59.*
26楼|chunhui|2025-02-27 11:28:30|只看此ID
kudo 送10刀按token收费太贵了
【在 personality 的大作中提到: 】
: 请问是哪个vscode插件可以白嫖claude 3.7 想也去试试。
--
FROM 114.246.239.*
27楼|coldmoon|2025-02-27 19:48:03|只看此ID
【在 lvsoft 的大作中提到: 】
: 把deepseek r1的思维过程复制粘贴给chaude，一个简单的deep+claude就能得到现在超过所有大模型的结果。
: 关键是后面这个必须是claude，你用别的大模型来接都没用。说明claude的强是真正的强，并不是刷题的强（不如说它刷题一点也不强），专业一点的说法这叫泛化能力强。
: 我对bench一直是很有意见的，ai届一天其他行业一年，对一个如此光速发展的行业，用的居然还是好几年前的benchmark，简直就是搞笑。目标决定方向，bench就是树立目标的作用，是很重要的。
: ...................

关于第一句话请教一下吕博。"把deepseek r1的思维过程复制粘贴给claude，一个简单的deep+claude就能得到现在超过所有大模型的结果。"

是说把 deepseek r1 产生的思考 COT 复制给 claude吗？不是复制思考后的正式回答？
--
修改:coldmoon FROM 111.193.88.*
FROM 111.193.88.*
28楼|lvsoft|2025-02-27 20:37:52|只看此ID
是的，就是只复制思维过程，丢掉回答结果。
你可以去搜搜deepclaude的信息
【在 coldmoon 的大作中提到: 】
:
: 关于第一句话请教一下吕博。"把deepseek r1的思维过程复制粘贴给claude，一个简单的deep+claude就能得到现在超过所有大模型的结果。"
:
: ...................
--
FROM 117.135.80.*
29楼|coldmoon|2025-03-01 21:17:30|只看此ID
【在 lvsoft 的大作中提到: 】
: 是的，就是只复制思维过程，丢掉回答结果。
: 你可以去搜搜deepclaude的信息

没想到还可以这么搞，多谢吕博！
--
FROM 111.193.88.*