刚才试验了一下 grok3

水木社区手机版

主题:刚才试验了一下 grok3
19楼|personality|2025-02-26 15:43:14|展开
请问在cursor里用了Claude-3.7-sonnet-thinking了吗？感觉如何

我用了cursor中的thinking，感觉reasoning不弱于deepseek，代码的能力也保持了3.5。在某评测下，3.7 thinking 和 deepseek + claude 3.5 能力差不多。
【在 lvsoft 的大作中提到: 】
: 把deepseek r1的思维过程复制粘贴给chaude，一个简单的deep+claude就能得到现在超过所有大模型的结果。
: 关键是后面这个必须是claude，你用别的大模型来接都没用。说明claude的强是真正的强，并不是刷题的强（不如说它刷题一点也不强），专业一点的说法这叫泛化能力强。
: 我对bench一直是很有意见的，ai届一天其他行业一年，对一个如此光速发展的行业，用的居然还是好几年前的benchmark，简直就是搞笑。目标决定方向，bench就是树立目标的作用，是很重要的。
: ...................
--
修改:personality FROM 59.82.59.*
FROM 59.82.59.*
24楼|personality|2025-02-27 10:45:29|展开
谢谢回答。

我目前是阅读一些开源代码和分析代码逻辑的时候，使用deepseek

在编写业务和测试代码的时候使用claude 3.5

使用3.7 thinking，一个是基于之前对sonnet 3.5的信任，对他的新版本感觉很好奇，另外是我想找到我自己定义的两个场景都可以统一使用的模型（他根据我的提示词，自动帮我选择是reasoning还是knowledge多一些）。目前thinking模型在cursor中已经提示high load无法使用了，等到可以继续试用的时候，再来这个帖子或者起一个新帖子分享
【在 lvsoft 的大作中提到: 】
: 没有用thinking。thinking有价值，但不需要处处使用。想明白之后具体的代码写起来是不需要thinking的。人类是这样ai也一样。
--
FROM 59.82.59.*
25楼|personality|2025-02-27 11:10:42|展开
请问是哪个vscode插件可以白嫖claude 3.7 想也去试试。
【在 chunhui 的大作中提到: 】
: 我用vs的插件白嫖试了一下 3.7 thinking。让他改进一个功能在一个文件中。三四次，
: 我没有添加问题。我点同意之后它自己继续发现其他问题。。。然后弄完了。我还没来
: 得及逐行看对不对。但至少编译和测试用例都过了。但花掉了一美刀。
: ...................
--
FROM 59.82.59.*