- 主题:刚才试验了一下 grok3
请问在cursor里用了Claude-3.7-sonnet-thinking了吗?感觉如何
我用了cursor中的thinking,感觉reasoning不弱于deepseek,代码的能力也保持了3.5。在某评测下,3.7 thinking 和 deepseek + claude 3.5 能力差不多。
【 在 lvsoft 的大作中提到: 】
: 把deepseek r1的思维过程复制粘贴给chaude,一个简单的deep+claude就能得到现在超过所有大模型的结果。
: 关键是后面这个必须是claude,你用别的大模型来接都没用。说明claude的强是真正的强,并不是刷题的强(不如说它刷题一点也不强),专业一点的说法这叫泛化能力强。
: 我对bench一直是很有意见的,ai届一天其他行业一年,对一个如此光速发展的行业,用的居然还是好几年前的benchmark,简直就是搞笑。目标决定方向,bench就是树立目标的作用,是很重要的。
: ...................
--
修改:personality FROM 59.82.59.*
FROM 59.82.59.*
谢谢回答。
我目前是阅读一些开源代码和分析代码逻辑的时候,使用deepseek
在编写业务和测试代码的时候使用claude 3.5
使用3.7 thinking,一个是基于之前对sonnet 3.5的信任,对他的新版本感觉很好奇,另外是我想找到我自己定义的两个场景都可以统一使用的模型(他根据我的提示词,自动帮我选择是reasoning还是knowledge多一些)。目前thinking模型在cursor中已经提示high load无法使用了,等到可以继续试用的时候,再来这个帖子或者起一个新帖子分享
【 在 lvsoft 的大作中提到: 】
: 没有用thinking。thinking有价值,但不需要处处使用。想明白之后具体的代码写起来是不需要thinking的。人类是这样ai也一样。
--
FROM 59.82.59.*
请问是哪个vscode插件可以白嫖claude 3.7 想也去试试。
【 在 chunhui 的大作中提到: 】
: 我用vs的插件白嫖试了一下 3.7 thinking。让他改进一个功能在一个文件中。三四次,
: 我没有添加问题。我点同意之后它自己继续发现其他问题。。。然后弄完了。我还没来
: 得及逐行看对不对。但至少编译和测试用例都过了。但花掉了一美刀。
: ...................
--
FROM 59.82.59.*