- 主题:刚才试验了一下 grok3
一个编程相关的问题。grok3 claude 回答得很贴切。 通义千问也对。 deepseek网页
上深度思考,它自己琢磨了很长一段文字,最后说无法回答。没用深度思考。他也回答
对了,但答案给的是完整的代码文件。其他几个回答只给出的是我要的那两个函数。
--
FROM 111.196.128.*
我在lmarena点ai 用的
【 在 EnzoFerraris 的大作中提到: 】
: 怎么用3,我现在的app上只能选择2?
--
FROM 103.90.179.*
我不是说了么
【 在 PaoloMaldini 的大作中提到: 】
: 试试claude
--
FROM 103.90.179.*
应该也不是联网搜索决定的。只是深度思考有无的区别。
【 在 huaxinjuedui 的大作中提到: 】
: 说明只要联网搜索能搞定的,就尽量不要用深度思考?
: 其实有实验数据证明,R1出现幻觉的概率,远大于V3(15%与5%)
--
FROM 117.133.52.*
grok3我也只是用了几次试试。大张旗鼓发布也没什么波澜,就可以知道它水平很一般。
【 在 exo 的大作中提到: 】
: grok3还没用,代码用过的claude效果最好,gpt4和deepseek都一般
--
FROM 114.241.2.*
Claude 3.7出来了。据说更强。
【 在 eematlab 的大作中提到: 】
: 我实现了grok3来解决一些单点的编程问题,给它200行左右代码,让它改写一下, 我发现grok3写出的代码逻辑和语法错误还挺多,比较一个变量重复静态初始化, 声明和实现不匹配(static函数双在头文件里声明为正常函数), 比claude差得还很多。
--
FROM 111.196.129.*
我还没用得着。我只能用可以白嫖的3.5
【 在 PaoloMaldini 的大作中提到: 】
: 今天频繁挂,烦死了。。
--
FROM 111.196.129.*
我用vs的插件白嫖试了一下 3.7 thinking。让他改进一个功能在一个文件中。三四次,
我没有添加问题。我点同意之后它自己继续发现其他问题。。。然后弄完了。我还没来
得及逐行看对不对。但至少编译和测试用例都过了。但花掉了一美刀。
还是很厉害的。
【 在 personality 的大作中提到: 】
: 请问在cursor里用了Claude-3.7-sonnet-thinking了吗?感觉如何
: 我用了cursor中的thinking,感觉reasoning不弱于deepseek,代码的能力也保持了3.5。在某评测下,3.7 thinking 和 deepseek + claude 3.5 能力差不多。
--
FROM 117.133.52.*
kudo 送10刀 按token收费 太贵了
【 在 personality 的大作中提到: 】
: 请问是哪个vscode插件可以白嫖claude 3.7 想也去试试。
--
FROM 114.246.239.*