刚才试验了一下 grok3

水木社区手机版

主题:刚才试验了一下 grok3
楼主|chunhui|2025-02-18 18:11:11|展开
一个编程相关的问题。grok3 claude 回答得很贴切。通义千问也对。 deepseek网页
上深度思考，它自己琢磨了很长一段文字，最后说无法回答。没用深度思考。他也回答
对了，但答案给的是完整的代码文件。其他几个回答只给出的是我要的那两个函数。
--
FROM 111.196.128.*
2楼|chunhui|2025-02-19 14:28:01|展开
我在lmarena点ai 用的

【在 EnzoFerraris 的大作中提到: 】
: 怎么用3，我现在的app上只能选择2？
--
FROM 103.90.179.*
4楼|chunhui|2025-02-19 14:59:44|展开
我不是说了么

【在 PaoloMaldini 的大作中提到: 】
: 试试claude
--
FROM 103.90.179.*
6楼|chunhui|2025-02-20 10:31:24|展开
应该也不是联网搜索决定的。只是深度思考有无的区别。

【在 huaxinjuedui 的大作中提到: 】
: 说明只要联网搜索能搞定的，就尽量不要用深度思考？
: 其实有实验数据证明，R1出现幻觉的概率，远大于V3（15%与5%）
--
FROM 117.133.52.*
8楼|chunhui|2025-02-23 11:01:57|展开
grok3我也只是用了几次试试。大张旗鼓发布也没什么波澜，就可以知道它水平很一般。
【在 exo 的大作中提到: 】
: grok3还没用，代码用过的claude效果最好，gpt4和deepseek都一般
--
FROM 114.241.2.*
11楼|chunhui|2025-02-25 10:06:31|展开
Claude 3.7出来了。据说更强。

【在 eematlab 的大作中提到: 】
: 我实现了grok3来解决一些单点的编程问题，给它200行左右代码，让它改写一下，我发现grok3写出的代码逻辑和语法错误还挺多，比较一个变量重复静态初始化，声明和实现不匹配（static函数双在头文件里声明为正常函数），比claude差得还很多。
--
FROM 111.196.129.*
13楼|chunhui|2025-02-25 13:38:53|展开
我还没用得着。我只能用可以白嫖的3.5

【在 PaoloMaldini 的大作中提到: 】
: 今天频繁挂，烦死了。。
--
FROM 111.196.129.*
20楼|chunhui|2025-02-26 16:07:56|展开
我用vs的插件白嫖试了一下 3.7 thinking。让他改进一个功能在一个文件中。三四次，
我没有添加问题。我点同意之后它自己继续发现其他问题。。。然后弄完了。我还没来
得及逐行看对不对。但至少编译和测试用例都过了。但花掉了一美刀。

还是很厉害的。

【在 personality 的大作中提到: 】
: 请问在cursor里用了Claude-3.7-sonnet-thinking了吗？感觉如何
: 我用了cursor中的thinking，感觉reasoning不弱于deepseek，代码的能力也保持了3.5。在某评测下，3.7 thinking 和 deepseek + claude 3.5 能力差不多。
--
FROM 117.133.52.*
26楼|chunhui|2025-02-27 11:28:30|展开
kudo 送10刀按token收费太贵了
【在 personality 的大作中提到: 】
: 请问是哪个vscode插件可以白嫖claude 3.7 想也去试试。
--
FROM 114.246.239.*