刚才试验了一下 grok3

水木社区手机版

主题:刚才试验了一下 grok3
10楼|eematlab|2025-02-25 10:00:03|只看此ID
我试验了用grok3来解决一些单点的编程问题，给它200行左右代码，让它改写一下，我发现grok3写出的代码逻辑和语法错误还挺多，比如一个变量会重复静态初始化，声明和实现不匹配（static函数在头文件里声明为正常函数），比claude差得还很多。
--
修改:eematlab FROM 124.79.98.*
FROM 124.79.98.*
11楼|chunhui|2025-02-25 10:06:31|只看此ID
Claude 3.7出来了。据说更强。

【在 eematlab 的大作中提到: 】
: 我实现了grok3来解决一些单点的编程问题，给它200行左右代码，让它改写一下，我发现grok3写出的代码逻辑和语法错误还挺多，比较一个变量重复静态初始化，声明和实现不匹配（static函数双在头文件里声明为正常函数），比claude差得还很多。
--
FROM 111.196.129.*
12楼|PaoloMaldini|2025-02-25 12:26:20|只看此ID
今天频繁挂，烦死了。。

【在 chunhui 的大作中提到: 】
: Claude 3.7出来了。据说更强。
--
FROM 120.244.14.255
13楼|chunhui|2025-02-25 13:38:53|只看此ID
我还没用得着。我只能用可以白嫖的3.5

【在 PaoloMaldini 的大作中提到: 】
: 今天频繁挂，烦死了。。
--
FROM 111.196.129.*
14楼|lvsoft|2025-02-25 17:39:57|只看此ID
我用grok3分析log感觉很不错，
log很长，交给cursor（背后是claude3.5）来分析，它无法一次读完，生成的结果是摘要式的，给我一个outline的结果。但grok3就能精准具体到哪一行哪个报文有什么问题，非常的聚焦，这个就很爽。

不过grok3在系统性方面还是不如cursor好，把两个ai的结果互相给对方看，互相pua之后的效果就很好了。
【在 eematlab 的大作中提到: 】
: 我试验了用grok3来解决一些单点的编程问题，给它200行左右代码，让它改写一下，我发现grok3写出的代码逻辑和语法错误还挺多，比如一个变量会重复静态初始化，声明和实现不匹配（static函数在头文件里声明为正常函数），比claude差得还很多。
--
FROM 222.68.51.*
15楼|eematlab|2025-02-25 21:24:18|只看此ID
不管benchmark怎么样，用下来cursor+claude是实用效果最好的。

总觉得claude的语料是用了特殊处理，对于从需求到代码有特别的效果。

Deepseek R1也不错，看到它的思考过程，就能明白它可能在什么地方理解有误或无误。

不过对于没有COT的大模型有个问题，如果它对某个库有个误解，那么要纠正它非常难，哪怕纠正过一次，只要问题再深入或修改一下，它又会按之前的误解思路给答案

【在 lvsoft 的大作中提到: 】
: 我用grok3分析log感觉很不错，
: log很长，交给cursor（背后是claude3.5）来分析，它无法一次读完，生成的结果是摘要式的，给我一个outline的结果。但grok3就能精准具体到哪一行哪个报文有什么问题，非常的聚焦，这个就很爽。
: 不过grok3在系统性方面还是不如cursor好，把两个ai的结果互相给对方看，互相pua之后的效果就很好了。
--
FROM 124.79.98.*
16楼|lvsoft|2025-02-26 02:10:23|只看此ID
把deepseek r1的思维过程复制粘贴给chaude，一个简单的deep+claude就能得到现在超过所有大模型的结果。
关键是后面这个必须是claude，你用别的大模型来接都没用。说明claude的强是真正的强，并不是刷题的强（不如说它刷题一点也不强），专业一点的说法这叫泛化能力强。

我对bench一直是很有意见的，ai届一天其他行业一年，对一个如此光速发展的行业，用的居然还是好几年前的benchmark，简直就是搞笑。目标决定方向，bench就是树立目标的作用，是很重要的。
但比如bigbench，这货已经是4年前的东西了，随便点开里面的测试集看看，无非就是各种常识问答和判断，感觉就像是小学生题目一样。当然我不排除它可能有复杂的案例，但就我随机点开的来说我认为大部分都是小学生级别的题目。本质上就是microbench。

拿一堆小学生题目去考大学生，其结果无非是没区分度变成送分，或者就是不关心小学生级的细节丢分变成反向指标。前几年大家都在用全人类的文本往llm里面塞，那个时候这种测试是合理的。但现在大家都意识到数据质量的重要性，开始想方设法不要让llm浪费权重去死记硬背些无聊的知识了。结果回头卷的还是这些测试，就很蠢。（当然各个llm研发也都有自己的内部测试基准，但发布的bench也大都离不开这些）

这也是我对现在的各种榜单不是很感冒的原因。包括那个lmsys，虽然它是人类盲测的结果，但人类也会倾向于一个给出了很好的情绪价值却没解决问题的回答。所以lmsys自己也不得不整了一个style control的修正，否则那个Unbiased的结果经常是很奇怪的，不太好解释。

总之在我看来，能否在开放世界解决足够复杂的问题，是衡量llm能力的唯一标准，其他的都是扯蛋。这方面claude一直是做的最令我最满意的，没有之一。

至于犯错误，说实话，现在的llm训练方向和以前已经不太一样了。以前你可以说llm是在训练一个做题家，只会刷题没有自己的理解。现在llm的训练越来越注重能力的本质，对于基本知识的考核反而在削弱。举个极端一点的比喻，更像是培养一个没学过啥东西的聪明人。然后通过prompt engineering把需要它解决的知识注入进去。所以你所谓的对某个东西的误解，其实是很容易消除的。你看到的纠正效果不好，仅仅是prompt engineering层面的问题。包括COT，本质上也只是一种prompt engineering而已。这也是为啥deep+claude能获得如此好的效果的原因。

虽然大家都在说预训练模型时代过去了，但在我看来真正关键的，还是那个预训练模型

【在 eematlab 的大作中提到: 】
: 不管benchmark怎么样，用下来cursor+claude是实用效果最好的。
: 总觉得claude的语料是用了特殊处理，对于从需求到代码有特别的效果。
: Deepseek R1也不错，看到它的思考过程，就能明白它可能在什么地方理解有误或无误。
: ...................
--
修改:lvsoft FROM 222.68.51.*
FROM 222.68.51.*
17楼|lookforit|2025-02-26 09:17:17|只看此ID
Claude 封你的号，门槛太高了
grok 科学web就行，速度还快
【在 PaoloMaldini 的大作中提到: 】
: 试试claude
:
--
FROM 14.154.197.*
18楼|tsa300|2025-02-26 10:18:40|只看此ID
gemini 2.0 pro 的输入token 容量大，200多万，而且这模型本身也挺强的，不推理经常都比很多推理引擎效果好

【在 lvsoft 的大作中提到: 】
: 我用grok3分析log感觉很不错，
: log很长，交给cursor（背后是claude3.5）来分析，它无法一次读完，生成的结果是摘要式的，给我一个outline的结果。但grok3就能精准具体到哪一行哪个报文有什么问题，非常的聚焦，这个就很爽。
: 不过grok3在系统性方面还是不如cursor好，把两个ai的结果互相给对方看，互相pua之后的效果就很好了。
--
FROM 218.30.113.*
19楼|personality|2025-02-26 15:43:14|只看此ID
请问在cursor里用了Claude-3.7-sonnet-thinking了吗？感觉如何

我用了cursor中的thinking，感觉reasoning不弱于deepseek，代码的能力也保持了3.5。在某评测下，3.7 thinking 和 deepseek + claude 3.5 能力差不多。
【在 lvsoft 的大作中提到: 】
: 把deepseek r1的思维过程复制粘贴给chaude，一个简单的deep+claude就能得到现在超过所有大模型的结果。
: 关键是后面这个必须是claude，你用别的大模型来接都没用。说明claude的强是真正的强，并不是刷题的强（不如说它刷题一点也不强），专业一点的说法这叫泛化能力强。
: 我对bench一直是很有意见的，ai届一天其他行业一年，对一个如此光速发展的行业，用的居然还是好几年前的benchmark，简直就是搞笑。目标决定方向，bench就是树立目标的作用，是很重要的。
: ...................
--
修改:personality FROM 59.82.59.*
FROM 59.82.59.*