- 主题:刚才试验了一下 grok3
我用grok3分析log感觉很不错,
log很长,交给cursor(背后是claude3.5)来分析,它无法一次读完,生成的结果是摘要式的,给我一个outline的结果。但grok3就能精准具体到哪一行哪个报文有什么问题,非常的聚焦,这个就很爽。
不过grok3在系统性方面还是不如cursor好,把两个ai的结果互相给对方看,互相pua之后的效果就很好了。
【 在 eematlab 的大作中提到: 】
: 我试验了用grok3来解决一些单点的编程问题,给它200行左右代码,让它改写一下, 我发现grok3写出的代码逻辑和语法错误还挺多,比如一个变量会重复静态初始化, 声明和实现不匹配(static函数在头文件里声明为正常函数), 比claude差得还很多。
--
FROM 222.68.51.*
把deepseek r1的思维过程复制粘贴给chaude,一个简单的deep+claude就能得到现在超过所有大模型的结果。
关键是后面这个必须是claude,你用别的大模型来接都没用。说明claude的强是真正的强,并不是刷题的强(不如说它刷题一点也不强),专业一点的说法这叫泛化能力强。
我对bench一直是很有意见的,ai届一天其他行业一年,对一个如此光速发展的行业,用的居然还是好几年前的benchmark,简直就是搞笑。目标决定方向,bench就是树立目标的作用,是很重要的。
但比如bigbench,这货已经是4年前的东西了,随便点开里面的测试集看看,无非就是各种常识问答和判断,感觉就像是小学生题目一样。当然我不排除它可能有复杂的案例,但就我随机点开的来说我认为大部分都是小学生级别的题目。本质上就是microbench。
拿一堆小学生题目去考大学生,其结果无非是没区分度变成送分,或者就是不关心小学生级的细节丢分变成反向指标。前几年大家都在用全人类的文本往llm里面塞,那个时候这种测试是合理的。但现在大家都意识到数据质量的重要性,开始想方设法不要让llm浪费权重去死记硬背些无聊的知识了。结果回头卷的还是这些测试,就很蠢。(当然各个llm研发也都有自己的内部测试基准,但发布的bench也大都离不开这些)
这也是我对现在的各种榜单不是很感冒的原因。包括那个lmsys,虽然它是人类盲测的结果,但人类也会倾向于一个给出了很好的情绪价值却没解决问题的回答。所以lmsys自己也不得不整了一个style control的修正,否则那个Unbiased的结果经常是很奇怪的,不太好解释。
总之在我看来,能否在开放世界解决足够复杂的问题,是衡量llm能力的唯一标准,其他的都是扯蛋。这方面claude一直是做的最令我最满意的,没有之一。
至于犯错误,说实话,现在的llm训练方向和以前已经不太一样了。以前你可以说llm是在训练一个做题家,只会刷题没有自己的理解。现在llm的训练越来越注重能力的本质,对于基本知识的考核反而在削弱。举个极端一点的比喻,更像是培养一个没学过啥东西的聪明人。然后通过prompt engineering把需要它解决的知识注入进去。所以你所谓的对某个东西的误解,其实是很容易消除的。你看到的纠正效果不好,仅仅是prompt engineering层面的问题。包括COT,本质上也只是一种prompt engineering而已。这也是为啥deep+claude能获得如此好的效果的原因。
虽然大家都在说预训练模型时代过去了,但在我看来真正关键的,还是那个预训练模型
【 在 eematlab 的大作中提到: 】
: 不管benchmark怎么样, 用下来cursor+claude是实用效果最好的。
: 总觉得claude的语料是用了特殊处理,对于从需求到代码有特别的效果。
: Deepseek R1也不错,看到它的思考过程,就能明白它可能在什么地方理解有误或无误。
: ...................
--
修改:lvsoft FROM 222.68.51.*
FROM 222.68.51.*
是,现在确实有deepgemini这一说。但在gemini出来之前确实只有Claude能这么做。
gemini 2.0 pro我用于逆向。把混淆/反汇编的代码2MB一口气丢进去让它解读,这个是很强的。
但我对它写代码的效率不是很满意,让它写个简单的llm bench,带个ncurses的那种,虽然结果是做出来了,但这个过程不太顺滑。我的评价是它的coding能力还不错,能解决一些问题,但距离claude有显著差距。
但2M token很香,用来填补claude的不足很好
【 在 tsa300 的大作中提到: 】
: gemini 2.0 pro 的输入token 容量大,200多万,而且这模型本身也挺强的,不推理经常都比很多推理引擎效果好
:
--
FROM 39.144.104.*
没有用thinking。thinking有价值,但不需要处处使用。想明白之后具体的代码写起来是不需要thinking的。人类是这样ai也一样。
【 在 personality 的大作中提到: 】
: 请问在cursor里用了Claude-3.7-sonnet-thinking了吗?感觉如何
: 我用了cursor中的thinking,感觉reasoning不弱于deepseek,代码的能力也保持了3.5。在某评测下,3.7 thinking 和 deepseek + claude 3.5 能力差不多。
--
FROM 39.144.104.*
是的,就是只复制思维过程,丢掉回答结果。
你可以去搜搜deepclaude的信息
【 在 coldmoon 的大作中提到: 】
:
: 关于第一句话请教一下吕博。"把deepseek r1的思维过程复制粘贴给claude,一个简单的deep+claude就能得到现在超过所有大模型的结果。"
:
: ...................
--
FROM 117.135.80.*