很想观摩一下过程
我用cursor还停留在离散的问题上,问完了自己整合。
所以很好奇你这个整个过程怎么操作的,Cursor怎么验证他
给的方案的正确性,比如涉及到容器lxc部署的,cursor自己能执行么?
还是 你按照他的方案执行的?
【 在 lvsoft 的大作中提到: 】
: 标 题: Re: 有AI以后, 编程语言真的不用学了
: 发信站: 水木社区 (Tue Dec 31 06:46:38 2024), 站内
:
: 我这几天高强度的用了下cursor,
: 准备做一个按我的理解去评估llm coding能力的benchmark工具。
: 现在的各种coding bench都太小儿科了,打榜分数我觉得没啥参考价值。但一个个自己用真实项目去手动测试又嫌麻烦。
:
: 这次用cursor整个比较复杂的系统试试看。
: 我的目的是让llm在足够真实的环境中去解决足够真实的问题,所以这套bench要带sandbox,提供一个完整的linux环境,让llm能够尽情折腾。
: 然后评测的内容就是我一句话描述要做什么,ai想尽办法给我做出来。不仅仅是写代码,还要包括环境部署,编译,测试等等全流程。
: 重点评估的也不是某个问题llm能不能做出来,而是它做错之后能有多大程度的自省能力,可以自己纠正错误。
: 尤其是,这个自省的过程也要让llm自己去发现迭代,让它自己去进化。
: 最后,允许有多个不同能力的llm一起参与到这个过程中。通过各种不同能力的llm的合作,来综合评估被测llm的能力的极限。
:
: 然后就这个周末2-3天的时间,我基本上就在刷剧,偶尔看一眼cursor点拨一下...说实话最大的问题是cursor自己的问题,聊天文本长了ui性能下降一卡一卡的影响我的心情,还有就是cursor经常会卡指令。有的是跑完了它一直在等,有的是它卡对话一直出不来。但总的来说整个过程很流
:
:
: 这个问题其实不简单的,因为我的物理环境是运行在lxc中的,要再实现一个容器会遇到容器嵌套的问题,但ai最终都给我搞定了。然后ui也刷刷就写好了,testcase也都是它写的,但testcase过到100%有点吃力,我感觉是这个过程cursor的提示词没写好。需要我在适当的时机敲打下ai。基
: 本上我就是看到他钻牛角尖了提醒他一下,其实它自己也是能意识到自己在打转的。
:
: 就3天时间写了7000多行的Python和2000多行的ts,上百个testcase全过了。然后文档写的巨好,代码质量也写的很漂亮,现在前端后端单独跑都很好,下面只需要把前后端连起来,在安排一些策略应该就能跑起来了。
:
: 这个体验比我之前还要好...之前基本上是ai提供素材,我来选择整合,方向盘还是我把控的,现在整个项目我甚至都不清楚很多具体的细节,尤其是vue这块我远没有ai熟悉,它遇到的问题我都帮不上忙...然后我感觉我就是一个鼓励师,一边刷剧一遍给ai加油鼓劲...
:
: 时代变了
:
: 【 在 FlawZero 的大作中提到: 】
: : 这样啊,那我就不试了
: : 我日常也是用sonnet 3.5,基本上一出来就转过来了
: : 这几个月写(生成)了大概2万行的python项目
: : ...................
: --
: ※ 修改:·lvsoft 于 Dec 31 07:24:04 2024 修改本文·[FROM: 39.144.104.*]
: ※ 来源:·水木社区
http://m.mysmth.net·[FROM: 39.144.104.*]
--
修改:lvsoft FROM 39.144.104.*
FROM 124.207.188.194