各位，如何搞定大模型的不确定性？

水木社区手机版

主题:各位，如何搞定大模型的不确定性？
楼主|chunhui|2025-11-28 16:50:06|只看此ID
比如这样的问题：我让ai修改一个表格，先修改a行b列，再修改a行c列。十几天以来，一直没问题。但今天，当作第二次修改的时候，它总是修改到a行b列上去。关键是它大多数好使，偶尔不确定。这就让你没办法彻底放心。其实也有其它的类似不确定的问题，这些问题不像写代码可以通过编译，通过测试用例。
有什么好办法对付这种问题么？
--
FROM 124.64.43.*
1楼|z16166|2025-11-28 18:11:14|只看此ID
测试用例没跑通，就让它返工修改
--
FROM 61.48.128.*
2楼|chunhui|2025-11-28 19:19:25|只看此ID
这个只是个修改文本文件的功能，claude code的自定义命令。不是代码。没有测试用例。
【在 z16166 的大作中提到: 】
: 测试用例没跑通，就让它返工修改
--
修改:chunhui FROM 124.64.43.*
FROM 124.64.43.*
3楼|semipunk|2025-11-28 19:47:10|只看此ID
把你的要求放在硬约束：后面试试

【在 chunhui (北瓜) 的大作中提到: 】
:    比如这样的问题：我让ai修改一个表格，先修改a行b列，再修改a行c列。十几天以来，一直没问题。但今天，当作第二次修改的时候，它总是修改到a行b列上去。关键是它大多数好使，偶尔不确定。这就让你没办法彻底放心。其实也有其它的类似不确定的问题，这些问题不像写代码可以通过编译，通过测试用例。
:    有什么好办法对付这种问题么？
:  --
:
--
FROM 223.160.129.*
4楼|chunhui|2025-11-28 21:04:47|只看此ID
我试试，关键是这个东西它已经正常好些天了，突然今天就不准了。所以你没办法信任它是靠谱的。ai很多时候都是这样不确定。是个问题。
【在 semipunk 的大作中提到: 】
: 把你的要求放在硬约束：后面试试
: 以通过编译，通过测试用例。
--
FROM 124.64.43.*
5楼|semipunk|2025-11-28 21:11:38|只看此ID
大模型行为和上下文有关。最好在同一对话中执行操作，而且必须反复提醒它回顾对话和它相应的操作。大模型没有记忆，每一次问答它都会重看之前段所有对话

【在 chunhui (北瓜) 的大作中提到: 】
:  我试试，关键是这个东西它已经正常好些天了，突然今天就不准了。所以你没办法信任它是靠谱的。ai很多时候都是这样不确定。是个问题。
:  【在 semipunk 的大作中提到: 】
:  : 把你的要求放在硬约束：后面试试
:  : 以通过编译，通过测试用例。
--
FROM 114.254.9.*
6楼|chunhui|2025-11-28 21:17:55|只看此ID
和之前的对话没任何关系。这是自定义的claude code的slash command。也就是一个提示词。有两个子命令，每个子命令更新自己所在表格。先执行a，/clear, 后执行b。但神奇的是b总是更新到a的表格中。今天突然出现的。我怀疑是glm4.6为了提高性能，过度使用了缓存。
【在 semipunk 的大作中提到: 】
: 大模型行为和上下文有关。最好在同一对话中执行操作，而且必须反复提醒它回顾对话和它相应的操作。大模型没有记忆，每一次问答它都会重看之前段所有对话
--
FROM 124.64.43.*
7楼|semipunk|2025-11-28 21:25:30|只看此ID
一个prompt本身就是对话。不过我很少vibe coding。你的情况没有发言权

【在 chunhui (北瓜) 的大作中提到: 】
:  和之前的对话没任何关系。这是自定义的claude code的slash command。也就是一个提示词。有两个子命令，每个子命令更新自己所在表格。先执行a，/clear, 后执行b。但神奇的是b总是更新到a的表格中。今天突然出现的。我怀疑是glm4.6为了提高性能，过度使用了缓存。
:  【在 semipunk 的大作中提到: 】
:  : 大模型行为和上下文有关。最好在同一对话中执行操作，而且必须反复提醒它回顾对话和它相应的操作。大模型没有记忆，每一次问答它都会重看之前段所有对话
:
--
FROM 114.254.9.*
8楼|chunhui|2025-11-28 21:52:44|只看此ID
我这个不是写代码。只是自定义命令想让ai自动修改文件。换成kimi就没问题了。之前glm4.6也一直没问题。反正是比较奇怪。
ai很多时候都会遇到这种不确定的问题。尤其是无法验证的东西，就更不好弄。
【在 semipunk 的大作中提到: 】
: 一个prompt本身就是对话。不过我很少vibe coding。你的情况没有发言权
--
FROM 124.64.43.*
9楼|walker0000|2025-11-29 17:11:43|只看此ID
那就转换成确定的啊，让他写出程序，测试通过之后用程序来修改表格，这样就没问题了
--
FROM 114.241.197.*