第一行你说的就不对,cot和tot都是一样的,都是prompt,你说的真实世界反馈是agent的一种模式react型,这个跟tot就没关系。
真实世界的反馈最终也是prompt,还有另一种模式self-refine型agent,也是prompt context。
agent根本不是技术的核心,核心还是llm,而llm就是根据prompt的context去猜的猜词机器。
推理和思维也都是prompt。
【 在 bluecase 的大作中提到: 】
: agent没说一定是cot,另外cot是cot,tot是tot,tot是拿到了真实世界反馈的。
: 一个大模型,面对你提的产品需求,它生成了10个方案,写了10份代码,并且调用沙箱把其中一个方案编译成功,实验结论存在自己的context里,并告诉你结果。
: 这个信息增量并不是来自于训练阶段,也不来自于prompt,而是在推理过程中通过现实反馈获得的信息熵啊,这玩意不能说就只是概率吧
: ...................
--
FROM 124.64.19.*