老马直播的时候提到这个问题了,你这么问说明你对端到端还有误解。
通用模型训练步骤是:数据采集(标注),训练,然后部署(到车端)。一般来说数据
集不是随随便便加入到训练集的,是要经过更大的模型进行挑选的,数据集的建设不分端
到端。
端到端是深度学习流行以后出现的,泛指数据输入以后,由网络推理直接得到想要的格
式化结果;之前是数据、预处理、模型推理、各种各样的后处理,才能得到相应的格式化
结果。
以公式识别为例,以前是各种算法进行切分,由识别模型得到具体的字符,然后根据各
种人工规则拼成公式,实用性很差;端到端就是图像输入到模型,模型直接给出公式,去
掉了切分等前处理,去掉了后处理,各项指标提升非常大,基本实用。
v11在车端执行层面顺序是:图像、感知、决策、执行。其中决策模块有着各种各样的规
则以及优化算法(早期版本好像是蒙特卡罗相关最优化算法)。
v12在车端执行层面顺序是:图像、大模型、执行。其中大模型是训练得到,完全没有人
类设置的先验知识。
两者在训练集的差别是:
v11需要标注各种各样的车道线、车辆、行人等,感知模块根据标注信息进行学习,输出
的信息格式和标注一致;因为有决策模块,训练集不需要司机对方向盘、油门的帧信息。
v12不需要进行标注:只需要原始光子(摄像机的原始数据12bit每个通道)、对应的方
向盘角度、油门深度等传感器信息,去年其前视觉总监Andrej在某公开课讲过通用视觉模
型:各种原始未标注的图像给到一个空白模型,经过训练,模型可以知道那里能走哪里不
能走。真正的细节只有等下一次AI Day了。
ps:你可以开车的过程中语音控制它:去附近麦当劳,或者说这个车道太堵了,换个车道,大模型是有交互的。同时内部黑盒也可以做到可解释性的,如果你问他为什么左转,它可能告诉你原因。这个跟gpt展示求解过程一个意思。
【 在 wsnsw 的大作中提到: 】
: 如果特斯拉真的没有干预,是纯粹的端到端训练的话,
: 那停止标志只有95%的人会停,
: 那根据仅有5%的人才有的行为,
: ...................
--
修改:hsv FROM 114.246.102.*
FROM 123.118.8.*