一个山姆大叔对特斯拉端到端的质疑

水木社区手机版

主题:一个山姆大叔对特斯拉端到端的质疑
3楼|hsv|2023-09-04 14:56:53|展开
老马直播的时候提到这个问题了，你这么问说明你对端到端还有误解。

通用模型训练步骤是：数据采集（标注），训练，然后部署（到车端）。一般来说数据
集不是随随便便加入到训练集的，是要经过更大的模型进行挑选的，数据集的建设不分端
到端。

端到端是深度学习流行以后出现的，泛指数据输入以后，由网络推理直接得到想要的格
式化结果；之前是数据、预处理、模型推理、各种各样的后处理，才能得到相应的格式化
结果。

以公式识别为例，以前是各种算法进行切分，由识别模型得到具体的字符，然后根据各
种人工规则拼成公式，实用性很差；端到端就是图像输入到模型，模型直接给出公式，去
掉了切分等前处理，去掉了后处理，各项指标提升非常大，基本实用。

v11在车端执行层面顺序是：图像、感知、决策、执行。其中决策模块有着各种各样的规
则以及优化算法（早期版本好像是蒙特卡罗相关最优化算法）。

v12在车端执行层面顺序是：图像、大模型、执行。其中大模型是训练得到，完全没有人
类设置的先验知识。

两者在训练集的差别是：
v11需要标注各种各样的车道线、车辆、行人等，感知模块根据标注信息进行学习，输出
的信息格式和标注一致；因为有决策模块，训练集不需要司机对方向盘、油门的帧信息。
v12不需要进行标注：只需要原始光子（摄像机的原始数据12bit每个通道）、对应的方
向盘角度、油门深度等传感器信息，去年其前视觉总监Andrej在某公开课讲过通用视觉模
型：各种原始未标注的图像给到一个空白模型，经过训练，模型可以知道那里能走哪里不
能走。真正的细节只有等下一次AI Day了。

ps：你可以开车的过程中语音控制它：去附近麦当劳，或者说这个车道太堵了，换个车道，大模型是有交互的。同时内部黑盒也可以做到可解释性的，如果你问他为什么左转，它可能告诉你原因。这个跟gpt展示求解过程一个意思。

【在 wsnsw 的大作中提到: 】
: 如果特斯拉真的没有干预，是纯粹的端到端训练的话，
: 那停止标志只有95%的人会停，
: 那根据仅有5%的人才有的行为，
: ...................
--
修改:hsv FROM 114.246.102.*
FROM 123.118.8.*
4楼|hsv|2023-09-04 15:32:54|展开
v12有一个更加庞大复杂的模型来处理影子模式产生的数据，stop sign这种情况只有真
正停止的才会加到训练集；为了杜绝糟糕的驾驶行为被学习，训练集建设只考虑优质司机
的数据，司机打分现在已经和保险公司挂钩了。
【在 wsnsw 的大作中提到: 】
: 如果特斯拉真的没有干预，是纯粹的端到端训练的话，
: 那停止标志只有95%的人会停，
: 那根据仅有5%的人才有的行为，
: ...................
--
FROM 123.118.8.*
8楼|hsv|2023-09-04 16:05:11|展开
没那么激进，也可能是将v11的plannar模块用神经网络替代，11.4不是说方向盘油门已经由网络控制了吗，训练的时候加入方向盘的角度、油门角度就行了。

v12把交通标志路线这类人工规则类的全部交到网络了，给一个gps坐标，无需地图，车就可以开过去。

【在 litra 的大作中提到: 】
: 有点类似于alpha go 和alpha zero的关系
: alpha go是用人类的棋谱训练的，alpha zero完全自对弈采用自己的棋谱训练
--
FROM 114.246.102.*
10楼|hsv|2023-09-04 16:14:06|展开
你理解的标注、端到端和我理解的不一样。
【在 wsnsw 的大作中提到: 】
: 你说的这个跟我的理解一样啊，而且你另一个回复提到如果真的在筛选优质司机，这都数据硬硬标注了，
: 而且目前不同城市的反馈情况就是不一样，
: 所以我的观点还是v12需要拭目以待，不如v11.x都有可能。
: ...................
--
FROM 114.246.102.*
12楼|hsv|2023-09-04 16:25:37|展开
你看今年国产普及特斯拉21年玩过的BEV就知道了，技术架构的革新，提升不是一星半点儿的。技术发展到这个阶段，可以说智能驾驶以后没有任何难度了，变成了一场算力数据的军备竞赛。

好消息就是智能驾驶会被我们卷成白菜价，不好的消息是暂时算力提升比较缓慢，一旦7nm被我们攻克普及，韩日欧只能吃土了。

【在 wsnsw 的大作中提到: 】
: 你说的这个跟我的理解一样啊，而且你另一个回复提到如果真的在筛选优质司机，这都数据硬硬标注了，
: 而且目前不同城市的反馈情况就是不一样，
: 所以我的观点还是v12需要拭目以待，不如v11.x都有可能。
: ...................
--
FROM 114.246.102.*
23楼|hsv|2023-09-05 09:06:41|展开
不需要，离线。
【在 goldenbug 的大作中提到: 】
: 大模型要访问服务器吧，终端通过服务器决策没有可靠性啊
: :
--
FROM 221.216.116.*
24楼|hsv|2023-09-05 09:11:23|展开
大是针对这一代模型来说的，通用视觉模型就是各种transformer揉合，计算和cnn有差异的。另外大模型不需要服务器，m2可以跑大模型。chatgpt是提供服务的要考虑qps，车载能跑25帧就可以，v12实际能跑36帧。
【在 goldenbug 的大作中提到: 】
: 这点可怜的数据量就能大模型？
--
FROM 221.216.116.*
25楼|hsv|2023-09-05 09:12:53|展开
倒不是啥，而是敢说。数据集、训练、模型算法这些搞不清楚就能指点江山。
【在 nowan 的大作中提到: 】
: 这问题太傻
: 发自「今日水木 on iPhone XR」
--
FROM 221.216.116.*
29楼|hsv|2023-09-05 09:54:10|展开
没错，很多人意识不到，那些珍藏的tricks在新技术面前不值一提。

以后就是算力和数据的军备竞赛，如果你一两个E的算力，怎么玩上百万辆车返回的数据。看1万块h100训练v12需要多久。

【在 wjhtingerx 的大作中提到: 】
: 格局放大点，实际是整个智能控制领域已经终结了。以后就是数据和算力的迭代，之前积累几十年的传统系统和算法的专家学者都得吃土，跟之前卷积网络终结图像领域一样
:
:
--
FROM 114.246.102.*
30楼|hsv|2023-09-05 09:55:59|展开
记错了。。。
【在 GeneralMilk 的大作中提到: 】
: v12能跑50帧，但是hw3的摄像头只有36帧
--
FROM 114.246.102.*