- 主题:一个山姆大叔对特斯拉端到端的质疑
老马直播的时候提到这个问题了,你这么问说明你对端到端还有误解。
通用模型训练步骤是:数据采集(标注),训练,然后部署(到车端)。一般来说数据
集不是随随便便加入到训练集的,是要经过更大的模型进行挑选的,数据集的建设不分端
到端。
端到端是深度学习流行以后出现的,泛指数据输入以后,由网络推理直接得到想要的格
式化结果;之前是数据、预处理、模型推理、各种各样的后处理,才能得到相应的格式化
结果。
以公式识别为例,以前是各种算法进行切分,由识别模型得到具体的字符,然后根据各
种人工规则拼成公式,实用性很差;端到端就是图像输入到模型,模型直接给出公式,去
掉了切分等前处理,去掉了后处理,各项指标提升非常大,基本实用。
v11在车端执行层面顺序是:图像、感知、决策、执行。其中决策模块有着各种各样的规
则以及优化算法(早期版本好像是蒙特卡罗相关最优化算法)。
v12在车端执行层面顺序是:图像、大模型、执行。其中大模型是训练得到,完全没有人
类设置的先验知识。
两者在训练集的差别是:
v11需要标注各种各样的车道线、车辆、行人等,感知模块根据标注信息进行学习,输出
的信息格式和标注一致;因为有决策模块,训练集不需要司机对方向盘、油门的帧信息。
v12不需要进行标注:只需要原始光子(摄像机的原始数据12bit每个通道)、对应的方
向盘角度、油门深度等传感器信息,去年其前视觉总监Andrej在某公开课讲过通用视觉模
型:各种原始未标注的图像给到一个空白模型,经过训练,模型可以知道那里能走哪里不
能走。真正的细节只有等下一次AI Day了。
ps:你可以开车的过程中语音控制它:去附近麦当劳,或者说这个车道太堵了,换个车道,大模型是有交互的。同时内部黑盒也可以做到可解释性的,如果你问他为什么左转,它可能告诉你原因。这个跟gpt展示求解过程一个意思。
【 在 wsnsw 的大作中提到: 】
: 如果特斯拉真的没有干预,是纯粹的端到端训练的话,
: 那停止标志只有95%的人会停,
: 那根据仅有5%的人才有的行为,
: ...................
--
修改:hsv FROM 114.246.102.*
FROM 123.118.8.*
v12有一个更加庞大复杂的模型来处理影子模式产生的数据,stop sign这种情况只有真
正停止的才会加到训练集;为了杜绝糟糕的驾驶行为被学习,训练集建设只考虑优质司机
的数据,司机打分现在已经和保险公司挂钩了。
【 在 wsnsw 的大作中提到: 】
: 如果特斯拉真的没有干预,是纯粹的端到端训练的话,
: 那停止标志只有95%的人会停,
: 那根据仅有5%的人才有的行为,
: ...................
--
FROM 123.118.8.*
没那么激进,也可能是将v11的plannar模块用神经网络替代,11.4不是说方向盘油门已经由网络控制了吗,训练的时候加入方向盘的角度、油门角度就行了。
v12把交通标志路线这类人工规则类的全部交到网络了,给一个gps坐标,无需地图,车就可以开过去。
【 在 litra 的大作中提到: 】
: 有点类似于alpha go 和alpha zero的关系
: alpha go是用人类的棋谱训练的,alpha zero完全自对弈采用自己的棋谱训练
--
FROM 114.246.102.*
你理解的标注、端到端和我理解的不一样。
【 在 wsnsw 的大作中提到: 】
: 你说的这个跟我的理解一样啊,而且你另一个回复提到如果真的在筛选优质司机,这都数据硬硬标注了,
: 而且目前不同城市的反馈情况就是不一样,
: 所以我的观点还是v12需要拭目以待,不如v11.x都有可能。
: ...................
--
FROM 114.246.102.*
你看今年国产普及特斯拉21年玩过的BEV就知道了,技术架构的革新,提升不是一星半点儿的。技术发展到这个阶段,可以说智能驾驶以后没有任何难度了,变成了一场算力数据的军备竞赛。
好消息就是智能驾驶会被我们卷成白菜价,不好的消息是暂时算力提升比较缓慢,一旦7nm被我们攻克普及,韩日欧只能吃土了。
【 在 wsnsw 的大作中提到: 】
: 你说的这个跟我的理解一样啊,而且你另一个回复提到如果真的在筛选优质司机,这都数据硬硬标注了,
: 而且目前不同城市的反馈情况就是不一样,
: 所以我的观点还是v12需要拭目以待,不如v11.x都有可能。
: ...................
--
FROM 114.246.102.*
不需要,离线。
【 在 goldenbug 的大作中提到: 】
: 大模型要访问服务器吧,终端通过服务器决策没有可靠性啊
: :
--
FROM 221.216.116.*
大是针对这一代模型来说的,通用视觉模型就是各种transformer揉合,计算和cnn有差异的。另外大模型不需要服务器,m2可以跑大模型。chatgpt是提供服务的要考虑qps,车载能跑25帧就可以,v12实际能跑36帧。
【 在 goldenbug 的大作中提到: 】
: 这点可怜的数据量就能大模型?
--
FROM 221.216.116.*
倒不是啥,而是敢说。数据集、训练、模型算法这些搞不清楚就能指点江山。
【 在 nowan 的大作中提到: 】
: 这问题太傻
: 发自「今日水木 on iPhone XR」
--
FROM 221.216.116.*
没错,很多人意识不到,那些珍藏的tricks在新技术面前不值一提。
以后就是算力和数据的军备竞赛,如果你一两个E的算力,怎么玩上百万辆车返回的数据。看1万块h100训练v12需要多久。
【 在 wjhtingerx 的大作中提到: 】
: 格局放大点,实际是整个智能控制领域已经终结了。以后就是数据和算力的迭代,之前积累几十年的传统系统和算法的专家学者都得吃土,跟之前卷积网络终结图像领域一样
:
:
--
FROM 114.246.102.*
记错了。。。
【 在 GeneralMilk 的大作中提到: 】
: v12能跑50帧,但是hw3的摄像头只有36帧
--
FROM 114.246.102.*