为啥现在特斯拉的自动驾驶很尴尬，从CVPR2023最佳论文说起

水木社区手机版

主题:为啥现在特斯拉的自动驾驶很尴尬，从CVPR2023最佳论文说起
楼主|whistlingMe|2023-08-30 19:28:33|展开
CVPR基本上可以说是人工智能世界第一会，今年的最佳论文是上海AILab的自动驾驶方向《UniAD Planning-oriented Autonomous Driving》含金量不必多说，特斯拉也往这个会投很多论文哦。
这论文就是做了个端到端的自动驾驶方案，从各种传感器输入信号到系统，不用人工的规则，直接输出驾驶指令，效果远超过之前传统人工编码组合的系统。当然端到端这个方案一直都有，问题是之前效果就是不好，UniAD超越了，所以被奖励，其中怎么做的技术细节就不说了。

这事其实和ChatGPT也有些联系，因为ChatGPT几乎给全世界做人工智能的研究人员洗了脑：Bigger is Better（当然真正的研究员在21年GPT3就被震撼了），越大就是越好，效果不好就是因为模型还不够大，算力还不够多，看今年有多少做自动规划的论文中引用了大模型和这个理念就知道了。

那为啥特斯拉在这种情况就很尴尬呢？因为马斯克坚持做单视觉方案，在之前确实有一个很强的技术原因：图像、激光、声纳信号之间冲突怎么办？图像说前面有90%的的概率是好道路，激光说前面80%概率有障碍物，声纳信号说感觉这天好像下雨了。在传统的系统中怎么处理？太多公司做过太多的试错，无论人工写什么规则都很难平衡，和只采信其中一个信号效果差不多。我举得还是简化版本的例子，实际情况更复杂，程序员朋友可以想象一下，是不是很头大。（当然我认为马斯克最大的决定因素是成本低，因为多传感器至少至少不会降低自动驾驶效果，千万不要相信什么人只靠双眼就能驾驶，人还吃馒头就能思考呢，你能往电池、油箱里塞馒头吗？）

然而到了2023年，如果大家普遍都相信端到端方案是未来的终极方案，多信号的决策问题完全就不存在了啊，端到端以降维打击的方式解决这个问题，一股脑都丢给模型去训练解决，多传感器比单视觉大幅提升效果是必然的，唯一的悬念的是这个大幅提升是质还是量的区别。

所以从技术的角度马斯克这个直播演示就很尴尬，一方面相信端到端，另一方面又高喊坚持单视觉，这种操作就很迷。
另一方面特斯拉演示效果真的不够好，甚至预示着它要掉队… 19分钟接管一次，那不就相当于你不看着平均1小时出3次事故吗… 。如果关注自动驾驶的应该知道国内不少于3个厂商早就经常直播自动驾驶了，2个小时起，路况也比这个复杂。这里不说名字，免的打广告嫌疑。
--
FROM 192.227.165.*
4楼|whistlingMe|2023-08-30 21:08:06|展开
业内人士啊，感觉就是后面堆算力，堆传感器会是很长一段时间的主题。
【在 hsv 的大作中提到: 】
: UniAD还有bev、occ、track、planner这些，本质上和v11同一代，不过做到了端到端训练，还是很了不起的。
: v12的端到端目前已经抛弃了bev、occ、plannar这些，已经没有车辆、车道目标之类的概念了。只有一个大网络，去年其老大说，给网络看任意无标注数据，网络可以自己总结共性，如车道线，红绿灯等，具体细节估计等今年aiday才知道了。
: 不得不说，新的架构让人很振奋，以后智能辅助驾驶的迭代就是加入新场景数据，训练，然后将模型下发到车辆部署即可。以后就是比拼数据和算力了，数据场景越丰富，安全性、体验越好，算力越高，模型迭代越快。
: ...................
--
FROM 114.254.1.*
8楼|whistlingMe|2023-08-30 21:22:45|展开
路线还有争议，你说的就是另一派最重要的意见。这一派是效果是王道，有本事就比接管里程。
但问题是特斯拉已经用端到端，不写if了。坚持单视觉就没有技术上的理由了，然后放到一块宣传，很尴尬。
【在 dreamdragon 的大作中提到: 】
: 码农是真不行，这玩意能完全相信所谓的大数据算法吗？怎么也得弄个直接判定的规则作为基础
--
FROM 114.254.1.*
9楼|whistlingMe|2023-08-30 21:24:39|展开
对，这个是主要缺点。特斯拉的问题是一边用黑盒子，还一边坚持用单视觉，但明明黑盒子的优点是可以利用多传感器信息啊。
【在 tsa300 的大作中提到: 】
: 端到端黑盒子，里面有什么鬼都不知道，全自动送死
--
FROM 114.254.1.*
12楼|whistlingMe|2023-08-30 21:35:45|展开
这是另外一个问题，所以我其实不太相信l4以下的自动驾驶的。中国的高速公路故意修成弯的就是为了强迫司机动方向盘
无论如何，端到端大模型可能能解决，但也一定是多传感器先解决
【在 senyu2 的大作中提到: 】
: 两个小时接管一次怎么保证司机恰好在线呢
--
FROM 114.254.1.*
22楼|whistlingMe|2023-08-31 08:43:26|展开
这要求其实很高很高，比如特斯拉搞了这么多年，45分钟接管一次，说难听就是45分钟一次事故。提高到45小时一次事故，就是60倍难度，提高到平均多少小时一次事故你能接受呢？那得多难...

【在 migbook 的大作中提到: 】
: 平均事故率比人类低就具备可用前景
: :
--
FROM 192.227.165.*
28楼|whistlingMe|2023-08-31 10:58:45|展开
说了是完全不接管的情况下，特斯拉现在的事故率其实是，人+FSD双重驾驶下的事故率。实际上有很多人认为FSD介入让人类司机注意力下降，整体反而事故率提升了，美国那边不是在调查吗。
【在 TrinidadSeal 的大作中提到: 】
: 你确定45分钟一次事故？？？FSD应该有几十万用户了，累计行驶超过一个亿英里了，按照均速50，至少开了200万小时了，45分钟一个事故的话，那得至少200-300万似乎了。。。
: - 来自水木社区APP v3.5.7
--
FROM 114.254.2.*
30楼|whistlingMe|2023-08-31 11:01:11|展开
特斯拉不仅投，还是10几篇几十篇的投，还经常中oral论文去演讲论文。这毕竟是一个荣誉，从招人才得角度也是值的。

【在 slimcan 的大作中提到: 】
: 特斯拉技术没完全公开。投什么cvpr?
--
FROM 114.254.2.*
31楼|whistlingMe|2023-08-31 11:03:23|展开
对，这其实是当前5级自动驾驶分级不合理的根本原因， L3~L4这个跨度的难度，可能比其他级别难度加起来都大。

【在 dyatpk 的大作中提到: 】
: 扯再多也没用，谁能把车祸的责任担了，我就信自动驾驶。
: 告诉车主99.9999%的时间不用接管，后果就是真发生0.0001%的小概率事件的时候，几乎没有人会去接管。
:
--
FROM 114.254.2.*
33楼|whistlingMe|2023-08-31 11:06:53|展开
你咋就看出来特斯拉领先了？？？我专门标出来了这个最近论文是中国上海的AILab，如果恶意的揣测，说特斯拉抄袭中国搞出来的都可以啊，（当然这种说法很阴谋，只是用你的逻辑发散一下。）。

最后我明确说了啊特斯拉这个演示效果很拉胯，如果再不上多传感器，就肯定要掉队到二流水平。

【在 hawkabc 的大作中提到: 】
: 说你不懂，你好像懂一点，说你懂，你的结论又是在标新立异和论据南辕北辙！
: 我问你：按照你的说法，目前端对端特斯拉都已经上路测试了，其他公司的端对端大网络在哪里？是不是特斯拉最领先？如果端对端的网络训练很容易的话，那特斯拉有什么尴尬的和受威胁的？如果端对端很难的话，特斯拉本就在这个领域领先了！！！
: 另外特斯拉现在用的单视觉方案，不代表人家以后就不能往大网络里引入激光雷达！
: ...................
--
FROM 114.254.2.*