为啥现在特斯拉的自动驾驶很尴尬，从CVPR2023最佳论文说起

水木社区手机版

展开|楼主|同主题展开|返回

主题:为啥现在特斯拉的自动驾驶很尴尬，从CVPR2023最佳论文说起
whistlingMe|2023-08-30 19:28:33|
CVPR基本上可以说是人工智能世界第一会，今年的最佳论文是上海AILab的自动驾驶方向《UniAD Planning-oriented Autonomous Driving》含金量不必多说，特斯拉也往这个会投很多论文哦。
这论文就是做了个端到端的自动驾驶方案，从各种传感器输入信号到系统，不用人工的规则，直接输出驾驶指令，效果远超过之前传统人工编码组合的系统。当然端到端这个方案一直都有，问题是之前效果就是不好，UniAD超越了，所以被奖励，其中怎么做的技术细节就不说了。

这事其实和ChatGPT也有些联系，因为ChatGPT几乎给全世界做人工智能的研究人员洗了脑：Bigger is Better（当然真正的研究员在21年GPT3就被震撼了），越大就是越好，效果不好就是因为模型还不够大，算力还不够多，看今年有多少做自动规划的论文中引用了大模型和这个理念就知道了。

那为啥特斯拉在这种情况就很尴尬呢？因为马斯克坚持做单视觉方案，在之前确实有一个很强的技术原因：图像、激光、声纳信号之间冲突怎么办？图像说前面有90%的的概率是好道路，激光说前面80%概率有障碍物，声纳信号说感觉这天好像下雨了。在传统的系统中怎么处理？太多公司做过太多的试错，无论人工写什么规则都很难平衡，和只采信其中一个信号效果差不多。我举得还是简化版本的例子，实际情况更复杂，程序员朋友可以想象一下，是不是很头大。（当然我认为马斯克最大的决定因素是成本低，因为多传感器至少至少不会降低自动驾驶效果，千万不要相信什么人只靠双眼就能驾驶，人还吃馒头就能思考呢，你能往电池、油箱里塞馒头吗？）

然而到了2023年，如果大家普遍都相信端到端方案是未来的终极方案，多信号的决策问题完全就不存在了啊，端到端以降维打击的方式解决这个问题，一股脑都丢给模型去训练解决，多传感器比单视觉大幅提升效果是必然的，唯一的悬念的是这个大幅提升是质还是量的区别。

所以从技术的角度马斯克这个直播演示就很尴尬，一方面相信端到端，另一方面又高喊坚持单视觉，这种操作就很迷。
另一方面特斯拉演示效果真的不够好，甚至预示着它要掉队… 19分钟接管一次，那不就相当于你不看着平均1小时出3次事故吗… 。如果关注自动驾驶的应该知道国内不少于3个厂商早就经常直播自动驾驶了，2个小时起，路况也比这个复杂。这里不说名字，免的打广告嫌疑。
--
FROM 192.227.165.*