- 主题:为啥现在特斯拉的自动驾驶很尴尬,从CVPR2023最佳论文说起
CVPR基本上可以说是人工智能世界第一会,今年的最佳论文是上海AILab的自动驾驶方向《UniAD Planning-oriented Autonomous Driving》含金量不必多说,特斯拉也往这个会投很多论文哦。
这论文就是做了个端到端的自动驾驶方案,从各种传感器输入信号到系统,不用人工的规则,直接输出驾驶指令,效果远超过之前传统人工编码组合的系统。当然端到端这个方案一直都有,问题是之前效果就是不好,UniAD超越了,所以被奖励,其中怎么做的技术细节就不说了。
这事其实和ChatGPT也有些联系,因为ChatGPT几乎给全世界做人工智能的研究人员洗了脑:Bigger is Better(当然真正的研究员在21年GPT3就被震撼了),越大就是越好,效果不好就是因为模型还不够大,算力还不够多,看今年有多少做自动规划的论文中引用了大模型和这个理念就知道了。
那为啥特斯拉在这种情况就很尴尬呢?因为马斯克坚持做单视觉方案,在之前确实有一个很强的技术原因:图像、激光、声纳信号之间冲突怎么办?图像说前面有90%的的概率是好道路,激光说前面80%概率有障碍物,声纳信号说感觉这天好像下雨了。在传统的系统中怎么处理?太多公司做过太多的试错,无论人工写什么规则都很难平衡,和只采信其中一个信号效果差不多。我举得还是简化版本的例子,实际情况更复杂,程序员朋友可以想象一下,是不是很头大。(当然我认为马斯克最大的决定因素是成本低,因为多传感器至少 至少不会降低自动驾驶效果,千万不要相信什么人只靠双眼就能驾驶,人还吃馒头就能思考呢,你能往电池、油箱里塞馒头吗?)
然而到了2023年,如果大家普遍都相信端到端方案是未来的终极方案,多信号的决策问题完全就不存在了啊,端到端以降维打击的方式解决这个问题,一股脑都丢给模型去训练解决,多传感器比单视觉大幅提升效果是必然的,唯一的悬念的是这个大幅提升是质还是量的区别。
所以从技术的角度马斯克这个直播演示就很尴尬,一方面相信端到端,另一方面又高喊坚持单视觉,这种操作就很迷。
另一方面特斯拉演示效果真的不够好,甚至预示着它要掉队… 19分钟接管一次,那不就相当于你不看着平均1小时出3次事故吗… 。如果关注自动驾驶的应该知道国内不少于3个厂商早就经常直播自动驾驶了,2个小时起,路况也比这个复杂。这里不说名字,免的打广告嫌疑。
--
FROM 192.227.165.*
如果特斯拉几百万车辆都是这种路况,就是上帝来了被训练了,也是分分钟被卖到缅北。
【 在 whistlingMe 的大作中提到: 】
: CVPR基本上可以说是人工智能世界第一会,今年的最佳论文是上海AILab的自动驾驶方向《UniAD Planning-oriented Autonomous Driving》含金量不必多说,特斯拉也往这个会投很多论文哦。
: 这论文就是做了个端到端的自动驾驶方案,从各种传感器输入信号到系统,不用人工的规则,直接输出驾驶指令,效果远超过之前传统人工编码组合的系统。当然端到端这个方案一直都有,问题是之前效果就是不好,UniAD超越了,所以被奖励,其中怎么做的技术细节就不说了。
: 这事其实和ChatGPT也有些联系,因为ChatGPT几乎给全世界做人工智能的研究人员洗了脑:Bigger is Better(当然真正的研究员在21年GPT3就被震撼了),越大就是越好,效果不好就是因为模型还不够大,算力还不够多,看今年有多少做自动规划的论文中引用了大模型和这个理念就知道了。
: ...................
--
FROM 49.76.57.*
UniAD还有bev、occ、track、planner这些,本质上和v11同一代,不过做到了端到端训练,还是很了不起的。
v12的端到端目前已经抛弃了bev、occ、plannar这些,已经没有车辆、车道目标之类的概念了。只有一个大网络,去年其老大说,给网络看任意无标注数据,网络可以自己总结共性,如车道线,红绿灯等,具体细节估计等今年aiday才知道了。
不得不说,新的架构让人很振奋,以后智能辅助驾驶的迭代就是加入新场景数据,训练,然后将模型下发到车辆部署即可。以后就是比拼数据和算力了,数据场景越丰富,安全性、体验越好,算力越高,模型迭代越快。
从冗余来说,激光雷达在新一代架构下终于有了用武之地的可能,但怎么挖掘这些场景很关键,影子模式还是以人类驾驶为准的,找到这些数据将很有挑战。
【 在 whistlingMe 的大作中提到: 】
: CVPR基本上可以说是人工智能世界第一会,今年的最佳论文是上海AILab的自动驾驶方向《UniAD Planning-oriented Autonomous Driving》含金量不必多说,特斯拉也往这个会投很多论文哦。
: 这论文就是做了个端到端的自动驾驶方案,从各种传感器输入信号到系统,不用人工的规则,直接输出驾驶指令,效果远超过之前传统人工编码组合的系统。当然端到端这个方案一直都有,问题是之前效果就是不好,UniAD超越了,所以被奖励,其中怎么做的技术细节就不说了。
: 这事其实和ChatGPT也有些联系,因为ChatGPT几乎给全世界做人工智能的研究人员洗了脑:Bigger is Better(当然真正的研究员在21年GPT3就被震撼了),越大就是越好,效果不好就是因为模型还不够大,算力还不够多,看今年有多少做自动规划的论文中引用了大模型和这个理念就知道了。
: ...................
--
FROM 114.254.1.*
而且吧,论文跟真的几十万辆车在马路上跑,还差老远呢
【 在 hsv 的大作中提到: 】
: UniAD还有bev、occ、track、planner这些,本质上和v11同一代,不过做到了端到端训练,还是很了不起的。
: v12的端到端目前已经抛弃了bev、occ、plannar这些,已经没有车辆、车道目标之类的概念了。只有一个大网络,去年其老大说,给网络看任意无标注数据,网络可以自己总结共性,如车道线,红绿灯等,具体细节估计等今年aiday才知道了。
: 不得不说,新的架构让人很振奋,以后智能辅助驾驶的迭代就是加入新场景数据,训练,然后将模型下发到车辆部署即可。以后就是比拼数据和算力了,数据场景越丰富,安全性、体验越好,算力越高,模型迭代越快。
: ...................
--
FROM 103.102.203.200
业内人士啊,感觉就是后面堆算力,堆传感器会是很长一段时间的主题。
【 在 hsv 的大作中提到: 】
: UniAD还有bev、occ、track、planner这些,本质上和v11同一代,不过做到了端到端训练,还是很了不起的。
: v12的端到端目前已经抛弃了bev、occ、plannar这些,已经没有车辆、车道目标之类的概念了。只有一个大网络,去年其老大说,给网络看任意无标注数据,网络可以自己总结共性,如车道线,红绿灯等,具体细节估计等今年aiday才知道了。
: 不得不说,新的架构让人很振奋,以后智能辅助驾驶的迭代就是加入新场景数据,训练,然后将模型下发到车辆部署即可。以后就是比拼数据和算力了,数据场景越丰富,安全性、体验越好,算力越高,模型迭代越快。
: ...................
--
FROM 114.254.1.*
端到端黑盒子,里面有什么鬼都不知道,全自动送死
--
FROM 123.120.12.*
在bev之前,我是不相信智能辅助驾驶的。
目前无论是你推荐的这个论文,还是已经内测的v12,证明端到端之路是走得通的,后面就是可怕的AI基建pk了,本来这属于咱们的强项,但是,
华为寒武纪的算力芯片被制裁了,低端的nv又被禁了,真是恨啊……
【 在 whistlingMe 的大作中提到: 】
: 业内人士啊,感觉就是后面堆算力,堆传感器会是很长一段时间的主题。
--
FROM 114.254.1.*
码农是真不行,这玩意能完全相信所谓的大数据算法吗?怎么也得弄个直接判定的规则作为基础
--
FROM 117.86.60.*
路线还有争议,你说的就是另一派最重要的意见。这一派是效果是王道,有本事就比接管里程。
但问题是特斯拉已经用端到端,不写if了。坚持单视觉就没有技术上的理由了,然后放到一块宣传,很尴尬。
【 在 dreamdragon 的大作中提到: 】
: 码农是真不行,这玩意能完全相信所谓的大数据算法吗?怎么也得弄个直接判定的规则作为基础
--
FROM 114.254.1.*
对,这个是主要缺点。特斯拉的问题是一边用黑盒子,还一边坚持用单视觉,但明明黑盒子的优点是可以利用多传感器信息啊。
【 在 tsa300 的大作中提到: 】
: 端到端黑盒子,里面有什么鬼都不知道,全自动送死
--
FROM 114.254.1.*