- 主题:纯视觉与融合感知方案优劣对比
1、纯视觉是否成本更低?
纯视觉用摄像头,硬件成本比激光雷达低一个数量级。从车端硬件来说,确实如此。不过这个说法忽略了一点,采用纯视觉的模型,由于缺少精确的距离信息,要从中推断和建模需要的大模型的训练成本很高。据说特斯拉的大模型算力24年底预计会达到100 EFlops。
不加硬件,则成本需要加在软件和算力上。增加硬件传感器,比如激光雷达能直接提供距离信息,需要的训练成本很有可能会低于纯视觉。
FSD目前的买断价格为1万美元,反馈到用户终端的价格确实不便宜,几乎是所有L2级厂商里面最贵的。有2种可能,一是是FSD的训练成本确实比较高,二是特斯拉的纯视觉方案成本并不高,价格高是在追求更高的毛利。以特斯拉多次降价的历史来看,比较大的还是第1种可能。
2、纯视觉是否通用性更好?
理论上纯视觉只需要摄像头,虽然传感器看起来是通用的,但实际上FSD v12并不支持HW3.0以下的硬件,
要让老旧车型也升级,除非更换推理模块的硬件,而且HW4.0和HW3.0硬件上也不兼容,已经安装HW3.0的车没法换装HW4.0。纯视觉方案向下的兼容性优势并不明显。
3、激光雷达的数据是否属于大模型训练的冗余数据?
并不是,激光雷达的作用在于给车的周边做建模,和纯视觉相比,类似于在平面地图上给出了等高线,这些深度信息,正是纯视觉用各种算法希望拟合得到的信息,只是由于算法、现实环境和物理硬件的局限,精度做不到很准确,激光雷达数据是视觉信息很好的补充。
4、纯视觉和融合感知哪个更难?
很难说。对于同样采用端到端架构的模型来说,融合方案在感知层更复杂。
纯视觉由于需要自己算深度信息,模型训练需要的数据量更大。
5、纯视觉和融合感知哪个效果更好?
从scaling law来说,模型的参数越多、训练数据越多、投入算力越大,模型的能力越强。在训练数据和算力足够的情况下,融合感知模型的能力大于纯视觉。
这里的问题在于,纯视觉的上限和融合感知的上限分别在哪儿,目前还不明确。
6、纯视觉方案的优势是什么?劣势是什么?
纯视觉传感器硬件成本低。劣势是单一传感器在恶劣环境的失效问题,而且这种失效并不能通过增加摄像头数量来弥补。
7、融合感知方案的优势是什么?劣势是什么?
雷达+视觉有更高的上限。劣势是传感器成本更高,复杂度高,以及比纯视觉的理论上限高出来的差距,是否能让用户愿意支付这部份的成本。
8、为啥特斯拉坚持纯视觉方案?
即使在智驾还不完善的2016年,特斯拉也敢于上线开启大规模用户测试。可见特斯拉并不太在意方案的完善度,一些边界条件和极端环境,等后面遇到了慢慢迭代就行,风格比较激进。
在美国特斯拉能对标的是Waymo,与其相比,特斯拉的纯视觉方案确实价格低,效果也不错,这也是特斯拉坚持纯视觉的底气。
如果纯视觉最终的上限能达到L3的要求,以特斯拉积累的数据,很可能是最快达到这个目标的车厂。
就目前的进度,FSD v12可能1-2年就会达到纯视觉的上限,就看这个上限能覆盖到L2、L3还是更高。
9、特斯拉是否还有能力走多传感器融合的路?
实际已经不存在这个可能。由于最初激光雷达成本高,特斯拉放弃了这条路线,现在已经没办法转向融合的方案,从头开始积累多传感器的数据了,只能纯视觉一条路走到底。
--
FROM 111.172.237.*
9说的很对。特斯拉不用激光雷达,有他的历史原因。而这种历史原因,就是成本。而且因为这个历史原因,不可能再用激光雷达,因为模型可以重做,数据不可再生,只能补充。
--
FROM 114.246.236.*
特斯拉FSD现在美国价格是8000美元,不过也可以选择租赁,每个月99美元。
--
FROM 98.160.216.*
waymo这几年迭代似乎也很慢,从开始在凤凰城做robotaxi (只有特定区域,而且基本上速度不快),到后来去旧金山,也好几年了。Cruise在旧金山搞,但是因为出了几次车祸啥的,好像被叫停扩张了。
特斯拉的FSD beta因为没有做robotaxi,倒是一直在扩大用户测试范围(现在大概有好几十万辆车了),所以也应该收集了比waymo多几个数量级的数据。
--
FROM 98.160.216.*
哪个贵哪个好
--
FROM 114.93.138.*
指出你的两点认知错误:1、融合方案最大的问题是视觉与雷达出现识别矛盾怎么办?实际上加了激光雷达有利有弊,好处是晚上会好一些,坏处就是识别矛盾。这些采用融合方案的厂家,是因为视觉识别水平低,根本没法用,所以不得已采用贵的方案;2、视觉测距没有什么门槛,人眼就是视觉测距,而且开车并不需要精确测距。
自动驾驶是不会有什么前途,原因有两个:1)摄像头跟人眼比差得太远,人眼是无限像素,而且自动调焦;2)人的大脑对模糊事件的处理速度和准确度,比芯片和算法强太多,好比你换个发型,认识你的小区保安也知道是你,但刷脸系统可能要好几遍。
【 在 PeopleJoy 的大作中提到: 】
: 1、纯视觉是否成本更低?
: 纯视觉用摄像头,硬件成本比激光雷达低一个数量级。从车端硬件来说,确实如此。不过这个说法忽略了一点,采用纯视觉的模型,由于缺少精确的距离信息,要从中推断和建模需要的大模型的训练成本很高。据说特斯拉的大模型算力24年底预计会达到100 EFlops。
: 不加硬件,则成本需要加在软件和算力上。增加硬件传感器,比如激光雷达能直接提供距离信息,需要的训练成本很有可能会低于纯视觉。
: ...................
--
FROM 124.205.79.*
我个人也是不觉得完全自动驾驶对个人用户有什么必要性,所以我更在意的是辅助驾驶能够拓宽安全边界,识别一些我开车识别不了的危险,比如进隧道后立马出现的故障车,比如夜间高速上的事故车,比如我曾遇到的夜里高速左道逆行的傻逼,比如通过车路协同提醒我高速上匝道现在车辆汇入,从这个角度来说当然是多重感知更好,能做到一些视觉做不到的事情
【 在 sdlk 的大作中提到: 】
:指出你的两点认知错误:1、融合方案最大的问题是视觉与雷达出现识别矛盾怎么办?实际上加了激光雷达有利有弊,好处是晚上会好一
- 来自 水木社区APP v3.5.7
--
FROM 120.244.166.*
百度呢?
【 在 PeopleJoy 的大作中提到: 】
: 1、纯视觉是否成本更低?
: 纯视觉用摄像头,硬件成本比激光雷达低一个数量级。从车端硬件来说,确实如此。不过这个说法忽略了一点,采用纯视觉的模型,由于缺少精确的距离信息,要从中推断和建模需要的大模型的训练成本很高。据说特斯拉的大模型算力24年底预计会达到100 EFlops。
: 不加硬件,则成本需要加在软件和算力上。增加硬件传感器,比如激光雷达能直接提供距离信息,需要的训练成本很有可能会低于纯视觉。
: ...................
--
FROM 120.245.94.*