纯视觉与融合感知方案优劣对比

水木社区手机版

主题:纯视觉与融合感知方案优劣对比
楼主|PeopleJoy|2024-07-08 18:15:43|只看此ID
1、纯视觉是否成本更低？
纯视觉用摄像头，硬件成本比激光雷达低一个数量级。从车端硬件来说，确实如此。不过这个说法忽略了一点，采用纯视觉的模型，由于缺少精确的距离信息，要从中推断和建模需要的大模型的训练成本很高。据说特斯拉的大模型算力24年底预计会达到100 EFlops。
不加硬件，则成本需要加在软件和算力上。增加硬件传感器，比如激光雷达能直接提供距离信息，需要的训练成本很有可能会低于纯视觉。

FSD目前的买断价格为1万美元，反馈到用户终端的价格确实不便宜，几乎是所有L2级厂商里面最贵的。有2种可能，一是是FSD的训练成本确实比较高，二是特斯拉的纯视觉方案成本并不高，价格高是在追求更高的毛利。以特斯拉多次降价的历史来看，比较大的还是第1种可能。

2、纯视觉是否通用性更好？
理论上纯视觉只需要摄像头，虽然传感器看起来是通用的，但实际上FSD v12并不支持HW3.0以下的硬件，
要让老旧车型也升级，除非更换推理模块的硬件，而且HW4.0和HW3.0硬件上也不兼容，已经安装HW3.0的车没法换装HW4.0。纯视觉方案向下的兼容性优势并不明显。

3、激光雷达的数据是否属于大模型训练的冗余数据？
并不是，激光雷达的作用在于给车的周边做建模，和纯视觉相比，类似于在平面地图上给出了等高线，这些深度信息，正是纯视觉用各种算法希望拟合得到的信息，只是由于算法、现实环境和物理硬件的局限，精度做不到很准确，激光雷达数据是视觉信息很好的补充。

4、纯视觉和融合感知哪个更难？
很难说。对于同样采用端到端架构的模型来说，融合方案在感知层更复杂。
纯视觉由于需要自己算深度信息，模型训练需要的数据量更大。

5、纯视觉和融合感知哪个效果更好？
从scaling law来说，模型的参数越多、训练数据越多、投入算力越大，模型的能力越强。在训练数据和算力足够的情况下，融合感知模型的能力大于纯视觉。
这里的问题在于，纯视觉的上限和融合感知的上限分别在哪儿，目前还不明确。

6、纯视觉方案的优势是什么？劣势是什么？
纯视觉传感器硬件成本低。劣势是单一传感器在恶劣环境的失效问题，而且这种失效并不能通过增加摄像头数量来弥补。

7、融合感知方案的优势是什么？劣势是什么？
雷达+视觉有更高的上限。劣势是传感器成本更高，复杂度高，以及比纯视觉的理论上限高出来的差距，是否能让用户愿意支付这部份的成本。

8、为啥特斯拉坚持纯视觉方案？
即使在智驾还不完善的2016年，特斯拉也敢于上线开启大规模用户测试。可见特斯拉并不太在意方案的完善度，一些边界条件和极端环境，等后面遇到了慢慢迭代就行，风格比较激进。
在美国特斯拉能对标的是Waymo，与其相比，特斯拉的纯视觉方案确实价格低，效果也不错，这也是特斯拉坚持纯视觉的底气。
如果纯视觉最终的上限能达到L3的要求，以特斯拉积累的数据，很可能是最快达到这个目标的车厂。
就目前的进度，FSD v12可能1-2年就会达到纯视觉的上限，就看这个上限能覆盖到L2、L3还是更高。

9、特斯拉是否还有能力走多传感器融合的路？
实际已经不存在这个可能。由于最初激光雷达成本高，特斯拉放弃了这条路线，现在已经没办法转向融合的方案，从头开始积累多传感器的数据了，只能纯视觉一条路走到底。
--
FROM 111.172.237.*
1楼|bajiao2012|2024-07-08 19:22:06|只看此ID
9说的很对。特斯拉不用激光雷达，有他的历史原因。而这种历史原因，就是成本。而且因为这个历史原因，不可能再用激光雷达，因为模型可以重做，数据不可再生，只能补充。
--
FROM 114.246.236.*
2楼|Vas|2024-07-08 19:47:53|只看此ID
特斯拉FSD现在美国价格是8000美元，不过也可以选择租赁，每个月99美元。
--
FROM 98.160.216.*
3楼|Vas|2024-07-08 19:54:27|只看此ID
waymo这几年迭代似乎也很慢，从开始在凤凰城做robotaxi (只有特定区域，而且基本上速度不快)，到后来去旧金山，也好几年了。Cruise在旧金山搞，但是因为出了几次车祸啥的，好像被叫停扩张了。

特斯拉的FSD beta因为没有做robotaxi，倒是一直在扩大用户测试范围(现在大概有好几十万辆车了)，所以也应该收集了比waymo多几个数量级的数据。
--
FROM 98.160.216.*
4楼|gaozhuang1|2024-07-08 21:52:41|只看此ID
哪个贵哪个好
--
FROM 114.93.138.*
5楼|sdlk|2024-07-09 05:46:06|只看此ID
指出你的两点认知错误：1、融合方案最大的问题是视觉与雷达出现识别矛盾怎么办？实际上加了激光雷达有利有弊，好处是晚上会好一些，坏处就是识别矛盾。这些采用融合方案的厂家，是因为视觉识别水平低，根本没法用，所以不得已采用贵的方案；2、视觉测距没有什么门槛，人眼就是视觉测距，而且开车并不需要精确测距。

自动驾驶是不会有什么前途，原因有两个：1）摄像头跟人眼比差得太远，人眼是无限像素，而且自动调焦；2）人的大脑对模糊事件的处理速度和准确度，比芯片和算法强太多，好比你换个发型，认识你的小区保安也知道是你，但刷脸系统可能要好几遍。

【在 PeopleJoy 的大作中提到: 】
: 1、纯视觉是否成本更低？
: 纯视觉用摄像头，硬件成本比激光雷达低一个数量级。从车端硬件来说，确实如此。不过这个说法忽略了一点，采用纯视觉的模型，由于缺少精确的距离信息，要从中推断和建模需要的大模型的训练成本很高。据说特斯拉的大模型算力24年底预计会达到100 EFlops。
: 不加硬件，则成本需要加在软件和算力上。增加硬件传感器，比如激光雷达能直接提供距离信息，需要的训练成本很有可能会低于纯视觉。
: ...................
--
FROM 124.205.79.*
6楼|alisha777|2024-07-09 07:20:12|只看此ID
我个人也是不觉得完全自动驾驶对个人用户有什么必要性，所以我更在意的是辅助驾驶能够拓宽安全边界，识别一些我开车识别不了的危险，比如进隧道后立马出现的故障车，比如夜间高速上的事故车，比如我曾遇到的夜里高速左道逆行的傻逼，比如通过车路协同提醒我高速上匝道现在车辆汇入，从这个角度来说当然是多重感知更好，能做到一些视觉做不到的事情

【在 sdlk 的大作中提到: 】
:指出你的两点认知错误：1、融合方案最大的问题是视觉与雷达出现识别矛盾怎么办？实际上加了激光雷达有利有弊，好处是晚上会好一

- 来自水木社区APP v3.5.7
--
FROM 120.244.166.*
7楼|topperxin|2024-07-09 07:23:02|只看此ID
百度呢？

【在 PeopleJoy 的大作中提到: 】
: 1、纯视觉是否成本更低？
: 纯视觉用摄像头，硬件成本比激光雷达低一个数量级。从车端硬件来说，确实如此。不过这个说法忽略了一点，采用纯视觉的模型，由于缺少精确的距离信息，要从中推断和建模需要的大模型的训练成本很高。据说特斯拉的大模型算力24年底预计会达到100 EFlops。
: 不加硬件，则成本需要加在软件和算力上。增加硬件传感器，比如激光雷达能直接提供距离信息，需要的训练成本很有可能会低于纯视觉。
: ...................
--
FROM 120.245.94.*