特斯拉的纯视觉方案怎么解决黑暗环境下的识别

水木社区手机版

主题:特斯拉的纯视觉方案怎么解决黑暗环境下的识别
60楼|richiter|2025-12-22 10:53:28|只看此ID
走夜路配合强光手电是不是就ok了，车上也装备上

【在 BruceWang 的大作中提到: 】
: 典型的不懂装懂
: 激光雷达不能识别坑，铁架子那还叫激光雷达吗？
: 视觉能准确识别坑和铁架子，你走夜路也就不会摔跤了。
: ...................
--
FROM 223.106.119.*
61楼|BruceWang|2025-12-22 11:00:18|只看此ID
那也照不清楚路上的水坑和井盖，另外北方雪天走过夜路的都知道靠肉眼很难辨认被雪盖住的凸起。

【在 richiter 的大作中提到: 】
: 走夜路配合强光手电是不是就ok了，车上也装备上
:
--
FROM 98.158.95.*
62楼|djkstra|2025-12-22 11:15:03|只看此ID
现在的算力连高质量的视觉信息都处理不过来，再加上激光雷达信息还要考虑融合开销，AI负担岂不是更重了

【在 goldenbug 的大作中提到: 】
: 偷换概念啊，用激光雷达不是只用激光雷达
--
FROM 14.154.57.*
63楼|BruceWang|2025-12-22 11:21:10|只看此ID
处理视频流更消耗算力，因为信息密度比激光雷达高太多了（帧率和分辨率都要高几个量级）。
融合的开销可以忽略不计，现在端到端大模型方案下，无论多少种模态，都是被编码器向量化之后嵌入大模型里的。
简单的讲，十个摄像头的视觉感知，相比同样9个摄像头+一个激光雷达的方案，更吃算力。
特斯拉这套纯视觉的方案现阶段唯一的有点就是低成本，硬件成本降低（几百元的摄像头VS上万的激光雷达）并且软件架构极简，从视觉感知直接到行车指令。
【在 djkstra 的大作中提到: 】
: 现在的算力连高质量的视觉信息都处理不过来，再加上激光雷达信息还要考虑融合开销，AI负担岂不是更重了
:
--
FROM 98.158.95.*
64楼|djkstra|2025-12-22 11:27:31|只看此ID
信息看的是质量，也就是熵，不看密度的，高密度可以轻松转换成低密度，降分辨率抽帧又不消耗算力，
但你低密度信息不能生成高密度的，插帧修复这些才要消耗算力

【在 BruceWang 的大作中提到: 】
: 处理视频流更消耗算力，因为信息密度比激光雷达高太多了（帧率和分辨率都要高几个量级）。
: 融合的开销可以忽略不计，现在端到端大模型方案下，无论多少种模态，都是被编码器向量化之后嵌入大模型里的。
: 简单的讲，十个摄像头的视觉感知，相比同样9个摄像头+一个激光雷达的方案，更吃算力。
: ...................
--
FROM 14.154.57.*
65楼|BruceWang|2025-12-22 11:30:21|只看此ID
这些信息处理的工程方法肯定都有应用，高速上肯定降低帧率，路口帧率拉满。但是不影响我的结论
【在 djkstra 的大作中提到: 】
: 信息看的是质量，也就是熵，不看密度的，高密度可以轻松转换成低密度，降分辨率抽帧又不消耗算力，
: 但你低密度信息不能生成高密度的，插帧修复这些才要消耗算力
:
--
FROM 98.158.95.*
66楼|djkstra|2025-12-22 11:34:00|只看此ID
即使不说信息质量，你也没考虑融合问题，激光雷达要和视频图像去对准，这个也很费劲

【在 BruceWang 的大作中提到: 】
: 这些信息处理的工程方法肯定都有应用，高速上肯定降低帧率，路口帧率拉满。但是不影响我的结论
--
FROM 14.154.57.*
67楼|BruceWang|2025-12-22 11:39:08|只看此ID
无论视频帧还是激光雷达帧，都带有时间戳的，按照时间戳去视频里抽帧，编码后嵌入大模型，有什么费劲的。
你说的费劲还停留在上古的后融合方案里面，现在端到端都前融合了，天然解决了多模态对齐的问题。
【在 djkstra 的大作中提到: 】
: 即使不说信息质量，你也没考虑融合问题，激光雷达要和视频图像去对准，这个也很费劲
:
--
FROM 98.158.95.*
68楼|djkstra|2025-12-22 14:05:58|只看此ID
现在主摄像头都是36帧的，而激光雷达只有20帧，这完全不同步啊怎么嵌入，
而且激光雷达每一帧都是逐点机械扫描出来的，别说跟摄像头的平面整体成像去对齐了，
自己每帧都存在垂直同步的问题，这在高速条件下尤为明显，
这个数据质量丢给端到端，搞不好就是负作用，把摄像头信息也给污染了
我觉得这也是大白天的大货停那激光雷达都看不见硬往上撞的原因

【在 BruceWang 的大作中提到: 】
: 无论视频帧还是激光雷达帧，都带有时间戳的，按照时间戳去视频里抽帧，编码后嵌入大模型，有什么费劲的。
: 你说的费劲还停留在上古的后融合方案里面，现在端到端都前融合了，天然解决了多模态对齐的问题。
--
FROM 14.154.57.*
69楼|autohawk|2025-12-22 14:13:46|只看此ID
大灯吧，当然少数场景肯定有问题就是了，比如后向视野几乎看不了多少了
【在 luochy 的大作中提到: 】
: 如果不是为了降成本
: 凭啥一直吹纯视觉方案，还一堆粉丝
:
--
FROM 120.197.40.*