- 主题:特斯拉的纯视觉方案怎么解决黑暗环境下的识别
走夜路配合强光手电是不是就ok了,车上也装备上
【 在 BruceWang 的大作中提到: 】
: 典型的不懂装懂
: 激光雷达不能识别坑,铁架子那还叫激光雷达吗?
: 视觉能准确识别坑和铁架子,你走夜路也就不会摔跤了。
: ...................
--
FROM 223.106.119.*
那也照不清楚路上的水坑和井盖,另外北方雪天走过夜路的都知道靠肉眼很难辨认被雪盖住的凸起。
【 在 richiter 的大作中提到: 】
: 走夜路配合强光手电是不是就ok了,车上也装备上
:
--
FROM 98.158.95.*
现在的算力连高质量的视觉信息都处理不过来,再加上激光雷达信息还要考虑融合开销,AI负担岂不是更重了
【 在 goldenbug 的大作中提到: 】
: 偷换概念啊,用激光雷达不是只用激光雷达
--
FROM 14.154.57.*
处理视频流更消耗算力,因为信息密度比激光雷达高太多了(帧率和分辨率都要高几个量级)。
融合的开销可以忽略不计,现在端到端大模型方案下,无论多少种模态,都是被编码器向量化之后嵌入大模型里的。
简单的讲,十个摄像头的视觉感知,相比同样9个摄像头+一个激光雷达的方案,更吃算力。
特斯拉这套纯视觉的方案现阶段唯一的有点就是低成本,硬件成本降低(几百元的摄像头VS上万的激光雷达)并且软件架构极简,从视觉感知直接到行车指令。
【 在 djkstra 的大作中提到: 】
: 现在的算力连高质量的视觉信息都处理不过来,再加上激光雷达信息还要考虑融合开销,AI负担岂不是更重了
:
--
FROM 98.158.95.*
信息看的是质量,也就是熵,不看密度的,高密度可以轻松转换成低密度,降分辨率抽帧又不消耗算力,
但你低密度信息不能生成高密度的,插帧修复这些才要消耗算力
【 在 BruceWang 的大作中提到: 】
: 处理视频流更消耗算力,因为信息密度比激光雷达高太多了(帧率和分辨率都要高几个量级)。
: 融合的开销可以忽略不计,现在端到端大模型方案下,无论多少种模态,都是被编码器向量化之后嵌入大模型里的。
: 简单的讲,十个摄像头的视觉感知,相比同样9个摄像头+一个激光雷达的方案,更吃算力。
: ...................
--
FROM 14.154.57.*
这些信息处理的工程方法肯定都有应用,高速上肯定降低帧率,路口帧率拉满。但是不影响我的结论
【 在 djkstra 的大作中提到: 】
: 信息看的是质量,也就是熵,不看密度的,高密度可以轻松转换成低密度,降分辨率抽帧又不消耗算力,
: 但你低密度信息不能生成高密度的,插帧修复这些才要消耗算力
:
--
FROM 98.158.95.*
即使不说信息质量,你也没考虑融合问题,激光雷达要和视频图像去对准,这个也很费劲
【 在 BruceWang 的大作中提到: 】
: 这些信息处理的工程方法肯定都有应用,高速上肯定降低帧率,路口帧率拉满。但是不影响我的结论
--
FROM 14.154.57.*
无论视频帧还是激光雷达帧,都带有时间戳的,按照时间戳去视频里抽帧,编码后嵌入大模型,有什么费劲的。
你说的费劲还停留在上古的后融合方案里面,现在端到端都前融合了,天然解决了多模态对齐的问题。
【 在 djkstra 的大作中提到: 】
: 即使不说信息质量,你也没考虑融合问题,激光雷达要和视频图像去对准,这个也很费劲
:
--
FROM 98.158.95.*
现在主摄像头都是36帧的,而激光雷达只有20帧,这完全不同步啊怎么嵌入,
而且激光雷达每一帧都是逐点机械扫描出来的,别说跟摄像头的平面整体成像去对齐了,
自己每帧都存在垂直同步的问题,这在高速条件下尤为明显,
这个数据质量丢给端到端,搞不好就是负作用,把摄像头信息也给污染了
我觉得这也是大白天的大货停那激光雷达都看不见硬往上撞的原因
【 在 BruceWang 的大作中提到: 】
: 无论视频帧还是激光雷达帧,都带有时间戳的,按照时间戳去视频里抽帧,编码后嵌入大模型,有什么费劲的。
: 你说的费劲还停留在上古的后融合方案里面,现在端到端都前融合了,天然解决了多模态对齐的问题。
--
FROM 14.154.57.*
大灯吧,当然少数场景肯定有问题就是了,比如后向视野 几乎看不了多少了
【 在 luochy 的大作中提到: 】
: 如果不是为了降成本
: 凭啥一直吹纯视觉方案,还一堆粉丝
:
--
FROM 120.197.40.*