处理视频流更消耗算力,因为信息密度比激光雷达高太多了(帧率和分辨率都要高几个量级)。
融合的开销可以忽略不计,现在端到端大模型方案下,无论多少种模态,都是被编码器向量化之后嵌入大模型里的。
简单的讲,十个摄像头的视觉感知,相比同样9个摄像头+一个激光雷达的方案,更吃算力。
特斯拉这套纯视觉的方案现阶段唯一的有点就是低成本,硬件成本降低(几百元的摄像头VS上万的激光雷达)并且软件架构极简,从视觉感知直接到行车指令。
【 在 djkstra 的大作中提到: 】
: 现在的算力连高质量的视觉信息都处理不过来,再加上激光雷达信息还要考虑融合开销,AI负担岂不是更重了
:
--
FROM 98.158.95.*