信息看的是质量,也就是熵,不看密度的,高密度可以轻松转换成低密度,降分辨率抽帧又不消耗算力,
但你低密度信息不能生成高密度的,插帧修复这些才要消耗算力
【 在 BruceWang 的大作中提到: 】
: 处理视频流更消耗算力,因为信息密度比激光雷达高太多了(帧率和分辨率都要高几个量级)。
: 融合的开销可以忽略不计,现在端到端大模型方案下,无论多少种模态,都是被编码器向量化之后嵌入大模型里的。
: 简单的讲,十个摄像头的视觉感知,相比同样9个摄像头+一个激光雷达的方案,更吃算力。
: ...................
--
FROM 14.154.57.*