现在主摄像头都是36帧的,而激光雷达只有20帧,这完全不同步啊怎么嵌入,
而且激光雷达每一帧都是逐点机械扫描出来的,别说跟摄像头的平面整体成像去对齐了,
自己每帧都存在垂直同步的问题,这在高速条件下尤为明显,
这个数据质量丢给端到端,搞不好就是负作用,把摄像头信息也给污染了
我觉得这也是大白天的大货停那激光雷达都看不见硬往上撞的原因
【 在 BruceWang 的大作中提到: 】
: 无论视频帧还是激光雷达帧,都带有时间戳的,按照时间戳去视频里抽帧,编码后嵌入大模型,有什么费劲的。
: 你说的费劲还停留在上古的后融合方案里面,现在端到端都前融合了,天然解决了多模态对齐的问题。
--
FROM 14.154.57.*