鸟瞰视角(Bird's Eye View,简称BEV);21年tsl引入了transformer,将多摄像头特征融合到bev对齐,然后在bev特征向量空间进行目标检测,相较于之前先检测目标再融合的方式,跨摄像头的大目标的检测性能提升较大。单摄像头的误检降低较多。
直观上,就是大公交、长货车在侧面的抖动基本不见了,在右后侧还有略微的前后抖动。之前一部分莫名其妙的急刹是由于大货车抖动造成的。
不过,好像深色车辆检测效果一般。也许模型还没大规模本地化训练。
【 在 xiechuanhust 的大作中提到: 】
: bev是啥?
--
FROM 114.246.97.*