有点意思,
看来用2d静态方法是吃力不讨好,
在3d动态(序列)中分割和识别才接近视觉的本质,而且可能更高效,
还有另外一个好处,直接获得了物体的速度矢量。
【 在 hsv 的大作中提到: 】
: 对,8个摄像头的特征通过transformer,变换到了bird view的特征向量,特征向量后面接分类、测速、分割等各子网络。
: 对,借用nlp的transformer,把图像分块embedding,有transformer得到特征,后续可以分类/分割/检测,去年有ViT,今年有Swin,已经取代了原来one-stage/two-stage目标检测算法,开始再cv领域屠榜了……
--
FROM 101.88.5.*