对,8个摄像头的特征通过transformer,变换到了bird view的特征向量,特征向量后面接分类、测速、分割等各子网络。
【 在 zwordcn 的大作中提到: 】
: 这个 transformer 指的是图像处理的中的 转换?
: 还是类似 nlp 中的长程相关处理?
对,借用nlp的transformer,把图像分块embedding,有transformer得到特征,后续可以分类/分割/检测,去年有ViT,今年有Swin,已经取代了原来one-stage/two-stage目标检测算法,开始再cv领域屠榜了……
: tesla ai day 的视频没细看。
--
FROM 106.39.67.*