我靠,看来当年毕业的时候没做cv是对的。。
多少年了终于有大发展了。。。
【 在 hsv 的大作中提到: 】
: 对,8个摄像头的特征通过transformer,变换到了bird view的特征向量,特征向量后面接分类、测速、分割等各子网络。
: 对,借用nlp的transformer,把图像分块embedding,有transformer得到特征,后续可以分类/分割/检测,去年有ViT,今年有Swin,已经取代了原来one-stage/two-stage目标检测算法,开始再cv领域屠榜了……
--
FROM 116.233.168.*