我的理解,基于视觉的模型,CNN也好Transformer,业界都有大量充分的工作作为基础。
相对而言,lidar的数据表现为点云,和图像数据在形态上有较大差别,那么问题就来了,你用什么样的方式喂给网络呢?
无非就两条路:
1、最理想的方式,针对lidar这种带有深度信息的点云,单独构造一套针对性的网络结构,来最大化利用里面的深度信息。
2、最简单的方式,直接把点云投影到多目普通摄像头视角,把投影结果跟其他视频流一样喂给视觉模型。
如果走第二条路最简单的方式,那很显然会出现数据污染。因为你的模型是按照实景训练的,而点云跟实景差距太大了,直接喂给它显然不合适,甚至点云这种充满高频信息的东西用CNN来处理是否合适都是个问题。
但如果走第一条的最理想路线,搞出一个网络来应该不难,但因为ai领域对lidar相关的数据研究工作规模远小于纯视觉,所以你很难说你搞出来的能同时接受视觉信息和lidar数据的单一网络在网络成熟度上是足够先进的。好比现在大家都在用transformer搞视觉了,你还在用vgg,这一下子就是大于5年的差距。
【 在 hicharlie 的大作中提到: 】
: 我是搞ai的,请教一下。
: 特斯拉说点,lidar和摄像头数据融合的时候容易出现数据污染,反而影响训练。所以他们完全放弃了lidar。
: 这个数据污染从训练的角度怎么理解。
: ...................
--
修改:lvsoft FROM 180.158.55.*
FROM 180.158.55.*