研究过图像识别的朋友知道,大模型的输出,对应的是一个物品列表,和每一个物品的概率,这个物品列表里面的东西数量是有限的。
比如,一个视频图像送进大模型,正常情况下会输出下面数据:
大卡车:95%
小汽车:2%
猫:1%
人:0.5%
软件通过一个阈值,例如90%,来判断前方物体,然后做出减速,规避等等动作决策。
正常情况下没有问题,上面例子中,模型识别到了大卡车。但是一旦遇到不认识的东西,就会产生下面这种输出:
大卡车:21%
小汽车:12%
猫:10%
人:7%
物品列表中所有东西的概率都没有到达90%的阈值,结果就是模型认为前方没有任何能够引发规避动作的物品,所以车子不会减速也不会避让。这也是为什么很多智驾引起的事故,明明检测到障碍却还是撞上去的原因。
从这个角度来说,我认为激光雷达和视觉一样都有这个局限。核心不在是否更精准检测到障碍,而是是否认识那个障碍物。
--
修改:kof94 FROM 120.229.48.*
FROM 120.229.48.*