长尾问题
【 在 kof94 的大作中提到: 】
: 研究过图像识别的朋友知道,大模型的输出,对应的是一个物品列表,和每一个物品的概率,这个物品列表里面的东西数量是有限的。
:
: 比如,一个视频图像送进大模型,正常情况下会输出下面数据:
:
: 大卡车:95%
: 小汽车:2%
: 猫:1%
: 人:0.5%
:
: 软件通过一个阈值,例如90%,来判断前方物体,然后做出减速,规避等等动作决策。
:
: 正常情况下没有问题,上面例子中,模型识别到了大卡车。但是一旦遇到不认识的东西,就会产生下面这种输出:
:
: 大卡车:21%
: 小汽车:12%
: 猫:10%
: 人:7%
:
: 物品列表中所有东西的概率都没有到达90%的阈值,结果就是模型认为前方没有任何能够引发规避动作的物品,所以车子不会减速也不会避让。这也是为什么很多智驾引起的事故,明明检测到障碍却还是撞上去的原因。
:
: 从这个角度来说,我认为激光雷达和视觉一样都有这个局限。核心不在是否更精准检测到障碍,而是是否认识那个障碍物。
发自「快看水母 于 BVL-AN00」
--
FROM 111.19.35.*