- 主题:智驾最怕的就是遇到不认识的东西
研究过图像识别的朋友知道,大模型的输出,对应的是一个物品列表,和每一个物品的概率,这个物品列表里面的东西数量是有限的。
比如,一个视频图像送进大模型,正常情况下会输出下面数据:
大卡车:95%
小汽车:2%
猫:1%
人:0.5%
软件通过一个阈值,例如90%,来判断前方物体,然后做出减速,规避等等动作决策。
正常情况下没有问题,上面例子中,模型识别到了大卡车。但是一旦遇到不认识的东西,就会产生下面这种输出:
大卡车:21%
小汽车:12%
猫:10%
人:7%
物品列表中所有东西的概率都没有到达90%的阈值,结果就是模型认为前方没有任何能够引发规避动作的物品,所以车子不会减速也不会避让。这也是为什么很多智驾引起的事故,明明检测到障碍却还是撞上去的原因。
从这个角度来说,我认为激光雷达和视觉一样都有这个局限。核心不在是否更精准检测到障碍,而是是否认识那个障碍物。
--
修改:kof94 FROM 120.229.48.*
FROM 120.229.48.*
搜索:占用网络,通用障碍物
--
FROM 183.194.105.*
长尾问题
【 在 kof94 的大作中提到: 】
: 研究过图像识别的朋友知道,大模型的输出,对应的是一个物品列表,和每一个物品的概率,这个物品列表里面的东西数量是有限的。
:
: 比如,一个视频图像送进大模型,正常情况下会输出下面数据:
:
: 大卡车:95%
: 小汽车:2%
: 猫:1%
: 人:0.5%
:
: 软件通过一个阈值,例如90%,来判断前方物体,然后做出减速,规避等等动作决策。
:
: 正常情况下没有问题,上面例子中,模型识别到了大卡车。但是一旦遇到不认识的东西,就会产生下面这种输出:
:
: 大卡车:21%
: 小汽车:12%
: 猫:10%
: 人:7%
:
: 物品列表中所有东西的概率都没有到达90%的阈值,结果就是模型认为前方没有任何能够引发规避动作的物品,所以车子不会减速也不会避让。这也是为什么很多智驾引起的事故,明明检测到障碍却还是撞上去的原因。
:
: 从这个角度来说,我认为激光雷达和视觉一样都有这个局限。核心不在是否更精准检测到障碍,而是是否认识那个障碍物。
发自「快看水母 于 BVL-AN00」
--
FROM 111.19.35.*
如果不认为是障碍物呢?
【 在 toppilot 的大作中提到: 】
: 搜索:占用网络,通用障碍物
: --
发自「今日水木 on SM-G9910」
--
FROM 39.144.244.*
建议还是要单独训练图像识别功能
就是给各种视频数据去喂
像以前字符识别,就是靠验证码输入给出了大量的样本
这个也一样,需要大量的各种角度的摄像头数据去训练,提高识别准确率
【 在 kof94 的大作中提到: 】
: 研究过图像识别的朋友知道,大模型的输出,对应的是一个物品列表,和每一个物品的概率,这个物品列表里面的东西数量是有限的。
: 比如,一个视频图像送进大模型,正常情况下会输出下面数据:
: 大卡车:95%
: ...................
--
FROM 124.207.9.*
说明激光雷达数据融合玩砸了
本来设计成激光雷达探测到障碍物就刹车,把激光雷达当成机械拐棍,就不会撞上。
非要搞多数据融合,这样激光雷达识别出障碍物被忽略了,就撞了。
【 在 kof94 的大作中提到: 】
: 研究过图像识别的朋友知道,大模型的输出,对应的是一个物品列表,和每一个物品的概率,这个物品列表里面的东西数量是有限的。比 ...
--
FROM 124.64.17.*
你这还是基于规则的思路,早过时了
--
FROM 36.112.101.*
你说的情况曾经还是个问题,然而有了端到端技术后,激光的点云正好跟摄像头内容一起喂进去训练,再也不用考虑前融合后融合问题了。
【 在 vta 的大作中提到: 】
: 说明激光雷达数据融合玩砸了
:
: 本来设计成激光雷达探测到障碍物就刹车,把激光雷达当成机械拐棍,就不会撞上。
: ...................
--
FROM 36.112.101.*
人工智能AI都不能有效分辨信息的真假,更何况所谓的智能驾驶?
--
FROM 49.67.25.*
主要还是机制不一样,主要差异是人靠开车学习的占比很小,而是在日常生活的积累,比开车这种单一场景丰富太多了
但智驾只能通过开车这种场景学习
激光雷达在这种问题上强纯视觉太多了
--
修改:xtlove87 FROM 36.110.73.*
FROM 36.110.73.*