建议还是要单独训练图像识别功能
就是给各种视频数据去喂
像以前字符识别,就是靠验证码输入给出了大量的样本
这个也一样,需要大量的各种角度的摄像头数据去训练,提高识别准确率
【 在 kof94 的大作中提到: 】
: 研究过图像识别的朋友知道,大模型的输出,对应的是一个物品列表,和每一个物品的概率,这个物品列表里面的东西数量是有限的。
: 比如,一个视频图像送进大模型,正常情况下会输出下面数据:
: 大卡车:95%
: ...................
--
FROM 124.207.9.*