如果以具身智能理解整个AI系统,你会发现可以改变,以及急切需要改变的实在太多了。
首先是感知,基于现有的感知模型和端侧的算力,现在的3D BEV、OCC占用网络、2D ViT,有效的感知距离(而非理论上最大)只有100多米,远远不如人类的眼睛。如果升级成人眼工作原理相似的3D ViT,有效距离可以扩大2-3倍,今天我们辅助驾驶可能50%以上的常见问题,自然就解决了。3D ViT不仅限于自动驾驶的领域,在车外和车主的主动交互与服务,在车内与家人的主动交互和服务,也就变成了可能。这需要感知模型的研究和研发的重大突破,还必须有M100这样为具身智能定制设计的芯片和编译器团队高效率的配合才可以实现。
其次是模型,有了3D ViT才有了真正的对物理世界的理解,VLA模型中的VL才可以更好的对于物理世界的感知和理解,人类的数据才可以更高效率的被用于训练,世界模型生成的数据才可以更好的去完善训练。现有最好的计算平台,一个4B MoE的模型运行帧率是有10Hz,而执行系统是60Hz,如果模型运行的帧率可以快2-3倍,现在辅助驾驶的一些舒适性的问题、反应迟钝的问题都可以有效的解决。这同样需要对传统的GPU架构和算力进行深度的改造和定制,以及专有的操作系统。M100芯片就是为了解决具身智能这些本质的问题而研发的。
最后是本体,人类的刹车、转向的最快响应速度在450毫秒左右,目前自动驾驶从感知到执行的完整链路在550毫秒左右,坐在驾驶员的位置本能的反应就是慢很多,像老年人在开车。线控体系可以把整个链路的响应速度提升到350毫秒,别小看这200毫秒的差距,这大概可以把事故率下降50%以上,而且让人感觉车开的比自己还要好、还要安全。既是理性的真安全,又是感性的安全感。基于这样的需求,整个控制的方式都会变得完全不同。
如果只是关注于语言智能那样模型规模的提升,模型规模扩大一倍,算力提升带来的性能提升只有5-10%。如果从具身智能整体来看,每个环节全系统的去解决最关键的问题,下一轮自动驾驶的性能提升应该有5-10倍。具身智能为用户提供自动和主动的快速交互和真实服务的能力,更是有和无的质变。
过去三年,我们对于具身智能完整系统的技术储备,让我们下一代的产品充满信心,具身智能机器人的元年从汽车机器人正式开启,千亿收入只是起步
【 在 rocfirst 的大作中提到: 】
: 这个不是高中生的课题
: 现在车厂因为有辅助驾驶都投资做机器人,但是家用机器人比自动驾驶会更早实现,不是一个系统的,车厂这一步并没有优势,只是个噱头
:
--
FROM 120.244.214.*