Chatgpt基于大语言模型llm的基本单位token,也就是文本程序代码数字,这种基本构件块就是chatgpt底层颗粒,对它进行大规模训练后,就能生成chatgpt产生的结果结果。
Sora的工作原理完全一样,只是它基于的颗粒是一个个小的图像块,是由各种视频和图像拆解生成的。对这些颗粒进行大规模训练后,就能生成出sora产出的东西。由此可见,从语料的角度看,chatgpt和sora没有什么不同。
其次,从算法角度看,chatgpt和sora都是通过一种条件扩散算法diffusion transformer来实现训练。预训练前也进行降维压缩,和深度学习原理一样。训练后得到原始像素空间,用来生成各种视频。
最后,从规模上看,两者都是通用模型,各自能把海量文本数据或者视频数据吃进肚里,海量的结果是大力出奇迹,能够产生各种意想不到的东西。
由此可见,我国ai失败的原因很简单,数据不够海量,规模和openai没法比,虽然国内诞生了三百多家各种行业大模型,却很少有人去用,无人问津。这种原因是致命的,规模小,数据质量差,使得我们可能永远赶不上国外人工智能,甚至差距会指数增大。
--
FROM 61.146.44.*