“我国ai失败的原因很简单,数据不够海量,规模和openai没法比”
这个reason也找的不对,sora的训练数据90%以上大概率是合成的(参考dall-e 3),模型参数、高质量数据、充足的pretrain token、以及充分的训练(gflops)都很重要
【 在 Barbarossa 的大作中提到: 】
: Chatgpt基于大语言模型llm的基本单位token,也就是文本程序代码数字,这种基本构件块就是chatgpt底层颗粒,对它进行大规模训练后,就能生成chatgpt产生的结果结果。
: Sora的工作原理完全一样,只是它基于的颗粒是一个个小的图像块,是由各种视频和图像拆解生成的。对这些颗粒进行大规模训练后,就能生成出sora产出的东西。由此可见,从语料的角度看,chatgpt和sora没有什么不同。
: 其次,从算法角度看,chatgpt和sora都是通过一种条件扩散算法diffusion transformer来实现训练。预训练前也进行降维压缩,和深度学习原理一样。训练后得到原始像素空间,用来生成各种视频。
: ...................
--
FROM 114.251.196.*