多模态的大模型,简单点说就是把其他模态例如语音,图像,视频啥的也转化为类似文本一样的字符序列,这样也可以用NLP领域处理文本的大模型技术来处理这些其他模态的数据,多个模态的数据可以捆绑在一起训练,实现所谓的原生多模态。相关论文之前就有了,中国高校的学者这方面也有贡献,还听过他的现场报告,毕竟学术界总是先于工业界。OpenAI能把这些技术落地,国内的大模型企业也能落地。
【 在 mizhahu 的大作中提到: 】
: 学阀们到底搞出了什么?
: OAI已经惊艳全世界了!
--
修改:forevers FROM 222.247.199.*
FROM 222.247.199.*