- 主题:GPT4o来了
原生多模态有三个特点:一是端到端做训练,二是实现了多模态的统一训练,能读、能听、能说,三是实现复杂推理。
【 在 jackzhaocn 的大作中提到: 】
: 强大的多模态能力!
: :学阀们到底搞出了什么?:OAI已经惊艳全世界了!
: - 来自 水木社区APP v3.5.7
--
FROM 222.247.199.*
多模态的大模型,简单点说就是把其他模态例如语音,图像,视频啥的也转化为类似文本一样的字符序列,这样也可以用NLP领域处理文本的大模型技术来处理这些其他模态的数据,多个模态的数据可以捆绑在一起训练,实现所谓的原生多模态。相关论文之前就有了,中国高校的学者这方面也有贡献,还听过他的现场报告,毕竟学术界总是先于工业界。OpenAI能把这些技术落地,国内的大模型企业也能落地。
【 在 mizhahu 的大作中提到: 】
: 学阀们到底搞出了什么?
: OAI已经惊艳全世界了!
--
修改:forevers FROM 222.247.199.*
FROM 222.247.199.*
这些是常规的语音识别,不是现在的NLP大模型把语音数据加进来一起训练实现的多模态的语音识别。
【 在 gtgtjing 的大作中提到: 】
: 各种聊天工具几年前就可以语音输入转成文字了
--
FROM 222.247.199.*