GPT4o来了

水木社区手机版

主题:GPT4o来了
4楼|forevers|2024-05-15 00:16:38|展开
原生多模态有三个特点：一是端到端做训练，二是实现了多模态的统一训练，能读、能听、能说，三是实现复杂推理。

【在 jackzhaocn 的大作中提到: 】
: 强大的多模态能力！
: :学阀们到底搞出了什么？:OAI已经惊艳全世界了！
: - 来自水木社区APP v3.5.7
--
FROM 222.247.199.*
9楼|forevers|2024-05-15 08:37:43|展开
多模态的大模型，简单点说就是把其他模态例如语音，图像，视频啥的也转化为类似文本一样的字符序列，这样也可以用NLP领域处理文本的大模型技术来处理这些其他模态的数据，多个模态的数据可以捆绑在一起训练，实现所谓的原生多模态。相关论文之前就有了，中国高校的学者这方面也有贡献，还听过他的现场报告，毕竟学术界总是先于工业界。OpenAI能把这些技术落地，国内的大模型企业也能落地。

【在 mizhahu 的大作中提到: 】
: 学阀们到底搞出了什么？
: OAI已经惊艳全世界了！
--
修改:forevers FROM 222.247.199.*
FROM 222.247.199.*
11楼|forevers|2024-05-15 09:07:01|展开
这些是常规的语音识别，不是现在的NLP大模型把语音数据加进来一起训练实现的多模态的语音识别。

【在 gtgtjing 的大作中提到: 】
: 各种聊天工具几年前就可以语音输入转成文字了
--
FROM 222.247.199.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版