Hi 同学们 ?,这里是 阿里巴巴通义大模型事业部-语音实验室!
我们正在寻找对 语音技术、大模型、多模态交互 充满热情的研究型实习生,一起探索下一代人机交互的边界!?
? 我们在研究什么?(两大核心方向)
1? 面向人机交互的多模态语音感知增强 ?
● 打破传统: 不再只追求频谱失真最小化,而是探索 “信号-语义”联合优化!
● 前沿探索: 研究音频增强 Token 与 LLM(大语言模型) 的端到端联合建模,利用大模型的语义预测能力修复弱网或强噪下的语音。
● 复杂场景: 模拟人类“鸡尾酒会效应”,结合麦克风阵列与多模态空间信息,提升 AI 眼镜、智能音箱在嘈杂环境下的“听懂”能力。
2? 实时通信低延时音视频技术 ?
● 极致延迟: 挑战极低的端到端延迟,实现真正的全双工自然对话!
● 生成式 AI 赋能: 利用生成式 AI 预测并补全丢包/受损帧,结合视觉唇形等多模态信息,探索 端到端神经 3A(AGC/ANS/AEC)联合优化,以及基于大模型先验的 生成式实时语音修复。
● 高效编解码: 研究神经语义音频编解码器,在极低码率下实现高保真音质,解决弱网下的语音完整性难题。
??♂ 我们希望你是:
● 硕士/博士在读,计算机、通信、人工智能、电子信息等相关专业。
● 熟悉 Python/PyTorch,在语音增强、分离、编解码或大模型领域有深入研究。
● 对语音信号处理、大模型、多模态学习有浓厚兴趣,有相关项目经验者加分!?
● 加分项: 有 ICASSP, Interspeech, ACL, NeurIPS 等顶会论文发表或投稿经历。
? 你将获得:
● ? 前沿视野: 接触阿里最前沿的大模型语音交互技术,落地 AI 眼镜、通义听悟、分布式麦克风 等核心产品。
● ? 学术产出: 团队强力支持发表 顶级会议/期刊论文,并提供丰富的专利申报机会。
● ? 顶级资源: 海量真实场景数据 + 强大算力支持,资深算法专家一对一指导。
● ? 阿里福利: 具有竞争力的实习津贴 + 阿里食堂美食 + 舒适办公环境 + 优秀者转正机会!
? 如何投递?
感兴趣的同学请 私信 我,或发送简历至 [tongyi-speech-jobs@list.alibaba-inc.com]
邮件主题格式:姓名-学校-年级-研究方向
期待与你一起,用声音连接未来!?
--
FROM 59.82.59.*