【实习】阿里通义语音实验室招实习生！

水木社区手机版

主题:【实习】阿里通义语音实验室招实习生！
楼主|McTyro|2026-05-06 13:29:21|只看此ID
Hi 同学们 ?，这里是阿里巴巴通义大模型事业部-语音实验室！
我们正在寻找对语音技术、大模型、多模态交互充满热情的研究型实习生，一起探索下一代人机交互的边界！?
? 我们在研究什么？（两大核心方向）
1? 面向人机交互的多模态语音感知增强 ?
● 打破传统：不再只追求频谱失真最小化，而是探索 “信号-语义”联合优化！
● 前沿探索：研究音频增强 Token 与 LLM（大语言模型）的端到端联合建模，利用大模型的语义预测能力修复弱网或强噪下的语音。
● 复杂场景：模拟人类“鸡尾酒会效应”，结合麦克风阵列与多模态空间信息，提升 AI 眼镜、智能音箱在嘈杂环境下的“听懂”能力。
2? 实时通信低延时音视频技术 ?
● 极致延迟：挑战极低的端到端延迟，实现真正的全双工自然对话！
● 生成式 AI 赋能：利用生成式 AI 预测并补全丢包/受损帧，结合视觉唇形等多模态信息，探索端到端神经 3A（AGC/ANS/AEC）联合优化，以及基于大模型先验的生成式实时语音修复。
● 高效编解码：研究神经语义音频编解码器，在极低码率下实现高保真音质，解决弱网下的语音完整性难题。
??♂ 我们希望你是：
● 硕士/博士在读，计算机、通信、人工智能、电子信息等相关专业。
● 熟悉 Python/PyTorch，在语音增强、分离、编解码或大模型领域有深入研究。
● 对语音信号处理、大模型、多模态学习有浓厚兴趣，有相关项目经验者加分！?
● 加分项：有 ICASSP, Interspeech, ACL, NeurIPS 等顶会论文发表或投稿经历。
? 你将获得：
● ? 前沿视野：接触阿里最前沿的大模型语音交互技术，落地 AI 眼镜、通义听悟、分布式麦克风等核心产品。
● ? 学术产出：团队强力支持发表顶级会议/期刊论文，并提供丰富的专利申报机会。
● ? 顶级资源：海量真实场景数据 + 强大算力支持，资深算法专家一对一指导。
● ? 阿里福利：具有竞争力的实习津贴 + 阿里食堂美食 + 舒适办公环境 + 优秀者转正机会！
? 如何投递？
感兴趣的同学请私信我，或发送简历至 [tongyi-speech-jobs@list.alibaba-inc.com]
邮件主题格式：姓名-学校-年级-研究方向
期待与你一起，用声音连接未来！?
--
FROM 59.82.59.*