小米大模型语音团队,诚招算法研究员,职级open,base北京
一 语音合成研究员
职位描述:
1.负责语音合成的算法研发与落地,包括但不限于TTS前端、声学模型、声码器的算法实现和改进;
2.参与推动语音合成技术在产品中落地,针对业务场景做算法调优和效果提升;
3.追踪业界前沿的语音合成、语音理解及相关技术,探索并储备新技术能力,提高行业影响力。
职位要求:
1.具有语音合成、识别、理解等工作经验,语音、信号、计算机等相关专业背景或者项目经验;
2.熟悉大模型、zeroshot语音合成等技术,熟悉cosyvoice、fishspeech等开源工具;
3.有大数据大模型时代的思维;有数据pipeline工作经验优先;
4.熟练使用python,精通pytorch训练框架;
5.具有较强的学习能力,能够快速掌握和应用新技术;具备良好的团队合作精神和沟通能力;
6.有ICASSP、Interspeech等语音顶会论文和竞赛经验者优先;
7.愿意紧跟时代步伐,自驱力较强,不断学习。
二 音乐生成算法研究员
【职位描述】
1. 算法研发:
- 设计并优化基于深度学习(如Transformer、Diffusion、GAN、VAE等)的音乐生成模型,涵盖旋律、和声、节奏、音色等多维度生成任务。
- 探索多模态音乐生成(如文本/图像/视频驱动音乐创作、哼唱转谱等)。
- 研究音乐符号(MIDI/乐谱)与音频(波形/频谱)的联合建模技术。
2. 工程落地:
- 将算法部署到生产环境,优化推理效率(模型压缩、蒸馏、边缘端适配)。
- 构建高质量音乐数据集,设计数据清洗、标注与评估流程。
3. 跨领域协作:
- 与音乐制作人合作调试生成结果的艺术性,平衡“可控性”与“创造性”。
- 参与产品需求定义,将技术转化为用户可感知的音乐创作工具。
【职位要求】
1、计算机科学、人工智能、信号处理、音乐技术等相关专业本科及以上学历。
2、熟悉Pytorch等深度学习框架,具备4年以上序列建模或多模态生成经验。
3、熟悉音乐理论(和声/调式/节奏)或具备数字音频处理(DSP)基础,能解读乐谱/MIDI。
4、主导过1个以上音乐AI项目(如旋律生成、歌声合成、风格迁移等)的完整生命周期。
【加分项】
1、发表过ICLR/NeurIPS/ISMIR等顶会论文,或拥有音乐生成相关专利。
2、精通音频信号处理(STFT、CQT、声码器如HiFi-GAN、NSF)。
3、 熟悉音乐制作工具(Ableton Live、Logic Pro)或DAW插件开发(VST/AU)。
4、参与过开源音乐AI项目(如Magenta、Jukebox、MusicLM)。
三 大模型音频算法研究员
职位描述:
1.聚焦音效(V2A,T2VA,空间音频)生成、编辑、声音分离等大模型技术研究,涵盖多模态融合;
2.探索和落地先进的音频处理与计算声学技术,解决复杂声学场景下的核心挑战。包括但不限于:沉浸式音频渲染、声源分离与增强、声场控制与个性化重放等;
3.落地汽车、手机、音箱等小米应用场景,每年发表顶会论文1-2篇或申请专利2-3项。
职位要求:
1. 计算机、人工智能、声学等相关专业;精通主流的音频生成模型框架(如Diffusion, Transformer, VAE等),并对AIGC领域的最新进展有深入的理解;
2. 具备将前沿算法落地到实际产品的完整项目经验,深刻理解模型训练、优化、部署的全链路流程;
3. 在音频/语音AIGC(如音效生成、音乐生成)领域有深入的研发经验;
4. 熟悉以下一项或多项技术并有相关项目经验者优先:
- 空间音频与沉浸式体验技术(如Dolby Atmos, 3D Audio Rendering)
- 多扬声器重放技术(如声场控制、模拟声浪等)
5. 在相关领域的顶级学术会议或期刊(如ICASSP, INTERSPEECH, NeurIPS, ICML等)发表过论文者优先;
6. 有高质量开源项目开发和贡献经验者优先。
投递邮箱:sundawei3@xiaomi.com
投递格式:水木社区+姓名+应聘岗位
可添加微信咨询职位详情:1035892905
--
FROM 1.202.162.*