【社招】【小米大模型】语音算法研究员（生成/音乐/音频）

水木社区手机版

展开|楼主|同主题展开|返回

主题:【社招】【小米大模型】语音算法研究员（生成/音乐/音频）
sundawei1024|2025-10-15 15:14:55|
小米大模型语音团队，诚招算法研究员，职级open，base北京

一语音合成研究员
职位描述：
1.负责语音合成的算法研发与落地，包括但不限于TTS前端、声学模型、声码器的算法实现和改进；
2.参与推动语音合成技术在产品中落地，针对业务场景做算法调优和效果提升；
3.追踪业界前沿的语音合成、语音理解及相关技术，探索并储备新技术能力，提高行业影响力。

职位要求：
1.具有语音合成、识别、理解等工作经验，语音、信号、计算机等相关专业背景或者项目经验；
2.熟悉大模型、zeroshot语音合成等技术，熟悉cosyvoice、fishspeech等开源工具；
3.有大数据大模型时代的思维；有数据pipeline工作经验优先；
4.熟练使用python，精通pytorch训练框架；
5.具有较强的学习能力，能够快速掌握和应用新技术；具备良好的团队合作精神和沟通能力；
6.有ICASSP、Interspeech等语音顶会论文和竞赛经验者优先；
7.愿意紧跟时代步伐，自驱力较强，不断学习。

二音乐生成算法研究员
【职位描述】
1. 算法研发：
  - 设计并优化基于深度学习（如Transformer、Diffusion、GAN、VAE等）的音乐生成模型，涵盖旋律、和声、节奏、音色等多维度生成任务。
  - 探索多模态音乐生成（如文本/图像/视频驱动音乐创作、哼唱转谱等）。
  - 研究音乐符号（MIDI/乐谱）与音频（波形/频谱）的联合建模技术。
2. 工程落地：
  - 将算法部署到生产环境，优化推理效率（模型压缩、蒸馏、边缘端适配）。
  - 构建高质量音乐数据集，设计数据清洗、标注与评估流程。
3. 跨领域协作：
  - 与音乐制作人合作调试生成结果的艺术性，平衡“可控性”与“创造性”。
  - 参与产品需求定义，将技术转化为用户可感知的音乐创作工具。

【职位要求】
1、计算机科学、人工智能、信号处理、音乐技术等相关专业本科及以上学历。
2、熟悉Pytorch等深度学习框架，具备4年以上序列建模或多模态生成经验。
3、熟悉音乐理论（和声/调式/节奏）或具备数字音频处理（DSP）基础，能解读乐谱/MIDI。
4、主导过1个以上音乐AI项目（如旋律生成、歌声合成、风格迁移等）的完整生命周期。

【加分项】
1、发表过ICLR/NeurIPS/ISMIR等顶会论文，或拥有音乐生成相关专利。
2、精通音频信号处理（STFT、CQT、声码器如HiFi-GAN、NSF）。
3、熟悉音乐制作工具（Ableton Live、Logic Pro）或DAW插件开发（VST/AU）。
4、参与过开源音乐AI项目（如Magenta、Jukebox、MusicLM）。

三大模型音频算法研究员
职位描述：
1.聚焦音效（V2A，T2VA，空间音频）生成、编辑、声音分离等大模型技术研究，涵盖多模态融合；
2.探索和落地先进的音频处理与计算声学技术，解决复杂声学场景下的核心挑战。包括但不限于：沉浸式音频渲染、声源分离与增强、声场控制与个性化重放等；
3.落地汽车、手机、音箱等小米应用场景，每年发表顶会论文1-2篇或申请专利2-3项。

职位要求：
1. 计算机、人工智能、声学等相关专业；精通主流的音频生成模型框架（如Diffusion, Transformer, VAE等），并对AIGC领域的最新进展有深入的理解;
2. 具备将前沿算法落地到实际产品的完整项目经验，深刻理解模型训练、优化、部署的全链路流程;
3. 在音频/语音AIGC（如音效生成、音乐生成）领域有深入的研发经验;
4. 熟悉以下一项或多项技术并有相关项目经验者优先：
  - 空间音频与沉浸式体验技术（如Dolby Atmos, 3D Audio Rendering）
  - 多扬声器重放技术（如声场控制、模拟声浪等）
5. 在相关领域的顶级学术会议或期刊（如ICASSP, INTERSPEECH, NeurIPS, ICML等）发表过论文者优先;
6. 有高质量开源项目开发和贡献经验者优先。

投递邮箱：sundawei3@xiaomi.com
投递格式：水木社区+姓名+应聘岗位
可添加微信咨询职位详情：1035892905
--
FROM 1.202.162.*