你将成为大模型技术落地的“算力内核设计者”! 在这里,你将深入 Kubernetes 生态,参与构建支撑超大规模 AI 集群的容器化基础设施。你的代码将直接打破大模型训练与推理的工程瓶颈,优化 Agent 冷启动速度,提升 GPU 集群吞吐量,为 AI 时代的算力底座注入极致性能!
【基础信息】
面向群体: 2027届毕业生(毕业时间:2026.11.01 - 2027.10.31)
职位类别: 技术类 - 工程方向
招聘项目: 阿里巴巴2027届实习生
【职位描述】(以下方向参与其一或多项即可)
1. AI 容器调度与编排优化
深度优化 Kubernetes 调度器,实现面向 GPU 拓扑感知的算力分配,解决大规模分布式训练任务的资源碎裂问题。
设计并实现面向 AI Agent 的弹性调度策略,通过多级缓存、预加载等手段,实现分钟级到秒级的 Agent 快速拉起与自动伸缩。
2. AI 高性能存储与网络底座
针对 AI 大规模 checkpoint 与数据读取场景,优化容器存储挂载性能,通过存储卸载与并行化技术解决 I/O 阻塞。
优化容器网络性能(如 RDMA/RoCE 深度集成),通过内核态路径优化,降低推理请求的网络传输延迟。
3. AI 工程平台架构设计与效率提升
负责大型 AI 项目工程平台的架构设计,构建标准化的云原生架构,确保高可用与可扩展性。
通过降低系统开销与资源冗余,进行架构级优化,显著提升大规模 AI 任务的系统运行效率。
定义面向 AI 场景的资源管控标准与作业管理规范,解决大规模并行任务下的资源争抢与隔离难题。
4. AI 基础设施极致加速
研发面向 AI 推理与 Agent 运行的轻量化容器运行时,实现极致弹性与高密部署。
构建 AI 场景监控与调优平台(从底层硬件到应用层的全链路性能剖析与优化)。
负责容器镜像基础服务研发,针对业务特征深度优化架构,提供高效极致的产品能力。
设计研发基于 AI 的智能应用/资源弹性产品及自主智能运维 Agent(自动故障感知与自愈决策)。
【职位要求】
1. 基础条件:
计算机、软件工程等相关专业优先。
热衷于数据结构和算法,在 ACM/ICPC 等竞赛中成绩优异者优先。
有 K8s/容器相关开源社区贡献(Kubernetes/KubeFlow/Volcano/OpenKruise等)或高性能存储/网络开发经验者极大加分。
2. 专业能力:
系统编程: 具备扎实的 Linux 底层基础(网络栈、文件系统、进程管理),熟练掌握 Go语言(核心)、Java、Python 或 C++,具备复杂的分布式系统调试能力。
容器生态: 对 Kubernetes 架构有深入理解,熟悉容器 Runtime(Docker/containerd/CRI)原理,有 K8s 自定义 Controller/Scheduler 开发经验优先。
AI 系统素养: 理解 AI 推理/训练的资源特征(如显存、带宽、通信模式);熟悉容器化环境下 AI/Agent 任务的架构及部署链路,了解如何通过容器技术优化模型加载、Checkpoint 保存、内存管理等环节;对大规模分布式工程架构有一定理解,关注系统的高可用性、可观测性及研发效能的提升。
3. 能力特质:
极致追求: 乐于挑战“毫秒级”延迟极限,具备良好的性能分析工具(如 ebpf, perf, flamegraph 等)使用与系统调优能力。
工程思维: 出色的系统抽象与架构设计能力,能够将复杂的 AI 场景痛点转化为高可用、高可靠的系统工程方案。
跨域协同: 具备良好的技术视野,能够与模型算法工程师高效沟通,理解算力对业务的支撑逻辑,从底层视角拆解并解决 AI 工程挑战。
极客精神: 对 AI 大模型技术充满热情,渴望在分布式系统与大规模算力平台的交汇处实现技术突破。
【简历投递】
在这个 AI 爆发的时代,和最优秀的人一起打造地表最强算力底座!期待你的加入!
投递邮箱: zzw261520@alibaba-inc.com (内部直招,将极速响应和推进流程)
邮件主题请命名为: 【27届实习投递】姓名-学校-AI Infra容器方向
欢迎随时发邮件交流咨询相关事宜!
--
FROM 59.82.59.*