【国企社招，内推】后端开发，SRE工程师

水木社区手机版

展开|楼主|同主题展开|返回

主题:【国企社招，内推】后端开发，SRE工程师
zxl1984|2026-01-05 13:48:42|
国企社招，可内推，有兴趣的请发简历： zhengxiangleii@126.com

京能数产是北京市国资委直接管理的国有大型能源企业“北京能源集团有限责任公司”加大战略新兴业务发展，加快数字化转型和打造新的业务增长而组建的数字算力业务平台，是北京能源下属二级单位。

岗位介绍：

一、后端开发：
职位描述：
1. 负责智算中心人工智能平台基础架构层的设计及应用，包括不限于K8S、CNI、CSI、容器安全、服务编排、混部系统、异构算力等。
2. 负责人工智能平台系统级性能优化，包括：大规模分布式文件系统、AI分布式计算系统、异构芯片算力系统、大规模数据编排系统、智算系统、高性能网络等。
3. 负责持续跟进AI领域云原生产品发展趋势和前沿技术迭代，研究云原生技术赋能AI平台，对接人工智能业务需求并提供全栈解决方案。

职位要求：
1. 熟悉至少一种编程语言，如Go、C/C++、Python等，并有实际项目3年以上开发经验。
2. 了解分布式系统调度、容器相关知识，熟悉Kubernetes/Docker的原理，有使用/部署/维护经验。
3. 有Volcano，Training Operator，Kubeflow，Prometheus等开源项目开发/使用经验。
4. 熟悉至少一种深度学习框架(Pytorch、Tensorflow等)，并对底层实现有一定了解，在模型训练或推理性能优化方面有实操经验者优先。
5. 对GPU, CUDA有一定了解，有大型分布式系统开发经验者优先。

二、SRE工程师
职位概述：负责管理和维护智能算力调度平台，确保其高性能、高可用性和可扩展性。与产品、研发和基础设施团队紧密合作，通过自动化、监控和持续改进，为数万级计算节点和关键业务负载提供稳定、高效的运行环境。

主要职责：
1. 平台稳定性与可靠性：
- 负责算力调度平台（基于Kubernetes）7x24小时稳定运行，制定并执行SLA/SLO。
- 建立全方位的监控、告警和日志体系，实现故障的快速发现、定位与恢复。
- 主导生产环境事故的应急响应、事后复盘与改进，推动系统韧性提升。

2. 容量与性能管理：
- 监控算力资源（CPU/GPU/存储/网络）使用情况，进行容量规划、扩容和优化。
- 分析调度性能瓶颈，优化作业排队、调度策略和资源利用率。
- 主导性能压测，验证系统极限并提前消除风险。

3. 自动化与效率提升：
- 设计和开发自动化运维工具与平台，涵盖部署、配置管理、巡检、故障自愈等。
- 推动CI/CD在运维体系的落地，实现平台与服务的自动化发布与灰度升级。
- 编写和维护高标准的运维文档、操作手册等。

4. 协同与架构演进：
- 与研发团队合作，参与架构设计评审，从可运维性、可观测性和容灾角度提出建议。
- 参与新功能落地与运维支持。
--
FROM 222.249.235.*