国企社招,可内推,有兴趣的请发简历: zhengxiangleii@126.com
京能数产是北京市国资委直接管理的国有大型能源企业“北京能源集团有限责任公司”加大战略新兴业务发展,加快数字化转型和打造新的业务增长而组建的数字算力业务平台,是北京能源下属二级单位。
岗位介绍:
一、后端开发:
职位描述:
1. 负责智算中心人工智能平台基础架构层的设计及应用,包括不限于K8S、CNI、CSI、容器安全、服务编排、混部系统、异构算力等。
2. 负责人工智能平台系统级性能优化,包括:大规模分布式文件系统、AI分布式计算系统、异构芯片算力系统、大规模数据编排系统、智算系统、高性能网络等。
3. 负责持续跟进AI领域云原生产品发展趋势和前沿技术迭代,研究云原生技术赋能AI平台,对接人工智能业务需求并提供全栈解决方案。
职位要求:
1. 熟悉至少一种编程语言,如Go、C/C++、Python等,并有实际项目3年以上开发经验。
2. 了解分布式系统调度、容器相关知识,熟悉Kubernetes/Docker的原理,有使用/部署/维护经验。
3. 有Volcano,Training Operator,Kubeflow,Prometheus等开源项目开发/使用经验。
4. 熟悉至少一种深度学习框架(Pytorch、Tensorflow等),并对底层实现有一定了解,在模型训练或推理性能优化方面有实操经验者优先。
5. 对GPU, CUDA有一定了解,有大型分布式系统开发经验者优先。
二、SRE工程师
职位概述:负责管理和维护智能算力调度平台,确保其高性能、高可用性和可扩展性。与产品、研发和基础设施团队紧密合作,通过自动化、监控和持续改进,为数万级计算节点和关键业务负载提供稳定、高效的运行环境。
主要职责:
1. 平台稳定性与可靠性:
- 负责算力调度平台(基于Kubernetes)7x24小时稳定运行,制定并执行SLA/SLO。
- 建立全方位的监控、告警和日志体系,实现故障的快速发现、定位与恢复。
- 主导生产环境事故的应急响应、事后复盘与改进,推动系统韧性提升。
2. 容量与性能管理:
- 监控算力资源(CPU/GPU/存储/网络)使用情况,进行容量规划、扩容和优化。
- 分析调度性能瓶颈,优化作业排队、调度策略和资源利用率。
- 主导性能压测,验证系统极限并提前消除风险。
3. 自动化与效率提升:
- 设计和开发自动化运维工具与平台,涵盖部署、配置管理、巡检、故障自愈等。
- 推动CI/CD在运维体系的落地,实现平台与服务的自动化发布与灰度升级。
- 编写和维护高标准的运维文档、操作手册等。
4. 协同与架构演进:
- 与研发团队合作,参与架构设计评审,从可运维性、可观测性和容灾角度提出建议。
- 参与新功能落地与运维支持。
--
FROM 222.249.235.*