您好,猎头彬彬,合作国内外70+企业,base北上广深武汉新加坡等
游戏,跨境贸易/电商/物流,云服务/基础软件,手机/芯片,私募量化,车企,社区分享,短视频,广告, ChatGPT
职位职责:
1. 负责AI大模型训练平台的部署、维护和优化,并能够快速解决各类平台问题;
2. 熟悉Linux系统、网络安全等相关知识,有一定的编程和脚本语言功底,能够独立编写代码实现自动化运维;
3. 负责运维监控系统的建设和运维,能够监控系统性能、运行状态,及时发现系统问题并进行解决;
4. 熟悉虚拟化、K8S、容器、并行存储和高性能网络等相关技术,能够应用虚拟化、容器等技术进行平台优化和管理;
5. 负责多节点GPU集群性能测试与评估,熟悉NCCL通信库,能使用NCCL-TEST、CUDA-Samples等工具;
6. 配合开发人员进行平台功能开发和维护,确保平台的稳定性和可靠性;
7. 负责报告编写和交流沟通,以及团队协作合作。
任职资格:
1. 本科及以上学历,计算机、通信、电子工程等相关专业背景,有2年以上的运维工程师相关经验
2. 熟练掌握Linux系统的使用及网络安全等相关知识,有一定的Shell、Python编程和脚本语言功底;
3. 熟悉HPC技术栈的云计算、虚拟化、K8S、容器、GPU、并行存储和高性能网络等相关技术,能够应用相关技术进行平台优化和管理;
4. 熟悉RDMA网络性能测试,了解常见深度学习训练,如MPI、DDP分布式训练,能对常见模型库进行测试训练,如Megatron-LM;
5. 具备快速解决问题的能力,并能够独立解决复杂的技术问题;
6. 有良好的团队协作精神,能够和开发、测试等部门高效协作,推动平台顺利运营和更新;
7. 具备良好的沟通能力和表达能力,能够清晰准确地传达信息和交流。
8. 有HPC基础设施运维经验的优先。
所发职位不全,手上职位非常多,欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.190.149.*