您好,猎头彬彬,合作国内外70+企业,base北上广深武汉新加坡等
游戏,跨境贸易/电商/物流,云服务/基础软件,手机/芯片,私募量化,车企,社区分享,短视频,广告, ChatGPT
职位描述
1、负责机器学习系统资源调度的设计和开发,服务于各方向场景(NLP/CV/Speech等)的模型训练、模型评估和模型推理;
2、负责多种异构资源(GPU、CPU、其他异构硬件)的最优化编排,实现稳定资源、潮汐资源、混布资源、多云资源的合理化使用;
3、负责通过技术手段实现计算资源、RDMA高速网络资源、存储资源的最优调度,充分发挥大规模分布式集群的计算能力;
4、负责多机房、多地域、多云场景的在离线任务/服务调度,实现全球负载的合理化分布。
职位要求
1、熟练掌握Linux环境下的Go/Python/Shell等1至2种以上语言;
2、熟悉 Kubernetes 架构和生态,熟悉 Docker/Containerd/Kata/Podman 等容器技术,有丰富的机器学习系统实践和开发经验;
3、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;
4、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
5、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动;
6、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。
加分项:符合其中任意加分项者优先
1、熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch );
2、有以下某一方向领域的经验:AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking)。
所发职位不全,手上职位非常多,欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 116.207.212.*