您好,猎头彬彬,合作国内外70+企业,基地北上广深武汉新加坡等
游戏,跨境贸易/电商/物流,云服务/基础软件,手机/芯片,私募量化,车企,社区分享,短视频,广告, ChatGPT
岗位描述
我们关注建设高效、稳定的AI基础设施,为超大规模的分布式训练/推理提速、降本
1.万卡级别的混合云、跨集群调度,负责GPU/NPU/CPU等异构资源的最优编排,支持潮汐、混部等资源的稳定高效利用:
2.通过AI引]擎、调度系统和异构硬件的co-design,突破LLM/AIGC等机器学习任务的算力和性能瓶颈:
3.探索下一代AI Infra的计算、存储、网络架构及AI应用的通信、I/0效率优化方案,并系统化落地。
岗位要求
1.具备良好的Go或者C++编程能力,孰练学握数据结构和算法设计,孰悉Linux/Unix系统
2悉Docker及Kubernetes,有Kubernetes operator/crds 开发经验者优先:
3.了解 Pytorch/Tensorflow 等机器学习框架,孰悉DeepSpeed/Megatron/Ray/FasterTransformer 等分布式训练/推理警者优先;
4.了解并行计算、CUDA、网络通信、系统优化、集群硬件架构等HPC相关的知识:有A1分布式系统研发、A编译优化相关经验者优先
所发职位不全,手上职位非常多,欢迎咨询!
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.189.211.*