我们正在寻找有创业理想的技术合伙人,共同探索大模型底座领域。
希望您是:具有扎实的计算机科学基础知识,精通 kubernetes、 golang;熟悉云原生架构、深度学习计算系统;曾担任过一线技术团队负责人,具备一线工程实施、以及项目管理能力。
我们是:为大模型而生的算力云服务 ,致力于为大模型开发者提供开箱即用的大模型训练、推理算力平台,打造人人都用得起的高性价比大模型 AI 算力;公司核心创始团队是来自 Google 等世界领先的 AI 算力平台技术专家,具有10 年以上的大规模 AI 计算软件平台工程经验。
如果您对此领域充满激情,并愿意投身其中并为之奋斗,请加入我们!
联系人
- 巩女士,Email:hr@nascentcore.ai,手机:15910555162(微信同手机号)
薪酬待遇
- 30-50K x 15薪
- 丰厚期权
工作地点
- 北京(提供配套公寓)
关键词
- 深度学习、大模型、nlp/自然语言处理、大模型应用
工作亮点
- 背靠 Google Tesla 等世界顶级研发团队工程经验;
- 目标远大:为中国大模型和 AGI 提供高价比算力;
- 与业界顶尖研发团队定时交流、探索前沿技术;
能力要求
- 扎实的计算机科学基础知识
- 精通 Docker、Kubernetes
- 熟练使用各类云原生技术生态中的平台、工具
- 扎实的分布式系统架构能力
- 长期实践主流的软件开发、交付、运维工程体系
- 卓越的技术沟通能力
- 卓越的技术学习领悟能力
大模型相关能力要求
- 了解神经网络基本概念
- 了解大模型核心工程体系中的主要概念
- 了解大模型的功能及其典型应用场景
- 了解 GPU 相关的技术常识
岗位职责
- 管理技术团队、跟踪工程项目进展、与客户和合作伙伴紧密合作
- 设计基于 K8s 的大模型训练软件平台,管理 GPU、调度分布式训练任务、保证分布式训练任务稳定运行
- 为 K8s 设计、实现 GPU 调度器,将分布式计算任务与 GPU 匹配
- 为 K8s 设计、实现分布式训练任务的管理器,监控、管理训练任务的运行情况,并结合分布式训练算法在无人工干预的情况下通过迁移训练任务来屏蔽 GPU 运行故障
- 为 K8s 设计、实现 GPU 监控器,收集 GPU 硬件、软件的各类指标数据;这些数据上报给上述的 GPU 调度器、分布式训练任务管理器
--
FROM 101.39.221.*