AI Lab机器学习系统工程师
职位描述:
1、负责今日头条AI Lab机器学习系统开发,包括计算组件开发,任务流调度,机器学习系统管理和运维,机器学习算法部署、模型在线服务等
2、为系统设计和实现合理的在线和离线架构,优化前后端性能,配合产品迭代开发
职位要求:
1、熟练掌握Linux环境下的C/C++/Go/Python/Javascript等1至2种以上语言
2、掌握分布式系统原理,有实际的分布式系统或应用开发经验
3、熟悉各类机器学习算法,熟悉Tensorflow, Caffe, MxNet或其它机器学习框架
有以下相关经验者优先:
1)从事过大规模分布式系统,如云计算,机器学习系统的开发和运维
2)深度学习,海量数据处理和并行计算开发
3)GPU/FPGA高性能计算,RDMA高性能网络
4)熟悉Web开发
AI-Lab机器学习系统SRE工程师
职位描述:
1. 负责维护分布式机器学习系统的稳定运转,包括:机器学习训练平台、机器学习推理平台
2. 负责机器资源的管理与规划,包括: GPU机器资源和CPU机器资源。
职位要求:
1. 一年以上运维开发项目经验
2. 熟练掌握 Linux 环境下的 Go/Python/Shell 等1至2种以上语言
3. 有大型分布式系统的资源管理和任务调度系统运维经验,熟悉 YARN、Kubernetes、Mesos 等开源技术,具备1年以上相关的运维经验
4. 熟悉 Docker 容器化技术,具备1年以上运维经验
5. 能够承受较高的工作压力,有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,良好的团队合作精神
6. 有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档
加分项
1. 从事过大规模分布式系统的运维,如:机器学习系统,存储系统(比如:HDFS/Cephfs)
2. 有 GPU 服务器的运维经验
3. 熟悉 Tensorflow/PyTorch/MxNet 1种及以上主流机器学习框架的底层原理和实现
工作地点:北京
简历投递邮箱: zhangzongqiang at bytedance.com
邮件主题:职位名称+姓名
字节跳动AI Lab网址:
https://ailab.bytedance.com/另外,大量招聘机器学习,tensorflow,pytorch, cuda, k8s相关的实习生,请投递简历到zhangzongqiang at bytedance.com
--
FROM 120.244.220.*