【字节跳动】AI-Lab机器学习系统SRE工程师

水木社区手机版

主题:【字节跳动】AI-Lab机器学习系统SRE工程师
楼主|x8087|2020-01-07 16:29:47|展开
岗位描述：
1、负责维护分布式机器学习系统的稳定运转，包括：机器学习训练平台、机器学习推理平台；
2、负责机器资源的管理与规划，包括: GPU机器资源和CPU机器资源。
岗位要求：
1、一年以上运维开发项目经验；
2、熟练掌握 Linux 环境下的 Go/Python/Shell 等1至2种以上语言；
3、有大型分布式系统的资源管理和任务调度系统运维经验，熟悉 YARN、Kubernetes、Mesos 等开源技术，具备1年以上相关的运维经验；
4、熟悉 Docker 容器化技术，具备1年以上运维经验；
5、能够承受较高的工作压力，有强烈的工作责任心，较好的学习能力、沟通能力和自驱力，良好的团队合作精神；
6、有良好的工作文档习惯，及时按要求撰写更新工作流程及技术文档；
加分项：
1）、从事过大规模分布式系统的运维，如：机器学习系统，存储系统（比如：HDFS/Cephfs）；
2）、有 GPU 服务器的运维经验；
3）、熟悉 Tensorflow/PyTorch/MxNet 1种及以上主流机器学习框架的底层原理和实现。

有意请发简历至邮箱 498305371@qq.com 或者加微信 13146550528
其他部门的岗位我也可以内推 https://job.bytedance.com/society
--
FROM 120.52.147.*
1楼|x8087|2020-01-13 20:08:41|展开
自己顶一下
--
FROM 120.52.147.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版