职位描述
1. 构建行业领先的音视频稳定性保障体系,为抖音、西瓜、头条等各类字节APP的视频业务及视频基础设施进行线上稳定性保障;
2. 为火山引擎音视频产品进行线上稳定性保障;
3. 通过体系化的监控、运维、容量管理、资源成本管理、跨区域容灾建设、拨测巡检、流程规范建设、应急响应、事故管理等方式维护线上服务稳定性,保证服务SLO;同时积极应用数据驱动、自动化运维等方式提升运维效率和稳定性运营能力;
4. 负责量化视频服务的服务质量和性能数据,提升服务 SLA 标准,规划预算,降低服务成本消耗。
5. 与海内外团队共同实施各类全球、全链路活动重保,抗击流量洪峰,保障全链路稳定性;
6. 在线上系统生命周期的各阶段进行全方位的稳定性评审,发现薄弱点,组织和实施各类改进措施、预案演练等工作;
7. 开发各类系统的运维平台,提升运维白屏化能力、提升运维效率。
职位要求
1. 有大型系统的运维管理经验,2 年以上相关工作经验;
2. 强烈的线上意识,对线上环境有极强的责任心和敬畏心。热爱技术,具备强大的自驱力,主动学习,独立思考;
3. 精通 Linux 系统、Shell / Python 编程语言、网络 TCP / IP 协议、数据库等,动手能力强;
4. 对大规模分布式系统的设计,分析,故障排查有强烈兴趣;
5. 较强的分析和解决问题的能力,强烈责任感、 缜密的逻辑思维能力,并有很强的沟通以及主动推进问题直至解决的能力;
6. 【加分项】有大型云计算公司从业经验,对于阿里云、AWS / GCP / Azure 系统开发、测试、运维、应用工作经验者优先。
7. 【加分项】具备线上系统研发经验,理解线上稳定性工作的痛点、特点和重要性。
欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.189.211.*