职位描述
1.负责核心业务、大规模分布式系统及生产服务可靠、稳定、高效运行,满足业务快速稳定增长;
2.参与设计与开发Devops工具和流程平台,包括但不限于监控系统、资源管理、故障分析等,制定效能度量指标,完善运维自动化工具和知识库的建设,提升运维效率和质量为业务赋能,并持续优化改进;
3.精细化数据运营,包括可用性指标、历史事故、资源利用率、容量规划等,挖掘系统薄弱点,落地改进项目;
4.积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档;
5.参与SRE OnCall,诊断解决关键服务的紧急故障,能采取各种技术手段给予改进意见,防止故障再现;
职位要求
1.有4年以上设计、部署和故障诊断大型系统的运维经验,深入理解Linux系统,精通TCP/IP、HTTP等协议;
2.具有 Python/Go 其中至少其中之一的研发经验,及其相应开发框架下的服务端多线程、高并发处理机制。能独立开发工具/自动化运维平台等提升效率;
3.热爱技术,责任感强,拥有强大的项目执行力和良好的沟通协作能力;
4.思路清晰、工作细致,有较强的问题分析和闭环能力,包括问题发现、分析、跟踪、解决等;
有意者请发简历至:shangpengfei@guazi.com
--
FROM 223.71.37.*