岗位职责:
? 配合产品开发团队,保障数据平台的关键服务和重要基础设施的稳定、可靠地运行;
工作内容:
? 深入理解业务,持续提升业务 SLO/SLA;
? 通过持续的全方位数据运营(包括可用性指标.历史事故.资源利用率等),找到系统容量、可用性、稳定性方面的薄弱点,并推进落地改进项目;
? 参与建设运维工具.平台,推进运维自动化,量化数据,使用代码解决线上问题;
? 参与故障应急响应处理,持续打磨监控系统,提升报警准确率,缩短故障定位时长;
? 积累运维最佳实践,为业务及基础设施架构设计与资源选型提供指导,输出标准运维流程文档;
岗位要求:
? 5 年及以上相关工作经验,计算机科学或相关专业(通信、电子、信息、自动化等)优
先;
? 熟悉主流云厂商及服务,如 AWS/GCP/Azure/AliCloud 等;
? 云环境管理与优化经验,包括成本管理,安全管理,运维管理,应用架构优化;
? 熟悉业内流行的大数据或消息队列等分布式系统平台:Aerospike, Kafka, Hadoop,Yarn,HDFS,Hbase,Druid 或其他 NoSQL 系统等;
? 积极拥抱 “Infrastructure as Code”思想并有较丰富的实践经验,熟悉相关厂商及开源解决方案,如 CloudFormation/Terraform 等;
? 运维平台设计与使用经验,如设计或参与开发过运维管理平台:资源管理,K8s 管理,配置管理等;
? 对多种云计算基础服务有较丰富的实践操作经验,包括但不限于: VPC, Subnets, Security Group, EC2, S3, IAM, Route 53, Security Hub etc;
? 深入理解 Linux 操作系统,并掌握多种开源解决方案及相应技能:Kubernetes/Container/Nginx/Ansible/Prometheus/Grafana/ELK;
? 熟悉 Golang 开发语言为优;
? 工作积极主动,有强烈的责任心,执行能力强;善于思考总结,有很强的学习、问题分析和推进解决能力;
? 基本的英文听说能力,较强的读写能力,能够快速融入英文工作环境。
联系人:Lynn 13601145467(微信)
邮箱:lynn.liu@optionschina.com.cn
--
FROM 114.249.237.*