可以在家办公,全国范围招聘,不在上海也可以投简历到jnliu@marinsoftware.com
作为一名可靠性工程师,要承担应用运维、sysops和devops的角色。我们依靠我们的站点可靠性工程师(SREs)为我们的用户提供丰富的功能集群、高可用性和卓越的性能水平,以实现他们的任务。随着我们平台的扩展,我们目前正在寻求一个有经验的SRE来实时地从大规模数据中提供见解。具体来说,我们正在寻找能够带来新鲜想法,展示独特观点,并喜欢与跨职能团队合作,以开发产品的解决方案和积极的用户体验的候选人。你喜欢跟上最新的行业趋势,并利用它们来帮助你创新。你有很强的领导能力,出色的判断力,清晰的沟通技巧,以及交付优秀产品的经验。
主要职责:
?通过监控可用性和系统运行状况的整体视图来运行生产环境
?为多个大型分布式软件应用提供主要的运维支持和软件设计
?提高软件解决方案套件的可靠性、质量和上市时间
?测量和优化系统性能,着眼于推动我们的能力向前发展,超越客户需求,并不断创新以改进
?与开发人员合作设计大型、可扩展和稳健的系统
?通过以下方式持续纠正、自动化或转移遗留的计划外/繁重的工作和问题:
?与开发部门合作,解决根本问题
?加强监控和检测
?用脚本和代码实现自动化
?给L1团队提供培训和交接
?制定、管理和遵循操作政策和程序,包括文件和培训
?主动与其他团队的工程师分享知识
基本要求:
?5-7年或以上应用运维、SRE或DevOps经验,计算机科学或其他相关学科学士或以上学位
?熟悉软件工程原理(构建,测试,部署)
?编写构建和部署脚本的实践经验,创建可重用的脚本来自动化可重复的任务
?具备结构化和面向对象的编程经验,熟悉Python、Java、Scala、Shell和JavaScript等高级语言
?有大数据处理经验,Hadoop,Hive, Hbase和/或MySQL优先
?具备以下工具的使用经验:Tomcat和同等的应用服务器,Jenkins, Git, Jira, Artifactory,以及构建/依赖管理工具
?优秀的问题解决能力和思想领导能力
?强烈的主人翁意识和独立工作能力
?具有良好的团队合作精神,具有良好的英语口头和书面沟通能力
?熟练使用Linux操作系统进行日志解析和文本格式化
?SQL查询技能与最小或连接,联合,别名知识
?了解常见的系统架构,如web应用,微服务,分布式应用等
?理解ITIL的概念和持续的服务改进
所需条件:
?具有将底层结构作为代码工具和概念的经验:Nomad, Terraform, Ansible等
?熟悉SRE/DevOps原理
?有建立和管理分布式NoSQL数据库的经验
?有在敏捷环境下工作的丰富经验(如用户故事、迭代开发等)
?熟悉云计算平台(AWS,谷歌计算引擎,OpenStack)
?有虚拟化、VMware经验
?使用测试驱动开发和软件测试自动化
?熟悉GitHub、review Board、Crucible、Fisheye、SVN Bridge等代码审查工具
--
FROM 103.139.131.*