highlights
- 在线教育龙头
- 良心企业,work life balance
- 基础架构20年初成立,遍地黄金,成长空间大
关键词:微服务,RPC,配置中心,注册中心,MQ,全链路压测,日志平台,监控、报警
有意者请加微信:51757907,欢迎随时来撩~
开放职位:
服务治理高级工程师
猿辅导是一个大规模微服务系统,有近万个服务实例,十万级别的调用链路。基础架构团队希望能持续的给这样一个复杂系统带来更完善的基础设施支持,使业务团队可以更稳定、高效的进行开发维护工作。
目前我们基于 Nacos/Thrift 实现了现代化的服务注册发现、动态配置能力,正在支持链路熔断、降级、权重分配的服务治理控制台,也在调研基于 Envoy、Istio 的下一代 Service Mesh 架构。我们希望能有更多有技术热情、有经验、有能力的工程师可以参与到我们的团队中,一起建设面向未来的大规模微服务治理平台。
我们希望你有以下技能与经验:
- 5 年以上工作经验。
- 有大规模微服务系统开发、维护、故障处理经验。
- 对于分布式一致性问题有深入理解。
- 对于 Thrift、ZooKeeper、Nacos、Envoy、Istio、Kubernetes、Nginx、OpenResty、Sentinel、Resilience4j 或其他相关的技术有深入理解,了解起设计思想、原理与最佳实践。
- 优秀的技术调研、方案设计、编码能力。
我们目前的技术栈是: Thrift、ZooKeeper、Nacos、Docker、Kubernetes、Nginx,应用服务开发语言上以 Java 为主,视将来的技术选型,也可能有 Go 或 C++ 的语言需求。
服务稳定性工程师
猿辅导是一个大规模微服务系统,有近万个服务实例,十万级别的调用链路。基础架构团队希望能持续的给这样一个复杂系统带来更完善的基础设施支持,使业务团队可以更稳定、高效的进行开发维护工作。
目前我们基于 Nacos/Thrift 实现了现代化的服务注册发现、动态配置能力,正在支持链路熔断、降级、权重分配等基本的流量治理能力,也在调研基于 Envoy、Istio 的下一代 Service Mesh 架构。我们希望通过构建微服务稳定性体系来进一步提升整个系统的稳定性和高可用,加入我们,你将:
- 负责猿辅导微服务架构的稳定性和高可用体系建设的相关研发工作
- 负责全链路压测平台、混沌工程平台的建设及优化,持续改善系统薄弱环节,提升性能和稳定性
- 参与调研业界新技术,持续关注混沌工程业界落地经验,打造业务领先的微服务稳定性治理平台
我们希望你有以下技能与经验
- 3年以上工作经验。
- 有大规模微服务系统的开发、维护经验,对服务拆分、服务治理、流量治理等有较好的理解和实践。
- 熟悉MySQL、Redis、MQ等常用组件,并能灵活运用
- 具备优秀的分析、解决问题的能力;良好的沟通能力、协调能力及项目推动能力
- 有全链路压测、混沌工程等经验者优先
我们目前的技术栈是: Thrift、ZooKeeper、Nacos、Docker、Kubernetes、Nginx,应用服务开发语言上以 Java 为主,视将来的技术选型,也可能有 Go 或 C++ 的语言需求。
消息中间件工程师
消息中间件是猿辅导的重要基础设施,自从 2014 年起,团队先后经历了 RabbitMQ、Kafka、AliMQ 等多个消息中间件系统,在分布式事务、流量治理、架构解耦方面发挥了关键作用。目前我们以 AliMQ 为主,Kafka 为辅形成了一个由几千个 Topic/Group 组成的大型消息中间件集群。
今年猿辅导基础架构团队希望提升整个系统架构的可见性、可测试、可维护性,我们做了监控平台、全链路压测等基础设施建设。同时团队也意识到消息中间件在这些能力的建设上有这举足轻重的影响。我们希望团队可以持续跟进消息中间件的先进技术方向,在消息中间件的建设上可以和业务团队进行深入合作,引领业务的技术实践,解决 10 倍扩展规模下的技术挑战,例如:
- 在全链路压测场景下对消息流量进行染色路由。
- 紧跟技术前沿,调研 Pulsar 等下一代消息中间件,设计实施方案。
- 秒级的消息队列监控报警、数据可视化。
- 稳定的大规模分布式消息队列,自动化的弹性伸缩能力,峰值消息处理能力。
- 多机房环境下的消息调度能力,降低跨机房流量和延迟。
为此,我们需要组建一个消息中间件工程师团队,这个团队应该由有技术热情、有经验、有能力的工程师组成。团队会在消息中间件领域负责调研业界实践,分析业务需求,设计解决方案并实施。
我们希望你有以下技能与经验:
- 3 年以上工作经验。
- 对于分布式系统设计有深入理解。
- 熟悉网络原理、操作系统原理。
- 深入理解至少一种消息中间件,例如 Kafka、RabbitMQ、RocketMQ、Pulsar。
猿辅导的主要技术栈是: AliMQ、Kafka,应用服务开发语言上以 Java 为主,同时也不排斥使用领域内更适合的编程语言。
日志平台高级工程师
猿辅导有上千个服务实例、几万个业务容器,除此之外还有大数据、机器学习等多种类不同的业务,这些服务每天会产生巨量的日志。所以我们希望为这些服务提供一套统一的日志收集、检索、计算平台,使我们的研发同学可以方便快速地利用日志分析线上问题,也让数据分析团队可以有效可靠地基于日志进行数据挖掘。
为此,团队希望一个有经验、工程能力好的高级工程师加入我们,TA 的主要职责是主导猿辅导日志系统的架构设计,参与核心系统的开发与推广。例如:
- 解决混合云、异构服务场景下的日志收集问题,让不同语言、不同类型的服务日志可以被统一的收集
- 解决海量日志的持久化存储问题,确保有价值的日志可以被长期归档
- 建设高效、快速的日志分析平台,实现快速的日志查询、分析能力
- 实现可以水平扩展的日志系统,解决多租户隔离问题,降低日志平台的建设、运维成本
我们希望你有以下技能与经验:
- 5 年以上工作经验。
- 对 ELK、Kafka、Doris、ClickHouse、Hbase 或其他日志领域的某一技术有深入理解,了解其设计思想、实现原理以及最佳实践。
- 优秀的技术调研、方案设计、方案实施能力。
我们目前的技术栈是: Kafka、阿里云 SLS、ElasticSearch,应用服务开发语言上以 Java 为主,也有部分 Go 开发的需求。
监控平台高级工程师
目前我们在使用 Prometheus、Thanos、Grafana 和自建的 APM 系统解决成千上万个微服务系统的可见性问题,以及通过 AlertManager 和自建的事件管理系统让系统故障的平均复原时间尽可能地短。我们还希望可以做更多的事情,比如:
扩展我们的 Prometheus 存储/查询能力,支持 10w+ 实例的抓取以及灵活的规则配置能力。
灵活、强大的 Tracing 系统,支持 100K 服务实例的瞬时全采样需求。
实现监控套件的单元化,支持猿辅导在 2021 年的快速机房扩张。
实现场景化完备的大监控平台,融合 Metric、Logging、Tracing 和 Alerting 系统,让业务团队更快地定位根因。
为此,我们在这个方向需要一个有经验的高级工程师,TA 的主要职责是积极参与技术方案选型与项目推进,解决大监控平台落地过程中的各项工程挑战。
我们希望你有以下技能与经验:
5 年以上工作经验。
对 Prometheus、Cortex、Thanos、VictoriaMetrics 或其他大监控领域的某一技术有深入理解,了解其设计思想、实现原理以及最佳实践。
优秀的技术调研、方案设计、方案实施能力。
我们目前的技术栈是: Thanos、Prometheus、Grafana、阿里云 SLS,应用服务开发语言上以 Java 为主,也有部分 Go 开发的需求。
--
修改:chosen0ne FROM 49.7.19.*
FROM 49.7.19.*