猿辅导基础架构团队现在大监控方向寻求一个 Tech Leader 。
目前我们在使用 Prometheus 、Thanos 、Grafana 和自建的 APM 系统解决成千上万个微服务系统的可见性问题,以及通过 AlertManager 和自建的事件管理系统让系统故障的平均复原时间尽可能地短。我们还希望可以做更多的事情,比如自动化的故障分析、100K 服务实例的实时监控、分布式链路追踪系统、更加友好的数据可视化系统等等。
为此,我们在这个方向需要一个有经验的 Tech Leader,TA 的主要职责是积极参与技术方案选型与项目推进,引导我们的工程师团队,持续建设大监控方向上的四个主要系统: Metric 、Logging 、Tracing 与报警系统。
我们希望你有以下技能与经验:
* 5 年以上工作经验。
* 有大规模微服务系统监控、故障处理经验,了解 Metric 、Logging 、Tracing 与报警系统上的最佳实践。
* 对 Prometheus 、Zabbix 、SkyWalking 、ELK 或其他大监控领域的某一技术有深入理解,了解其设计思想、实现原理以及最佳实践。
* 优秀的技术调研、方案设计、技术决策能力。
* 优秀的跨团队沟通、项目推进能力。
我们目前的技术栈是: Thanos 、Prometheus 、Grafana 、阿里云 SLS,应用服务开发语言上以 Java 为主,也有部分 Go 开发的需求。
工作地点: 北京望京利星行中心。
有意可以投递简历到我的邮箱 zhangyc#fenbi.com 。
目前我们在使用 Prometheus 、Thanos 、Grafana 和自建的 APM 系统解决成千上万个微服务系统的可见性问题,以及通过 AlertManager 和自建的事件管理系统让系统故障的平均复原时间尽可能地短。我们还希望可以做更多的事情,比如自动化的故障分析、100K 服务实例的实时监控、分布式链路追踪系统、更加友好的数据可视化系统等等。
为此,我们在这个方向需要一个有经验的 Tech Leader,TA 的主要职责是积极参与技术方案选型与项目推进,引导我们的工程师团队,持续建设大监控方向上的四个主要系统: Metric 、Logging 、Tracing 与报警系统。
我们希望你有以下技能与经验:
* 5 年以上工作经验。
* 有大规模微服务系统监控、故障处理经验,了解 Metric 、Logging 、Tracing 与报警系统上的最佳实践。
* 对 Prometheus 、Zabbix 、SkyWalking 、ELK 或其他大监控领域的某一技术有深入理解,了解其设计思想、实现原理以及最佳实践。
* 优秀的技术调研、方案设计、技术决策能力。
* 优秀的跨团队沟通、项目推进能力。
我们目前的技术栈是: Thanos 、Prometheus 、Grafana 、阿里云 SLS,应用服务开发语言上以 Java 为主,也有部分 Go 开发的需求。
工作地点: 北京望京利星行中心。
有意可以投递简历到我的邮箱 zhangyc#fenbi.com 。