Shopee Tech Ops SRE(Site Reliabilitiy Engineering)团队的使命是确保Shopee 24/7的高效和可持续性运转,从系统的可用性和效能出发,组建和维护大规模、高可用、高效能的分布式系统,是结合传统软件工程与系统运维形成的新体系。SRE团队需要深入Shopee各业务线,在于确保基础设施在快速演进的同时,具备高可用性以及扩展性,并从稳定性和效能的角度切入到业务研发,基础平台各部分组件(中间件、容器调度、缓存、对象存储等)的设计,OS的优化,数据中心和网络的优化,通过工程化和服务化手段来优化传统运维模式中低效,繁复的操作,并致力于建设完善的监控体系以提高故障处理效率。

岗位描述:

 

  • 负责Shopee基础监控系统的的设计、开发、实施、优化及维护;
  • 持续分析和利用监控数据,打造事件驱动模型以支持AIOPS;
  • 负责监控系统与 Shopee Cloudnative 生态的集成;
  • 改善系统易用性和可维护性,结合业务需求和日常支持反馈,优化系统流程,降低学习和使用成本。

岗位要求:

  • 全日制本科,至少2年以上中大型监控系统或运维自动化平台相关运维和研发经验。
  • 熟悉Golang或Python 有2年以上语言开发经验
  • 精通Prometheus/Open-Falcon/Zabbix 等监控系统者优先
  • 有高并发,分布式系统,时序数据库和图形数据库经验者优先

Apply for this Job

* Required

  
  
+ Add Another Employment