Shopee Tech Ops SRE(Site Reliabilitiy Engineering)团队的使命是确保Shopee 24/7的高效和可持续性运转,从系统的可用性和效能出发,组建和维护大规模、高可用、高效能的分布式系统,是结合传统软件工程与系统运维形成的新体系。SRE团队需要深入Shopee各业务线,在于确保基础设施在快速演进的同时,具备高可用性以及扩展性,并从稳定性和效能的角度切入到业务研发,基础平台各部分组件(中间件、容器调度、缓存、对象存储等)的设计,OS的优化,数据中心和网络的优化,通过工程化和服务化手段来优化传统运维模式中低效,繁复的操作,并致力于建设完善的监控体系以提高故障处理效率。

岗位描述:

  • 负责Shopee中间件及平台系统的运维,包括不限于,负责日常故障分析和处理,容量规划的合理性以及监控体系建设;
  • 负责相关运维自动化平台的开发和维护;
  • 负责根据业务需求,找到业务痛点,对中间件产品提出优化建议和方案;
  • 负责全链路压测框架的开发和维护,推动相关中间件的改造和部署。

岗位要求:

  • 全日制本科,2年以上相关工作经验,有大型互联网公司中间件运维经验优先;
  • 至少精通一门编程语言,Python/Golang/Shell;
  • 熟悉Linux/Unix,熟悉网络和TCP/HTTP协议;
  • 精通若干Shopee中间件组件技术栈,包括Redis/Memcache/Mesos/K8s/Ceph/Kafka/RabbitMQ/Pika/LVS/Nginx/etcd等;
  • 精通分布式存储和CACHE,具备源码能力者优先;
  • 优秀的沟通、表达与组织协作团队合作能力,适应多元化国际化工作环境,有一定英文能力,具备一定的创新能力。 

Apply for this Job

* Required

  
  
+ Add Another Employment