Shopee Tech Ops SRE(Site Reliabilitiy Engineering)团队的使命是确保Shopee 24/7的高效和可持续性运转,从系统的可用性和效能出发,组建和维护大规模、高可用、高效能的分布式系统,是结合传统软件工程与系统运维形成的新体系。SRE团队需要深入Shopee各业务线,在于确保基础设施在快速演进的同时,具备高可用性以及扩展性,并从稳定性和效能的角度切入到业务研发,基础平台各部分组件(中间件、容器调度、缓存、对象存储等)的设计,OS的优化,数据中心和网络的优化,通过工程化和服务化手段来优化传统运维模式中低效,繁复的操作,并致力于建设完善的监控体系以提高故障处理效率。

岗位描述:

  • 负责Shopee流量调度平台、服务网关和相关工具的设计、开发、实施、优化及维护;
  • 持续改进流量调度平台的可用性、稳定性、安全性和扩展性,保障日常和活动促销时流量调度平台的平稳运行;
  • 持续优化和提升流量调度平台和服务网关各组件的请求处理性能,降低请求处理延迟;
  • 改善系统易用性和可维护性,结合业务需求和日常支持反馈,优化系统流程,降低学习和使用成本;
  • 建设自动化及工程化的解决方式,实施混沌工程和进行定期故障演练,提前发现和修复潜在风险,减少人工介入和手工运维工作,实现大部分情况下的故障自愈。

岗位要求:

  • 全日制本科及以上学历,2年以上工作经验。
  • 精通各类网关的管理,调优和容量规划。例如Nginx,DPVS,HAproxy
  • 熟悉Linux系统编程(网络IO、磁盘IO,多线程),有大规模分布式系统研发经验。
  • 熟悉Linux下动态追踪和性能调优,有丰富的系统问题分析排查经验。
  • 熟悉Nginx、Tengine、OpenResty、LVS等,有相关开源项目patch贡献经验、二次开发经验或模块编写经验优先。
  • 熟悉云原生相关技术(容器,ServiceMesh等)优先。

Apply for this Job

* Required

  
  
+ Add Another Employment