hackquest logo

高级云平台SRE(钱包方向)

M

Moledao

5 - 15K USD
Full-time
Remote

招聘一名高级SRE工程师(钱包运维方向),负责保障 AWS 上核心业务基础设施的稳定性、可用性与性能;管理全球生产环境;建设可扩展高可用系统;推进自动化与可观测性平台;并保持安全与合规标准。

远程办公,可选Base地:新加坡、马来西亚、阿布扎比


岗位目的(Job Purpose)

  • 负责部署相关工作
  • 确保系统在规模化场景下可靠、高效运行
  • 构建工具提升可用性、性能与事故响应能力


岗位职责

  1. 保障 AWS 全球基础设施稳定、可用与高性能,对生产环境 SLA 负责。
  2. 设计、运行并排障云原生组件:Kubernetes、Envoy、Service Mesh(Istio/Linkerd)、Ingress 等。
  3. 通过自动化与平台化工具(IaC、CI/CD)提升运维效率,建设可观测性、自愈与快速恢复能力。
  4. 建设并维护运维安全:权限(AWS IAM/K8s RBAC)、网络安全策略、漏洞管理与事件响应。
  5. 建设全球运维体系:容量规划、监控告警(Prometheus/ELK)、CI/CD(GitLab/Jenkins)、容灾与自动故障恢复。
  6. 深入理解业务架构,参与高可用/容灾方案设计与评审,持续做成本优化。


任职要求

  • 5年以上 Linux 运维 / SRE / DevOps 经验,具备大规模分布式系统运维能力
  • 熟练 AWS 核心服务(EC2/S3/VPC/IAM/ELB/RDS 等),有架构/运维/成本优化经验
  • 深入理解 Kubernetes,具备大规模集群生产运维与性能调优/排障能力
  • 熟悉 Envoy、Istio/Linkerd、Nginx/Istio Ingress(L7 流量治理)
  • 安全意识强,理解系统/网络/应用常见漏洞及缓解措施
  • 至少掌握一门语言(Go/Python/Shell)用于自动化与工程化解决复杂运维问题
  • 熟悉 Prometheus、ELK 等可观测性体系,有容量规划与性能测试经验


加分项

  • 管理/带领 SRE/平台/工具团队经验
  • Prometheus/Grafana/ELK 更深实践
  • AWS(SAA/SAP)或 Kubernetes(CKA/CKS 等)认证