高级云平台SRE(钱包方向)
M
Moledao
5 - 15K USD
Full-time
Remote
招聘一名高级SRE工程师(钱包运维方向),负责保障 AWS 上核心业务基础设施的稳定性、可用性与性能;管理全球生产环境;建设可扩展高可用系统;推进自动化与可观测性平台;并保持安全与合规标准。
远程办公,可选Base地:新加坡、马来西亚、阿布扎比
岗位目的(Job Purpose)
- 负责部署相关工作
- 确保系统在规模化场景下可靠、高效运行
- 构建工具提升可用性、性能与事故响应能力
岗位职责
- 保障 AWS 全球基础设施稳定、可用与高性能,对生产环境 SLA 负责。
- 设计、运行并排障云原生组件:Kubernetes、Envoy、Service Mesh(Istio/Linkerd)、Ingress 等。
- 通过自动化与平台化工具(IaC、CI/CD)提升运维效率,建设可观测性、自愈与快速恢复能力。
- 建设并维护运维安全:权限(AWS IAM/K8s RBAC)、网络安全策略、漏洞管理与事件响应。
- 建设全球运维体系:容量规划、监控告警(Prometheus/ELK)、CI/CD(GitLab/Jenkins)、容灾与自动故障恢复。
- 深入理解业务架构,参与高可用/容灾方案设计与评审,持续做成本优化。
任职要求
- 5年以上 Linux 运维 / SRE / DevOps 经验,具备大规模分布式系统运维能力
- 熟练 AWS 核心服务(EC2/S3/VPC/IAM/ELB/RDS 等),有架构/运维/成本优化经验
- 深入理解 Kubernetes,具备大规模集群生产运维与性能调优/排障能力
- 熟悉 Envoy、Istio/Linkerd、Nginx/Istio Ingress(L7 流量治理)
- 安全意识强,理解系统/网络/应用常见漏洞及缓解措施
- 至少掌握一门语言(Go/Python/Shell)用于自动化与工程化解决复杂运维问题
- 熟悉 Prometheus、ELK 等可观测性体系,有容量规划与性能测试经验
加分项
- 管理/带领 SRE/平台/工具团队经验
- Prometheus/Grafana/ELK 更深实践
- AWS(SAA/SAP)或 Kubernetes(CKA/CKS 等)认证