hackquest logo

资深 SRE / 基础设施架构师 (Principal DevOps Engineer)

9

97EX

2.6 - 3K USD
Full-time
Remote

【岗位职责】


1. 云原生架构设计与治理:

* 负责基于 AWS 和 Cloudflare 的高可用架构设计。不仅限于 CDN 配置,需深入使用 Cloudflare Workers 处理边缘逻辑,并利用 Argo Tunnel/Zero Trust 构建安全的访问层。

* 管理 AWS 多账号体系(Organizations),规划跨 Region 网络(Transit Gateway, VPC Peering, VPN),解决复杂的网络互通与延迟问题。

* 全面推行 IaC(Terraform/Pulumi),实现从边缘规则到底层资源的代码化管理,尽量消除控制台手动操作。

2. Kubernetes 深度工程化:

* 维护大规模 EKS 或自建集群。负责 Etcd、CNI(Cilium/Calico)、CoreDNS 等核心组件的性能调优与故障排查。

* 根据业务需求开发 K8s Operator/Controller 或 Kubectl 插件,提升平台自动化程度。

* 打通本地开发与生产环境(Docker Compose 到 Helm/Kustomize),确保环境一致性。

3. 工程效能与可观测性:

* 设计并维护复杂的 CI/CD 流水线,集成代码质量分析(SonarQube)、镜像安全扫描及自动化测试。

* 落地 GitOps(ArgoCD/Flux)流程。

* 建设基于 Prometheus 的监控体系,深入应用运行时(Go/Java Runtime)及系统底层(eBPF)的性能分析。

4. 系统底层与稳定性保障:

* 深入维护 Nginx, Redis, Kafka 等中间件,具备源码级问题定位或参数调优能力。

* 处理高并发场景下的系统瓶颈(如 TCP 队列、文件句柄、内存管理等)。


* Linux 系统专家: 深刻理解 Linux 内核原理。在生产环境中能熟练使用 perf, strace, tcpdump, eBPF 等工具定位 CPU、IO 或网络层面的疑难杂症。

* 云与网络深度: 熟悉 AWS 基础设施限制(API Rate Limit, EBS IOPS 等)及 Cloudflare 原理(Anycast, SSL 握手流程)。深入理解 TCP/IP 协议栈及 HTTP/2/3 协议细节。

* K8s 实战经验: 深入理解 Cgroups/Namespace 隔离机制,熟悉 Service Mesh(Istio/Linkerd),能快速定位 Pod 调度失败或 Crash 的根本原因。

* 开发能力: 熟练掌握 Golang 或 Python。不仅是写脚本,需具备阅读开源源码、修复 Bug 或开发后端工具的能力。


【加分项】

* CNCF 开源项目贡献者。

* 有亿级日请求量系统的维护经验。

* 有生产环境混沌工程(Chaos Engineering)落地经验。