北京市SRE 稳定性专家/Leader招聘-禾蛙,猎头合作交易平台

**********************

SRE 稳定性专家/Leader

收藏职位

分享职位

40-80万北京本科 5-8年招聘 1 人预计佣金 84.8K 三周前刷新/三个月前发布

JD基本信息

岗位职责

一、岗位使命面向联通云大规模云平台及3AZ等高可用场景，主导构建标准化、自动化、智能化的稳定性保障体系。推动运维模式向“主动预防、故障自愈”转型，确保核心业务SLA达到金融级/政务级标准。二、核心职责 1. 稳定性架构与混沌工程 * 主导3AZ/多Region高可用架构的落地与验证，定义并守护业务级SLO； * 设计并执行混沌工程：常态化开展双AZ宕机、网络脑裂、依赖超时等破坏性演练，通过“红蓝对抗”发现系统隐患。 * 负责容量规划与全链路压测，确保系统在极端流量下的韧性。 2. 故障自愈与自动化开发（代码驱动） * 自动化：基于Go/Python开发故障自愈系统（Auto-Remediation），实现P0/P1级故障的秒级自动发现、隔离、切换与恢复。 * 将运维操作产品化、API化，基于蓝鲸/Ansible/K8s Operator构建自动化运维工具链，消除手工操作。 3. 可观测性与数据洞察 * 主导统一监控平台（夜莺）的深度建设，不仅接入指标，更要建立日志、链路、指标的三维关联分析能力。 * 实施告警治理：通过智能算法实现告警降噪、根因自动定位，确保告警少而精； * 打造故障大屏：确保故障时SLA实时下跌，数据永久留存； 4. 变更管控与发布安全 * 建立变更红线机制，落地灰度发布一键极速回滚能力。 * 将稳定性检查（如混沌测试报告、SLO预算）嵌入CI/CD流水线，拥有发布一票否决权。 5. 故障管控 * 主持无责故障复盘将故障转化为具体的代码改进任务并跟踪到底。 * 制定运维规范，赋能研发团队，将稳定性意识植入开发全流程。

任职要求

三、任职资格 1. 学历与经验：本科及以上学历，计算机相关专业；5年及以上大型互联网或云厂商SRE/DevOps经验，有运营商云、金融云或超大规模集群维护经验者优先。 2. 精通 Go 或 Python，具备独立开发后端服务、Operator、Controller的能力。 3. 云原生： * 深入理解 Kubernetes 架构，有二次开发经验（如编写CRD、Operator）者优先。 * 熟悉 OpenStack、Ceph、SDN 等底层虚拟化技术，具备全栈故障排查能力。 4. 可观测性： * 精通 Prometheus + Grafana + 夜莺 (Nightingale) 体系，有大规模（万级节点）监控平台建设及调优经验。 * 熟悉 ELK/EFK、SkyWalking/Jaeger 等日志链路技术。 5. 高可用实战： * 有3AZ、多活、异地容灾架构设计与演练实战经验。 * 有混沌工程（Chaos Mesh/ChaosBlade）落地经验者优先。

所属行业:

通信/网络设备、运营商/增值服务

职能分类:

运维开发工程师

工作城市:

北京，招聘1人，详细地址：北京市西城区西单北大街133号

职位要求

学历要求:

本科·统招·985/211

工作年限:

5-8年

技能/证书:

薪资福利

年薪范围:

40-80万*12薪

薪资福利:

团队架构

所属部门:

下属人数:

部门架构:

汇报对象:

职级职称:

面试信息

面试轮次:

面试流程:

视频面试:

不可以接受

职能类别

关于

联系我们

电话：400-777-5125（服务时间：工作日9:00至18:00）
网址：www.hewa.cn
地址：中国（上海）自由贸易试验区滨江大道99弄6号第11层

服务支持: 接单方小程序

发单方小程序

微信公众号