**********************
SRE 稳定性专家/Leader
  • 收藏职位
  • 分享职位
40-80万 北京 本科 5-8年 招聘 1 人 预计佣金 84.8K 1天前刷新/3天前发布
反馈快
JD基本信息
岗位职责
一、岗位使命 面向联通云大规模云平台及3AZ等高可用场景,主导构建标准化、自动化、智能化的稳定性保障体系。 推动运维模式向“主动预防、故障自愈”转型,确保核心业务SLA达到金融级/政务级标准。 二、核心职责 1. 稳定性架构与混沌工程 * 主导3AZ/多Region高可用架构的落地与验证,定义并守护业务级SLO; * 设计并执行混沌工程:常态化开展双AZ宕机、网络脑裂、依赖超时等破坏性演练,通过“红蓝对抗”发现系统隐患。 * 负责容量规划与全链路压测,确保系统在极端流量下的韧性。 2. 故障自愈与自动化开发(代码驱动) * 自动化:基于Go/Python开发故障自愈系统(Auto-Remediation),实现P0/P1级故障的秒级自动发现、隔离、切换与恢复。 * 将运维操作产品化、API化,基于蓝鲸/Ansible/K8s Operator构建自动化运维工具链,消除手工操作。 3. 可观测性与数据洞察 * 主导统一监控平台(夜莺)的深度建设,不仅接入指标,更要建立日志、链路、指标的三维关联分析能力。 * 实施告警治理:通过智能算法实现告警降噪、根因自动定位,确保告警少而精; * 打造故障大屏:确保故障时SLA实时下跌,数据永久留存; 4. 变更管控与发布安全 * 建立变更红线机制,落地灰度发布一键极速回滚能力。 * 将稳定性检查(如混沌测试报告、SLO预算)嵌入CI/CD流水线,拥有发布一票否决权。 5. 故障管控 * 主持无责故障复盘将故障转化为具体的代码改进任务并跟踪到底。 * 制定运维规范,赋能研发团队,将稳定性意识植入开发全流程。
任职要求
三、任职资格 1. 学历与经验:本科及以上学历,计算机相关专业;5年及以上大型互联网或云厂商SRE/DevOps经验,有运营商云、金融云或超大规模集群维护经验者优先。 2. 精通 Go 或 Python,具备独立开发后端服务、Operator、Controller的能力。 3. 云原生: * 深入理解 Kubernetes 架构,有二次开发经验(如编写CRD、Operator)者优先。 * 熟悉 OpenStack、Ceph、SDN 等底层虚拟化技术,具备全栈故障排查能力。 4. 可观测性: * 精通 Prometheus + Grafana + 夜莺 (Nightingale) 体系,有大规模(万级节点)监控平台建设及调优经验。 * 熟悉 ELK/EFK、SkyWalking/Jaeger 等日志链路技术。 5. 高可用实战: * 有3AZ、多活、异地容灾架构设计与演练实战经验。 * 有混沌工程(Chaos Mesh/ChaosBlade)落地经验者优先。
所属行业:
通信/网络设备、运营商/增值服务
职能分类:
运维开发工程师
工作城市:
北京,招聘1人,详细地址:北京市西城区西单北大街133号
职位要求
学历要求:
本科·统招·985/211
工作年限:
5-8年
技能/证书:
-
薪资福利
年薪范围:
40-80万*12薪
薪资福利:
-
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
-
面试流程:
-
视频面试:
不可以接受
为你推荐