企业招聘
职位
关于禾蛙
合伙人计划
联系客服快速发单
扫码添加企业微信
客服电话
400-7777-5125
猎企入驻
400-777-5125
免费注册
登录
**********************
SRE 稳定性专家/Leader
接单
收藏职位
分享职位
40-80万
北京
本科
5-8年
招聘 1 人
预计佣金
84.8K
1天前刷新/3天前发布
反馈快
JD基本信息
岗位职责
一、岗位使命 面向联通云大规模云平台及3AZ等高可用场景,主导构建标准化、自动化、智能化的稳定性保障体系。 推动运维模式向“主动预防、故障自愈”转型,确保核心业务SLA达到金融级/政务级标准。 二、核心职责 1. 稳定性架构与混沌工程 * 主导3AZ/多Region高可用架构的落地与验证,定义并守护业务级SLO; * 设计并执行混沌工程:常态化开展双AZ宕机、网络脑裂、依赖超时等破坏性演练,通过“红蓝对抗”发现系统隐患。 * 负责容量规划与全链路压测,确保系统在极端流量下的韧性。 2. 故障自愈与自动化开发(代码驱动) * 自动化:基于Go/Python开发故障自愈系统(Auto-Remediation),实现P0/P1级故障的秒级自动发现、隔离、切换与恢复。 * 将运维操作产品化、API化,基于蓝鲸/Ansible/K8s Operator构建自动化运维工具链,消除手工操作。 3. 可观测性与数据洞察 * 主导统一监控平台(夜莺)的深度建设,不仅接入指标,更要建立日志、链路、指标的三维关联分析能力。 * 实施告警治理:通过智能算法实现告警降噪、根因自动定位,确保告警少而精; * 打造故障大屏:确保故障时SLA实时下跌,数据永久留存; 4. 变更管控与发布安全 * 建立变更红线机制,落地灰度发布一键极速回滚能力。 * 将稳定性检查(如混沌测试报告、SLO预算)嵌入CI/CD流水线,拥有发布一票否决权。 5. 故障管控 * 主持无责故障复盘将故障转化为具体的代码改进任务并跟踪到底。 * 制定运维规范,赋能研发团队,将稳定性意识植入开发全流程。
任职要求
三、任职资格 1. 学历与经验:本科及以上学历,计算机相关专业;5年及以上大型互联网或云厂商SRE/DevOps经验,有运营商云、金融云或超大规模集群维护经验者优先。 2. 精通 Go 或 Python,具备独立开发后端服务、Operator、Controller的能力。 3. 云原生: * 深入理解 Kubernetes 架构,有二次开发经验(如编写CRD、Operator)者优先。 * 熟悉 OpenStack、Ceph、SDN 等底层虚拟化技术,具备全栈故障排查能力。 4. 可观测性: * 精通 Prometheus + Grafana + 夜莺 (Nightingale) 体系,有大规模(万级节点)监控平台建设及调优经验。 * 熟悉 ELK/EFK、SkyWalking/Jaeger 等日志链路技术。 5. 高可用实战: * 有3AZ、多活、异地容灾架构设计与演练实战经验。 * 有混沌工程(Chaos Mesh/ChaosBlade)落地经验者优先。
所属行业:
通信/网络设备、运营商/增值服务
职能分类:
运维开发工程师
工作城市:
北京,招聘1人,详细地址:北京市西城区西单北大街133号
职位要求
学历要求:
本科·统招·985/211
工作年限:
5-8年
技能/证书:
-
薪资福利
年薪范围:
40-80万*12薪
薪资福利:
-
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
-
面试流程:
-
视频面试:
不可以接受
举报
为你推荐
职能类别
IT互联网技术
电子/通信/半导体
销售/客服
制药/医疗器械/医疗护理
高级管理
关于
禾蛙动态
合伙人计划
猎企入驻
帮助中心
禾蛙协议
禾蛙海外版
联系我们
电话:400-777-5125(服务时间:工作日9:00至18:00)
网址:www.hewa.cn
苏州地址:苏州工业园区星湖街328号创意产业园2-B405
北京地址:北京市朝阳区朝阳门南大街10号兆泰国际A座501
服务支持
接单方小程序
发单方小程序
微信公众号
©版权所有
苏州聚聘网络技术有限公司
苏公网安备32059002007268号
备案号:苏ICP备18067483号-3
|
营业执照
|
服务许可证