**********************
高级运维告警分析工程师
  • 收藏职位
  • 分享职位
17-20万 上海 本科 5-8年 招聘 2 人 预计佣金 8.5K 1天前刷新/一周前发布
迅致直营 反馈快
JD基本信息
岗位职责
岗位职责 1. 告警体系治理(主导) 独立主导生产环境告警规则的全量梳理,建立 P0/P1/P2/P3 告警分级规范及治理机制 基于数据驱动方法识别告警噪音根因,推动告警有效率从当前水平提升至 80% 以上 设计并落地告警收敛规则,包括时间窗口聚合、拓扑关联抑制、重复告警静默等 2. AIOps 协同优化 与 AI 根因分析系统深度协作:提供高质量告警样本标注,参与模型效果评估与反馈优化 针对典型故障场景设计告警关联规则,提升根因定位准确率 推动智能工单自动创建的规则设计,输出规范化的 告警-工单映射 SOP 3. 监控看板与度量 在 DataFlux 可观测平台中设计并维护高质量告警运营看板 建立告警质量度量体系,涵盖告警有效率、MTTR、噪音率、收敛率等核心指标 定期输出告警治理分析报告,支撑运维决策 4. 技术文档与知识沉淀 编写告警规则设计文档、治理方案、操作手册 建立告警知识库,为后续 AI 问答和智能工单提供语料基础
任职要求
必须具备 工作经验:5 年以上运维监控 / 可观测性相关工作经验 可观测平台:深度使用过至少一款主流可观测平台(DataFlux/观测云、Prometheus+Alertmanager、Zabbix 等),能独立设计告警规则和看板 容器运维:熟悉 Kubernetes 容器运维,能读懂 Pod/Node 级别的监控指标和日志 Linux 基础:具备扎实的 Linux 运维基础,包括日志分析、性能排查、Shell 脚本编写 项目经验:有告警治理 / 噪音压降项目的完整交付经验,能从现状分析到效果验证全过程清晰描述 加分项 有 AIOps 平台(告警收敛、根因分析、异常检测)的实际使用或建设经验 熟悉 OpenTelemetry(OTel) 链路追踪,理解 Trace/Span 与告警的关联分析 有微服务架构(Spring Cloud / TSF)的运维监控经验 具备 Python / Go 编写监控脚本或数据处理脚本的能力 有 金融 / 保险行业运维经验
所属行业:
保险
职能分类:
运维/服务工程师
工作城市:
上海,招聘2人,详细地址:上海市徐汇区太平洋保险金融大厦
职位要求
学历要求:
本科·统招
工作年限:
5-8年
技能/证书:
-
薪资福利
年薪范围:
17-20万*14薪
薪资福利:
五险一金
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
2轮
面试流程:
-
视频面试:
可以接受
为你推荐