**********************
AI可观测高级研发工程师-杭州
  • 收藏职位
  • 分享职位
40-70万 杭州 研究生 3-5年 招聘 1 人 预计佣金 113.1K 1天前刷新/2天前发布
迅致直营 反馈快 72小时新发
JD基本信息
岗位职责
岗位描述 负责阿里集团、阿里云可观测平台建设,打造日增百PB级数据的实时数据分析平台。 通过实时采集、数据建模等技术,实时处理来自千万设备的海量可观测数据,并进行智能分析与洞察。加入该岗位,您将有机会在国内超大规模的可观测平台上,构建面向各类AI应用场景的 AIOps 平台,打造新一代的 AI 基础设施。 1. 参与阿里云云监控数据链路建设,打造日吞吐PB级的高性能实时计算平台。负责海量监控指标与告警的采集、清洗、聚合与存储,保障秒级报警延迟与高可用性; 2. 深度参与云监控2.0战略落地,构建指标、日志、链路深度融合的统一可观测数据底座。打破数据孤岛,设计基于 UModel 的资源关联建模,实现从基础设施到应用层的全链路诊断能力; 3. 结合 AI/LLM 能力,研发新一代智能报警与根因分析引擎。针对 AI 训练集群等新场景,提供特定优化的监控解决方案,实现从“被动告警”到“主动预防”的跨越; 4. 负责云监控采集探针(Agent)及云产品接入层的建设。拥抱开源生态,支持 Prometheus、OpenTelemetry 等标准协议的无缝接入,打造多元、兼容的监控生态体系,,让云上百万企业能够零门槛接入并监控异构环境。
任职要求
岗位要求 1. 扎实的算法基础和良好的编码习惯,精通 Go、Python、Java、C++、Rust 中任何一门语言; 2. 熟悉异步IO、内存管理、多线程同步等技术,有Linux内核研究经验更佳; 3. 有分布式系统,包括调度、分布式锁、负载均衡等经验更佳; 4. 对技术有强烈的进取心,有较强的学习能力,保持对前沿技术的关注和学习; 5. 具有良好的沟通能力和团队合作精神、优秀的问题分析和解决能力。 6. 熟悉LLM、Prompt 设计、Agent 框架(如 LangGraph、Dify、AutoGen、Google ADK、工具链集成等)者优先。 7. 对 OpenTelemetry、Neo4j、Skywalking、Datadog、Sentry、Clickhouse 源代码有深入研究者优先。 8. 深入理解分布式系统原理,熟悉分布式存储、消息队列(Kafka/RocketMQ)、流式计算(Flink/Spark)等技术。有时序数据库研发或使用经验者优先。 9. 熟悉 AWS CloudWatch, Datadog, Prometheus, Zabbix, OpenTelemetry 等监控系统架构者优先。 10. 熟悉 LLM Agent 开发,以及有 AIOps 在运维场景落地经验者优先。
所属行业:
云计算
职能分类:
技术经理
工作城市:
杭州,招聘1人,详细地址:中国-杭州
职位要求
学历要求:
研究生
工作年限:
3-5年
技能/证书:
-
薪资福利
年薪范围:
40-70万*13薪
薪资福利:
P6底薪+绩效+奖金+股票
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
4轮
面试流程:
一面:部门高级别同事电话沟通---二面:部门leader 线下--三面:线上交叉面--四面:HR
视频面试:
不可以接受
为你推荐