**********************
运维工程师(K8S部署方向,半年期)
  • 收藏职位
  • 分享职位
20-30万 北京 本科 3-5年 招聘 1 人 预计佣金 5.4K 两周前发布
外包
JD基本信息
岗位职责
工作内容:维护K8S集群,在集群上部署flagopen大模型平台+维护AI集群GPU服务相关的工作。画像: 必须项:在K8S集群上做平台部署的运维。1、优先寻找做过大模型相关项目的K8S运维部署,维护过GPU服务器的工作。2、次之做K8S平台运维,在K8S集群平台上部署过数据平台或者其他业务平台,3、在CPU服务器上面做的K8S集群部署也可以。加分项:做过GPU运维监控体系的。
任职要求
工作职责: 部署运维AI/数据平台,管理K8s集群及GPU服务器(驱动/CUDA/监控)搭建Prometheus+Grafana监控体系及ELK/Loki日志系统,使用自动化监控工排查AI训练任务异常(GPU利用率低等)及数据平台故障 岗位要求: 必备: 3年+K8s生产运维经验,熟悉Calico网络 熟练搭建Prometheus监控告警体系及ELK/Loki日志系统 熟悉GPU服务器运维(NVIDIA驱动/CUDA)及Linux/Shell/Ansible 加分项: AI算力平台运维经验 了解RDMA/InfiniBand/RoCE网络 熟悉Python/Go 软技能: 强问题定位能力,主动沟通,抗压好学
所属行业:
人工智能AI
职能分类:
运维工程师
工作城市:
北京,招聘1人,详细地址:北京海淀区智源大厦
职位要求
学历要求:
本科
工作年限:
3-5年
技能/证书:
-
薪资福利
年薪范围:
20-30万*12薪
薪资福利:
-
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
-
面试流程:
-
视频面试:
不可以接受