**********************
AI集群工程师
  • 收藏职位
  • 分享职位
38-70万 北京 本科 3-5年 招聘 5 人 预计佣金 67.2K 05:05发布
72小时新发
JD基本信息
岗位职责
北京/杭州 岗位职责 我们正在寻找资深AI集群工程师,负责构建和优化大规模GPU计算基础设施。作为AI算力平台的核心建设者,您将参与从硬件选型到调度优化的全链路工作,支撑公司核心AI业务的万卡级算力需求。 Kubernetes调度与计算平台 资源调度与集群管理 - 设计和实现GPU算力调度系统,优化资源利用率和作业调度效率 - 负责Kubernetes节点组件(kubelet、container runtime)的稳定性、性能优化 - 深度排查Kubernetes集群复杂问题 计算平台与节点优化 - 参与服务器硬件选型、测试和验收,重点优化GPU服务器性能 - 推进国产AI芯片的生态适配 - 建立集群故障感知召回体系,提高AI计算资源利用率,维护线上集群稳定性 扩展方向:性能优化(附加项) - 参与AI集群网络优化(NCCL/RoCEv2),提升分布式训练通信效率 - 深入文件系统、缓存、镜像、cri细节,优化容器启动速度
任职要求
任职资格 必备技能 - 3年以上Kubernetes生产环境经验,精通调度机制和节点管 - 熟悉GPU资源管理(NVIDIA GPU Operator、GPU共享、拓扑感知调度) - 熟练掌握Go/Python语言,有Kubernetes源码阅读或二次开发经验 - 具备大规模集群(百节点以上)运维和故障排查能力 - 熟悉Linux系统原理,具备内核参数调优和性能优化经验 优先考虑 - 有混合云/多云环境GPU资源管理经验 - 熟悉RDMA/RoCE等高速网络技术 - 具备AI训练集群性能调优经验 - 有国产AI芯片适配经验 - Kubernetes社区贡献者或相关开源项目经验
所属行业:
互联网招聘
职能分类:
Golang
工作城市:
北京,招聘5人,详细地址:北京海淀区弘源·新时代大厦
职位要求
学历要求:
本科·统招·一本
工作年限:
3-5年
技能/证书:
-
薪资福利
年薪范围:
38-70万*15薪
薪资福利:
-
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
4轮
面试流程:
-
视频面试:
可以接受
为你推荐