**********************
算力服务器交付经理
  • 收藏职位
  • 分享职位
80-120万 深圳 本科 5-8年 招聘 1 人 预计佣金 133.7K 03:02发布
迅致直营 72小时新发
JD基本信息
岗位职责
岗位职责 全程对客户负责,统筹 gpu 算力服务器及网络设备全生命周期管理,涵盖机房上架、验收、固件更新、资产标签管理等全流程. 负责服务器硬件(主板、cpu、gpu 等)及网络设备(tor 交换机、链路等)故障诊断与维修,协调客户停机时间,保障维修质量与效率. 管理 bmc 系统,完成批量配置、固件升级与安全加固 处理网络连通性排障,保障带外网络与业务网络稳定. 负责 gpu 服务器验收、健康巡检,安装维护 gpu 驱动、cuda 等组件,优化 ai 训练 / 推理环境,配合客户排查相关问题. 主导 linux 系统调优、自动化装机与补丁升级,通过 ansible 等工具落地 ,搭建标准化运维体系. 搭建监控告警体系(prometheus/zabbix 等),负责故障应急响应、根因分析(rca)与复盘,设计高可用及容灾方案,保障 slo/sla 达成.
任职要求
任职要求 本科及以上学历,计算机 / 电子信息等相关专业,具备服务器及网络设备运维实战经验. 精通 linux 系统管理与调优,熟悉 tcp/ip 协议、网络排障工具,能独立完成服务器硬件与网络设备故障排查. 掌握 gpu 相关技术(驱动、cuda 等),了解 kubernetes gpu 资源编排,有 ai 算力集群运维经验者优先. 熟练使用 ansible 等自动化工具,具备 shell/python/go 任一脚本开发能力,有 iac 实践经验加分. 具备出色的客户服务意识与跨团队沟通能力,能在压力下快速响应故障,保障服务恢复. 接受 7x24 轮值值班,美国岗位需适配当地工作时区,深圳岗位需配合应急响应轮值. 加分项 有大模型训练集群、aigc 业务或大规模 idc 运维经验. 熟悉 kubernetes gpu 资源编排、gitops/ci/cd 或 nvidia dcgm 等工具. 掌握 rdma/ib 网络技术,或主流服务器(dell/supermicro)、gpu 硬件生态. 英文沟通流利(美国岗优先),具备客户项目全流程主导经验.
所属行业:
云计算、产业互联网
职能分类:
运维经理/主管
工作城市:
深圳,招聘1人,详细地址:深圳
职位要求
学历要求:
本科·统招
工作年限:
5-8年
技能/证书:
-
薪资福利
年薪范围:
80-120万*14薪
薪资福利:
五险一金全额缴纳
团队架构
所属部门:
算力交付
下属人数:
不限
部门架构:
-
汇报对象:
算力交付负责人
职级职称:
资深级别
面试信息
面试轮次:
2轮
面试流程:
算力交付负责人技术面试+事业部负责人面试+HR总面试
视频面试:
可以接受