JD基本信息
岗位职责
岗位职责
全程对客户负责,统筹 gpu 算力服务器及网络设备全生命周期管理,涵盖机房上架、验收、固件更新、资产标签管理等全流程.
负责服务器硬件(主板、cpu、gpu 等)及网络设备(tor 交换机、链路等)故障诊断与维修,协调客户停机时间,保障维修质量与效率.
管理 bmc 系统,完成批量配置、固件升级与安全加固
处理网络连通性排障,保障带外网络与业务网络稳定.
负责 gpu 服务器验收、健康巡检,安装维护 gpu 驱动、cuda 等组件,优化 ai 训练 / 推理环境,配合客户排查相关问题.
主导 linux 系统调优、自动化装机与补丁升级,通过 ansible 等工具落地 ,搭建标准化运维体系.
搭建监控告警体系(prometheus/zabbix 等),负责故障应急响应、根因分析(rca)与复盘,设计高可用及容灾方案,保障 slo/sla 达成.
任职要求
任职要求
本科及以上学历,计算机 / 电子信息等相关专业,具备服务器及网络设备运维实战经验.
精通 linux 系统管理与调优,熟悉 tcp/ip 协议、网络排障工具,能独立完成服务器硬件与网络设备故障排查.
掌握 gpu 相关技术(驱动、cuda 等),了解 kubernetes gpu 资源编排,有 ai 算力集群运维经验者优先.
熟练使用 ansible 等自动化工具,具备 shell/python/go 任一脚本开发能力,有 iac 实践经验加分.
具备出色的客户服务意识与跨团队沟通能力,能在压力下快速响应故障,保障服务恢复.
接受 7x24 轮值值班,美国岗位需适配当地工作时区,深圳岗位需配合应急响应轮值.
加分项
有大模型训练集群、aigc 业务或大规模 idc 运维经验.
熟悉 kubernetes gpu 资源编排、gitops/ci/cd 或 nvidia dcgm 等工具.
掌握 rdma/ib 网络技术,或主流服务器(dell/supermicro)、gpu 硬件生态.
英文沟通流利(美国岗优先),具备客户项目全流程主导经验.