**********************
IT运维工程师
  • 收藏职位
  • 分享职位
20-30万 苏州 本科 3-5年 招聘 1 人 预计佣金 39K 07:16刷新/06:36发布
迅致直营 72小时新发
JD基本信息
岗位职责
"1、硬件维护 配合GPU服务器的安装、调试、上架工作 对服务器日常故障进行诊断及维修跟进。 定期检查硬件状态(GPU、CPU、内存、硬盘、电源等),确保设备稳定运行。 配合供应商处理硬件保修或更换(如GPU烧毁、显存故障等)。 2、集群与驱动管理 管理大规模GPU集群(万卡级),支持算力网络架构(IB/RoCE/NVLink/PCIe),优化集群性能(HPL/HPCG基准测试),解决网络通信、存储(Lustre/CephFS)及算力调度(Slurm/PBS)问题。 实时跟踪GPU利用率、功耗及健康状态,构建故障预警机制,设计HA测试方案(故障注入/灾备切换)。 3、硬件与软件适配 执行服务器硬件改配(如GPU升级、液冷方案部署)及软件适配(驱动安装、BIOS/固件更新),确保与操作系统(Linux/CentOS)、虚拟化平台(Docker/Kubernetes)及AI框架(CUDA/TensorRT)的兼容性。 参与智算中心交付,配合完成服务器上架、网络配置及压力测试,支持异构加速场景(大模型训练/推理)。 4、文档与协作 编写运维手册、故障处理SOP及巡检报告,维护维修案例库,记录硬件生命周期(故障历史、配件更换)。 与研发、售前团队协作,解决复杂技术问题(如硬件兼容性、性能瓶颈),提供客户技术培训及方案定制。 探索前沿技术(如Chiplet异构集成、存算一体架构),优化运维自动化工具(Ansible/Python脚本),提升故障处理效率。 "
任职要求
"1. 专业背景 计算机、电子工程、通信等相关专业,本科及以上学历;3年以上GPU服务器维护或数据中心运维经验,熟悉NVIDIA/AMD主流显卡架构(如Hopper/Ada Lovelace)者优先。 2. 核心技能 硬件能力:精通GPU服务器拆装、故障诊断(如错误代码解析),掌握焊接工具(热风枪、示波器)及备件管理,熟悉服务器BMC管理(IPMI/RedFish)。 软件与工具:熟练使用Linux命令行,掌握自动化工具(Ansible/Kubernetes)、监控平台(Prometheus)及集群管理工具(Slurm);熟悉Python/Shell脚本开发。 网络与架构:理解IB/RoCE网络协议、RDMA原理,掌握集群文件系统(Lustre/NFS)部署与调优,熟悉PCIe/CXL接口规范。 3. 软技能 具备快速故障定位能力(MTTR优化),能在7×24小时轮值中响应紧急事件;良好的客户沟通能力,适应定制化服务需求。"
所属行业:
环保
职能分类:
运维工程师
工作城市:
苏州,招聘1人,详细地址:常熟
职位要求
学历要求:
本科·统招
工作年限:
3-5年
技能/证书:
-
薪资福利
年薪范围:
20-30万*12薪
薪资福利:
-
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
-
面试流程:
-
视频面试:
可以接受
为你推荐