企业招聘
职位
关于禾蛙
合伙人计划
联系客服快速发单
扫码添加企业微信
客服电话
400-7777-5125
猎企入驻
400-777-5125
免费注册
登录
**********************
算力驻场运维
接单
收藏职位
分享职位
17-20万
珠海
本科
3-5年
招聘 1 人
预计佣金
3.6K
6天前发布
反馈快
外包
JD基本信息
岗位职责
1、智算平台运维:负责大规模GPU集群平台的日常运维与监控,确保平台稳定运行(N卡/国内GPU卡); 2、算力模型适配支持、进行模型的上传下载适配工作、手册的输出 3、监控与报警:配置和管理监控系统,跟踪平台性能指标,及时发现潜在问题并进行预警; 4、支持自动化运维工具:学习和使用自动化运维工具,提高工作效率; 任职要求: 1、熟悉 Linux 系统管理与操作(如 CentOS、Ubuntu 等)及排障; 2.熟悉主流模型deepseekR1、llama3、千问等模型产品的使用,参与过大规模模型训练的集群运维; 3.有 AI 芯片(如 NVIDIA、华为昇腾、百度昆仑芯、Habana)的底层驱动调优经验,具备GPU集群管理经验(如NVIDIA DGX/SuperPOD); 4.熟悉主流深度学习框架(PyTorch、TensorFlow)及分布式训练技术(FSDP/Deepspeed/Megatron-LM); 5.熟悉操作系统调优(如内核参数优化、GPU 显存管理、NUMA 绑定);
任职要求
1、负责云上、云下存储系统风险点梳理,并根据风险点的级别,定制对应维护策略的执行和监督、制定和维护数据安全策略; 2、负责监控存储系统的日常状态,巡检、故障处理、容量及性能管理,资源分配与管理; 3、负责分布式块存储及文件存储的日常维护; 能力要求: 1、熟练掌握云上包含不限于华为云、阿里云等存储产品(如云硬盘/文件存储等); 2、有存储产品运维经验,有Ceph、GPFS等块/文件存储部署、故障处理、资源开通及日常性能调优等维护的经验, 3、熟悉传统企业级文件系统、分布式文件系统优先,包含但不限于 Lustre, GPFS, Ceph, MinIO, JuiceFS, TiKV 等; 4、熟悉Linux系统,理解RAID、副本/EC、NFS、SMB、强一致性、故障域、RDMA等技术实现原理,了解io性能测试工具如DD/fio/vdbench等优先;
所属行业:
云计算
职能分类:
运维工程师
工作城市:
珠海,招聘1人,详细地址:广东省珠海市香洲区珠海市大数据中心东100米华发智造产业园(大数据中心二期)
职位要求
学历要求:
本科·统招
工作年限:
3-5年
技能/证书:
-
薪资福利
年薪范围:
17-20万*12薪
薪资福利:
-
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
-
面试流程:
-
视频面试:
不可以接受
举报