**********************
太空计算系统架构师
  • 收藏职位
  • 分享职位
22-36万 北京 本科 不限 招聘 2 人 预计佣金 86.4K 10:38刷新/2天前发布
72小时新发
JD基本信息
岗位职责
1) 集群架构设计: 负责公司星上8 卡GPU 服务器(如H800/A800/国产算力等)的顶层 架构设计,包括但不限于计算节点架构、高速互联网络(IB/RoCE)、分布式存储、 供电散热系统的规划、建设和管理; 2) 硬件选型与评估: 主导星上8 卡服务器机型、GPU/CPU 组件、DPU/网卡、交换机等 底层硬件的技术选型、POC 测试与BOM 定制,输出硬件白皮书与服务器定制化规格 书; 3) 软硬协同优化: 结合大模型训练/推理的业务特征,优化集群拓扑结构,解决大规模 集群中的网络拥塞、存储IO 瓶颈、故障隔离等问题,提升集群有效算力(MFU)与 线性加速比; 4) 算力集群建设上天: 配合公司航天适配改造能力负责算力集群从0 到1 的建设上天, 拉通芯片、元器件、散热、供电等供应商及内部研发团队,把控项目进度、质量与成本; 5) 团队组建与管理: 依托行业资源,组建或引入具备服务器运维、网络调优、集群交付 能力的工程团队,建立算力集群日常运营、监控与故障处理体系。
任职要求
1) 学历与经验: 计算机、电子工程、通信等相关专业本科及以上学历;3 年以上IT 基础 设施或服务器架构相关经验,有大规模(千卡以上)智算集群从0 到1 建设经验者优 先; 2) 硬件系统底座: 深入理解多卡GPU 服务器内部架构(如PCIe 拓扑、NVLink Switch 互 联机制、内存通道等),熟悉主流服务器厂商(浪潮/联想/新华三/超聚变等)的整 机柜及主板定制化设计; 3) 网络与存储:精通大集群网络架构(Spine-Leaf 架构、无损网络技术),熟悉InfiniBand 或RoCEv2 网络调优;熟悉并行文件系统(如Lustre/GPFS/CephFS)在AI 场景下的配 置与优化; 4) 系统与底层: 熟悉Linux 操作系统底层机制,了解CUDA 环境部署、K8s 容器网络及 Slurm 调度系统的基础原理,能进行软硬联合排障; 5) 项目管理与资源:具备优秀的供应商管理能力与项目操盘能力;在服务器供应链、IDC 资源或算力建设生态圈有深厚人脉资源者优先;自带成熟工程团队或能快速组建交付 团队者优先。
所属行业:
航空/航天
职能分类:
大数据架构师
工作城市:
北京,招聘2人,详细地址:北京市海淀区中关村东路8号东升大厦B座515
职位要求
学历要求:
本科·统招
工作年限:
不限
技能/证书:
-
薪资福利
年薪范围:
22-36万*12薪
薪资福利:
五险一金、项目奖金、绩效奖金、年终奖金
团队架构
所属部门:
研发部
下属人数:
不限
部门架构:
-
汇报对象:
研发部负责人
职级职称:
专业岗
面试信息
面试轮次:
2轮
面试流程:
-
视频面试:
可以接受
为你推荐