**********************
智算网络专家(研发方向)
  • 收藏职位
  • 分享职位
80-120万 北京 本科 8-10年 招聘 1 人 预计佣金 144K 07:51发布
72小时新发
JD基本信息
岗位职责
1、负责智算网络(AI-Net)核心系统(RoCE/IB、GPU Direct RDMA、算网协同调度、NCCL 拓扑自动优化)的架构设计、核心代码开发与性能调优,实现单集群 ≥ 1 万卡、逻辑集群体10万卡、AllReduce 性能 ≥ 90% 线速; 2、主导智算网络协议栈与加速库自研,实现无损以太网(PFC/ECN)、通信加速库等技术,将千卡千亿模型训练通信耗时占比降至 ≤ 5%; 3、构建算网协同调度器,与 K8s Scheduler Framework/Volcano 深度集成,支持网络拓扑感知(Fat-Tree/Dragonfly/Torus等)、链路带宽预留、动态 QoS,任务网络冲突下降 ≥ 40%; 4、设计并实现智算网络可观测与自愈体系,基于 eBPF+INT+Telemetry 实现链路级 RTT、丢包、拥塞、Buffer占用秒级采集,自动触发端口调优、路由重算、链路倒换,保障 99.99% 网络可用性; 5、负责多租户网络隔离方案,实现租户间 RDMA 通信零拷贝、零泄露,满足等保三级/密评要求; 6、主导智算网络性能基准测试平台,覆盖 AllReduce、AllGather、ReduceScatter、Point-to-Point 等通信模式,输出性能基线、回归测试与硬件选型报告; 7、设计网络-存储-计算统一流量调度,实现 Checkpoint突发流量与训练流量无冲突,Checkpoint读写时长缩短 ≥ 50%; 8、牵头重大客户现场保障,完成 ≥ 1 万卡智算网络压测、调优、故障应急,沉淀可复用性能调优知识库; 9、负责智算网络相关专利、软著、标准(ITU/CCSA、IEEE)申报; 10、指导开发、测试、SRE 工程师,搭建代码评审、CI/CD、性能调优、故障演练体系;
任职要求
1、本科及以上学历,计算机、网络工程、通信、电子工程等相关专业,8 年以上数据中心网络/高性能网络研发经验,其中 3 年以上智算网络方向技术带头人经历; 2、精通 C/C++/Go/Python,熟悉 DPDK、VPP、P4、eBPF、RDMA Verbs、NCCL,具备内核网络栈、驱动、FPGA 加速开发经验; 3、深度掌握智算网络硬件架构(800G 交换机、NIC、SmartNIC、DPU、RoCE/IB HCA、PHY、SerDes),熟悉 PFC、ECN、DCQCN、INT、DLB; 4、熟悉云原生网络(Cilium、Calico、SR-IOV Device Plugin等)并有二次开发及性能调优经验; 5、具备大规模分布式系统设计与调优能力,熟悉 Fat-Tree、Dragonfly、Torus网络拓扑及路由算法; 6、熟练使用 tcpdump、Wireshark、perf、bpftool、rdma_perf、nvidia-smi、nsight-network 等性能/调试工具,具备线上网络故障秒级定位与热修复能力; 7、具备优秀的算法与数据结构基础,能针对智算网络场景设计新的调度/拥塞控制/负载均衡算法; 8、具备较强的学习能力、责任心和抗压能力,具备良好的英语读写与沟通能力。
所属行业:
云计算
职能分类:
技术总监
工作城市:
北京,招聘1人,详细地址:北京市西城区西单北大街133号联通大厦‌
职位要求
学历要求:
本科·统招·985/211
工作年限:
8-10年
技能/证书:
-
薪资福利
年薪范围:
80-120万*13薪
薪资福利:
-
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
-
面试流程:
-
视频面试:
不可以接受
为你推荐