企业招聘
职位
关于禾蛙
合伙人计划
联系客服快速发单
扫码添加企业微信
客服电话
400-7777-5125
猎企入驻
400-777-5125
免费注册
登录
**********************
阿里云智能-高性能网络资深架构师-北京/杭州
接单
收藏职位
分享职位
90-130万
北京
本科
10年及以上
招聘 1 人
预计佣金
195K
1天前刷新/7天前发布
迅致直营
JD基本信息
岗位职责
岗位描述 1. 主导RDMA高性能网络架构设计: 设计并优化万卡级RDMA网络协议、拓扑,流控技术,支持AllReduce、All-to-All等通信模式,保障吞吐率>90%。 联动PyTorch、NCCL等框架,通过RDMA配置、内存注册策略降低CPU干预,提升训练效率。 2. 构建全栈可观测性与智能运维: 开发覆盖NIC、交换机、内核层的监控体系,结合ML模型预测拥塞风险,实现故障分钟级定位与恢复。 制定拥塞控制算法参数、NUMA绑定等跨平台部署规范,确保异构芯片/多云环境下的网络一致性。 3. 推动技术标准化与生态兼容: 主导RDMA网络协议栈(Verbs API、拥塞控制算法,多路径传输协议)的定制化开发,优化驱动与固件性能。 评估UCX、eRPC、xLink over ethernet等新技术,制定下一代AI网络演进路线。 4、技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
任职要求
岗位要求 • 10年以上网络、云计算架构设计和开发相关工作经验 • 至少负责过1个有较强行业影响力的产品或技术突破,是核心的技术模块负责人 • 曾负责或主导过大型网络产品的设计,或研发,或市场的工作,负责的产品具有一定规模,并且在业界具备一定影响力 • 2年以上团队管理经验;同时推动多个复杂项目 • 能够支撑组织大型项目和战略目标的完成,并与组织内其他专业角色完成战役目标/策略的设定和共识 • 基于业务价值判断,阐述清晰方案取舍的思考,带领大家目标理解一致、路径达成共识 • 熟悉集团内外部以及业界在本领域的技术水平及发展动态,明确知晓集团技术水平与行业方案的差距 • 对竞对和对标产品的核心技术指标、优劣势对比了如指掌,并通过建立对标机制保障团队对竞对的持续高质量跟进和追赶 • 具备行业洞察能力,综合考虑投入产出比(ROI)的同时,提前布局产品技术投入,为2-3年后的机会布局 • 在专业领域具备较强影响力,能主导所负责团队范围的中长期(3~5年)技术演进的规划 具有以下经验者优先: • 精通RDMA协议栈(InfiniBand/RoCE v2)、PFC/ECN流控机制,有Mellanox/NVIDIA交换机调优经验者优先。 • 熟悉NCCL/Gloo通信后端,能通过nsight/rdma-trace定位性能瓶颈 • 主导过千卡级AI集群RDMA网络部署,具备大规模分布式系统压测与调优能力 • 熟悉NVLINK/SUE/ETH+技术以及PCIE/CXL技术者优先
所属行业:
云计算
职能分类:
电子技术研发工程师
工作城市:
北京,招聘1人,详细地址:中国-北京
职位要求
学历要求:
本科·统招
工作年限:
10年及以上
技能/证书:
-
薪资福利
年薪范围:
90-130万*13薪
薪资福利:
P9底薪+绩效+奖金+股票
团队架构
所属部门:
云智能集团-阿里云智能
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
4轮
面试流程:
一面:部门高级别同事电话沟通---二面:部门leader 线下--三面:线上交叉面--四面:HR
视频面试:
不可以接受
举报