北京市云训练引擎专家（研发方向）招聘-禾蛙,猎头合作交易平台

**********************

云训练引擎专家（研发方向）

收藏职位

分享职位

80-120万北京本科 8-10年招聘 1 人预计佣金 144K 两周前发布

JD基本信息

岗位职责

1、负责联通云大规模分布式训练引擎（训练引擎、异构混训、断点续训、容错自愈）的架构设计、核心代码开发与性能调优，支撑千亿~万亿以上参数模型稳定训练和后训练； 2、主导 GPU/ASIC 混合训练集群（NVIDIA、昇腾、寒武纪、昆仑芯等）算子级优化，实现算子融合、重计算、梯度压缩、序列并行、专家并行（MoE）、DP/PP/TP并行，持续提升训练效率； 3、构建基于 K8s 的万卡级分布式训练调度系统，支持 NUMA/拓扑感知、GPU Direct RDMA网络、共享显存、MIG 动态切片，支持国产GPU资源利用率持续提升； 4、设计并实现训练框架插件（PyTorch、DeepSpeed、Megatron-LM、Colossal-AI、MindSpore、Paddle），集成混合精度、Zero-3、FlashAttention、Checkpoint 并行读写，单卡有效算力提升 ≥ 40%； 5、建设训练可观测与故障自愈体系，通过类似eBPF + Prometheus + Grafana + Jaeger架构（不限于）实现秒级定位网络拥塞、慢节点、NCCL Hang，自动触发 Checkpoint 与节点替换，保障 99.9% 训练成功率； 6、负责训练加速存储系统研发，实现并行文件系统（Lustre/CephFS/GPFS等）与 AI 缓存（Alluxio、JuiceFS）一体化，Checkpoint 读写带宽 ≥ 1 TB/s，训练恢复时间 ≤ 2 min； 7、构建训练作业成本模型，支持 Spot 抢占、潮汐混合部署、模型冷热分层，实现同等性能下综合成本降低 ≥ 35%； 8、设计自动化性能 Benchmark 平台，覆盖 LLM、多模态、CV、NLP、Speech 等 100+ 主流模型，输出性能基线、回归测试与硬件选型报告； 9、设计后训练框架（Llama-factory等），覆盖全参微调、Lora微调、强化学习、量化、剪枝、蒸馏等功能； 10、牵头重大客户现场保障，完成千亿以上参数模型压测、调优、故障应急，沉淀可复用性能调优知识库； 11、负责训练引擎相关专利、软著、标准（ITU/CCSA）申报； 12、指导开发、测试、SRE 工程师，搭建代码评审、CI/CD、性能调优、故障演练体系。

任职要求

1、本科及以上学历，计算机、电子工程、人工智能、通信等相关专业，8 年以上云计算/AI 平台研发经验，其中 3 年以上分布式训练技术带头人经历； 2、精通 C++/Go/Python，熟悉 CUDA/OpenCL/ACL，具备算子级开发与汇编优化能力； 3、深度掌握 GPU/ASIC 硬件架构（SM、Tensor Core、NPU Core、HBM、互联拓扑），熟悉 NCCL、NVLink、RDMA、GPUDirect； 4、熟悉分布式训练框架（PyTorch、DeepSpeed、Megatron-LM、Colossal-AI、MindSpore、Paddle）源码，掌握 3D 并行、Zero-3、FlashAttention、Checkpoint 并行读写； 5、熟悉云原生技术栈（K8s、Operator、Device Plugin、Scheduler Framework、Volcano），有二次开发及性能调优经验； 6、具备高并发分布式系统设计与调优能力，熟悉 Zero-Copy、AIO、epoll、DPDK、RDMA、共享内存、无锁队列； 7、熟练使用 nsight、perf、bpf、gdb、valgrind 等性能/调试工具，具备线上故障快速定位与热修复能力； 8、具备优秀的算法与数据结构基础，能针对千亿以上参数训练场景设计新的并行/压缩/调度算法； 9、具备较强的学习能力、责任心和抗压能力，具备良好的英语读写与沟通能力。

所属行业:

云计算

职能分类:

技术总监

工作城市:

北京，招聘1人，详细地址：北京市西城区西单北大街133号联通大厦‌

职位要求

学历要求:

本科·985/211

工作年限:

8-10年

技能/证书:

薪资福利

年薪范围:

80-120万*13薪

薪资福利:

团队架构

所属部门:

下属人数:

部门架构:

汇报对象:

职级职称:

面试信息

面试轮次:

面试流程:

视频面试:

不可以接受

职能类别

关于

联系我们

电话：400-777-5125（服务时间：工作日9:00至18:00）
网址：www.hewa.cn
苏州地址：苏州工业园区星湖街328号创意产业园2-B405
北京地址：北京市朝阳区朝阳门南大街10号兆泰国际A座501

服务支持: 接单方小程序

发单方小程序

微信公众号