**********************
云训练引擎专家(研发方向)
  • 收藏职位
  • 分享职位
80-120万 北京 本科 8-10年 招聘 1 人 预计佣金 144K 07:26发布
72小时新发
JD基本信息
岗位职责
1、负责联通云大规模分布式训练引擎(训练引擎、异构混训、断点续训、容错自愈)的架构设计、核心代码开发与性能调优,支撑千亿~万亿以上参数模型稳定训练和后训练; 2、主导 GPU/ASIC 混合训练集群(NVIDIA、昇腾、寒武纪、昆仑芯等)算子级优化,实现算子融合、重计算、梯度压缩、序列并行、专家并行(MoE)、DP/PP/TP并行,持续提升训练效率; 3、构建基于 K8s 的万卡级分布式训练调度系统,支持 NUMA/拓扑感知、GPU Direct RDMA网络、共享显存、MIG 动态切片,支持国产GPU资源利用率持续提升; 4、设计并实现训练框架插件(PyTorch、DeepSpeed、Megatron-LM、Colossal-AI、MindSpore、Paddle),集成混合精度、Zero-3、FlashAttention、Checkpoint 并行读写,单卡有效算力提升 ≥ 40%; 5、建设训练可观测与故障自愈体系,通过类似eBPF + Prometheus + Grafana + Jaeger架构(不限于)实现秒级定位网络拥塞、慢节点、NCCL Hang,自动触发 Checkpoint 与节点替换,保障 99.9% 训练成功率; 6、负责训练加速存储系统研发,实现并行文件系统(Lustre/CephFS/GPFS等)与 AI 缓存(Alluxio、JuiceFS)一体化,Checkpoint 读写带宽 ≥ 1 TB/s,训练恢复时间 ≤ 2 min; 7、构建训练作业成本模型,支持 Spot 抢占、潮汐混合部署、模型冷热分层,实现同等性能下综合成本降低 ≥ 35%; 8、设计自动化性能 Benchmark 平台,覆盖 LLM、多模态、CV、NLP、Speech 等 100+ 主流模型,输出性能基线、回归测试与硬件选型报告; 9、设计后训练框架(Llama-factory等),覆盖全参微调、Lora微调、强化学习、量化、剪枝、蒸馏等功能; 10、牵头重大客户现场保障,完成千亿以上参数模型压测、调优、故障应急,沉淀可复用性能调优知识库; 11、负责训练引擎相关专利、软著、标准(ITU/CCSA)申报; 12、指导开发、测试、SRE 工程师,搭建代码评审、CI/CD、性能调优、故障演练体系。
任职要求
1、本科及以上学历,计算机、电子工程、人工智能、通信等相关专业,8 年以上云计算/AI 平台研发经验,其中 3 年以上分布式训练技术带头人经历; 2、精通 C++/Go/Python,熟悉 CUDA/OpenCL/ACL,具备算子级开发与汇编优化能力; 3、深度掌握 GPU/ASIC 硬件架构(SM、Tensor Core、NPU Core、HBM、互联拓扑),熟悉 NCCL、NVLink、RDMA、GPUDirect; 4、熟悉分布式训练框架(PyTorch、DeepSpeed、Megatron-LM、Colossal-AI、MindSpore、Paddle)源码,掌握 3D 并行、Zero-3、FlashAttention、Checkpoint 并行读写; 5、熟悉云原生技术栈(K8s、Operator、Device Plugin、Scheduler Framework、Volcano),有二次开发及性能调优经验; 6、具备高并发分布式系统设计与调优能力,熟悉 Zero-Copy、AIO、epoll、DPDK、RDMA、共享内存、无锁队列; 7、熟练使用 nsight、perf、bpf、gdb、valgrind 等性能/调试工具,具备线上故障快速定位与热修复能力; 8、具备优秀的算法与数据结构基础,能针对千亿以上参数训练场景设计新的并行/压缩/调度算法; 9、具备较强的学习能力、责任心和抗压能力,具备良好的英语读写与沟通能力。
所属行业:
云计算
职能分类:
技术总监
工作城市:
北京,招聘1人,详细地址:北京市西城区西单北大街133号联通大厦‌
职位要求
学历要求:
本科·985/211
工作年限:
8-10年
技能/证书:
-
薪资福利
年薪范围:
80-120万*13薪
薪资福利:
-
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
-
面试流程:
-
视频面试:
不可以接受
为你推荐