**********************
分布式训练工程师
  • 收藏职位
  • 分享职位
40-80万 北京 研究生 不限 招聘 3 人 预计佣金 93.6K 1天前发布
迅致直营 反馈快 72小时新发
JD基本信息
岗位职责
1. 负责 LDM 模型(Large Data Model)训练全流程的性能分析,定位性能瓶颈,并推动端到端性能优化,提升 GPU 利用率,降低团队训练成本 2. 优化模型关键计算模块,包括算子性能优化、必要的融合与混合精度策略推进 3. 优化大规模训练并行策略,支持模型 scale-up 训练策略,做好性能与显存的整体平衡 4. 建设训练框架的 UT/IT 自动化测试体系,提升代码质量与协作效率 5. 与算法团队深度协作,推动模型结构与训练框架的迭代与优化
任职要求
1. 计算机、软件工程、人工智能等相关专业,硕士及以上学历,工作经验 3-8 年 2. 拥有扎实的大模型基础知识,包括但不限于: - Transformer 模型结构 - 模型训练的核心流程(DataLoader、Fwd/Bwd、Loss、Optimizer 等) - 分布式并行策略(DP、TP、PP、SP 等) - 混合精度训练(AMP、BF16、FP8 等) - NCCL 集合通信与 GPU 拓扑 3. 具备基础 CUDA 能力与性能分析能力,能够熟练使用 nsys,对性能热点进行分析和基本排查 4. 精通 Python、C/C++ 至少一门语言,具备良好的工程能力和编码习惯 5. 熟悉 PyTorch 框架,并具备一定的分布式训练实践经验 6. 良好的逻辑思维能力、问题拆解能力,工作态度严谨踏实不浮躁,具备 owner 意识 加分项: 1. 具备大模型训练优化经验(≥1 年),熟悉 Megatron-LM、DeepSpeed 等框架,并有实际集群(≥64 GPU)训练落地经验 2. 有融合算子或 CUDA kernel 深度优化经验(operator fusion、Tensor Core、kernel tuning 等)
所属行业:
人工智能AI、大数据
职能分类:
算法工程师
工作城市:
北京,招聘3人,详细地址:北京
职位要求
学历要求:
研究生·统招
工作年限:
不限
技能/证书:
-
薪资福利
年薪范围:
40-80万*15薪
薪资福利:
五险一金
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
3轮
面试流程:
-
视频面试:
可以接受