企业招聘
职位
关于禾蛙
合伙人计划
联系客服快速发单
扫码添加企业微信
客服电话
400-7777-5125
猎企入驻
400-777-5125
免费注册
登录
**********************
大模型训练专家 / 高级工程师
接单
收藏职位
分享职位
50-70万
上海
研究生
5-8年
招聘 1 人
预计佣金
49K
3天前发布
JD基本信息
岗位职责
1.模型架构与训练策略:负责主导和深度参与大模型的分布式训练工程化落地、训练方案制定及关键技术选型。 2.分布式训练优化:构建、优化与维护基于PyTorch、Megatron-LM、MindSpeed等框架的大规模分布式训练流程,持续提升白卡级、千卡级以上集群的计算效率。 3.数据工程体系建设:主导从原始互联网数据到高质量训练语料的全流程开发,包括海量数据获取、清洗、去重、安全过滤及多模态数据混合策略制定。 4.训练稳定性保障:监控、诊断并攻克预训练过程中出现的损失尖峰、数值溢出等各类疑难问题,确保万亿Token级别训练任务的稳定收敛。 5.性能瓶颈分析:运用Profiling工具对训练全链路进行深度性能分析,定位系统瓶颈,并进行内核级或系统级优化。 6.技术前瞻与研究:跟踪学术界与工业界最新进展,将先进的预训练技术、优化策略应用于实际项目,驱动模型性能持续提升。
任职要求
(必备技能与经验): 学历与专业: 计算机科学、人工智能、数学等相关专业硕士及以上学历。 工作经验: o具备5年以上机器学习/深度学习研发经验,至少3年专注于大模型预训练领域。 o拥有完整参与并成功交付一个百亿参数以上大模型预训练项目的全流程经验。 核心技术能力: o深度学习基础:精通Transformer架构及各类变体,对大模型的核心技术(如注意力机制、归一化、位置编码)有深刻理解。 o分布式训练:具备丰富的Megatron-LM、MindSpeed等框架使用经验,深刻理解数据并行、张量并行、流水线并行等并行策略。 o数据处理:熟练掌握TB/PB级别数据的处理流程和工具,精通数据质量过滤、去重及Tokenizer训练。 o编程与工具:精通Python、PyTorch、Transformers等大模型开发框架,熟悉Linux开发环境。具备在大型GPU/NPU集群上进行代码调试和性能调优的实战能力。 个人素质: o具备卓越的系统分析能力和解决复杂问题的热情。 o拥有强大的责任心和团队协作精神,善于沟通。 o对人工智能技术充满好奇心,具备强大的自驱力和持续学习能力。 优先考虑条件 (加分项): 有重要的开源大模型项目贡献经历。 具备跨模态大模型预训练经验。
所属行业:
大数据
职能分类:
大数据开发工程师
工作城市:
上海,招聘1人,详细地址:徐汇区钦州北路1188号科汇大厦6楼
职位要求
学历要求:
研究生·统招
工作年限:
5-8年
技能/证书:
-
薪资福利
年薪范围:
50-70万*12薪
薪资福利:
-
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
3轮
面试流程:
-
视频面试:
可以接受
举报