北京市大模型训练工程师招聘-禾蛙,猎头合作交易平台

**********************

大模型训练工程师

收藏职位

分享职位

70-150万北京本科 5-8年招聘 4 人预计佣金 160.9K 两周前发布

JD基本信息

岗位职责

职位概述负责设计和优化LLM训练框架，支撑LLM高性能训练。与算法团队、平台团队紧密协作，确保LLM infra的稳定、高性能、可扩展，推动AI大模型技术的落地与创新。核心职责 1. 系统设计与优化：设计并搭建分布式训练框架，跟平台协作，支持千亿级参数大模型的训练。 2. 性能调优与成本优化：针对大模型训练任务，优化框架（如PyTorch/VERL等）的分布式策略，提升训练效率。 3. 稳定性与可靠性保障：设计高可用架构，解决训练中断、数据丢失等风险，确保长周期训练任务的稳定性。 4. 协作与落地：与算法团队紧密合作，理解模型需求，提供基础设施层面的技术建议；推动开源工具的定制化开发，适配业务场景。

任职要求

任职要求 1. 计算机科学、分布式系统或相关专业硕士及以上学历，5年以上大模型Infra领域经验。 2. 精通PyTorch，熟悉其底层原理与分布式扩展机制。至少熟练使用一种开源训练框架（VERL，ROLL，ms-swift等）。 3. 可根据业务需求，熟练开发Megatron，Deepspeed训练引擎和VLLM，sglang推理引擎。 4. 熟悉GPU集群架构，了解NVIDIA GPU（如A100/H100）的硬件特性与优化方法。 5. 掌握分布式系统原理，熟悉Kubernetes、Slurm、Ray等资源调度框架。

所属行业:

人工智能AI

职能分类:

技术经理

工作城市:

北京，招聘4人，详细地址：北京/深圳两地都可以

职位要求

学历要求:

本科

工作年限:

5-8年

技能/证书:

薪资福利

年薪范围:

70-150万*16薪

薪资福利:

团队架构

所属部门:

下属人数:

部门架构:

汇报对象:

职级职称:

面试信息

面试轮次:

4轮

面试流程:

3轮业务+一轮hr

视频面试:

可以接受

职能类别

关于

联系我们

电话：400-777-5125（服务时间：工作日9:00至18:00）
网址：www.hewa.cn
苏州地址：苏州工业园区星湖街328号创意产业园2-B405
北京地址：北京市朝阳区朝阳门南大街10号兆泰国际A座501

服务支持: 接单方小程序

发单方小程序

微信公众号