企业招聘
职位
关于禾蛙
合伙人计划
联系客服快速发单
扫码添加企业微信
客服电话
400-7777-5125
猎企入驻
400-777-5125
免费注册
登录
**********************
大模型训练工程师
接单
收藏职位
分享职位
70-150万
北京
本科
5-8年
招聘 4 人
预计佣金
160.9K
15:05发布
72小时新发
JD基本信息
岗位职责
职位概述 负责设计和优化LLM训练框架,支撑LLM高性能训练。与算法团队、平台团队紧密协作,确保LLM infra的稳定、高性能、可扩展,推动AI大模型技术的落地与创新。 核心职责 1. 系统设计与优化:设计并搭建分布式训练框架,跟平台协作,支持千亿级参数大模型的训练。 2. 性能调优与成本优化:针对大模型训练任务,优化框架(如PyTorch/VERL等)的分布式策略,提升训练效率。 3. 稳定性与可靠性保障:设计高可用架构,解决训练中断、数据丢失等风险,确保长周期训练任务的稳定性。 4. 协作与落地:与算法团队紧密合作,理解模型需求,提供基础设施层面的技术建议;推动开源工具的定制化开发,适配业务场景。
任职要求
任职要求 1. 计算机科学、分布式系统或相关专业硕士及以上学历,5年以上大模型Infra领域经验。 2. 精通PyTorch,熟悉其底层原理与分布式扩展机制。至少熟练使用一种开源训练框架(VERL,ROLL,ms-swift等)。 3. 可根据业务需求,熟练开发Megatron,Deepspeed训练引擎和VLLM,sglang推理引擎。 4. 熟悉GPU集群架构,了解NVIDIA GPU(如A100/H100)的硬件特性与优化方法。 5. 掌握分布式系统原理,熟悉Kubernetes、Slurm、Ray等资源调度框架。
所属行业:
人工智能AI
职能分类:
技术经理
工作城市:
北京,招聘4人,详细地址:北京/深圳两地都可以
职位要求
学历要求:
本科
工作年限:
5-8年
技能/证书:
-
薪资福利
年薪范围:
70-150万*16薪
薪资福利:
-
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
4轮
面试流程:
3轮业务+一轮hr
视频面试:
可以接受
举报