企业招聘
职位
关于禾蛙
合伙人计划
联系客服快速发单
扫码添加企业微信
客服电话
400-7777-5125
猎企入驻
400-777-5125
免费注册
登录
**********************
大模型训练工程师
接单
收藏职位
分享职位
70-150万
北京
本科
5-8年
招聘 4 人
预计佣金
160.9K
两周前发布
JD基本信息
岗位职责
职位概述 负责设计和优化LLM训练框架,支撑LLM高性能训练。与算法团队、平台团队紧密协作,确保LLM infra的稳定、高性能、可扩展,推动AI大模型技术的落地与创新。 核心职责 1. 系统设计与优化:设计并搭建分布式训练框架,跟平台协作,支持千亿级参数大模型的训练。 2. 性能调优与成本优化:针对大模型训练任务,优化框架(如PyTorch/VERL等)的分布式策略,提升训练效率。 3. 稳定性与可靠性保障:设计高可用架构,解决训练中断、数据丢失等风险,确保长周期训练任务的稳定性。 4. 协作与落地:与算法团队紧密合作,理解模型需求,提供基础设施层面的技术建议;推动开源工具的定制化开发,适配业务场景。
任职要求
任职要求 1. 计算机科学、分布式系统或相关专业硕士及以上学历,5年以上大模型Infra领域经验。 2. 精通PyTorch,熟悉其底层原理与分布式扩展机制。至少熟练使用一种开源训练框架(VERL,ROLL,ms-swift等)。 3. 可根据业务需求,熟练开发Megatron,Deepspeed训练引擎和VLLM,sglang推理引擎。 4. 熟悉GPU集群架构,了解NVIDIA GPU(如A100/H100)的硬件特性与优化方法。 5. 掌握分布式系统原理,熟悉Kubernetes、Slurm、Ray等资源调度框架。
所属行业:
人工智能AI
职能分类:
技术经理
工作城市:
北京,招聘4人,详细地址:北京/深圳两地都可以
职位要求
学历要求:
本科
工作年限:
5-8年
技能/证书:
-
薪资福利
年薪范围:
70-150万*16薪
薪资福利:
-
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
4轮
面试流程:
3轮业务+一轮hr
视频面试:
可以接受
举报
为你推荐
职能类别
IT互联网技术
电子/通信/半导体
销售/客服
制药/医疗器械/医疗护理
高级管理
关于
禾蛙动态
合伙人计划
猎企入驻
帮助中心
禾蛙协议
禾蛙海外版
联系我们
电话:400-777-5125(服务时间:工作日9:00至18:00)
网址:www.hewa.cn
苏州地址:苏州工业园区星湖街328号创意产业园2-B405
北京地址:北京市朝阳区朝阳门南大街10号兆泰国际A座501
服务支持
接单方小程序
发单方小程序
微信公众号
©版权所有
苏州聚聘网络技术有限公司
苏公网安备32059002007268号
备案号:苏ICP备18067483号-3
|
营业执照
|
服务许可证