**********************
大模型部署
  • 收藏职位
  • 分享职位
60-90万 北京 研究生 5-8年 招聘 1 人 预计佣金 117K 7天前发布
迅致直营
JD基本信息
岗位职责
参与公司内部训练、推理框架与平台的架构设计、关键技术研究及开发。 结合业务场景,跟踪前沿技术,持续提升平台的易用性、稳定性、高效性。 可以选择训练和推理中的一个方向,如果两个都有能力做可以主做一个辅做一个。 训练方向: - 训练框架开发:对业内常用SFT、PEFT、RL训练框架进行二次开发,抽象出适用于内部场景的通用训练范式后进行新框架的设计与开发。 - 分布式训练优化:熟悉TP、PP、FSDP、混合并行等并行策略,优化大模型训练性能。 - 训练平台建设:开发实验管理、数据管道、模型仓库等MLOps基础设施。 - 算法工程化:将最新算法技术(如新的并行策略、优化器、数据加载等)工程化落地。 - 性能调优:分析训练瓶颈,通过显存优化、I/O优化、通信优化等手段提升训练效率。 推理方向: - 重构推理服务架构:设计统一的模型部署和服务框架。 - 性能优化:通过算子融合、并行优化、模型压缩等技术提升推理性能。 - 稳定性保障:建立完善的监控、告警、故障转移机制,确保7x24小时稳定服务。 - 成本优化:通过GPU资源调度优化、批处理策略等降低推理成本。
任职要求
统招硕士及以上学历(优秀者本科亦可),计算机、统计、数学、物理或人工智能相关专业。 扎实的深度学习算法基础,精通常用LLM、VLM模型的内部结构。 精通Pytorch框架的使用、底层架构、训练机制。 出色的编程能力与源码分析能力,掌握Python/C++,精通Pytorch。 训练方向: - 2年以上深度学习训练经验,有大模型分布式训练实践,熟悉SFT、PPO、GRPO等Post-Training流程。 - 熟悉Huggingface生态,掌握transformers、accelerate、peft、LLaMAFactory、OpenRLHF/verl等框架,熟悉其中源码。 - 精通DeepSpeed、Megatron、FSDP等分布式训练方式。 - 掌握数据准备、模型训练、模型评估全流程基本技能点。 - 熟悉常用训练加速技术,如Flash Attention、快速断点保存、混合精度、算子融合、显存优化。 推理方向: - 掌握vLLM、SGLang使用方式,熟悉其中源码。 - 能对vLLM或SGLang进行二次开发,能够向其中添加未支持的模型。 - 有瓶颈分析、算子优化、融合算子开发等实际推理性能优化经验。 - 深度理解PagedAttention、KV-Cache、请求调度等核心技术。 - 熟悉常用模型压缩技术,如量化、剪枝,能够根据业务需求选择压缩策略。 - 熟悉CUDA、NCCL、Triton。 加分项: 有从0到1搭建AI训练/推理平台的完整经验。 精通CUDA/Triton,熟练使用nsys、ncu。 了解GPU集群管理,熟悉K8S或Slurm作业调度。 两年内有系统学习某个领域知识的经历。 有该领域开源项目贡献经验或论文发表者优先。
所属行业:
人工智能AI
职能分类:
算法工程师
工作城市:
北京,招聘1人,详细地址:北京市海淀区知春路甲48号2号楼13层
职位要求
学历要求:
研究生·统招
工作年限:
5-8年
技能/证书:
-
薪资福利
年薪范围:
60-90万*12薪
薪资福利:
年度总包 = 基本月薪 × 12个月 + 奖金 + 股权/期权 + 补贴福利。
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
-
面试流程:
-
视频面试:
不可以接受