北京市AI大模型算法工程师（偏强化学习）招聘-禾蛙,猎头合作交易平台

**********************

AI大模型算法工程师（偏强化学习）

收藏职位

分享职位

30-150万北京研究生 3-5年招聘 1 人预计佣金 158.4K 07:32发布

72小时新发

JD基本信息

岗位职责

1.负责干亿/百亿参数大模型的后训练（post-training）与强化学习对齐，包括 RLHF、DPO、PPO 等算法的设计、实现与持续优化； 2.搭建分布式 RL 训练框架与强化学习环境，构建领域专属奖励模型（Reward Model），解决稀疏奖励、训练稳定性等核心问题； 3.建设自动化评测体系，量化 RL策略在真实业务中的泛化能力与安全性，形成数据闭环驱动模型快速迭代； 4.跟踪ICML、NeurIPS、ICLR 等顶会强化学习最新进展，将前沿算法转化为专利、顶会论文与业务落地方案。

任职要求

1.计算机、人工智能、自动化、数学等相关专业硕士及以上学历，博士优先； 2.对强化学习基础理论（MDP、策略梯度、Actor-Critic、Offline RL 等）有深入理解，熟悉 PPO、SAC、DQN、DDPG 等主流算法； 3.具备大模型+RL 实战经验：独立完成过 RLHF 或 Reward Model 训练，熟悉DeepSpeed/Megatron 分布式训练框架； 4.编程功底扎实，精通 Python 与 PyTorch/TensorFlow；能独立实现算法原型并上线部署； 5.在 NeurlPS/ICML/ICLR/AAAI 等顶会或期刊以一作/共一发表过强化学习相关论文，或拥有核心专利； 6.具备优秀的团队协作与跨部门沟通能力，对技术落地有强烈 Ownership，能适应快速变化的业务需求。

所属行业:

企业级软件

职能分类:

算法工程师

工作城市:

北京，招聘1人，详细地址：北京石景山

职位要求

学历要求:

研究生·统招·985/211

工作年限:

3-5年

技能/证书:

薪资福利

年薪范围:

30-150万*15薪

薪资福利:

团队架构

所属部门:

下属人数:

部门架构:

汇报对象:

职级职称:

面试信息

面试轮次:

2轮

面试流程:

视频面试:

可以接受

职能类别

关于

联系我们

电话：400-777-5125（服务时间：工作日9:00至18:00）
网址：www.hewa.cn
苏州地址：苏州工业园区星湖街328号创意产业园2-B405
北京地址：北京市朝阳区朝阳门南大街10号兆泰国际A座501

服务支持: 接单方小程序

发单方小程序

微信公众号