企业招聘
职位
关于禾蛙
合伙人计划
联系客服快速发单
扫码添加企业微信
客服电话
400-7777-5125
猎企入驻
400-777-5125
免费注册
登录
**********************
AI大模型算法工程师(偏强化学习)
接单
收藏职位
分享职位
30-150万
北京
研究生
3-5年
招聘 1 人
预计佣金
158.4K
07:32发布
72小时新发
JD基本信息
岗位职责
1.负责干亿/百亿参数大模型的后训练(post-training)与强化学习对齐,包括 RLHF、DPO、PPO 等算法的设计、实现与持续优化; 2.搭建分布式 RL 训练框架与强化学习环境,构建领域专属奖励模型(Reward Model),解决稀疏奖励、训练稳定性等核心问题; 3.建设自动化评测体系,量化 RL策略在真实业务中的泛化能力与安全性,形成数据闭环驱动模型快速迭代; 4.跟踪ICML、NeurIPS、ICLR 等顶会强化学习最新进展,将前沿算法转化为专利、顶会论文与业务落地方案。
任职要求
1.计算机、人工智能、自动化、数学等相关专业硕士及以上学历,博士优先; 2.对强化学习基础理论(MDP、策略梯度、Actor-Critic、Offline RL 等)有深入理解,熟悉 PPO、SAC、DQN、DDPG 等主流算法; 3.具备大模型+RL 实战经验:独立完成过 RLHF 或 Reward Model 训练,熟悉DeepSpeed/Megatron 分布式训练框架; 4.编程功底扎实,精通 Python 与 PyTorch/TensorFlow;能独立实现算法原型并上线部署; 5.在 NeurlPS/ICML/ICLR/AAAI 等顶会或期刊以一作/共一发表过强化学习相关论文,或拥有核心专利; 6.具备优秀的团队协作与跨部门沟通能力,对技术落地有强烈 Ownership,能适应快速变化的业务需求。
所属行业:
企业级软件
职能分类:
算法工程师
工作城市:
北京,招聘1人,详细地址:北京石景山
职位要求
学历要求:
研究生·统招·985/211
工作年限:
3-5年
技能/证书:
-
薪资福利
年薪范围:
30-150万*15薪
薪资福利:
-
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
2轮
面试流程:
-
视频面试:
可以接受
举报
为你推荐
职能类别
IT互联网技术
电子/通信/半导体
销售/客服
制药/医疗器械/医疗护理
高级管理
关于
禾蛙动态
合伙人计划
猎企入驻
帮助中心
禾蛙协议
禾蛙海外版
联系我们
电话:400-777-5125(服务时间:工作日9:00至18:00)
网址:www.hewa.cn
苏州地址:苏州工业园区星湖街328号创意产业园2-B405
北京地址:北京市朝阳区朝阳门南大街10号兆泰国际A座501
服务支持
接单方小程序
发单方小程序
微信公众号
©版权所有
苏州聚聘网络技术有限公司
苏公网安备32059002007268号
备案号:苏ICP备18067483号-3
|
营业执照
|
服务许可证