企业招聘
职位
关于禾蛙
合伙人计划
联系客服快速发单
扫码添加企业微信
客服电话
400-7777-5125
猎企入驻
400-777-5125
免费注册
登录
**********************
大模型强化学习技术研究
接单
收藏职位
分享职位
50-80万
北京
博士
3-5年
招聘 1 人
预计佣金
104K
一周前刷新/一个月前发布
迅致直营
反馈快
JD基本信息
岗位职责
1、负责大模型强化学习核心算法的前沿研究与创新,探索新型算法架构与训练策略(如基于强化学习的大模型自适应训练方法、冷启动思维链强化学习技术等方向),解决模型在复杂环境下的决策和推理难题; 2、负责大模型在强化学习框架下的性能优化,涵盖训练效率提升、模型稳定性增强以及泛化能力拓展等方面,解决训练中的梯度不稳定、过拟合等问题; 3、负责大模型强化学习技术向实际业务场景应用转化,针对业务场景需求制定解决方案; 4、跟踪国际前沿技术动态,发表高水平论文,定期撰写技术综述报告,为团队提供前瞻性技术建议。
任职要求
1、拥有海外知名高校计算机科学、机器学习、人工智能、数学等相关专业博士学位;博士后经历或教授职称者优先,具备跨学科研究背景将更具优势; 2、精通强化学习理论与算法(如:PPO、DDPG、SAC等算法),对RLHF、离线强化学习、思维链强化学习等前沿技术有深入的理解和研究,熟悉基于思维链的推理模型,如ReAct、Tree-of-Thought等算法的原理和实现; 3、熟练掌握深度学习框架,如PyTorch或TensorFlow,熟悉Transformer架构及其改进版本; 4、具备丰富的大模型训练与优化实践经验,参与过大模型或多模态模型的研发项目,如GPT、BERT、DALL-E、LLaMA等模型的训练和改进工作;在思维链强化学习技术方向有相关研究或实践经验,能够将思维链技术有效融入大模型强化学习中,提升模型智能水平; 5、以下条件具备其一:具有卓越的学术成就,以第一作者身份在NeurIPS、ICML、ICLR、ACL等国际顶尖学术会议或期刊上发表与大模型强化学习相关的论文,或担任该方向审稿专家;与谷歌、OpenAI等知名公司有项目合作; 6、英文读写能力优秀,能独立参与国际学术会议并进行技术交流。
所属行业:
航空/航天
职能分类:
其他生产/制造/研发职位
工作城市:
北京,招聘1人,详细地址:北京市西城区新街口
职位要求
学历要求:
博士·统招
工作年限:
3-5年
技能/证书:
-
薪资福利
年薪范围:
50-80万*12薪
薪资福利:
50w起,达到高端人才等级不设上限。
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
3轮
面试流程:
-
视频面试:
可以接受
举报