北京市大模型强化学习技术研究招聘-禾蛙,猎头合作交易平台

**********************

大模型强化学习技术研究

收藏职位

分享职位

50-80万北京博士 3-5年招聘 1 人预计佣金 104K 一个月前刷新/两个月前发布

迅致直营

JD基本信息

岗位职责

1、负责大模型强化学习核心算法的前沿研究与创新，探索新型算法架构与训练策略（如基于强化学习的大模型自适应训练方法、冷启动思维链强化学习技术等方向），解决模型在复杂环境下的决策和推理难题； 2、负责大模型在强化学习框架下的性能优化，涵盖训练效率提升、模型稳定性增强以及泛化能力拓展等方面，解决训练中的梯度不稳定、过拟合等问题； 3、负责大模型强化学习技术向实际业务场景应用转化，针对业务场景需求制定解决方案； 4、跟踪国际前沿技术动态，发表高水平论文，定期撰写技术综述报告，为团队提供前瞻性技术建议。

任职要求

1、拥有海外知名高校计算机科学、机器学习、人工智能、数学等相关专业博士学位；博士后经历或教授职称者优先，具备跨学科研究背景将更具优势； 2、精通强化学习理论与算法（如：PPO、DDPG、SAC等算法），对RLHF、离线强化学习、思维链强化学习等前沿技术有深入的理解和研究，熟悉基于思维链的推理模型，如ReAct、Tree-of-Thought等算法的原理和实现； 3、熟练掌握深度学习框架，如PyTorch或TensorFlow，熟悉Transformer架构及其改进版本； 4、具备丰富的大模型训练与优化实践经验，参与过大模型或多模态模型的研发项目，如GPT、BERT、DALL-E、LLaMA等模型的训练和改进工作；在思维链强化学习技术方向有相关研究或实践经验，能够将思维链技术有效融入大模型强化学习中，提升模型智能水平； 5、以下条件具备其一：具有卓越的学术成就，以第一作者身份在NeurIPS、ICML、ICLR、ACL等国际顶尖学术会议或期刊上发表与大模型强化学习相关的论文，或担任该方向审稿专家；与谷歌、OpenAI等知名公司有项目合作； 6、英文读写能力优秀，能独立参与国际学术会议并进行技术交流。

所属行业:

航空/航天

职能分类:

其他生产/制造/研发职位

工作城市:

北京，招聘1人，详细地址：北京市西城区新街口

职位要求

学历要求:

博士·统招

工作年限:

3-5年

技能/证书:

薪资福利

年薪范围:

50-80万*12薪

薪资福利:

50w起，达到高端人才等级不设上限。

团队架构

所属部门:

下属人数:

部门架构:

汇报对象:

职级职称:

面试信息

面试轮次:

3轮

面试流程:

视频面试:

可以接受