广州市算法研究员（强化学习⽅向）招聘-禾蛙,猎头合作交易平台

**********************

算法研究员（强化学习⽅向）

收藏职位

分享职位

40-80万广州本科 3-5年招聘 1 人预计佣金 89.6K 一周前刷新/三个月前发布

JD基本信息

岗位职责

（先加微信：duke-simon 拿项目手册，画像精准再做单） 1、负责深⼊探索和追踪强化学习领域的前沿算法及技术动态，及时将其应⽤于公司业务场景，推动业务发展。 2、负责强化学习算法的研究与开发⼯作，包括但不限于奖励模型的设计与优化、强化学习算法的实现及效果调优等，以提升模型的性能和效率。 3、对现有强化学习模型进⾏评估和优化，针对实际业务问题提出有效的解决⽅案，持续提升⾳乐⼤模型偏好对⻬能⼒。 4、撰写技术⽂档，记录算法设计、实现过程及实验结果，为团队成员提供技术⽀持和知识共享。

任职要求

1、计算机科学、数学、⼈⼯智能、机器学习等相关专业，本科及以上学历，硕⼠学历优先。 2、必须具备强化学习在⼤模型（⼤语⾔模型、图像模型、⾳频对话模型领域的经验）。 3、具备扎实的数学基础，熟悉概率论、线性代数、数值优化等数学⼯具在强化学习中的应⽤。 4、具备强化学习实践经验，熟悉经典强化学习算法，以及深度强化学习的前沿技术，如DPO、PPO、 GRPO等。 5、具备⼤语⾔模型奖励模型开发、强化学习调优经验者优先。 6、具备较强的问题分析和解决能⼒，能够快速定位并解决强化学习模型开发过程中遇到的各种问题。 7、熟练掌握深度学习的理论和⽅法，精通PyTorch、TensorFlow等主流深度学习框架，能够灵活运⽤其进⾏模型搭建和训练。 8、具备良好的数据洞察能⼒，能够从数据中挖掘有价值的信息，为算法优化提供依据。 9、加分项：有⾳乐背景、热爱⾳乐、具备强烈的进取⼼和求知欲，热衷于追求技术创新，能够不断学习和掌握新的技术和⽅法。

所属行业:

移动互联网

职能分类:

其他

工作城市:

广州，招聘1人，详细地址：.

职位要求

学历要求:

本科·统招

工作年限:

3-5年

技能/证书:

薪资福利

年薪范围:

40-80万*12薪

薪资福利:

12薪+年终奖

团队架构

所属部门:

下属人数:

部门架构:

汇报对象:

职级职称:

面试信息

面试轮次:

面试流程:

视频面试:

不可以接受

职能类别

关于

联系我们

电话：400-777-5125（服务时间：工作日9:00至18:00）
网址：www.hewa.cn
苏州地址：苏州工业园区星湖街328号创意产业园2-B405
北京地址：北京市朝阳区朝阳门南大街10号兆泰国际A座501

服务支持: 接单方小程序

发单方小程序

微信公众号