**********************
算法研究员(强化学习⽅向)
  • 收藏职位
  • 分享职位
40-80万 广州 本科 3-5年 招聘 1 人 预计佣金 89.6K 一周前刷新/一个月前发布
JD基本信息
岗位职责
(先加微信:duke-simon 拿项目手册,画像精准再做单) 1、负责深⼊探索和追踪强化学习领域的前沿算法及技术动态,及时将其应⽤于公司业务场景,推动业 务发展。 2、负责强化学习算法的研究与开发⼯作,包括但不限于奖励模型的设计与优化、强化学习算法的实现 及效果调优等,以提升模型的性能和效率。 3、对现有强化学习模型进⾏评估和优化,针对实际业务问题提出有效的解决⽅案,持续提升⾳乐⼤模 型偏好对⻬能⼒。 4、撰写技术⽂档,记录算法设计、实现过程及实验结果,为团队成员提供技术⽀持和知识共享。
任职要求
1、计算机科学、数学、⼈⼯智能、机器学习等相关专业,本科及以上学历,硕⼠学历优先。 2、必须具备强化学习在⼤模型(⼤语⾔模型、图像模型、⾳频对话模型领域的经验)。 3、具备扎实的数学基础,熟悉概率论、线性代数、数值优化等数学⼯具在强化学习中的应⽤。 4、具备强化学习实践经验,熟悉经典强化学习算法,以及深度强化学习的前沿技术,如DPO、PPO、 GRPO等。 5、具备⼤语⾔模型奖励模型开发、强化学习调优经验者优先。 6、具备较强的问题分析和解决能⼒,能够快速定位并解决强化学习模型开发过程中遇到的各种问题。 7、熟练掌握深度学习的理论和⽅法,精通PyTorch、TensorFlow等主流深度学习框架,能够灵活运⽤ 其进⾏模型搭建和训练。 8、具备良好的数据洞察能⼒,能够从数据中挖掘有价值的信息,为算法优化提供依据。 9、加分项:有⾳乐背景、热爱⾳乐、具备强烈的进取⼼和求知欲,热衷于追求技术创新,能够不断学 习和掌握新的技术和⽅法。
所属行业:
移动互联网
职能分类:
其他
工作城市:
广州,招聘1人,详细地址:.
职位要求
学历要求:
本科·统招
工作年限:
3-5年
技能/证书:
-
薪资福利
年薪范围:
40-80万*12薪
薪资福利:
12薪+年终奖
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
-
面试流程:
-
视频面试:
不可以接受