北京市多模态大模型算法专家（编码器与多模态融合方向）招聘-禾蛙,猎头合作交易平台

**********************

多模态大模型算法专家（编码器与多模态融合方向）

收藏职位

分享职位

50-150万北京研究生 3-5年招聘 1 人预计佣金 195K 3天前刷新/三个月前发布

迅致直营

JD基本信息

岗位职责

主导/构建下一代多模态编码器、多模态融合架构及信息压缩技术的研究与落地，突破视觉-语言-时序数据的信息密度瓶颈。构建“原生动态分辨率、极致信息密度、训练推理一致”的视觉-语言基础模型，支撑图文/多图/多模态混合等复杂场景的规模化应用。核心职责： 1、编码器创新：探索3D时空建模（多视角图像/运动轨迹）与2D图像的统一编码框架、构建统一分词器；研发动态分辨率视觉编码技术，构建“训练-推理一致”的动态分辨率模型，避免训练高分辨率、推理降采样的性能损失； 2、token压缩与增强：解决高分辨率输入/多模态混合输入下显存/效率瓶颈，研发自适应Token压缩/增强算法，在增加信息密度的同时保持信息的完备性，解决推理速度慢等问题； 3、跨模态对齐/跨模态融合架构：超越简单拼接的跨模态融合架构（如Perceiver重采样、Q-Former、交叉注意力压缩层），从传统的“ViT编码+MLP投影+LLM拼接”范式转变，设计新型融合架构，致力于从底层重新定义视觉-语言融合的融合架构，解决长尾分布下模态问题；优化长序列场景（视频、高分辨率文档、多图交错）下的跨模态注意力效率，支持较大量级Token上下文； 4、大规模 MoE 架构的多模态模型设计、训练与优化：探索专家路由机制、负载均衡及高效推理策略，提升模型容量与计算效率的协同性能； 5、强化学习驱动的质量优化：研发基于强化学习（如 PPO、DPO、GRPO 等）的对齐与优化算法，设计构建奖励建模，持续提升生成质量、安全性与任务适应能力。

任职要求

条件： 1、计算机/人工智能/数学等相关专业硕士及以上学历； 2、在 CVPR、ICCV、NeurIPS、ICML 等顶会发表过高质量论文优先； 3、精通主流多模态模型架构（如 Qwen-VL, LLaVA, CogVLM, Fuyu, Chameleon 等）； 4、熟悉各种重采样（Resampler）、交叉注意力（Cross-Attention）及投影器（Projector）的数学本质与优缺点； 5、具有多模态空间感知落地经验，主导过遥感影像解译、结构化要素提取、空间关系推理等实际项目； 6、深入理解MoE（专家路由/负载均衡）、RL（PPO/DPO/GRPO）、长序列建模等技术，有将MoE/RL应用于感知任务的经验； 7、扎实的编码能力，注重算法落地，平衡研究创新与工程实现； 8、能够快速跟进前沿论文，提出创新性解决方案。

所属行业:

计算机软件

职能分类:

算法工程师

工作城市:

北京，招聘1人，详细地址：北京海淀区优盛大厦A座1803

职位要求

学历要求:

研究生·统招·985/211

工作年限:

3-5年

技能/证书:

薪资福利

年薪范围:

50-150万*12薪

薪资福利:

薪资可面议

团队架构

所属部门:

下属人数:

部门架构:

汇报对象:

职级职称:

面试信息

面试轮次:

3轮

面试流程:

视频面试:

可以接受

职能类别

关于

联系我们

电话：400-777-5125（服务时间：工作日9:00至18:00）
网址：www.hewa.cn
地址：中国（上海）自由贸易试验区滨江大道99弄6号第11层

服务支持: 接单方小程序

发单方小程序

微信公众号