**********************
多模态大模型算法专家(编码器与多模态融合方向)
  • 收藏职位
  • 分享职位
50-150万 北京 研究生 3-5年 招聘 1 人 预计佣金 195K 10:37发布
迅致直营 72小时新发
JD基本信息
岗位职责
主导/构建下一代多模态编码器、多模态融合架构及信息压缩技术的研究与落地,突破视觉-语言-时序数据的信息密度瓶颈。构建“原生动态分辨率、极致信息密度、训练推理一致”的视觉-语言基础模型,支撑图文/多图/多模态混合等复杂场景的规模化应用。 核心职责: 1、编码器创新:探索3D时空建模(多视角图像/运动轨迹)与2D图像的统一编码框架、构建统一分词器;研发动态分辨率视觉编码技术,构建“训练-推理一致”的动态分辨率模型,避免训练高分辨率、推理降采样的性能损失; 2、token压缩与增强:解决高分辨率输入/多模态混合输入下显存/效率瓶颈,研发自适应Token压缩/增强算法,在增加信息密度的同时保持信息的完备性,解决推理速度慢等问题; 3、跨模态对齐/跨模态融合架构:超越简单拼接的跨模态融合架构(如Perceiver重采样、Q-Former、交叉注意力压缩层),从传统的“ViT编码+MLP投影+LLM拼接”范式转变,设计新型融合架构,致力于从底层重新定义视觉-语言融合的融合架构,解决长尾分布下模态问题;优化长序列场景(视频、高分辨率文档、多图交错)下的跨模态注意力效率,支持较大量级Token上下文; 4、大规模 MoE 架构的多模态模型设计、训练与优化:探索专家路由机制、负载均衡及高效推理策略,提升模型容量与计算效率的协同性能; 5、强化学习驱动的质量优化:研发基于强化学习(如 PPO、DPO、GRPO 等)的对齐与优化算法,设计构建奖励建模,持续提升生成质量、安全性与任务适应能力。
任职要求
条件: 1、计算机/人工智能/数学等相关专业硕士及以上学历; 2、在 CVPR、ICCV、NeurIPS、ICML 等顶会发表过高质量论文优先; 3、精通主流多模态模型架构(如 Qwen-VL, LLaVA, CogVLM, Fuyu, Chameleon 等); 4、熟悉各种重采样(Resampler)、交叉注意力(Cross-Attention)及投影器(Projector)的数学本质与优缺点; 5、具有多模态空间感知落地经验,主导过遥感影像解译、结构化要素提取、空间关系推理等实际项目; 6、深入理解MoE(专家路由/负载均衡)、RL(PPO/DPO/GRPO)、长序列建模等技术,有将MoE/RL应用于感知任务的经验; 7、扎实的编码能力,注重算法落地,平衡研究创新与工程实现; 8、能够快速跟进前沿论文,提出创新性解决方案。
所属行业:
计算机软件
职能分类:
算法工程师
工作城市:
北京,招聘1人,详细地址:北京海淀区优盛大厦A座1803
职位要求
学历要求:
研究生·统招·985/211
工作年限:
3-5年
技能/证书:
-
薪资福利
年薪范围:
50-150万*12薪
薪资福利:
薪资可面议
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
3轮
面试流程:
-
视频面试:
可以接受
为你推荐