JD基本信息
岗位职责
工作职责
1. 多模态大模型研发优化:负责cv领域多模态大模型研发工作,聚焦图像、视频、文本多模态融合,完成视觉大模型预训练、微调、对齐优化,包括sft、rlhf、prompt工程、模型量化等工作,提升模型视觉理解、细粒度识别、图文匹配、图像生成能力.
2. 视觉agent智能体开发:负责ai agent架构设计与开发落地,搭建视觉智能体任务编排框架,实现agent感知、推理、规划、执行闭环能力,完成视觉任务拆解、工具调用、多智能体协同、自主决策逻辑开发,落地cv场景智能化应用.
3. 算法方案设计与迭代:结合业务场景需求,调研跟进国内外多模态大模型、视觉agent前沿技术,设计高精度、高稳定性的算法解决方案,持续优化模型推理速度、泛化能力、复杂场景适配性.
4. 数据处理与评测体系搭建:负责多模态视觉数据清洗、标注、增强、蒸馏优化,搭建模型评测基准,针对视觉识别、agent任务执行效果进行量化评估,输出优化迭代方案.
5. 工程化落地与优化:配合工程团队完成模型轻量化、推理部署、性能调优,兼顾算法效果、算力成本与系统稳定性,实现多模态模型+视觉agent在业务场景的规模化落地.
任职要求
任职资格
1. 多模态大模型经验:具备真实可落地的多模态大模型研发经验,精通vlm、图文大模型架构,熟练掌握视觉大模型预训练、微调、量化、对齐等技术,熟悉clip、cogvlm、qwen-vl、llava等主流多模态模型,有cv领域多模态模型优化、训练、落地实战经验.
2. agent智能体开发经验:具备ai agent完整开发落地经验,精通agent框架搭建、任务拆解、记忆模块、工具调用、规划推理逻辑,熟悉多智能体协同架构,有视觉agent、自动化决策智能体相关实战项目经验.
3. 本科及以上学历,计算机、人工智能、电子信息、自动化等相关专业,2年及以上cv算法研发工作经验.
4. 扎实的计算机视觉基础知识,精通深度学习原理,熟练使用python编程语言,熟练运用pytorch/tensorflow主流深度学习框架.
5. 熟悉多模态数据处理、向量数据库、embedding、rag等相关技术,了解模型推理加速、轻量化部署相关方案.
6. 具备良好的算法逻辑思维、问题排查能力,能够独立完成算法方案设计、实验验证、迭代优化.