JD基本信息
岗位职责
1. 评测体系搭建与自动化流水线建设
负责大模型垂类应用(包括对话、视频/图片理解)的效果评测与质量标注工作,包括评测数据集构建、数据标注管理、模型评分体系设计
设计并开发基于大视觉语言模型(vlm)和agent架构的视频/图片分析流水线,实现自动驾驶场景或仿真视频的自动化理解、切片、标注与评价,能处理视频抽帧、特征对齐与可视化分析
主导评测规则与标准的制定,参与日常尺度拉齐、策略迭代及标注质量管控
2. 模型效果评估与根因分析
系统性评估大语言/视觉模型垂类应用的效果与质量,覆盖语言理解准确性、生成内容合理性/真实性、逻辑连贯性等核心维度
专项技术:针对自动驾驶视觉模型,完善多维度的行为评价指标体系/自动标注流程
利用agent对模型在特定场景或仿真场景下的表现进行诊断分析,定位bad case根因
设计并执行测试用例,收集分析用户反馈数据,确保应用在不同场景、用户需求和输入条件下的稳定性与可靠性
3. 智能化效率提升与迭代优化
运用 prompt engineering、agent工作流编排、模型辅助标注 等智能化方法,系统性地提升数据标注质量与作业效率
沉淀方法论并推动流程迭代,撰写评估分析报告,清晰阐明评估方法、过程、结果和结论,为产研团队提供决策依据与改进方向
任职要求
a. 基础通用要求
1. 有较好的理解能力和文本编辑能力,对数据敏感,具备优秀的数据分析能力、逻辑推理能力,有结构化思维
2. 具备大模型评测和标注相关经验
3. 对ai技术感兴趣,对最新技术和应用有了解和关注
b. 专业技术要求(自动驾驶+vlm方向)
1. ai工程经验:设计并开发基于vlm和agent架构的视频分析流水线,实现自动驾驶场景或仿真视频的自动化理解、切片、标注与评价
2. 模型诊断能力:
3. 编程与部署:熟悉python、pytorch,熟悉docker环境及云端算力部署
4. 领域知识:熟悉视觉与视频基础模型(qwen3- vl、glm4.5v、video-llava),具备自动驾驶知识(感知、规划、控制、端到端等)"
工作城市:
北京,招聘1人,详细地址:海淀区中关村壹号