**********************
Agent测评岗
  • 收藏职位
  • 分享职位
30-100万 北京 研究生 5-8年 招聘 2 人 预计佣金 107.1K 00:48刷新/6天前发布
SSS 迅致直营 反馈快
JD基本信息
岗位职责
1 智能体全链路功能与效果评测 1.1 牵头负责AI Agent 全链路、全场景、全模态端到端深度测试,覆盖意图精准理解、长上下文多轮对话、层级化记忆管理、复杂工具链调用、多步骤任务规划、RAG 增强生成、结构化输出等核心能力;针对高复杂度业务流程设计深度评测用例体系,验证链路完整性、逻辑正确性、异常容错能力,确保智能体在真实业务环境下稳定可用、行为可预期、结果可复现。 1.2 主导设计并落地智能体效果量化评估体系与基准评测平台,构建覆盖任务完成度、工具调用精准率、幻觉抑制水平、事实一致性、上下文长期记忆、交互自然度、用户体验 NPS、合规对齐度等多维度可量化指标;建立评测数据集与自动化评估基线,定期输出专业质量分析报告,主导跨团队问题复盘,推动模型、算法、产品、工程全链路系统性优化。 1.3 负责多智能体协同系统深度评测与质量保障,验证多角色分工、任务调度、冲突消解、动态协商、权限控制、数据安全交互、指令可信传递等核心机制;设计高复杂度协同任务场景与对抗性测试案例,保障多智能体在高并发、强干扰、长周期协作下的效率、稳定性与结果可靠性。 1.4 构建全场景异常与边界案例库、对抗性测试体系,覆盖极端输入、诱导性指令、噪声数据、网络波动、依赖服务不可用、资源受限、长会话溢出等高风险场景;主动挖掘AI 原生缺陷、安全逃逸、逻辑漏洞、对齐失效等深层问题,建立缺陷根因分析与闭环追踪机制,持续提升智能体鲁棒性、安全性与抗干扰能力。 2 自动化测试与工具体系建设 2.1 基于Python语言,独立开发智能体自动化测试框架、测试脚本与数据处理pipeline,实现评测流水线、回归测试、A/B测试、压力测试的自动化执行与持续集成(CI/CD),提升测试效率。 2.2 构建完善的测试资源库,包括Prompt测试集(覆盖正常、边界、对抗性提示)、对抗样本库、边界案例库、缺陷库,支持模型迭代与产品优化的效果对比、回归验证。 2.3 搭建智能体行为监控与可观测性体系,实现决策路径追踪、性能瓶颈定位、异常行为预警、Token消耗监控等功能,实时掌握智能体运行状态。 2.4 探索并落地前沿自动化评测技术,如LLM-as-a-Judge、自动化提示词生成、测试用例自动生成等,持续优化自动化测试体系,提升测试的智能化水平。 3 模型服务化与推理优化 3.1 设计并执行智能体全场景性能测试方案,评估响应延迟、并发吞吐量、长会话上下文压缩率、Token消耗效率、知识库检索速度等核心指标,形成性能报告并推动优化。 3.2 开展压力测试、负载测试与混沌测试,模拟高负载、网络抖动、依赖服务中断等极端条件,验证智能体的鲁棒性与容错能力。 3.3 监控线上智能体运行质量,建立SLI/SLO体系,跟踪线上缺陷与性能异常,分析根因并推动优化,参与容量规划,确保智能体能够支撑业务规模持续增长。 4 流程与质量体系建设 4.1 制定并完善智能体测试规范、评测标准、准入准出机制,推动可测性设计(Design for Testability)落地,在产品需求评审、技术方案设计阶段提前介入,从测试视角提出优化建议。 4.2 协同算法、工程、产品、运营等多团队,建立高效协作机制,同步测试进度、缺陷信息与优化建议,推动问题闭环,确保产品迭代流程顺畅。 4.3 负责测试知识沉淀与分享,编写测试文档、操作手册,开展团队内部技术培训,提升团队整体测试能力,推动测试团队专业化发展。 5 技术前沿跟踪与沉淀 5.1 跟踪AI Agent前沿评测方法与技术趋势(如RLHF评估、红队测试、对抗性测试、多维度评测体系),结合公司业务场景,持续优化测试策略与方法,提升测试质量与效率。 5.2 每半年组织一次内部技术分享,围绕AI测试最佳实践、踩坑经验、新技术探索等主题,每季度至少沉淀2个可复用测试组件或测试集,促进团队技术成长。
任职要求
1. 硕士及以上学历,计算机科学、软件工程、人工智能、数学、统计学等相关专业,具有AI Agent测试或大模型评测经验。 2. 5年及以上AI测试经验,有完整的AI Agent、大模型评测相关项目经验;精通Python,熟练使用Pytest、Unittest等测试框架,能独立搭建自动化测试体系与CI/CD流水线; 3. 精通功能测试、接口测试、自动化测试、性能测试中的至少两种,具备复杂场景测试方案设计与问题定位能力; 4. 深入理解大语言模型底层原理;精通AI Agent技术栈,能熟练使用至少两种Agent开发框架(LangChain/AutoGen/Dify等);熟悉大模型评测体系与方法,有LLM-as-a-Judge等相关实践经验; 5. 具备优秀的缺陷敏感度、逻辑分析能力与问题定位能力;具备良好的文档编写能力与沟通协作能力;具备强烈的质量意识与责任心; 6. 架构能力:具备系统架构设计、技术方案选型、风险评估与问题攻坚能力; 7. 质量体系:熟悉质量管控、测试左移等,有大型项目质量管控经验。 8.【优先条件】有大模型评测、智能体效果评估经验;熟悉向量数据库(Milvus/Chroma等)、模型服务化(vLLM/Triton);熟悉Docker、K8s等容器化技术;有团队管理经验。 8.1 具备5 年及以上 AI 测试 / 大模型评测 / Agent 评测经验,具备完整大型 AI 产品质量负责人或技术专家经历。 8.2 有从 0 到 1 搭建 AI 评测体系 / 自动化平台 / 评测工具链经验者优先。 9.良好的沟通、组织、协调能力;具备统筹优化能力;能够承受一定项目压力。
所属行业:
汽车零部件及配件、整车制造、新能源汽车
职能分类:
测试经理
工作城市:
北京,招聘2人,详细地址:北京
职位要求
学历要求:
研究生·统招
工作年限:
5-8年
技能/证书:
-
薪资福利
年薪范围:
30-100万*15薪
薪资福利:
面议
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
-
面试流程:
-
视频面试:
不可以接受
为你推荐