北京市Agent测评岗招聘-禾蛙,猎头合作交易平台

**********************

Agent测评岗

收藏职位

分享职位

30-100万北京研究生 5-8年招聘 2 人预计佣金 107.1K 00:48刷新/6天前发布

SSS 迅致直营反馈快

JD基本信息

岗位职责

1 智能体全链路功能与效果评测 1.1 牵头负责AI Agent 全链路、全场景、全模态端到端深度测试，覆盖意图精准理解、长上下文多轮对话、层级化记忆管理、复杂工具链调用、多步骤任务规划、RAG 增强生成、结构化输出等核心能力；针对高复杂度业务流程设计深度评测用例体系，验证链路完整性、逻辑正确性、异常容错能力，确保智能体在真实业务环境下稳定可用、行为可预期、结果可复现。 1.2 主导设计并落地智能体效果量化评估体系与基准评测平台，构建覆盖任务完成度、工具调用精准率、幻觉抑制水平、事实一致性、上下文长期记忆、交互自然度、用户体验 NPS、合规对齐度等多维度可量化指标；建立评测数据集与自动化评估基线，定期输出专业质量分析报告，主导跨团队问题复盘，推动模型、算法、产品、工程全链路系统性优化。 1.3 负责多智能体协同系统深度评测与质量保障，验证多角色分工、任务调度、冲突消解、动态协商、权限控制、数据安全交互、指令可信传递等核心机制；设计高复杂度协同任务场景与对抗性测试案例，保障多智能体在高并发、强干扰、长周期协作下的效率、稳定性与结果可靠性。 1.4 构建全场景异常与边界案例库、对抗性测试体系，覆盖极端输入、诱导性指令、噪声数据、网络波动、依赖服务不可用、资源受限、长会话溢出等高风险场景；主动挖掘AI 原生缺陷、安全逃逸、逻辑漏洞、对齐失效等深层问题，建立缺陷根因分析与闭环追踪机制，持续提升智能体鲁棒性、安全性与抗干扰能力。 2 自动化测试与工具体系建设 2.1 基于Python语言，独立开发智能体自动化测试框架、测试脚本与数据处理pipeline，实现评测流水线、回归测试、A/B测试、压力测试的自动化执行与持续集成（CI/CD），提升测试效率。 2.2 构建完善的测试资源库，包括Prompt测试集（覆盖正常、边界、对抗性提示）、对抗样本库、边界案例库、缺陷库，支持模型迭代与产品优化的效果对比、回归验证。 2.3 搭建智能体行为监控与可观测性体系，实现决策路径追踪、性能瓶颈定位、异常行为预警、Token消耗监控等功能，实时掌握智能体运行状态。 2.4 探索并落地前沿自动化评测技术，如LLM-as-a-Judge、自动化提示词生成、测试用例自动生成等，持续优化自动化测试体系，提升测试的智能化水平。 3 模型服务化与推理优化 3.1 设计并执行智能体全场景性能测试方案，评估响应延迟、并发吞吐量、长会话上下文压缩率、Token消耗效率、知识库检索速度等核心指标，形成性能报告并推动优化。 3.2 开展压力测试、负载测试与混沌测试，模拟高负载、网络抖动、依赖服务中断等极端条件，验证智能体的鲁棒性与容错能力。 3.3 监控线上智能体运行质量，建立SLI/SLO体系，跟踪线上缺陷与性能异常，分析根因并推动优化，参与容量规划，确保智能体能够支撑业务规模持续增长。 4 流程与质量体系建设 4.1 制定并完善智能体测试规范、评测标准、准入准出机制，推动可测性设计（Design for Testability）落地，在产品需求评审、技术方案设计阶段提前介入，从测试视角提出优化建议。 4.2 协同算法、工程、产品、运营等多团队，建立高效协作机制，同步测试进度、缺陷信息与优化建议，推动问题闭环，确保产品迭代流程顺畅。 4.3 负责测试知识沉淀与分享，编写测试文档、操作手册，开展团队内部技术培训，提升团队整体测试能力，推动测试团队专业化发展。 5 技术前沿跟踪与沉淀 5.1 跟踪AI Agent前沿评测方法与技术趋势（如RLHF评估、红队测试、对抗性测试、多维度评测体系），结合公司业务场景，持续优化测试策略与方法，提升测试质量与效率。 5.2 每半年组织一次内部技术分享，围绕AI测试最佳实践、踩坑经验、新技术探索等主题，每季度至少沉淀2个可复用测试组件或测试集，促进团队技术成长。

任职要求

1. 硕士及以上学历，计算机科学、软件工程、人工智能、数学、统计学等相关专业，具有AI Agent测试或大模型评测经验。 2. 5年及以上AI测试经验，有完整的AI Agent、大模型评测相关项目经验；精通Python，熟练使用Pytest、Unittest等测试框架，能独立搭建自动化测试体系与CI/CD流水线； 3. 精通功能测试、接口测试、自动化测试、性能测试中的至少两种，具备复杂场景测试方案设计与问题定位能力； 4. 深入理解大语言模型底层原理；精通AI Agent技术栈，能熟练使用至少两种Agent开发框架（LangChain/AutoGen/Dify等）；熟悉大模型评测体系与方法，有LLM-as-a-Judge等相关实践经验； 5. 具备优秀的缺陷敏感度、逻辑分析能力与问题定位能力；具备良好的文档编写能力与沟通协作能力；具备强烈的质量意识与责任心； 6. 架构能力：具备系统架构设计、技术方案选型、风险评估与问题攻坚能力； 7. 质量体系：熟悉质量管控、测试左移等，有大型项目质量管控经验。 8.【优先条件】有大模型评测、智能体效果评估经验；熟悉向量数据库（Milvus/Chroma等）、模型服务化（vLLM/Triton）；熟悉Docker、K8s等容器化技术；有团队管理经验。 8.1 具备5 年及以上 AI 测试 / 大模型评测 / Agent 评测经验，具备完整大型 AI 产品质量负责人或技术专家经历。 8.2 有从 0 到 1 搭建 AI 评测体系 / 自动化平台 / 评测工具链经验者优先。 9.良好的沟通、组织、协调能力；具备统筹优化能力；能够承受一定项目压力。

所属行业:

汽车零部件及配件、整车制造、新能源汽车

职能分类:

测试经理

工作城市:

北京，招聘2人，详细地址：北京

职位要求

学历要求:

研究生·统招

工作年限:

5-8年

技能/证书:

薪资福利

年薪范围:

30-100万*15薪

薪资福利:

面议

团队架构

所属部门:

下属人数:

部门架构:

汇报对象:

职级职称:

面试信息

面试轮次:

面试流程:

视频面试:

不可以接受

职能类别

关于

联系我们

电话：400-777-5125（服务时间：工作日9:00至18:00）
网址：www.hewa.cn
苏州地址：苏州工业园区星湖街328号创意产业园2-B405
北京地址：北京市朝阳区朝阳门南大街10号兆泰国际A座501

服务支持: 接单方小程序

发单方小程序

微信公众号