JD基本信息
岗位职责
1 配合产研团队开展大模型评测初期核心准备工作,主导Agent/模型工具调用(Function Calling)能力方向的评测集构建、Rubric评估标准制定,搭建全流程评估校验体系,保障评测数据的精准性与可靠性,为模型迭代提供核心数据支撑。 2 深度协同产品、算法、工程团队,对接业务场景数据需求,执行评测方案落地、评估校验等工作,同步反馈评测结果,提炼模型与数据问题,输出针对性优化建议。 3 负责评测数据、校验结果的整理与分析,梳理评测流程中的核心痛点,持续优化评测集结构、Rubric标准及校验流程,提升评测工作效率与模型迭代响应速度。 4 关注大模型与Agent领域评测技术前沿,探索适用于工具调用能力的新型评测方法论,结合业务实际落地优化方案,助力提升Agent及模型的使用体验与迭代效能。
任职要求
1 本科及以上学历,计算机、人工智能、软件工程等相关专业优先。 2 熟练掌握Python编程语言,精通提示词工程,深入理解Agent&Workflow构建、Function Calling的核心逻辑与实际应用场景。 3 具备大模型评测、数据构建、算法研发或AI产品相关工作经验,有Rubric制定、评测集搭建实操经验者优先。 4 对数据质量与模型效果变化高度敏感,具备较强的逻辑分析、问题诊断能力,能够独立推进评测相关工作落地与优化。 5 具备优秀的团队协作能力、沟通协调能力以及项目管理能力,工作积极主动,自我驱动力强,能适应快速工作节奏,乐于钻研AI领域前沿技术与方法论。