企业招聘
职位
关于禾蛙
合伙人计划
联系客服快速发单
扫码添加企业微信
客服电话
400-7777-5125
猎企入驻
400-777-5125
免费注册
登录
**********************
文本大模型评估(语言方向评估专家-通用评估)
接单
收藏职位
分享职位
12-15万
北京
本科
0-3年
招聘 1 人
预计佣金
5.4K
03:17发布
72小时新发
JD基本信息
岗位职责
负责大语言模型在语言能力方向(对话交互、翻译等)的质量评估体系设计与落地。从语言学与认知视角出发,与产品及研发团队协同,将语言质量、交互合理性、语义一致性等专业判断转化为结构化、可执行的评估标准与流程。 具体业务: 1、主导模型输出在多语言、多场景下的系统性评估,从准确性、流畅性、一致性等维度进行深度分析,输出高质量评估报告,为模型优化提供关键依据。 2、搭建与迭代语言能力评测框架,包括但不限于:评测指标体系设计、评测数据构建与质量控制。推动从专家评估向半自动/自动评估体系演进,提升评测效率与稳定性。 3、将定性语言判断抽象为可量化指标,设计标注规范与数据结构,构建高质量人评评测数据集;结合数据分析方法,识别模型在对话与翻译任务中的问题(如幻觉、歧义处理失败、语境理解偏差等),并推动优化闭环。 4、探索评测方法前沿,包括 LLM-as-a-judge、对抗测试、多轮对话评测、跨语言一致性评估等方向,持续优化评测方法的可靠性与可扩展性。
任职要求
基础要求 1、优先考虑:具备 AI 模型评测体系设计经验,或参与过 benchmark / evaluation pipeline 搭建者,学历要求可适当放宽。 2、需要具备 POC / 项目负责人意识,能够独立设计评测方案、拆解问题,并推动跨团队落地。 3、具备良好的抽象能力与结构化思维,能够在复杂语言现象中提炼共性问题;沟通表达清晰,逻辑严谨,责任心强。 4、具备优秀的项目推进能力,能够统筹评测方案设计、数据构建与跨团队协作,将评测结果有效转化为产品与模型优化策略。 学历背景要求 毕业于优秀院校(语言学、心理学、计算语言学、NLP 等相关专业优先),具备 1-3 年相关经验;或具备扎实学术背景并有明确意愿进入 AI 评测方向。 在以下一个或多个领域具备专业背景: 1、语言学 / 应用语言学: 具备扎实的语义学、语用学、语篇分析或跨文化交际基础,能够系统分析语言质量问题(如歧义、指代、语境适配等),并具备多语言理解能力者优先。 2、心理学 / 认知科学: 理解人类语言理解与生成机制(如认知负荷、对话协作原则等),能够从用户视角评估对话系统的自然性与可理解性。 3、计算语言学 / NLP 相关方向: 熟悉机器翻译、对话系统等任务的基本方法与评测指标,理解模型能力边界与常见问题类型。 核心能力要求 1、 能够将定性的语言判断抽象为结构化评估维度与量化指标(如评分体系、rubric 设计等) 2、熟悉或了解主流评测框架与 benchmark,具备评测体系搭建或改造经验 3、具备数据处理与分析能力(Python / Excel / SQL 等),能够从评测数据中提炼模型问题与改进方向 4、理解大语言模型基本原理及其在对话、翻译任务中的典型表现与局限
所属行业:
人工智能AI
职能分类:
其他运营职位
工作城市:
北京,招聘1人,详细地址:E世界
职位要求
学历要求:
本科
工作年限:
0-3年
技能/证书:
-
薪资福利
年薪范围:
12-15万*12薪
薪资福利:
三餐,下午茶,加班打车报销,加班费
团队架构
所属部门:
AI数据与安全-数据标注与评估运营
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
2轮
面试流程:
飞书视频面试
视频面试:
不可以接受
举报
为你推荐
职能类别
IT互联网技术
电子/通信/半导体
销售/客服
制药/医疗器械/医疗护理
高级管理
关于
禾蛙动态
合伙人计划
猎企入驻
帮助中心
禾蛙协议
禾蛙海外版
联系我们
电话:400-777-5125(服务时间:工作日9:00至18:00)
网址:www.hewa.cn
苏州地址:苏州工业园区星湖街328号创意产业园2-B405
北京地址:北京市朝阳区朝阳门南大街10号兆泰国际A座501
服务支持
接单方小程序
发单方小程序
微信公众号
©版权所有
苏州聚聘网络技术有限公司
苏公网安备32059002007268号
备案号:苏ICP备18067483号-3
|
营业执照
|
服务许可证