1、 负责⼤语⾔模型的评测与分析⼯作,与模型训练团队配合,不断优化提升模型效果,⼯作内容主要包括:
① 结合业务需求痛点,构建和实施全流程的评测⽅案,包括建⽴和维护考察维度和标签体系,优化语⾔模型+⼈⼯的评测⽅法,维护和更新评测数据集等;
② 深⼊分析模型能⼒,形成客观认知,为模型训练迭代提供指导意⻅;
③ 洞察前沿进展,积极主动地学习和探索新的评测分析⽅法和技术。
2、 负责训练数据的制备,与模型训练团队和数据标注团队配合,完善和优化模型效果,⼯作内容主要包括:
① 参与数据制备流程设计;
② 深⼊理解⻩⾦数据的特征,维护⼀套兼具全⾯性和具体性的⻩⾦标准;
③ 亲⾃参与数据标注,同时指导和监督数据标注团队按批次产出数据,记录数据特性和版本;
④ 在开发团队和数据标注团队之间起桥梁沟通作⽤,为标注质量负责,及时汇报沟通。