企业招聘
职位
关于禾蛙
合伙人计划
联系客服快速发单
扫码添加企业微信
客服电话
400-7777-5125
猎企入驻
400-777-5125
免费注册
登录
**********************
大模型预训练数据算法专家/工程师
接单
收藏职位
分享职位
100-240万
北京
研究生
不限
招聘 1 人
预计佣金
274.6K
11:01刷新/两周前发布
JD基本信息
岗位职责
岗位介绍 负责构建和迭代万亿Token 级别的高质量预训练数据体系。工作内容涵盖从数据规划、大规模分布式处理系统搭建,到数据质量评估、合成数据探索及全链路效果归因。旨在通过数据侧的极致优化,为 Scaling Law 提供核心驱动力,提升模型在通用、代码、数学等领域表现。 工作职责 1、数据体系架构与工程建设:搭建并维护大规模预训练数据处理全链路,包括数据获取、清洗、去重(MinHash/LSH/语义级去重)、隐私合规处理及版本化管理;设计高并发、高吞吐的分布式数据处理框架(基于Spark/Ray/Flink等),解决海量数据处理中的性能瓶颈,确保数据供给的高效与稳定。 2、数据策略与算法优化:设计和优化领域特定的数据筛选与配比策略(Data Mixing),针对数学、推理、Code、Agent 等核心能力进行定向增强。探索基于 LLM 的高质量合成数据(Synthetic Data)生成技术,解决特定领域(如长尾知识、复杂推理)的数据稀缺问题,利用更少的数据量达到更优的模型收敛效果(提升 per token efficiency)。 3、质量评估与全链路归因:建立多维度的预训练数据质量评估体系(多样性、困惑度、有用性等),构建自动化数据质量打分模型。建立“数据-模型”的全链路归因分析能力,通过消融实验和量化分析,精准定位不同数据源及配比对模型下游任务能力的影响。 4、团队协作与技术前瞻:与模型训练、评测及基础设施团队紧密协作,根据 Scaling Law 指导数据生产规模。跟踪学界与业界在 Data Selection、Data Pruning 等方向的最新进展,并推动技术落地。
任职要求
任职要求 1、计算机、数学、统计学或 AI 相关专业本科及以上学历。 2、大规模数据处理经验: 具备 TB 级甚至 PB 级数据处理经验,精通 Spark、Ray、Flink等至少一种分布式计算框架,熟悉云原生数据架构。 3、LLM 实战经验: 深度参与过LLM预训练数据建设,熟悉从数据采集到清洗、去重、Tokenization 的完整链路。有万亿 Token 级别语料清洗经验者极佳。 4、领域洞察与能力: 对“什么样的语料是好语料”有深刻的直觉和判断力,熟悉人类文明高质量数据的分布规律。 在代码(Code)、数学(Math)、科学文献或多模态数据处理方面有深入研究和独特策略。 5、具备跨团队沟通能力,能够从全局视角思考数据与模型的关系。 加分项 1、在 NeurIPS、ICLR、ACL 等顶会发表过高质量论文,或作为核心贡献者参与过知名开源大模型/数据集项目(如 RedPajama, The Pile 等)
所属行业:
互联网金融
职能分类:
算法研究员
工作城市:
北京,招聘1人,详细地址:北京市海淀区清华科技园B座
职位要求
学历要求:
研究生·统招·985/211
工作年限:
不限
技能/证书:
-
薪资福利
年薪范围:
100-240万*15薪
薪资福利:
节假日都正常放假,不需要调休
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
算法负责人
职级职称:
-
面试信息
面试轮次:
3轮
面试流程:
一面线上笔试,二面技术专家,三面负责人,HR面
视频面试:
可以接受
举报
为你推荐
职能类别
IT互联网技术
电子/通信/半导体
销售/客服
制药/医疗器械/医疗护理
高级管理
关于
禾蛙动态
合伙人计划
猎企入驻
帮助中心
禾蛙协议
禾蛙海外版
联系我们
电话:400-777-5125(服务时间:工作日9:00至18:00)
网址:www.hewa.cn
苏州地址:苏州工业园区星湖街328号创意产业园2-B405
北京地址:北京市朝阳区朝阳门南大街10号兆泰国际A座501
服务支持
接单方小程序
发单方小程序
微信公众号
©版权所有
苏州聚聘网络技术有限公司
苏公网安备32059002007268号
备案号:苏ICP备18067483号-3
|
营业执照
|
服务许可证