北京市大模型预训练数据算法专家/工程师招聘-禾蛙,猎头合作交易平台

**********************

大模型预训练数据算法专家/工程师

收藏职位

分享职位

100-240万北京研究生不限招聘 1 人预计佣金 274.6K 11:01刷新/两周前发布

JD基本信息

岗位职责

岗位介绍负责构建和迭代万亿Token 级别的高质量预训练数据体系。工作内容涵盖从数据规划、大规模分布式处理系统搭建，到数据质量评估、合成数据探索及全链路效果归因。旨在通过数据侧的极致优化，为 Scaling Law 提供核心驱动力，提升模型在通用、代码、数学等领域表现。工作职责 1、数据体系架构与工程建设：搭建并维护大规模预训练数据处理全链路，包括数据获取、清洗、去重（MinHash/LSH/语义级去重）、隐私合规处理及版本化管理；设计高并发、高吞吐的分布式数据处理框架（基于Spark/Ray/Flink等），解决海量数据处理中的性能瓶颈，确保数据供给的高效与稳定。 2、数据策略与算法优化：设计和优化领域特定的数据筛选与配比策略（Data Mixing），针对数学、推理、Code、Agent 等核心能力进行定向增强。探索基于 LLM 的高质量合成数据（Synthetic Data）生成技术，解决特定领域（如长尾知识、复杂推理）的数据稀缺问题，利用更少的数据量达到更优的模型收敛效果（提升 per token efficiency）。 3、质量评估与全链路归因：建立多维度的预训练数据质量评估体系（多样性、困惑度、有用性等），构建自动化数据质量打分模型。建立“数据-模型”的全链路归因分析能力，通过消融实验和量化分析，精准定位不同数据源及配比对模型下游任务能力的影响。 4、团队协作与技术前瞻：与模型训练、评测及基础设施团队紧密协作，根据 Scaling Law 指导数据生产规模。跟踪学界与业界在 Data Selection、Data Pruning 等方向的最新进展，并推动技术落地。

任职要求

任职要求 1、计算机、数学、统计学或 AI 相关专业本科及以上学历。 2、大规模数据处理经验：具备 TB 级甚至 PB 级数据处理经验，精通 Spark、Ray、Flink等至少一种分布式计算框架，熟悉云原生数据架构。 3、LLM 实战经验：深度参与过LLM预训练数据建设，熟悉从数据采集到清洗、去重、Tokenization 的完整链路。有万亿 Token 级别语料清洗经验者极佳。 4、领域洞察与能力: 对“什么样的语料是好语料”有深刻的直觉和判断力，熟悉人类文明高质量数据的分布规律。在代码（Code）、数学（Math）、科学文献或多模态数据处理方面有深入研究和独特策略。 5、具备跨团队沟通能力，能够从全局视角思考数据与模型的关系。加分项 1、在 NeurIPS、ICLR、ACL 等顶会发表过高质量论文，或作为核心贡献者参与过知名开源大模型/数据集项目（如 RedPajama, The Pile 等）

所属行业:

互联网金融

职能分类:

算法研究员

工作城市:

北京，招聘1人，详细地址：北京市海淀区清华科技园B座

职位要求

学历要求:

研究生·统招·985/211

工作年限:

不限

技能/证书:

薪资福利

年薪范围:

100-240万*15薪

薪资福利:

节假日都正常放假，不需要调休

团队架构

所属部门:

下属人数:

部门架构:

汇报对象:

算法负责人

职级职称:

面试信息

面试轮次:

3轮

面试流程:

一面线上笔试，二面技术专家，三面负责人，HR面

视频面试:

可以接受

职能类别

关于

联系我们

电话：400-777-5125（服务时间：工作日9:00至18:00）
网址：www.hewa.cn
苏州地址：苏州工业园区星湖街328号创意产业园2-B405
北京地址：北京市朝阳区朝阳门南大街10号兆泰国际A座501

服务支持: 接单方小程序

发单方小程序

微信公众号