企业招聘
职位
关于禾蛙
合伙人计划
联系客服快速发单
扫码添加企业微信
客服电话
400-7777-5125
猎企入驻
400-777-5125
免费注册
登录
**********************
大模型数据平台专家
接单
收藏职位
分享职位
80-120万
北京
本科
5-8年
招聘 1 人
预计佣金
122.5K
05:41发布
72小时新发
JD基本信息
岗位职责
. 大模型数据基础设施建设 (平台体系) - 数据处理与挖掘平台: 负责大模型数据处理流水线的设计与开发,建设高性能、可扩展的数据处理平台与数据挖掘平台。实现从海量原始数据(网页、论文、代码等)到高质量预训练/SFT数据的清洗、去重、过滤、分类及质量评分。 - 算子资产平台建设: 负责算子资产平台的规划与构建,沉淀通用的ETL算子、NLP特征算子及数据增强算子,实现算子的标准化管理、复用与编排,降低数据处理的开发门槛。 - 数据资产全生命周期管理: 牵头数据管理平台与数据资产平台的建设,负责数据血缘追踪、版本管理、元数据管理及数据集市的构建,确保数据来源可追溯、质量可评估、资产可复用。 2. 数据安全与权限体系 - 权限与合规管理: 设计并实施精细化的数据权限管理方案,确保多租户环境下的数据隔离与安全。建立数据合规审查机制,针对PII(个人隐私信息)、内容安全等进行自动化识别与脱敏处理。 3. 数据策略与模型协同 - Data-centric AI 实践: 深入理解模型训练原理(Transformer架构、Scaling Law等),与算法团队紧密配合,通过数据分布分析和质量评估,制定数据配比策略,直接对模型训练效果负责。 - NLP 核心算法应用: 运用高阶 NLP 处理能力,开发基于语义理解、聚类、去毒、去偏见的核心算法,解决长文本处理、多模态数据对齐等复杂数据问题。 职位要求 4. 专业背景与经验 - 计算机、数学、统计学或相关专业本科及以上学历,3年以上大数据处理或NLP相关工作经验。 - 有大模型(LLM)预训练数据处理、搜索推荐系统数据流或大规模爬虫处理经验者优先。 5. 核心技术能力 - 大数据开发能力: 精通 Python/Java/Scala 中至少一门语言,熟练掌握 Spark、Flink、Hadoop 等大数据生态组件,具备PB级海量文本数据的处理与性能调优经验。 - NLP 算法能力: 扎实的 NLP 基础,熟悉正则表达式、文本编码、分词及主流 NLP 工具库(如 HuggingFace、NLTK)。了解 BERT/GPT 等模型原理,能利用模型辅助进行数据清洗和质量打分。 - 平台架构能力: 熟悉数据中台架构,有数据资产管理(Data Governance)或算子平台(Operator Platform)的设计与落地经验,理解 DataOps 理念。 6. 领域知识 - 懂模型训练: 理解大模型预训练(Pre-training)、指令微调(SFT)及强化学习(RLHF)对数据格式和质量的不同需求,能从数据角度分析模型Loss波动原因。 - 懂安全权限: 熟悉 RBAC 模型,了解数据安全法规(如 GDPR、数据安全法),有数据加密、脱敏及权限管控系统建设经验。 7. 综合素质 - 具备良好的业务抽象能力,能将复杂的数据处理流程抽象为标准化的平台能力。 - 对数据质量有极高的敏感度,具备优秀的问题分析与跨部门沟通协作能力。
任职要求
职位要求 4. 专业背景与经验 - 计算机、数学、统计学或相关专业本科及以上学历,3年以上大数据处理或NLP相关工作经验。 - 有大模型(LLM)预训练数据处理、搜索推荐系统数据流或大规模爬虫处理经验者优先。 5. 核心技术能力 - 大数据开发能力: 精通 Python/Java/Scala 中至少一门语言,熟练掌握 Spark、Flink、Hadoop 等大数据生态组件,具备PB级海量文本数据的处理与性能调优经验。 - NLP 算法能力: 扎实的 NLP 基础,熟悉正则表达式、文本编码、分词及主流 NLP 工具库(如 HuggingFace、NLTK)。了解 BERT/GPT 等模型原理,能利用模型辅助进行数据清洗和质量打分。 - 平台架构能力: 熟悉数据中台架构,有数据资产管理(Data Governance)或算子平台(Operator Platform)的设计与落地经验,理解 DataOps 理念。 6. 领域知识 - 懂模型训练: 理解大模型预训练(Pre-training)、指令微调(SFT)及强化学习(RLHF)对数据格式和质量的不同需求,能从数据角度分析模型Loss波动原因。 - 懂安全权限: 熟悉 RBAC 模型,了解数据安全法规(如 GDPR、数据安全法),有数据加密、脱敏及权限管控系统建设经验。 7. 综合素质 - 具备良好的业务抽象能力,能将复杂的数据处理流程抽象为标准化的平台能力。 - 对数据质量有极高的敏感度,具备优秀的问题分析与跨部门沟通协作能力。
所属行业:
车联网
职能分类:
数据挖掘
工作城市:
北京,招聘1人,详细地址:北辰空间
职位要求
学历要求:
本科·统招·一本
工作年限:
5-8年
技能/证书:
-
薪资福利
年薪范围:
80-120万*15薪
薪资福利:
月薪范围40k-80k
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
4轮
面试流程:
4轮业务+1轮hr
视频面试:
可以接受
举报
为你推荐
职能类别
IT互联网技术
电子/通信/半导体
销售/客服
制药/医疗器械/医疗护理
高级管理
关于
禾蛙动态
合伙人计划
猎企入驻
帮助中心
禾蛙协议
禾蛙海外版
联系我们
电话:400-777-5125(服务时间:工作日9:00至18:00)
网址:www.hewa.cn
苏州地址:苏州工业园区星湖街328号创意产业园2-B405
北京地址:北京市朝阳区朝阳门南大街10号兆泰国际A座501
服务支持
接单方小程序
发单方小程序
微信公众号
©版权所有
苏州聚聘网络技术有限公司
苏公网安备32059002007268号
备案号:苏ICP备18067483号-3
|
营业执照
|
服务许可证