北京市数据采集工程师（大模型方向）招聘-禾蛙,猎头合作交易平台

**********************

数据采集工程师（大模型方向）

收藏职位

分享职位

40-70万北京本科 3-5年招聘 1 人预计佣金 80.1K 11:01刷新/两周前发布

JD基本信息

岗位职责

设计并实现大规模网页数据的抓取、清洗及结构化、存储流程，保障数据质量与时效性。熟悉反爬机制及应对策略，开发高可用的数据采集与清洗方案。构建基于分布式框架（如Scrapy-Redis、Celery）的爬虫系统，提升并发性能与容错能力。融合大数据组件（如Spark/PySpark）优化数据处理效率，支持实时、批量清洗与转换任务。协同数据团队完成数据交付，驱动下游分析与应用。

任职要求

必备能力精通Python及Scrapy框架，深入理解HTTP协议与动态页面渲染机制熟悉java 或 c++, 对计算机底层原理有较深入了解掌握主流数据库（MySQL/MongoDB/Redis/HBase）和消息队列（Kafka/Pulsar）具备分布式爬虫开发经验，熟悉任务调度与性能优化策略熟悉Spark进行大规模数据清洗，了解Ray/Dask等分布式计算框架项目经验 2年以上工作经验，1年以上爬虫开发经验，主导过至少1个中大型爬虫项目落地有复杂反爬机制破解案例有Spark/Ray等大数据组件在爬虫任务中的实际应用经验

所属行业:

互联网金融

职能分类:

爬虫工程师

工作城市:

北京，招聘1人，详细地址：北京市海淀区清华科技园B座

职位要求

学历要求:

本科·统招

工作年限:

3-5年

技能/证书:

薪资福利

年薪范围:

40-70万*15薪

薪资福利:

节假日都正常放假，不需要调休

团队架构

所属部门:

下属人数:

部门架构:

汇报对象:

数据负责人

职级职称:

面试信息

面试轮次:

3轮

面试流程:

一面线上笔试，二面技术专家，三面负责人，HR面

视频面试:

可以接受

职能类别

关于

联系我们

电话：400-777-5125（服务时间：工作日9:00至18:00）
网址：www.hewa.cn
苏州地址：苏州工业园区星湖街328号创意产业园2-B405
北京地址：北京市朝阳区朝阳门南大街10号兆泰国际A座501

服务支持: 接单方小程序

发单方小程序

微信公众号