**********************
数据采集工程师(大模型方向)
  • 收藏职位
  • 分享职位
40-70万 北京 本科 3-5年 招聘 1 人 预计佣金 80.1K 11:01刷新/两周前发布
JD基本信息
岗位职责
设计并实现大规模网页数据的抓取、清洗及结构化、存储流程,保障数据质量与时效性。 熟悉反爬机制及应对策略,开发高可用的数据采集与清洗方案。 构建基于分布式框架(如Scrapy-Redis、Celery)的爬虫系统,提升并发性能与容错能力。 融合大数据组件(如Spark/PySpark)优化数据处理效率,支持实时、批量清洗与转换任务。 协同数据团队完成数据交付,驱动下游分析与应用。
任职要求
必备能力 精通Python及Scrapy框架,深入理解HTTP协议与动态页面渲染机制 熟悉java 或 c++, 对计算机底层原理有较深入了解 掌握主流数据库(MySQL/MongoDB/Redis/HBase)和消息队列(Kafka/Pulsar) 具备分布式爬虫开发经验,熟悉任务调度与性能优化策略 熟悉Spark进行大规模数据清洗,了解Ray/Dask等分布式计算框架 项目经验 2年以上工作经验,1年以上爬虫开发经验,主导过至少1个中大型爬虫项目落地 有复杂反爬机制破解案例 有Spark/Ray等大数据组件在爬虫任务中的实际应用经验
所属行业:
互联网金融
职能分类:
爬虫工程师
工作城市:
北京,招聘1人,详细地址:北京市海淀区清华科技园B座
职位要求
学历要求:
本科·统招
工作年限:
3-5年
技能/证书:
-
薪资福利
年薪范围:
40-70万*15薪
薪资福利:
节假日都正常放假,不需要调休
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
数据负责人
职级职称:
-
面试信息
面试轮次:
3轮
面试流程:
一面线上笔试,二面技术专家,三面负责人,HR面
视频面试:
可以接受
为你推荐