1.负责大模型预训练数据的清洗、去噪与结构化处理,构建高质量语料库,支持模型训练需求。
2.设计并实现基于Python的高效数据处理Pipeline,优化数据预处理流程,提升数据质量。
3.擅长对接数据采集(上游)与模型训练(下游),制定数据规范、质量监控及闭环优化策略,确保数据-模型高效协同。
加分项:
1.编程能力
a. 熟练掌握Python语言,熟练使用正则表达式,掌握面向对象编程及类的继承等,有html,json等数据处理经验。
b. 熟练掌握Linux,能够自主进行conda环境配置与依赖管理,擅长使用grep/awk/sed等命令进行文本处理。
c. 具备NLP实战经验,熟悉中文分词技术,掌握文本分类模型训练流程及调优方法,有实际项目经验
2.加分项
a. 熟悉lxml,BeautifulSoup等技术,有一定的爬虫经验。
b. 熟悉DeepSeek、通义千问等国产大模型的选型、量化、推理加速及ollama部署,具备Prompt工程和RAG优化等垂直领域适配经验。
c. 熟练部署并优化开源工具,掌握容器化封装、性能调优及生产级落地能力,确保高效稳定服务于业务场景。
d. 有spark分布式和并发数据处理经验;