北京市研发专家（大模型推理引擎算子开发方向）招聘-禾蛙,猎头合作交易平台

**********************

研发专家（大模型推理引擎算子开发方向）

收藏职位

分享职位

50-150万北京本科 3-5年招聘 1 人预计佣金 217.5K 16:30刷新/一个月前发布

JD基本信息

岗位职责

岗位职责 1. 超大规模LLM性能工程：主导并规划千亿参数级大模型的极致性能优化技术路线，负责主流推理框架的内核级优化与落地。 2. 低比特与稀疏模型优化：牵头INT4/FP8/AWQ等前沿低比特量化技术的工业级系统化落地，平衡精度与计算效率；设计面向MoE模型的分布式调度、路由、显存管理及跨卡通信的优化方案。 3. 统一与多模态架构：定义并设计具备长期扩展性的统一AI推理引擎架构，支撑自回归生成任务，解决多模态大模型协同推理部署挑战。 4. 异构算力与国产化适配：主导推理引擎在国产AI芯片（如昇腾、海光、天数智等）平台上的战略级移植、生态适配与性能优化，实现跨架构的算力自主可控。 5. 核心算子优化与指令架构创新：深度介入GPU/NPU硬件底层，主导设计和实现LLM特有高性能算子，包括高性能Attention Kernel、矩阵乘法（GEMM）的深度定制与融合、KV Cache读写等关键算子。 6. 硬件指令集与微架构优化：深入理解硬件指令集架构（ISA）与微架构，通过CUDA/Triton或国产芯片底层编程语言，利用SIMD/SIMT指令优化、指令级并行（ILP）及寄存器重用，将LLM推理性能推向硬件理论极限。 7. 算子级性能调优：对主流AI芯片的指令集架构（ISA）和微架构有深入理解和实战经验，能通过底层汇编或高阶编程接口（如PTX, SASS, TVM）进行极致的算子级性能调优。 8. 高性能算子开发与优化：具备使用CUDA/Triton或国产AI芯片底层编程语言（如Ascend C）开发与优化高性能算子（如Attention, GEMM）的实战经验。

任职要求

1. 学历：大学本科及以上，计算机相关专业优先。 2. 经验：8年及以上工作经验，具备AI系统设计与优化实战经验。 3. 工程能力：精通C++/Python，具备深厚的系统编程功底，对并行计算、内存管理和性能调优有深入理解。 4. 架构理解：深入理解Transformer架构，具备主流推理框架的内核级/源码级深度优化经验；熟悉KV Cache、低比特量化、连续批处理等核心技术。 5. 系统设计：具备设计和主导实现高并发、超低延迟分布式服务系统的能力，熟悉Docker/Kubernetes等云原生部署运维技术。 6. 软素质：诚实守信、作风严谨、责任心强，具备良好的团队协作能力，学习能力强，善于解决复杂问题。

所属行业:

云计算

职能分类:

算法研究员

工作城市:

北京，招聘1人，详细地址：北京

职位要求

学历要求:

本科·统招·985/211

工作年限:

3-5年

技能/证书:

薪资福利

年薪范围:

50-150万*12薪

薪资福利:

团队架构

所属部门:

下属人数:

部门架构:

汇报对象:

职级职称:

面试信息

面试轮次:

面试流程:

视频面试:

不可以接受

职能类别

关于

联系我们

电话：400-777-5125（服务时间：工作日9:00至18:00）
网址：www.hewa.cn
地址：中国（上海）自由贸易试验区滨江大道99弄6号第11层

服务支持: 接单方小程序

发单方小程序

微信公众号