**********************
大模型推理优化研发专家(专有云AI域)-P7
  • 收藏职位
  • 分享职位
70-90万 杭州 研究生 5-8年 招聘 1 人 预计佣金 145.4K 00:24发布
迅致直营 72小时新发
JD基本信息
岗位职责
岗位描述 ● 参与大模型推理引擎(基于 SGLang 框架)的设计与核心模块开发,支持 Transformer、MoE、DiffusionLLM 等多种架构及 LLM/VLM 等模型的高性能推理。 ● 运用低比特量化、投机采样、稀疏计算、分布式推理等技术,加速大模型推理速度并降低部署成本, 并优化其稳定性、易用性。 ● 针对 GPU/AI 芯片架构(含自研硬件),开展针对性性能调优,优化算子、内存管理、KV Cache 管理等核心模块 ● 与算法、产品及业务团队协作,推动不同模型场景下的系统端到端性能优化 ● 关注并引入前沿大模型推理技术,参与 SGLang 及相关开源生态的维护与贡献
任职要求
岗位要求 ● 计算机、人工智能等相关专业本科及以上学历,具备扎实的计算机体系结构与并行计算基础 ● 精通 C/C++、Python 编程,熟练使用常用性能分析和调试工具 ● 熟悉并有实际使用经验的主流推理框架,如 SGLang、vLLM、TensorRT-LLM 等 ● 掌握 GPU/AI 芯片编程及常用加速库(cuBLAS、cuDNN、Cutlass 等),熟悉模型并行、流水线并行、NVLINK/GPU 通信等高性能计算技术 ● 有大模型推理、算子优化、模型压缩/量化、分布式部署与调度经验者优先 ● 参与或贡献过 SGLang、vLLM 等推理框架的开源项目者优先 -北深杭
所属行业:
云计算
职能分类:
技术经理
工作城市:
杭州,招聘1人,详细地址:中国-杭州
职位要求
学历要求:
研究生
工作年限:
5-8年
技能/证书:
-
薪资福利
年薪范围:
70-90万*13薪
薪资福利:
P7底薪+绩效+奖金+股票
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
4轮
面试流程:
一面:部门高级别同事电话沟通---二面:部门leader 线下--三面:线上交叉面--四面:HR
视频面试:
不可以接受
为你推荐