企业招聘
职位
关于禾蛙
合伙人计划
联系客服快速发单
扫码添加企业微信
客服电话
400-7777-5125
猎企入驻
400-777-5125
免费注册
登录
**********************
高级推理引擎工程师
接单
收藏职位
分享职位
45-60万
北京
本科
3-5年
招聘 3 人
预计佣金
70.2K
03:56发布
SSS
迅致直营
72小时新发
职位亮点
反馈快、回款快
JD基本信息
岗位职责
负责公司数据大模型 LimiX 的 推理 Runtime 架构设计与实现,构建高性能、可扩展的模型执行引擎。 - 负责推理 Runtime 架构设计、推理执行引擎开发、性能与资源管理。 - 负责大模型与端测平台的高效适配与推理优化,参与端侧大模型研发的整体规划与落地。 - 推理全链路团队协作 - 与算法团队共同: - 定义 operator 接口 - 推理 graph 输入输出协议 - runtime 与训练模型对齐机制 - 与工程团队: - 对接 Serving 框架 - 定义 runtime API / SDK,输出技术文档
任职要求
必须能力 - 精通主流推理框架:熟练掌握vLLM、llama.cpp、ONNXRuntime 等至少一种推理框架的架构的架构与源码。 - 具备大模型推理加速优化经验,如Flash Attention, Paged Attention, Continuous Batching 等。 - 精通 Python + (C++ / Rust / Go 任一),熟悉 Transformer 推理流程,熟悉 PyTorch 推理机制,熟悉 GPU 推理优化基础。 - 具备较强的协同交付能力,责任心强,具备优秀的沟通与协作能力,能够协同算法、工程、产品等多团队完成端到端技术交付与落地。 - 大学本科及以上学历,计算机相关专业,3年以上相关开发经验,具备优秀的编程能力。 必须经验(至少一项) - 推理引擎开发经验 - 模型加速框架开发 - 高性能计算系统 - 数据库执行引擎 - 分布式计算框架 加分项 - vLLM / TensorRT-LLM / FasterTransformer - Triton inference backend - TVM / ONNX Runtime - 向量化执行经验 - 结构化数据处理引擎经验
所属行业:
计算机软件
职能分类:
算法工程师
工作城市:
北京,招聘3人,详细地址:北京市海淀区首享科技大厦10层
职位要求
学历要求:
本科·统招
工作年限:
3-5年
技能/证书:
-
薪资福利
年薪范围:
45-60万*15薪
薪资福利:
五险一金、当地人力引进政策
团队架构
所属部门:
研发部
下属人数:
-
部门架构:
无
汇报对象:
部门经理
职级职称:
无
面试信息
面试轮次:
4轮
面试流程:
初面(业务部门)- 领导评价 - 高层面试 - HR
视频面试:
可以接受
举报
为你推荐
职能类别
IT互联网技术
电子/通信/半导体
销售/客服
制药/医疗器械/医疗护理
高级管理
关于
禾蛙动态
合伙人计划
猎企入驻
帮助中心
禾蛙协议
禾蛙海外版
联系我们
电话:400-777-5125(服务时间:工作日9:00至18:00)
网址:www.hewa.cn
苏州地址:苏州工业园区星湖街328号创意产业园2-B405
北京地址:北京市朝阳区朝阳门南大街10号兆泰国际A座501
服务支持
接单方小程序
发单方小程序
微信公众号
©版权所有
苏州聚聘网络技术有限公司
苏公网安备32059002007268号
备案号:苏ICP备18067483号-3
|
营业执照
|
服务许可证