**********************
AI 软硬件系统优化专家-p8
  • 收藏职位
  • 分享职位
90-120万 上海 本科 5-8年 招聘 1 人 预计佣金 193.8K 07:12发布
迅致直营 72小时新发
JD基本信息
岗位职责
岗位描述 1.AI 训推系统级性能优化与组件化交付 面向 LLM/VLM/VLA、智驾等场景,围绕训练与推理全链路开展性能分析与优化落地,产出可复用的软件组件/算子库/解决方案. 典型优化方向:计算与访存瓶颈、显存/内存管理、KV Cache、长上下文、并行策略(TP/PP/DP/EP)、通信与网络(AllReduce/AllGather/AllToAll、RDMA)、数据与 I/O(DataLoader、checkpoint、存储带宽)。 2.云原生 AI Runtime 与隔离(Kata / runD / Sandbox Runtime) 负责 GPU 在 Kata Containers/沙箱容器中的高性能、安全隔离与可用性建设:GPU 直通/虚拟化、驱动与设备插件集成、容器镜像与运行时兼容。 参与 sandbox runtime(containerd/CRI 体系)相关能力建设:资源隔离(cgroup/namespace/NUMA)、启动时延优化、稳定性与故障恢复、可观测性(metrics/tracing/logging)。 与 Kubernetes 侧生态协同(Device Plugin、RuntimeClass、调度/拓扑亲和、弹性伸缩等),提升多租户环境下 GPU 利用率与 QoS。 3.软硬件协同与异构算力适配 深入结合硬件特性(计算单元、HBM/缓存层次、PCIe/NVLink/互联、编译器/运行时)制定协同优化方案,推进在训练/推理/云原生运行时侧的落地。 构建 microbenchmark、性能模型与回归体系,快速定位瓶颈并指导组件演进。 4.稳定性与工程闭环 建设端到端与算子级 benchmark、自动化 profiling、CI 回归与精度/稳定性守护。 定位并解决复杂问题:hang/crash、OOM、性能抖动、通信异常、GPU 设备异常、虚拟化/隔离环境下的兼容性问题。
任职要求
岗位要求 1.本科及以上(计算机/电子/通信/数学等相关),5 年以上 AI Infra/HPC/云原生系统/深度学习系统相关经验(优秀可放宽)。 2.精通 Python、C/C++(熟悉 Go/Rust 加分),具备扎实工程能力:性能分析、调试、内核/运行时问题定位与可维护性设计。 3.具备系统与并行计算基础:CPU/NUMA、内存层次、PCIe、IOMMU、虚拟化基础;能使用 Nsight Systems/Compute、perf/perfetto、eBPF 等进行分析。 4.熟悉至少一个方向并有实战经验: AI 训练/推理优化:PyTorch、Megatron/DeepSpeed/FSDP、vLLM/SGLang/TensorRT-LLM 等;理解 Transformer/MoE/KV Cache 等关键瓶颈; 云原生/容器运行时:Kata、containerd/CRI、cgroup/namespace、K8s Device Plugin/RuntimeClass、GPU 容器化与隔离; 分布式通信与网络:NCCL/MPI、RDMA/IB/以太网,理解集合通信与拓扑影响。 具备跨团队协作能力,能将问题抽象为可复用方案并推动落地。 加分项: 有 CUDA/Triton/CUTLASS/FlashAttention/FlashInfer/MoE kernel 等算子或 Kernel 优化经验。 有 GPU 虚拟化/直通经验:VFIO、SR-IOV、MIG(如适用)、vGPU/mediated device、IOMMU/interrupt 相关调优经验。 有 containerd shim、runc/crun、kata-agent、QEMU/KVM 等沙箱链路问题定位与优化经验。 有 eBPF 可观测性、内核调优、或大规模集群稳定性治理经验。 有异构芯片(非 NVIDIA)适配或 bring-up 经验(编译器/运行时/算子库/驱动协同)。 有开源贡献与技术影响力(patch/issue,benchmark、文章/分享)。 -上海/杭州/北京/深圳
所属行业:
云计算
职能分类:
技术经理
工作城市:
上海,招聘1人,详细地址:中国-上海
职位要求
学历要求:
本科
工作年限:
5-8年
技能/证书:
-
薪资福利
年薪范围:
90-120万*13薪
薪资福利:
P8底薪+绩效+奖金+股票
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
4轮
面试流程:
一面:部门高级别同事电话沟通---二面:部门leader 线下--三面:线上交叉面--四面:HR
视频面试:
不可以接受
为你推荐