JD基本信息
岗位职责
工作职责
1)负责智算平台规划与架构设计,结合bu业务场景,制定技术路线,明确智算平台、llm训推及工具生态的核心功能与技术架构.
2)优化并提升模型训练(微调/强化学习)、模型推理算力使用率
深入优化平台资源管理及调度能力,包括gpu/国产算力、内存/显存、rdma网络等,提升系统的可靠性、性能和扩展性.
3)llm推理引擎优化,通过pd分离、ep并行、算子调优、网络或存储调优等技术提高推理引擎性能降低tokens单位成本.
4)llm全链路性能监控,建立性能指标体系(吞吐量、时延、资源利用率),输出调优方案、标准与自动化诊断工具.
5)负责llm基础模型和配套推理引擎的引入、适配、优化及性能基线评测,为业务提供最优性价比的模型和推理引擎.
任职要求
任职资格
1)计算机、人工智能等相关专业,本科及以上学历.
2)8年以上基础设施、云原生、智算或算法平台架构设计或研发经验,熟悉云原生、智算平台、大模型训练/推理等领域.
3)精通kubernetes、gpu容器运行时、device plugin、hived、volcano等云原生技术,具备大规模计算集群的设计、部署或运维经验.
熟悉ci/cd流程,熟悉mlops模型训练及推理的部署流程.
4)有gpu/国产算力集群的构建和优化经验,能够分析并解决分布式环境中的性能瓶颈,熟悉大规模训练和推理下的运维和排障,具备全链路可观测性设计能力和故障定位能力.
5)熟悉大规模智算集群的网络拓扑、通信协议(roce)与通信模式(如rdma、nvlink、infiniband等),熟悉allreduce、all-to-all等集合通信进行性能测试及调优.
6)有推理引擎设计或研发经验,熟悉vllm、sglang、tensorrt、dynamo、mindie等推理引擎,熟悉pd分离、大ep、af分离、kvcache等推理加速技术.
7)出色的沟通能力,善于跨团队协作,具有支持多团队ai项目的经验.