**********************
119144-云架构专家工程师(智算)-平安科技
  • 收藏职位
  • 分享职位
50-80万 深圳 本科 8-10年 招聘 1 人 预计佣金 74.1K 2天前刷新/6天前发布
迅致直营 反馈快
JD基本信息
岗位职责
1)计算机、人工智能等相关专业,本科及以上学历。 2)8年以上基础设施、云原生、智算或算法平台架构设计或研发经验,熟悉云原生、智算平台、大模型训练/推理等领域。 3)精通Kubernetes、GPU容器运行时、Device Plugin、Hived、Volcano等云原生技术,具备大规模计算集群的设计、部署或运维经验。熟悉CI/CD流程,熟悉MLOps模型训练及推理的部署流程。 4)有GPU/国产算力集群的构建和优化经验,能够分析并解决分布式环境中的性能瓶颈,熟悉大规模训练和推理下的运维和排障,具备全链路可观测性设计能力和故障定位能力。 5)熟悉大规模智算集群的网络拓扑、通信协议(RoCE)与通信模式(如RDMA、NVLink、InfiniBand等),熟悉AllReduce、All-to-All等集合通信进行性能测试及调优。 6)有推理引擎设计或研发经验,熟悉vLLM、SGlang、TensorRT、Dynamo、MindIE等推理引擎,熟悉PD分离、大EP、AF分离、KVCache等推理加速技术。 7)出色的沟通能力,善于跨团队协作,具有支持多团队AI项目的经验。
任职要求
1)负责智算平台规划与架构设计,结合BU业务场景,制定技术路线,明确智算平台、LLM训推及工具生态的核心功能与技术架构。 2)优化并提升模型训练(微调/强化学习)、模型推理算力使用率;深入优化平台资源管理及调度能力,包括GPU/国产算力、内存/显存、RDMA网络等,提升系统的可靠性、性能和扩展性。 3)LLM推理引擎优化,通过PD分离、EP并行、算子调优、网络或存储调优等技术提高推理引擎性能降低Tokens单位成本。 4)LLM全链路性能监控,建立性能指标体系(吞吐量、时延、资源利用率),输出调优方案、标准与自动化诊断工具。 5)负责LLM基础模型和配套推理引擎的引入、适配、优化及性能基线评测,为业务提供最优性价比的模型和推理引擎。
所属行业:
金融科技、云计算
职能分类:
架构师
工作城市:
深圳,招聘1人,详细地址:深圳市
职位要求
学历要求:
本科·统招·一本
工作年限:
8-10年
技能/证书:
-
薪资福利
年薪范围:
50-80万*16薪
薪资福利:
-
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
3轮
面试流程:
-
视频面试:
可以接受
为你推荐