企业招聘
职位
关于禾蛙
合伙人计划
联系客服快速发单
扫码添加企业微信
客服电话
400-7777-5125
猎企入驻
400-777-5125
免费注册
登录
**********************
智算测试与质量专家(研究方向)
接单
收藏职位
分享职位
60-100万
北京
本科
8-10年
招聘 1 人
预计佣金
140K
10:40发布
72小时新发
JD基本信息
岗位职责
1、负责联通云智算平台(训练/推理/异构池化/智算网络)全链路测试体系设计、自动化框架开发与持续集成落地,实现版本缺陷率 ≤ 0.2/KLOC,线上故障漏检率 ≤ 0.1%; 2、主导万卡级智算场景性能、可靠性、稳定性、安全、容灾测试方案制定与执行,覆盖 GPU/ASIC 异构算力、RDMA 网络、并行文件系统、K8s 调度、AI训推框架,输出测试基线与风险评估报告; 3、构建 AI 专项测试框架(训推性能、训推稳定性、CUCCL 性能、显存泄漏、功耗墙、温度墙等),实现千亿参数模型 7×24 小时持续训练/推理无异常; 4、设计并实现智算网络测试平台,支持 800 Gbps 线速流量生成、突发注入、乱序/丢包/延时故障仿真,AllReduce 性能偏差 ≤ 3%; 5、负责混沌工程与故障演练体系,实现 GPU Hang、NVLink 闪断、RDMA 链路降速、交换机重启、Checkpoint 损坏等多种故障场景分钟级自动注入与自愈验证; 6、构建多租户隔离与安全测试用例,覆盖 vGPU逃逸、RDMA越权、显存泄露、模型加密、国密算法、等保三级/密评,确保零安全漏洞上线; 7、主导测试数据集建设工作,支持每日自动测试任务执行与结果比对; 8、配合研发设计质量门禁与灰度发布策略,实现代码覆盖率 ≥ 90%、接口覆盖率 ≥ 95%、性能回归自动拦截、异常自动回滚。
任职要求
1、本科及以上学历,计算机、软件工程、人工智能、通信等相关专业,8 年以上云计算/AI 平台测试或质量保障经验,其中 3 年以上智算方向测试带头人经历; 2、熟悉 PyTorch、TensorFlow、DeepSpeed、Megatron-LM、NCCL、CUDA、RDMA Verbs,具备测试框架二次开发能力; 3、熟悉GPU/ASIC 硬件架构(SM、Tensor Core、NPU、HBM、NVLink、RDMA),熟悉 nvidia-smi、nsight、perf、bpf、valgrind 等调试工具; 4、熟悉云原生测试技术(K8s、RobotFramework、PyTest、TestKube)并有大规模自动化落地经验; 5、具备性能、可靠性、安全、混沌、容灾测试能力,熟悉 AllReduce、AllGather、Checkpoint、RDMA、GPU 池化、vGPU、SR-IOV 测试方法; 6、具备数据科学与统计学基础,能独立设计实验、分析误差、协助研发定位根因、提出优化方案; 7、熟练使用 Jenkins、GitLab-CI、SonarQube、Prometheus、Grafana、ELK 等质量与可观测工具; 8、具备优秀的跨团队沟通与项目推动能力,可在高压环境下同时推进 5+ 版本按期高质量发布; 9、具备良好的英语读写与沟通能力。
所属行业:
人工智能AI、通信/网络设备
职能分类:
CTO/CIO
工作城市:
北京,招聘1人,详细地址:北京市西城区西单北大街133号联通大厦
职位要求
学历要求:
本科·统招·985/211
工作年限:
8-10年
技能/证书:
-
薪资福利
年薪范围:
60-100万*13薪
薪资福利:
-
团队架构
所属部门:
-
下属人数:
-
部门架构:
-
汇报对象:
-
职级职称:
-
面试信息
面试轮次:
-
面试流程:
-
视频面试:
不可以接受
举报
为你推荐
职能类别
IT互联网技术
电子/通信/半导体
销售/客服
制药/医疗器械/医疗护理
高级管理
关于
禾蛙动态
合伙人计划
猎企入驻
帮助中心
禾蛙协议
禾蛙海外版
联系我们
电话:400-777-5125(服务时间:工作日9:00至18:00)
网址:www.hewa.cn
苏州地址:苏州工业园区星湖街328号创意产业园2-B405
北京地址:北京市朝阳区朝阳门南大街10号兆泰国际A座501
服务支持
接单方小程序
发单方小程序
微信公众号
©版权所有
苏州聚聘网络技术有限公司
苏公网安备32059002007268号
备案号:苏ICP备18067483号-3
|
营业执照
|
服务许可证