查看更多分享

哔哩哔哩(bilibili|b站)招聘【B-UP】GPU集群调优工程师-网络故障(实习)

招聘职位:

【B-UP】GPU集群调优工程师-网络故障(实习) 搜索同类职位
发布日期:
2026-06-22
工作地点:
职位类型:
兼职
职位类别:
实习
来源:
b站官网
岗位介绍:
职位描述

工作职责:
面向高性能 GPU 大卡集群、AI 训推集群,聚焦集群全栈性能优化、网络异常检测、服务器故障定位,支撑大模型训练、分布式算力业务稳定高效运行

团队职责:
1、参与大规模 GPU 集群日常压测、基线梳理、运维保障,配合完成集群扩容、版本升级、环境标准化工作
2、基于 Prometheus、Grafana、DCGM 等搭建集群监控大盘,输出性能报表与优化方案
3、编写 Shell/Python 自动化脚本、运维 SOP、故障处理手册,沉淀知识库
4、协同算法、平台、网络团队,联动定位集群全链路问题,保障大模型训练、分布式任务稳定运行
5、跟踪 GPU 集群、RDMA 网络、分布式通信前沿技术,持续优化集群架构与效率

岗位职责:
聚焦 RoCEv2/InfiniBand RDMA 无损网络,专职网络异常排查、故障检测、网络性能优化:
1、RDMA 网络专项故障检测:使用 rping、RDMA 遥测、会话追踪等工具,排查 RDMA 链路断连、建连失败、QP异常、CM 通信故障等问题
2、RoCEv2 网络异常定位:检测并分析 PFC 暂停风暴、ECN 拥塞标记异常、微丢包、时延尖刺、带宽抖动等无损网络典型故障,完成根因定位与修复
3、集群链路与拓扑排查:针对 800G/400G 叶脊Spine-Leaf网络,检测交换机端口错包、CRC 错误、链路 Flapping、路由跳转异常,梳理网络路径瓶颈
4、多租户网络隔离排查:检查 VLAN、VXLAN 网络隔离有效性,定位跨租户流量干扰、非法横向访问等问题
5、RDMA 性能调优:优化 RNIC 网卡参数、网络 QoS、DSCP/PCP 优先级,提升 RDMA 传输稳定性与吞吐,优化 GPU 与存储之间 NVMe-oF 读写时延
6、搭建网络自动化检测工具:实现 RDMA 故障、链路异常、拥塞问题自动告警、一键排查,提升网络运维效率
工作要求:
1、计算机、网络工程、电子信息、高性能计算、人工智能等相关专业;
2、熟悉 Linux 操作系统,掌握基础 Linux 命令,了解 Shell/Python 任意一种脚本语言,具备基础脚本编写能力;
3、了解计算机网络基础原理,熟悉 TCP/IP、二层 / 三层网络架构,有 RDMA、InfiniBand、RoCE 网络认知者优先;
4、了解 GPU、CUDA 基本概念,接触过分布式计算、高性能集群、AI 训练环境者优先;
5、具备良好的问题排查思路、逻辑分析能力,学习能力强,能接受集群 7×24 应急值守(轮班),责任心强、善于沟通协作。

加分项:熟悉 RoCE/IB RDMA 协议,了解 PFC、ECN 等无损网络机制,接触过交换机、服务器网卡运维优先。

网申须知

网申开始日期:2026-06-15 00:00

网申截止日期:2027-06-30 00:00

仅限 2026-09 至 2030-06 毕业的大学生,快来投递吧~

投递简历
免责声明:

此信息由b站官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“b站官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!

下一职位:U12剧场27届实习