查看更多分享

哔哩哔哩(bilibili|b站)招聘【B-UP】模型开发工程师AI Infra（校招）

招聘职位：

【B-UP】模型开发工程师AI Infra（校招） 搜索同类职位

发布日期：: 2026-06-22
工作地点：: 上海
职位类型：: 全职
职位类别：: 全职
来源：: b站官网

岗位介绍：
职位亮点

岗位简介：面向高性能 GPU 大卡集群、AI 训练 / 推理集群，聚焦集群全栈性能优化、网络异常检测、服务器故障定位，支撑大模型训练、分布式算力业务稳定高效运行

1.参与大规模 GPU 集群日常压测、基线梳理、运维保障，配合完成集群扩容、版本升级、环境标准化工作；
2.基于 Prometheus、Grafana、DCGM 等工具搭建集群监控大盘，输出性能报表、故障分析报告与优化方案；
3.编写 Shell/Python 自动化脚本、运维 SOP、故障处理手册，沉淀技术知识库；
4.协同算法、平台、网络团队，联动定位集群全链路问题，保障大模型训练、分布式任务稳定运行；
5.跟踪 GPU 集群、RDMA 网络、分布式通信前沿技术，持续优化集群架构与运行效率。

职位描述

工作职责:
面向高性能 GPU 大卡集群、AI 训练 / 推理集群，聚焦集群全栈性能优化、网络异常检测、服务器故障定位，支撑大模型训练、分布式算力业务稳定高效运行

团队通用职责：
1、参与大规模 GPU 集群日常压测、基线梳理、运维保障，配合完成集群扩容、版本升级、环境标准化工作
2、基于 Prometheus、Grafana、DCGM 等工具搭建集群监控大盘，输出性能报表、故障分析报告与优化方案
3、编写 Shell/Python 自动化脚本、运维 SOP、故障处理手册，沉淀技术知识库
4、协同算法、平台、网络团队，联动定位集群全链路问题，保障大模型训练、分布式任务稳定运行
5、跟踪 GPU 集群、RDMA 网络、分布式通信前沿技术，持续优化集群架构与运行效率

岗位具体职责：
聚焦硬件、驱动、通信库、调度、框架全维度性能优化，提升集群算力利用率与任务吞吐，细分具体工作内容：
1、负责 GPU 硬件栈调优：完成 GPU 驱动、CUDA、cuDNN、固件版本选型与参数调优，优化 GPU 功耗、显存占用、卡间 NVLink 通信效率，解决 GPU 降频、算力跑不满问题
2、分布式通信优化：针对 NCCL 集合通信库做参数调优，优化多机多卡分布式训练通信逻辑，降低通信时延、提升集合通信吞吐
3、系统与内核调优：基于 Linux 操作系统做内核参数、内存、IO、进程调度优化，适配高负载 GPU 集群运行场景
4、算力调度优化：配合 Slurm/K8s 算力调度平台，优化任务队列、资源配额、负载均衡策略，减少任务排队、资源碎片问题
5、AI 框架适配调优：对接 PyTorch、TensorFlow、vLLM 等主流框架，完成训练 / 推理场景参数调优，实现计算与通信重叠，提升端到端任务性能
6、集群基准测试：使用行业标准压测工具完成集群算力、吞吐、时延基准测试，定位性能瓶颈并落地优化方案
工作要求:
面向2027届海内外本硕博毕业生（2026年9月-2027年8月期间毕业）

1、计算机、网络工程、电子信息、高性能计算、人工智能等相关专业；
2、熟悉 Linux 操作系统，掌握基础 Linux 命令，了解 Shell/Python 任意一种脚本语言，具备基础脚本编写能力；
3、了解计算机网络基础原理，熟悉 TCP/IP、二层 / 三层网络架构，有 RDMA、InfiniBand、RoCE 网络认知者优先；
4、了解 GPU、CUDA 基本概念，接触过分布式计算、高性能集群、AI 训练环境者优先；
5、具备良好的问题排查思路、逻辑分析能力，学习能力强，能接受集群 7×24 应急值守（轮班），责任心强、善于沟通协作。

加分项：了解 NCCL、分布式训练原理，有 Linux 内核调优、算力压测相关实践经验。

网申须知

网申开始日期：2026-06-15 00:00

网申截止日期：2027-06-30 00:00

仅限 2026-09 至 2027-08 毕业的大学生，每人限投2个职位，请慎重投递。

投递简历

前往官网投递

免责声明：

此信息由b站官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“b站官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：上海国际货币经纪有限责任公司2026招聘经纪业务岗|资深法务岗|资深财务岗

下一职位：京东人才专项