查看更多分享

哔哩哔哩(bilibili|b站)招聘【B-UP】模型开发工程师AI Infra(校招)

招聘职位:

【B-UP】模型开发工程师AI Infra(校招) 搜索同类职位
发布日期:
2026-06-22
工作地点:
职位类型:
全职
职位类别:
全职
来源:
b站官网
岗位介绍:
职位描述

工作职责:
1. 分布式训练底座 (Training Infra)
框架优化: 负责维护和优化基于 Megatron-LM, FSDP, VeRL的分布式训练框架,通过多维并行策略提高训练吞吐。
算子优化: 参与多模态大模型训练核心算子的设计与优化,包括 Attention、MoE、算子融合等方向,持续提升模型训练效率和硬件利用率。
通信优化: 深入优化 H/NCCL通信库,解决 RDMA/RoCE 网络下的通信瓶颈,提升多机多卡并行效率(DP/PP/TP/CP/EP)。
稳定性保障: 构建自动容错与快速恢复系统(Checkpoint 优化、故障自动检测与接续),确保千卡集群在数月跨度的训练中保持极高可用性。

2. 推理加速与工程化 (Inference Infra)
高性能引擎: 负责基于 vLLM、TensorRT-LLM、SGLang、Triton Inference Server 等推理框架的开发与优化,提升大模型在线服务的吞吐、时延和资源利用率。
算子优化: 参与 Transformer 核心算子的开发与性能优化,包括 Attention、KV Cache、量化推理、算子融合等方向,探索 CUDA/Triton 等高性能实现方案。
推理架构: 参与构建面向大规模生产环境的推理服务体系,支持高并发、低延迟和高可用的模型服务部署与运维。

3. 存储与算力管理 (Storage & Compute)
I/O 优化: 优化超大规模数据集的加载速度,解决训练过程中的存储带宽瓶颈(如利用 GPFS, Lustre 或 JuiceFS)。
稳定性保障: 构建大规模集群故障检测、自动恢复与容灾体系,提升训练与推理服务的可靠性、高可用性及运维效率。
资源调度: 构建面向训练与推理场景的 GPU 资源调度体系,支持多租户资源共享、弹性扩缩容、任务优先级管理及异构算力调度,提高集群整体
工作要求:
面向2027届海内外本硕博毕业生(2026年9月-2027年8月期间毕业)

1、技术底色: 计算机相关专业,具有较强的系统编程能力,精通 Python 和 C/C++。
2、计算底层: 熟悉 NVIDIA GPU 架构 (Hopper/Ampere/Blackwall),理解显存层次结构、流处理器(SM)工作原理。
3、框架经验: 熟悉 PyTorch 等深度学习框架,具有训练或推理性能优化经验者优先;阅读过 Megatron、DeepSpeed、vLLM、TensorRT-LLM 等开源项目源码者优先。
4、并行与分布式计算: 理解并行计算与分布式系统基本原理,了解数据并行(DP)、张量并行(TP)、流水线并行(PP)等常见大模型训练技术,有相关项目经验者优先。
5、网络与硬件:了解 InfiniBand、RoCE 等高速网络技术,以及 NVLink、NVSwitch 等 AI 集群互联架构。

网申须知

网申开始日期:2026-06-15 00:00

网申截止日期:2027-06-30 00:00

仅限 2026-09 至 2027-08 毕业的大学生,每人限投2个职位,请慎重投递。

投递简历
免责声明:

此信息由b站官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“b站官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!