查看更多分享

哔哩哔哩(bilibili|b站)招聘【B-UP】模型开发工程师AI Infra（校招）

招聘职位：

【B-UP】模型开发工程师AI Infra（校招） 搜索同类职位

发布日期：: 2026-06-22
工作地点：: 上海
职位类型：: 全职
职位类别：: 全职
来源：: b站官网

岗位介绍：
职位描述

工作职责:
1. 分布式训练底座 (Training Infra)
框架优化：负责维护和优化基于 Megatron-LM, FSDP, VeRL的分布式训练框架，通过多维并行策略提高训练吞吐。
算子优化：参与多模态大模型训练核心算子的设计与优化，包括 Attention、MoE、算子融合等方向，持续提升模型训练效率和硬件利用率。
通信优化：深入优化 H/NCCL通信库，解决 RDMA/RoCE 网络下的通信瓶颈，提升多机多卡并行效率（DP/PP/TP/CP/EP）。
稳定性保障：构建自动容错与快速恢复系统（Checkpoint 优化、故障自动检测与接续），确保千卡集群在数月跨度的训练中保持极高可用性。

2. 推理加速与工程化 (Inference Infra)
高性能引擎：负责基于 vLLM、TensorRT-LLM、SGLang、Triton Inference Server 等推理框架的开发与优化，提升大模型在线服务的吞吐、时延和资源利用率。
算子优化：参与 Transformer 核心算子的开发与性能优化，包括 Attention、KV Cache、量化推理、算子融合等方向，探索 CUDA/Triton 等高性能实现方案。
推理架构：参与构建面向大规模生产环境的推理服务体系，支持高并发、低延迟和高可用的模型服务部署与运维。

3. 存储与算力管理 (Storage & Compute)
I/O 优化：优化超大规模数据集的加载速度，解决训练过程中的存储带宽瓶颈（如利用 GPFS, Lustre 或 JuiceFS）。
稳定性保障：构建大规模集群故障检测、自动恢复与容灾体系，提升训练与推理服务的可靠性、高可用性及运维效率。
资源调度：构建面向训练与推理场景的 GPU 资源调度体系，支持多租户资源共享、弹性扩缩容、任务优先级管理及异构算力调度，提高集群整体
工作要求:
面向2027届海内外本硕博毕业生（2026年9月-2027年8月期间毕业）

1、技术底色：计算机相关专业，具有较强的系统编程能力，精通 Python 和 C/C++。
2、计算底层：熟悉 NVIDIA GPU 架构 (Hopper/Ampere/Blackwall)，理解显存层次结构、流处理器（SM）工作原理。
3、框架经验：熟悉 PyTorch 等深度学习框架，具有训练或推理性能优化经验者优先；阅读过 Megatron、DeepSpeed、vLLM、TensorRT-LLM 等开源项目源码者优先。
4、并行与分布式计算：理解并行计算与分布式系统基本原理，了解数据并行（DP）、张量并行（TP）、流水线并行（PP）等常见大模型训练技术，有相关项目经验者优先。
5、网络与硬件：了解 InfiniBand、RoCE 等高速网络技术，以及 NVLink、NVSwitch 等 AI 集群互联架构。

网申须知

网申开始日期：2026-06-15 00:00

网申截止日期：2027-06-30 00:00

仅限 2026-09 至 2027-08 毕业的大学生，每人限投2个职位，请慎重投递。

投递简历

前往官网投递

免责声明：

此信息由b站官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“b站官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：上海国际货币经纪有限责任公司2026招聘经纪业务岗|资深法务岗|资深财务岗

下一职位：哔哩哔哩(bilibili|b站)【B-UP】模型开发工程师AI Infra（校招）