哔哩哔哩(bilibili|b站)招聘【B-UP】大语言模型(LLM)算法工程师(实习)
招聘职位:
【B-UP】大语言模型(LLM)算法工程师(实习) 搜索同类职位
岗位介绍:
职位描述
工作职责:
面向高性能 GPU 大卡集群、AI 训练 / 推理集群,聚焦集群全栈性能优化、网络异常检测、服务器故障定位,支撑大模型训练、分布式算力业务稳定高效运行
团队通用职责:
1、参与大规模 GPU 集群日常压测、基线梳理、运维保障,配合完成集群扩容、版本升级、环境标准化工作;
2、基于 Prometheus、Grafana、DCGM 等工具搭建集群监控大盘,输出性能报表、故障分析报告与优化方案;
3、编写 Shell/Python 自动化脚本、运维 SOP、故障处理手册,沉淀技术知识库;
4、协同算法、平台、网络团队,联动定位集群全链路问题,保障大模型训练、分布式任务稳定运行;
5、跟踪 GPU 集群、RDMA 网络、分布式通信前沿技术,持续优化集群架构与运行效率。
岗位具体职责:
聚焦 GPU 服务器、整机硬件、操作系统、底层组件故障排查,保障节点长期稳定运行,细分具体工作内容:
1、GPU 硬件故障检测:通过 DCGM、硬件日志定位 GPU 卡掉卡、硬件报错、温度 / 功耗异常、显存故障、MIG 切分异常等问题,配合完成硬件更换与复测;
2、服务器硬件排查:检测主板、CPU、内存、NVMe 硬盘、电源、风扇等硬件故障,分析机柜供电、散热异常引发的节点宕机、重启问题;
3、操作系统故障排查:分析 Linux 系统内核崩溃、OOM、会话卡死、驱动加载失败、定时任务异常等问题,修复系统配置缺陷;
4、带外(BMC/BMS)运维与故障:通过 IPMI 工具排查带外管理链路异常、远程 KVM 失效、硬件监控数据采集失败等问题,落实 BMC 权限与安全管控;
5、容器 / 运行时故障排查:定位 Docker、容器镜像启动异常、资源抢占、挂载失败等问题,保障 PaaS 平台节点稳定;
6、故障闭环管理:建立服务器故障分级机制,复盘高频故障,输出预防方案,降低节点故障率。
工作要求:
面向2027届海内外本硕博毕业生(2026年9月-2027年8月期间毕业)
1、计算机、网络工程、电子信息、高性能计算、人工智能等相关专业;
2、熟悉 Linux 操作系统,掌握基础 Linux 命令,了解 Shell/Python 任意一种脚本语言,具备基础脚本编写能力;
3、了解计算机网络基础原理,熟悉 TCP/IP、二层 / 三层网络架构,有 RDMA、InfiniBand、RoCE 网络认知者优先;
4、了解 GPU、CUDA 基本概念,接触过分布式计算、高性能集群、AI 训练环境者优先;
5、具备良好的问题排查思路、逻辑分析能力,学习能力强,能接受集群 7×24 应急值守(轮班),责任心强、善于沟通协作。
加分项:了解服务器硬件结构、BMC/IPMI 带外管理,有服务器运维、硬件排障实习经验优先。
网申须知
网申开始日期:2026-06-15 00:00
网申截止日期:2027-06-30 00:00
仅限 2026-09 至 2030-06 毕业的大学生,快来投递吧~
投递简历
职位描述
工作职责:
面向高性能 GPU 大卡集群、AI 训练 / 推理集群,聚焦集群全栈性能优化、网络异常检测、服务器故障定位,支撑大模型训练、分布式算力业务稳定高效运行
团队通用职责:
1、参与大规模 GPU 集群日常压测、基线梳理、运维保障,配合完成集群扩容、版本升级、环境标准化工作;
2、基于 Prometheus、Grafana、DCGM 等工具搭建集群监控大盘,输出性能报表、故障分析报告与优化方案;
3、编写 Shell/Python 自动化脚本、运维 SOP、故障处理手册,沉淀技术知识库;
4、协同算法、平台、网络团队,联动定位集群全链路问题,保障大模型训练、分布式任务稳定运行;
5、跟踪 GPU 集群、RDMA 网络、分布式通信前沿技术,持续优化集群架构与运行效率。
岗位具体职责:
聚焦 GPU 服务器、整机硬件、操作系统、底层组件故障排查,保障节点长期稳定运行,细分具体工作内容:
1、GPU 硬件故障检测:通过 DCGM、硬件日志定位 GPU 卡掉卡、硬件报错、温度 / 功耗异常、显存故障、MIG 切分异常等问题,配合完成硬件更换与复测;
2、服务器硬件排查:检测主板、CPU、内存、NVMe 硬盘、电源、风扇等硬件故障,分析机柜供电、散热异常引发的节点宕机、重启问题;
3、操作系统故障排查:分析 Linux 系统内核崩溃、OOM、会话卡死、驱动加载失败、定时任务异常等问题,修复系统配置缺陷;
4、带外(BMC/BMS)运维与故障:通过 IPMI 工具排查带外管理链路异常、远程 KVM 失效、硬件监控数据采集失败等问题,落实 BMC 权限与安全管控;
5、容器 / 运行时故障排查:定位 Docker、容器镜像启动异常、资源抢占、挂载失败等问题,保障 PaaS 平台节点稳定;
6、故障闭环管理:建立服务器故障分级机制,复盘高频故障,输出预防方案,降低节点故障率。
工作要求:
面向2027届海内外本硕博毕业生(2026年9月-2027年8月期间毕业)
1、计算机、网络工程、电子信息、高性能计算、人工智能等相关专业;
2、熟悉 Linux 操作系统,掌握基础 Linux 命令,了解 Shell/Python 任意一种脚本语言,具备基础脚本编写能力;
3、了解计算机网络基础原理,熟悉 TCP/IP、二层 / 三层网络架构,有 RDMA、InfiniBand、RoCE 网络认知者优先;
4、了解 GPU、CUDA 基本概念,接触过分布式计算、高性能集群、AI 训练环境者优先;
5、具备良好的问题排查思路、逻辑分析能力,学习能力强,能接受集群 7×24 应急值守(轮班),责任心强、善于沟通协作。
加分项:了解服务器硬件结构、BMC/IPMI 带外管理,有服务器运维、硬件排障实习经验优先。
网申须知
网申开始日期:2026-06-15 00:00
网申截止日期:2027-06-30 00:00
仅限 2026-09 至 2030-06 毕业的大学生,快来投递吧~
投递简历
免责声明:
此信息由b站官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“b站官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!