查看更多分享

哔哩哔哩(bilibili|b站)招聘哔哩哔哩公益运营实习生

招聘职位：

哔哩哔哩公益运营实习生 搜索同类职位

发布日期：: 2026-03-12
工作地点：: 上海
职位类型：: 兼职
职位类别：: 实习
来源：: b站官网

岗位介绍：
职位描述

工作职责:
岗位方向
基于最前沿的 LLM大模型，在成熟且大规模的业务场景中，采用 SFT、强化学习（RL）、蒸馏（Distillation）等后训练手段，持续提升模型在内容理解、检索/排序、审核/标注、生成与推理等任务上的效果与稳定性，推动能力上线与落地闭环。

工作职责
1.大语言模型后训练与迭代
●在真实业务数据与线上反馈驱动下，设计并实现大语言模型的后训练方案，包括 SFT、RL，以及其他蒸馏方案等；
●围绕目标场景（分类、生成、抽取等）持续优化模型能力与泛化表现。
2.强化学习训练策略与算法实现
●参与或负责 GRPO、GSPO、DAPO 等强化学习算法在多模态/LLM后训练中的落地实践；
●可以在不同场景下，设计不同的奖励模型/打分器（Reward/Preference），优化采样、优势估计、KL约束与训练稳定性，提升对齐质量与可控性。
3.蒸馏与轻量化落地
●探索教师-学生蒸馏、偏好蒸馏、数据蒸馏、logits/hidden states蒸馏等方法，在效果与成本之间做权衡；
●支持模型在推理侧的效率优化（吞吐、延迟、显存），配合业务达成线上成本指标。
●需要有技术敏感性，在该方向上可以进行前沿研究的探索。
4.训练工程与平台化支持
●基于 LLaMA-Factory、EasyR1、Verl等训练框架完成数据流水线、训练配置、实验管理与复现；
●与数据、产品、工程团队协作，建立“数据—训练—评估—上线—反馈”的闭环体系。
5.评测体系与问题分析
●建立或维护离线评测集与线上A/B策略，定义指标（有效性、鲁棒性、安全性、可控性等）；
●针对badcase进行归因分析（数据分布、奖励偏置、过拟合、幻觉、工具调用失败等），提出可执行优化方案。
工作要求:
任职要求
1.基础能力
●计算机/数学/统计/人工智能相关专业，本科及以上在读；
●扎实的机器学习/深度学习基础，熟悉Transformer与主流大模型训练范式；
●熟练使用 Python，具备良好的工程实现与调试能力（PyTorch、训练日志分析、实验复现等）。
2.后训练与算法经验
●熟悉并有实践经历：SFT、RLHF/RLAIF、DPO/IPO类、蒸馏等后训练方法中的一种或多种；
●熟悉GRPO、GSPO、DAPO等强化学习算法的基本原理与实现细节（采样、优势、KL、稳定性技巧等）；
●熟悉蒸馏相关方法（teacher forcing、logits distill、偏好蒸馏、数据蒸馏/过滤等）。
3.框架与工具链
●熟悉 LLaMA-Factory、EasyR1、Verl 等训练框架的配置与调参流程；
●熟悉分布式训练/并行策略（DDP、ZeRO、梯度累积、混合精度等）者优先。
4.实习要求
●可连续实习≥3个月，每周到岗4-5天。
●具备良好的沟通能力与自驱力，能独立推进实验并输出结论。

加分项（Nice to Have）
●有大语言模型训练经验，尤其是SFT和RL之间的互补和效果分析；
●熟悉推理与部署优化：vLLM/TensorRT-LLM、量化、KV Cache优化、吞吐/延迟分析；
●在顶会/开源社区有论文/代码贡献（GitHub、HF、论文复现等）；
●熟悉数据处理：偏好数据构建、数据去噪、难例挖掘、自动标注与质量控制。

你将获得
●参与真实的大规模业务场景，直接推动多模态能力上线并形成闭环；
●深入实践最前沿的后训练技术（RL/蒸馏/对齐），快速积累工业级经验；
●与算法、工程、产品高频协作，获得完整的“研究→工程→落地”训练。

投递简历

前往官网投递

免责声明：

此信息由b站官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“b站官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：哔哩哔哩(bilibili|b站)哔哩哔哩公益运营实习生

下一职位：美团(meituan)内容安全产品经理实习