查看更多分享

哔哩哔哩(bilibili|b站)招聘哔哩哔哩公益运营实习生

招聘职位:

哔哩哔哩公益运营实习生 搜索同类职位
发布日期:
2026-03-12
工作地点:
职位类型:
兼职
职位类别:
实习
来源:
b站官网
岗位介绍:
职位描述

工作职责:
岗位方向
基于最前沿的 LLM大模型,在成熟且大规模的业务场景中,采用 SFT、强化学习(RL)、蒸馏(Distillation) 等后训练手段,持续提升模型在内容理解、检索/排序、审核/标注、生成与推理等任务上的效果与稳定性,推动能力上线与落地闭环。

工作职责
1.大语言模型后训练与迭代
●在真实业务数据与线上反馈驱动下,设计并实现大语言模型的后训练方案,包括 SFT、RL,以及其他蒸馏方案等;
●围绕目标场景(分类、生成、抽取等)持续优化模型能力与泛化表现。
2.强化学习训练策略与算法实现
●参与或负责 GRPO、GSPO、DAPO 等强化学习算法在多模态/LLM后训练中的落地实践;
●可以在不同场景下,设计不同的奖励模型/打分器(Reward/Preference),优化采样、优势估计、KL约束与训练稳定性,提升对齐质量与可控性。
3.蒸馏与轻量化落地
●探索 教师-学生蒸馏、偏好蒸馏、数据蒸馏、logits/hidden states蒸馏等方法,在效果与成本之间做权衡;
●支持模型在推理侧的效率优化(吞吐、延迟、显存),配合业务达成线上成本指标。
●需要有技术敏感性,在该方向上可以进行前沿研究的探索。
4.训练工程与平台化支持
●基于 LLaMA-Factory、EasyR1、Verl等训练框架完成数据流水线、训练配置、实验管理与复现;
●与数据、产品、工程团队协作,建立“数据—训练—评估—上线—反馈”的闭环体系。
5.评测体系与问题分析
●建立或维护离线评测集与线上A/B策略,定义指标(有效性、鲁棒性、安全性、可控性等);
●针对badcase进行归因分析(数据分布、奖励偏置、过拟合、幻觉、工具调用失败等),提出可执行优化方案。
工作要求:
任职要求
1.基础能力
●计算机/数学/统计/人工智能相关专业,本科及以上在读;
●扎实的机器学习/深度学习基础,熟悉Transformer与主流大模型训练范式;
●熟练使用 Python,具备良好的工程实现与调试能力(PyTorch、训练日志分析、实验复现等)。
2.后训练与算法经验
●熟悉并有实践经历:SFT、RLHF/RLAIF、DPO/IPO类、蒸馏 等后训练方法中的一种或多种;
●熟悉GRPO、GSPO、DAPO等强化学习算法的基本原理与实现细节(采样、优势、KL、稳定性技巧等);
●熟悉蒸馏相关方法(teacher forcing、logits distill、偏好蒸馏、数据蒸馏/过滤等)。
3.框架与工具链
●熟悉 LLaMA-Factory、EasyR1、Verl 等训练框架的配置与调参流程;
●熟悉分布式训练/并行策略(DDP、ZeRO、梯度累积、混合精度等)者优先。
4.实习要求
●可连续实习≥3个月,每周到岗4-5天。
●具备良好的沟通能力与自驱力,能独立推进实验并输出结论。

加分项(Nice to Have)
●有大语言模型训练经验,尤其是SFT和RL之间的互补和效果分析;
●熟悉推理与部署优化:vLLM/TensorRT-LLM、量化、KV Cache优化、吞吐/延迟分析;
●在顶会/开源社区有论文/代码贡献(GitHub、HF、论文复现等);
●熟悉数据处理:偏好数据构建、数据去噪、难例挖掘、自动标注与质量控制。

你将获得
●参与真实的大规模业务场景,直接推动多模态能力上线并形成闭环;
●深入实践最前沿的后训练技术(RL/蒸馏/对齐),快速积累工业级经验;
●与算法、工程、产品高频协作,获得完整的“研究→工程→落地”训练。

投递简历
免责声明:

此信息由b站官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“b站官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!