查看更多分享

美团(meituan)招聘【基座大模型北斗实习】大模型后训练研究

招聘职位：

【基座大模型北斗实习】大模型后训练研究 搜索同类职位

发布日期：: 2026-04-03
工作地点：: 北京市
上海市
职位类型：: 兼职
职位类别：: 技术类算法
来源：: 美团官网

岗位职责：
简介：负责大规模强化学习系统设计、分布式调优、调度优化、算法 co-design等，包括不限于 RLHF、RLVR、Agentic RL等范式。和算法共同提升模型各类专项能力，应用生产力等等

你可能从事以下方向：
1、RL训练系统架构
①设计和实现支持 PPO及各类变种算法的高效训练框架。
②Data/Env Scaling，优化并发调度效率。
2、在线采样 & Rollout 优化
①优化RL场景（longcot、长尾分布、多轮交互）推理引擎效率，包括不限于量化、MTP、并行切分等等。
②训推混部署、全流程异步训练，提升 GPU 利用率。
3、训推一致性
①训推引擎天然为了各自最大化效率存在精度差异，研究如何不断降低两者diff，包括不限于 Routing Replay、确定性计算等等。
4、训练稳定性
①攻克RL训练特有的奖励Hacking、训练不稳定、KL爆炸等系统层面问题。
②设计细粒度的训练过程监控：reward曲线、KL散度、entropy变化实时可观测。
③优化 PPO clip、advantage normalization 等关键超参的自动调节机制。
5.、长程任务训练优化
①长程任务奖励稀疏、过程难精确控制，研究如何系统性的优化其中工程和算法挑战。
任职要求：
1、了解 PPO / GRPO / DPO 算法原理，最好动手实现过；
2、用过 veRL / OpenRLHF / TRL 等RL训练框架；
3、有 vLLM / SGLang / TensorRT-LLM 推理加速经验（rollout优化必备）；
4、做过多机多卡训练，理解显存管理和通信开销；
5、RL系统相关顶会论文（NeurIPS/ICML/ICLR/MLSys）。

前往官网投递

免责声明：

此信息由美团官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：美团(meituan)【基座大模型北斗实习】多模态推理前沿研究

下一职位：美团(meituan)内容安全产品经理实习