查看更多分享

美团招聘【大模型北斗实习】通用强化学习研究

招聘职位：

【大模型北斗实习】通用强化学习研究 搜索同类职位

发布日期：: 2025-05-23
工作地点：: 北京市
上海市
职位类型：: 兼职
职位类别：: 技术类算法,硬件,软件
来源：: 美团官网

岗位职责：
RL 技术和 Reasoning 技术是大模型处理各项复杂任务的核心。本课题聚焦于利用上述技术，构建能够应对多目标优化、长期规划和不确定性的智能决策系统。
主要研究内容包括但不限于：
1）多层次强化学习设计：研究 Hierarchical RL 与 LLM 的结合方法，构建能够处理抽象策略与具体执行的多层次决策系统；探索如何将复杂的系统任务分解为可管理的子任务，并能找到准确稠密的反馈信号，构建 Local RM 和 Global RM，进而完成可依赖和全局的优化。
2）Reasoning 技术：针对不同的任务，能对 Reasoning 过程的 Token Budget、Reasoning 路径等，有稳定可控的方式，且能实现任务自适应。
3）RL & Reasoning Scaling Law：探索高效的 RL Scaling 技术和 Test Time Scaling 技术，不断提升模型能力，且能兼顾探索利用和 Compute Cost。
任职要求：
1）计算机科学、人工智能、机器学习或相关专业背景。
2）熟练掌握 Python，具备高效实现和优化强化学习算法的能力。
3）扎实的强化学习理论基础，熟悉分层强化学习、多智能体强化学习、贝叶斯强化学习等高级算法框架。
4）熟悉 LLM 及其与 RL 结合的前沿技术。
5）熟悉 Reasoning 相关技术。
加分项：
1）在NeurIPS、ICLR、ICML等顶级会议发表过 RL 或决策系统相关论文。
2）参与过大规模 RL 系统的实际部署，并解决过生产环境中的稳定性和效率问题。

前往官网投递

免责声明：

此信息由美团官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：美团【大模型北斗实习】语音基座大模型前沿探索

下一职位：美团(meituan)大模型数据生产实习生-math&code

美团招聘【大模型北斗实习】通用强化学习研究

招聘职位：

FAQ 美团招聘常见问答

投递进展笔记

求职进度

进展结果

发生时间

求职体验

是否匿名

提示