美团招聘【大模型北斗实习】通用强化学习研究

招聘职位:

【大模型北斗实习】通用强化学习研究 搜索同类职位
发布日期:
2025-05-23
工作地点:
职位类型:
兼职
来源:
美团官网
岗位职责:
RL 技术和 Reasoning 技术是大模型处理各项复杂任务的核心。本课题聚焦于利用上述技术,构建能够应对多目标优化、长期规划和不确定性的智能决策系统。
主要研究内容包括但不限于:
1)多层次强化学习设计:研究 Hierarchical RL 与 LLM 的结合方法,构建能够处理抽象策略与具体执行的多层次决策系统;探索如何将复杂的系统任务分解为可管理的子任务,并能找到准确稠密的反馈信号,构建 Local RM 和 Global RM,进而完成可依赖和全局的优化。
2)Reasoning 技术:针对不同的任务,能对 Reasoning 过程的 Token Budget、Reasoning 路径等,有稳定可控的方式,且能实现任务自适应。
3)RL & Reasoning Scaling Law:探索高效的 RL Scaling 技术和 Test Time Scaling 技术,不断提升模型能力,且能兼顾探索利用和 Compute Cost。
任职要求:
1)计算机科学、人工智能、机器学习或相关专业背景。
2)熟练掌握 Python,具备高效实现和优化强化学习算法的能力。
3)扎实的强化学习理论基础,熟悉分层强化学习、多智能体强化学习、贝叶斯强化学习等高级算法框架。
4)熟悉 LLM 及其与 RL 结合的前沿技术。
5)熟悉 Reasoning 相关技术。
加分项:
1)在NeurIPS、ICLR、ICML等顶级会议发表过 RL 或决策系统相关论文。
2)参与过大规模 RL 系统的实际部署,并解决过生产环境中的稳定性和效率问题。
免责声明:

此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!

FAQ 美团招聘常见问答

美团招聘工作地点:
北京市,上海市