美团招聘【北斗实习】大模型应用算法工程师-【Reasoning能力提升】
招聘职位:
【北斗实习】大模型应用算法工程师-【Reasoning能力提升】 搜索同类职位
岗位职责:
【课题说明】
通用模型往往难以兼顾多样化的场景需求,容易出现泛化能力强但针对性不足的问题。针对这一挑战,本课题聚焦于研究面向具体业务或应用场景的强化学习训练优化策略,通过引入场景特定的奖励函数、环境建模和数据采样机制,提升模型在特定任务下的表现能力与适应性。课题重点突破模型在细粒度场景下的泛化能力不足、奖励稀疏、训练效率低等问题,为大模型的行业落地提供有力支撑。
【建议研究方向】
1.场景特定奖励设计:针对不同业务场景,定制化设计奖励函数,提升模型在目标任务中的表现能力。
2.环境模拟与数据生成:构建高保真场景模拟环境,开发高效的数据采样与生成机制,提升强化学习训练效率。
3.迁移与泛化能力增强:研究多场景迁移学习与元强化学习方法,提升模型从通用能力到场景定制能力的转化效率。
4.推理增强型RAG系统:基于图结构的知识融合、混合模型的协同推理架构和强化学习驱动的优化方法,进一步提升RAG系统能力。
5.基于价值观约束的大模型风险控制与安全防护。
任职要求:
海内外高校在校本科生(大三及以上)、硕士生及博士生,且以下条件至少满足一项:
1)超级学霸:专业成绩排名前1%。
2)学术达人:在顶级期刊或学术会议上以第一作者身份发表论文(或导师一作,自己为二作)。
3)竞赛大神:在顶级大赛上获奖。
4)工程高手:有大厂实验室的实习经验,或有贡献突出的开源项目。
【课题说明】
通用模型往往难以兼顾多样化的场景需求,容易出现泛化能力强但针对性不足的问题。针对这一挑战,本课题聚焦于研究面向具体业务或应用场景的强化学习训练优化策略,通过引入场景特定的奖励函数、环境建模和数据采样机制,提升模型在特定任务下的表现能力与适应性。课题重点突破模型在细粒度场景下的泛化能力不足、奖励稀疏、训练效率低等问题,为大模型的行业落地提供有力支撑。
【建议研究方向】
1.场景特定奖励设计:针对不同业务场景,定制化设计奖励函数,提升模型在目标任务中的表现能力。
2.环境模拟与数据生成:构建高保真场景模拟环境,开发高效的数据采样与生成机制,提升强化学习训练效率。
3.迁移与泛化能力增强:研究多场景迁移学习与元强化学习方法,提升模型从通用能力到场景定制能力的转化效率。
4.推理增强型RAG系统:基于图结构的知识融合、混合模型的协同推理架构和强化学习驱动的优化方法,进一步提升RAG系统能力。
5.基于价值观约束的大模型风险控制与安全防护。
任职要求:
海内外高校在校本科生(大三及以上)、硕士生及博士生,且以下条件至少满足一项:
1)超级学霸:专业成绩排名前1%。
2)学术达人:在顶级期刊或学术会议上以第一作者身份发表论文(或导师一作,自己为二作)。
3)竞赛大神:在顶级大赛上获奖。
4)工程高手:有大厂实验室的实习经验,或有贡献突出的开源项目。
免责声明:
此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!