查看更多分享

美团(meituan)招聘【基座大模型北斗实习】Agent 学习范式与长时程记忆研究

招聘职位：

【基座大模型北斗实习】Agent 学习范式与长时程记忆研究 搜索同类职位

发布日期：: 2026-04-03
工作地点：: 北京市
上海市
职位类型：: 兼职
职位类别：: 技术类算法
来源：: 美团官网

岗位职责：
简介：围绕下一代智能体系统的三类核心能力展开布局——持续学习能力、原生规划与建模能力、跨时程记忆能力。
1、探索 Agent 的学习范式：online learning/自博弈/自进化：围绕任务自动生成—轨迹采集—反馈建模—经验提炼—策略更新的闭环展开探索，重点尝试失败驱动的课程生成、自我反思与回溯、多智能体自博弈、基于验证器或多数投票的弱监督反馈，以及将经验写入外部记忆或压缩回模型参数的近在线更新机制。核心目标是让 Agent 在开放环境中逐步具备持续学习、持续适应和持续提升的能力。
2、Agentic-native model 范式：扩散模型/世界模型/生成式规划：探索三类互补路径：其一，学习可供 Agent 调用的世界模型，用于预测状态转移、环境反馈与长期结果；其二，用扩散式或潜变量式生成机制，对动作序列、子目标或未来轨迹进行并行采样与迭代修正，提升长程规划能力；其三，把生成式规划与搜索/验证结合，通过 imagined rollouts、候选轨迹打分、反事实比较和分层计划，把先想后做的能力落实到系统。
3、超长上下文与记忆：围绕记什么、记成什么形式、何时写、如何压缩、何时召回、何时遗忘这几个核心问题开展研究，重点探索分层记忆结构、事实/经验/工作记忆协同、主动写入与更新、基于任务反馈的记忆读写策略学习，以及长上下文与显式记忆协同的系统设计，以支撑长时程规划、多轮任务连续性与个体化经验积累.
任职要求：
1、计算机、人工智能、数学、统计学、电子信息或相关专业本科高年级、硕士或博士在读；
2、具备扎实的机器学习基础，对以下至少一个方向有较深入理解： - 大语言模型与后训练 - 强化学习 / Online learning / Bandit / Sequence decision making - Agent / Tool use / Planning / Reasoning - 记忆增强模型 / RAG / 长上下文建模 - Reward modeling / Preference learning / PRM / ORM
3、熟悉 Python，具备较强的工程实现能力，能够独立完成实验、调参与结果分析，并具有一定的大模型训练或推理实践经验；
4、具备较强的论文阅读、问题抽象与实验设计能力，能够围绕一个研究问题提出清晰假设、设计验证方案并推进落地；
5、具备良好的沟通协作能力与研究主动性，能够在不确定性较高的前沿问题中快速学习、持续推进。

前往官网投递

免责声明：

此信息由美团官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：美团(meituan)【基座大模型北斗实习】基座大模型-Coding方向

下一职位：美团(meituan)内容安全产品经理实习