美团(meituan)招聘【基座大模型北斗实习】Agent 学习范式与长时程记忆研究
招聘职位:
【基座大模型北斗实习】Agent 学习范式与长时程记忆研究 搜索同类职位
岗位职责:
简介:围绕下一代智能体系统的三类核心能力展开布局——持续学习能力、原生规划与建模能力、跨时程记忆能力。
1、探索 Agent 的学习范式:online learning/自博弈/自进化:围绕任务自动生成—轨迹采集—反馈建模—经验提炼—策略更新的闭环展开探索,重点尝试失败驱动的课程生成、自我反思与回溯、多智能体自博弈、基于验证器或多数投票的弱监督反馈,以及将经验写入外部记忆或压缩回模型参数的近在线更新机制。核心目标是让 Agent 在开放环境中逐步具备持续学习、持续适应和持续提升的能力。
2、Agentic-native model 范式:扩散模型/世界模型/生成式规划:探索三类互补路径:其一,学习可供 Agent 调用的世界模型,用于预测状态转移、环境反馈与长期结果;其二,用扩散式或潜变量式生成机制,对动作序列、子目标或未来轨迹进行并行采样与迭代修正,提升长程规划能力;其三,把生成式规划与搜索/验证结合,通过 imagined rollouts、候选轨迹打分、反事实比较和分层计划,把先想后做的能力落实到系统。
3、超长上下文与记忆:围绕记什么、记成什么形式、何时写、如何压缩、何时召回、何时遗忘这几个核心问题开展研究,重点探索分层记忆结构、事实/经验/工作记忆协同、主动写入与更新、基于任务反馈的记忆读写策略学习,以及长上下文与显式记忆协同的系统设计,以支撑长时程规划、多轮任务连续性与个体化经验积累.
任职要求:
1、计算机、人工智能、数学、统计学、电子信息或相关专业本科高年级、硕士或博士在读;
2、具备扎实的机器学习基础,对以下至少一个方向有较深入理解: - 大语言模型与后训练 - 强化学习 / Online learning / Bandit / Sequence decision making - Agent / Tool use / Planning / Reasoning - 记忆增强模型 / RAG / 长上下文建模 - Reward modeling / Preference learning / PRM / ORM
3、熟悉 Python,具备较强的工程实现能力,能够独立完成实验、调参与结果分析,并具有一定的大模型训练或推理实践经验;
4、具备较强的论文阅读、问题抽象与实验设计能力,能够围绕一个研究问题提出清晰假设、设计验证方案并推进落地;
5、具备良好的沟通协作能力与研究主动性,能够在不确定性较高的前沿问题中快速学习、持续推进。
简介:围绕下一代智能体系统的三类核心能力展开布局——持续学习能力、原生规划与建模能力、跨时程记忆能力。
1、探索 Agent 的学习范式:online learning/自博弈/自进化:围绕任务自动生成—轨迹采集—反馈建模—经验提炼—策略更新的闭环展开探索,重点尝试失败驱动的课程生成、自我反思与回溯、多智能体自博弈、基于验证器或多数投票的弱监督反馈,以及将经验写入外部记忆或压缩回模型参数的近在线更新机制。核心目标是让 Agent 在开放环境中逐步具备持续学习、持续适应和持续提升的能力。
2、Agentic-native model 范式:扩散模型/世界模型/生成式规划:探索三类互补路径:其一,学习可供 Agent 调用的世界模型,用于预测状态转移、环境反馈与长期结果;其二,用扩散式或潜变量式生成机制,对动作序列、子目标或未来轨迹进行并行采样与迭代修正,提升长程规划能力;其三,把生成式规划与搜索/验证结合,通过 imagined rollouts、候选轨迹打分、反事实比较和分层计划,把先想后做的能力落实到系统。
3、超长上下文与记忆:围绕记什么、记成什么形式、何时写、如何压缩、何时召回、何时遗忘这几个核心问题开展研究,重点探索分层记忆结构、事实/经验/工作记忆协同、主动写入与更新、基于任务反馈的记忆读写策略学习,以及长上下文与显式记忆协同的系统设计,以支撑长时程规划、多轮任务连续性与个体化经验积累.
任职要求:
1、计算机、人工智能、数学、统计学、电子信息或相关专业本科高年级、硕士或博士在读;
2、具备扎实的机器学习基础,对以下至少一个方向有较深入理解: - 大语言模型与后训练 - 强化学习 / Online learning / Bandit / Sequence decision making - Agent / Tool use / Planning / Reasoning - 记忆增强模型 / RAG / 长上下文建模 - Reward modeling / Preference learning / PRM / ORM
3、熟悉 Python,具备较强的工程实现能力,能够独立完成实验、调参与结果分析,并具有一定的大模型训练或推理实践经验;
4、具备较强的论文阅读、问题抽象与实验设计能力,能够围绕一个研究问题提出清晰假设、设计验证方案并推进落地;
5、具备良好的沟通协作能力与研究主动性,能够在不确定性较高的前沿问题中快速学习、持续推进。
免责声明:
此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!