查看更多分享

美团招聘基座评测与认知分析基础模型及Agent能力研究

招聘职位：

基座评测与认知分析基础模型及Agent能力研究 搜索同类职位

发布日期：: 2026-06-03
工作地点：: 北京
职位类型：: 全职
专业类别：: 计算机
来源：: 美团

【LongCat大模型人才校招】基座评测与认知分析-基础模型及Agent能力研究
更新时间：2026-06-03
工作地点：北京市
事业群：核心本地商业-基础研发平台
岗位职责
当前，我们正处在大模型从Chat Bot进化为自主智能体（Agent）的关键阶段。Agent 已深度融入代码生产、办公、搜索等场高价值景，其核心能力从单轮对话拓展到复杂任务规划、工具编排、长程记忆与多步推理。如何系统、科学地衡量这些前沿能力，已成为决定大模型能力天花板的核心挑战。我们诚邀对 Agent 评测有信念感的你，一同定义下一代 Agent 能力的标尺。
本岗位涉及的具体方向包括：
1.构建 Agent 全维度评测体系：设计横跨感知-规划-执行-反思完整闭环的评测维度框架，重点覆盖代码、办公、搜索等高价值场景。
2.面向真实用户体验的评测方案建设：当前许多Agent应用领域出现了Benchmark指标相对饱和，无法准确链接真实用户使用体验等问题，我们希望从用户实际使用场景出发，构建高度拟真的交互式评测方案，设计体现用户使用体验的评测指标，对齐训练优化方向与提升用户体验的目标。
3.基于线上回流日志的模型问题分析与评测验收：利用线上真实交互日志，系统化挖掘 Agent 在复杂链路中的典型失效模式，如工具幻觉、目标偏离等。将发现的 Badcase 自动归因并转化为可复现的回归测试用例，建立基于回流问题的评测看板，以数据驱动方式量化模型版本迭代的真实收益。
4.探索下一代评测范式：研究人-智能体协同评估、自进化能力评估、Agentic Evaluation、Auto Research等前沿课题，推动评测范式和模型优化范式演进，产出高水平技术报告与顶会论文。
【为什么是我们】
1.美团拥有世界级的业务难题，从POC到大规模场景，充满机遇与挑战，兼顾学习和成长。
2.业界前列的NV GPU和非GPU算力规模，协同算法，AI框架，网络，计算，芯片等多个团队共同建设大模型软、硬件技术底座。
3.团队拥有同行TOP级别的评测基础能力和相应资源投入，在大模型评测研究领域具备国内领先的竞争力，团队近年产出了PRDBench、AMemGym、CATArena等数十篇高质量论文及研究工作。
岗位基本要求
1.硕士及以上学历，计算机或相关专业，博士优先。
2.在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础，在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶级会议发表论文者优先。
3.优秀的代码和算法功底，具备工匠精神，ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先。
4.在大模型领域或强化学习领域，主导过大影响力的项目或论文者优先。
5.出色的问题分析和解决能力，有自主探索、深耕一个领域的决心和定力。
立即申请：zh***com[点击查看]

应聘方式：请留意职位介绍中的链接、邮箱、二维码等联系信息！

免责声明：

此信息由美团 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：美团基座评测与认知分析

下一职位：小红书(xiaohongshu)【2027届】马当路练习生-内容运营

美团招聘基座评测与认知分析基础模型及Agent能力研究

招聘职位：

FAQ 美团招聘常见问答

投递进展笔记

求职进度

进展结果

发生时间

求职体验

是否匿名

提示