美团(meituan)招聘【北斗】大模型算法研究员(Agent/RL/推理)
招聘职位:
【北斗】大模型算法研究员(Agent/RL/推理) 搜索同类职位
岗位职责:
【愿景】
建成全球持续领先、客户长期信赖的履约技术平台,打造市场首选、社会认可、服务10亿用户的配送品牌。
【你将参与】
方向一:Agent技术体系研究与落地
1.设计并构建面向真实业务场景的Agent技术体系,涵盖任务规划、工具调用、多轮推理、自我反思与纠错等核心模块
2.深入抽象业务核心问题,建立可量化的评估反馈信号,驱动Agent在复杂履约场景中实现可度量的效果提升
3.探索Multi-Agent协作框架,研究Agent在千万级并发场景下的可靠性、安全性与成本效率
方向二:LLM后训练算法研究
1.负责面向特定业务场景的指令精调(SFT)、偏好对齐(RLHF/DPO/GRPO等)全链路研究与工程落地
2.研究ScalableOversight、持续学习、AI和环境反馈的强化学习(RLXF)等前沿方向。同时探索奖励模型与反馈机制、可泛化的细粒度过程监督和奖励建模等,提升模型在复杂推理与工具调用任务上的能力上限
3.主导训练数据的质量工程,包括数据清洗、合成数据构建及标注流程设计
4.垂域模型定制化构建,领域认知智能突破,探索小样本场景自演进架构设计、可信推理机制构建等方向
方向三:评测与数据体系建设
1.设计覆盖Agent行为、模型能力、业务指标的多维评测体系,建立自动化的诊断与归因链路
2.与业务团队深度协作,构建端到端的训练-评估-迭代闭环,将研究成果转化为线上可量化的业务收益
方向四:前沿跟踪与对外输出
1.持续追踪NeurIPS/ICML/ICLR/ACL等顶会最新进展,具备将前沿论文快速工程化落地的能力
2.鼓励将内部研究成果整理为学术论文,向行业输出技术影响力
任职要求:
【任职资格】
必备条件:
1.2027届计算机、数学、统计等相关专业在读或应届,本科及以上,博士/硕士优先
2.扎实的机器学习与深度学习基础,熟悉Transformer架构及其变体,具备独立阅读和复现顶会论文的能力
3.熟练掌握Python及PyTorch/JAX等主流框架,具备清晰的代码工程意识
4.对大模型的训练流程(预训练/后训练)或Agent构建有系统性理解,具备独立完成端到端实验的能力
5.具备RLHF/DPO/GRPO或其他对齐算法的实际训练与调优,对相关数据构建有深度认知
加分项:
1.熟悉ClaudeCode、OpenClaw、Hermes等开源Harness的设计和实现
2.在NeurIPS/ICML/ICLR/ACL/EMNLP等顶会发表过论文(含在投),或有被广泛引用的开源项目
3.有Agent系统(如ReAct/Toolformer/CodeAct类)的研究或工程经验,理解Agent失败模式与评估瓶颈
4.参与过千卡以上规模分布式训练,或对推理优化(量化、投机解码等)有动手经验
5.ACM-ICPC/Kaggle/算法竞赛获奖,展示出优秀的算法直觉与问题拆解能力
6.具有跨学科视野,能将运筹优化、时空感知等方法引入LLMPost-Training体系
【为什么是我们】
1.真实战场:千万级日订单、百万级骑手,提供业界罕见的Agent大规模真实落地环境,不止是玩具Demo
2.资源保障:充足的GPU集群资源,支持千卡规模的后训练实验,让想法落地不被算力卡脖子
3.成果导向:团队鼓励发表顶会论文,内部有完善的学术合作通道
4.高密度氛围:团队论文产出稳定,曾获美团技术突破奖、啃下硬骨头奖等荣誉,与多所顶尖高校保持长期联合研究
【愿景】
建成全球持续领先、客户长期信赖的履约技术平台,打造市场首选、社会认可、服务10亿用户的配送品牌。
【你将参与】
方向一:Agent技术体系研究与落地
1.设计并构建面向真实业务场景的Agent技术体系,涵盖任务规划、工具调用、多轮推理、自我反思与纠错等核心模块
2.深入抽象业务核心问题,建立可量化的评估反馈信号,驱动Agent在复杂履约场景中实现可度量的效果提升
3.探索Multi-Agent协作框架,研究Agent在千万级并发场景下的可靠性、安全性与成本效率
方向二:LLM后训练算法研究
1.负责面向特定业务场景的指令精调(SFT)、偏好对齐(RLHF/DPO/GRPO等)全链路研究与工程落地
2.研究ScalableOversight、持续学习、AI和环境反馈的强化学习(RLXF)等前沿方向。同时探索奖励模型与反馈机制、可泛化的细粒度过程监督和奖励建模等,提升模型在复杂推理与工具调用任务上的能力上限
3.主导训练数据的质量工程,包括数据清洗、合成数据构建及标注流程设计
4.垂域模型定制化构建,领域认知智能突破,探索小样本场景自演进架构设计、可信推理机制构建等方向
方向三:评测与数据体系建设
1.设计覆盖Agent行为、模型能力、业务指标的多维评测体系,建立自动化的诊断与归因链路
2.与业务团队深度协作,构建端到端的训练-评估-迭代闭环,将研究成果转化为线上可量化的业务收益
方向四:前沿跟踪与对外输出
1.持续追踪NeurIPS/ICML/ICLR/ACL等顶会最新进展,具备将前沿论文快速工程化落地的能力
2.鼓励将内部研究成果整理为学术论文,向行业输出技术影响力
任职要求:
【任职资格】
必备条件:
1.2027届计算机、数学、统计等相关专业在读或应届,本科及以上,博士/硕士优先
2.扎实的机器学习与深度学习基础,熟悉Transformer架构及其变体,具备独立阅读和复现顶会论文的能力
3.熟练掌握Python及PyTorch/JAX等主流框架,具备清晰的代码工程意识
4.对大模型的训练流程(预训练/后训练)或Agent构建有系统性理解,具备独立完成端到端实验的能力
5.具备RLHF/DPO/GRPO或其他对齐算法的实际训练与调优,对相关数据构建有深度认知
加分项:
1.熟悉ClaudeCode、OpenClaw、Hermes等开源Harness的设计和实现
2.在NeurIPS/ICML/ICLR/ACL/EMNLP等顶会发表过论文(含在投),或有被广泛引用的开源项目
3.有Agent系统(如ReAct/Toolformer/CodeAct类)的研究或工程经验,理解Agent失败模式与评估瓶颈
4.参与过千卡以上规模分布式训练,或对推理优化(量化、投机解码等)有动手经验
5.ACM-ICPC/Kaggle/算法竞赛获奖,展示出优秀的算法直觉与问题拆解能力
6.具有跨学科视野,能将运筹优化、时空感知等方法引入LLMPost-Training体系
【为什么是我们】
1.真实战场:千万级日订单、百万级骑手,提供业界罕见的Agent大规模真实落地环境,不止是玩具Demo
2.资源保障:充足的GPU集群资源,支持千卡规模的后训练实验,让想法落地不被算力卡脖子
3.成果导向:团队鼓励发表顶会论文,内部有完善的学术合作通道
4.高密度氛围:团队论文产出稳定,曾获美团技术突破奖、啃下硬骨头奖等荣誉,与多所顶尖高校保持长期联合研究
免责声明:
此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!