美团(meituan)招聘【基座大模型北斗实习】CodeAgent 后训练方向
招聘职位:
【基座大模型北斗实习】CodeAgent 后训练方向 搜索同类职位
岗位职责:
简介:不再是单纯的代码生成,你将直面当前大模型最薄弱的环节——对复杂表格(Table)与混合文本的深度理解,以及海量数值的精准逻辑推理。本方向聚焦于基座模型的 Post-training,致力于突破数值处理天花板,赋予机器像顶尖数据科学家一样的洞察力。
【核心探索】
1、异构数据理解与数值推理: 突破大模型在 Table + 文本混合形态下的信息丢失与幻觉瓶颈。探索基于真实商业数据(如百万级复杂 CSV/Excel 结构)的表征优化与微调,大幅提升模型对数值规律的敏感度与跨表关联推理能力。
2、Agentic RL 与数据环境交互: 摒弃传统 RLHF,构建基于“代码执行沙盒”与“真实数据计算结果反馈”的强化学习闭环。让模型在与海量数据的反复试错中,实现代码编写与数据清洗能力的自我进化。
3、复杂推理与过程奖励(PRM): 针对多步业务分析任务,构建细粒度的过程奖励模型。研究 Test-Time Compute 策略,引导智能体在面对极度复杂的数值统计命题时进行 MCTS 搜索与自我纠错,拉升逻辑推理天花板。
任职要求:
1、有好奇心,敢想敢做,学习能力强,能在复杂问题的深度思考与拆解能力;
2、在 Agentic RL、过程奖励(PRM)或复杂代码推理等方向有深入研究及顶会论文发表(ACL/EMNLP/NeurIPS/ICLR/KDD 等);
3、有OpenClaw、Claude code深度使用经验与产出优先。
简介:不再是单纯的代码生成,你将直面当前大模型最薄弱的环节——对复杂表格(Table)与混合文本的深度理解,以及海量数值的精准逻辑推理。本方向聚焦于基座模型的 Post-training,致力于突破数值处理天花板,赋予机器像顶尖数据科学家一样的洞察力。
【核心探索】
1、异构数据理解与数值推理: 突破大模型在 Table + 文本混合形态下的信息丢失与幻觉瓶颈。探索基于真实商业数据(如百万级复杂 CSV/Excel 结构)的表征优化与微调,大幅提升模型对数值规律的敏感度与跨表关联推理能力。
2、Agentic RL 与数据环境交互: 摒弃传统 RLHF,构建基于“代码执行沙盒”与“真实数据计算结果反馈”的强化学习闭环。让模型在与海量数据的反复试错中,实现代码编写与数据清洗能力的自我进化。
3、复杂推理与过程奖励(PRM): 针对多步业务分析任务,构建细粒度的过程奖励模型。研究 Test-Time Compute 策略,引导智能体在面对极度复杂的数值统计命题时进行 MCTS 搜索与自我纠错,拉升逻辑推理天花板。
任职要求:
1、有好奇心,敢想敢做,学习能力强,能在复杂问题的深度思考与拆解能力;
2、在 Agentic RL、过程奖励(PRM)或复杂代码推理等方向有深入研究及顶会论文发表(ACL/EMNLP/NeurIPS/ICLR/KDD 等);
3、有OpenClaw、Claude code深度使用经验与产出优先。
免责声明:
此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!