美团(meituan)招聘【基座大模型北斗实习】全模态Computer Use Agent前沿研究
招聘职位:
【基座大模型北斗实习】全模态Computer Use Agent前沿研究 搜索同类职位
岗位职责:
简介:下一代智能体将超越纯文本交互,在屏幕、软件乃至物理世界中运作——这要求模型具备将图像、视频、音频、文本等多模态感知与可靠的实时行动能力统一融合的底层能力。本课题聚焦于将全模态(Omni-modal)理解能力深度融入Computer Use Agent(CUA),构建"边看、边听、边想、边做"的原生全模态智能体系统,推动智能体从单一文本工具调用走向真实数字环境中的多模态自主操作。
具体地,我们关注如下研究方向:
1、全模态感知与GUI交互的统一建模:探索将视觉(屏幕截图、视频流)、听觉(语音指令、系统音频)、文本等多模态信号在统一架构下进行融合理解,使Agent能够基于多模态上下文进行精准的GUI元素定位、状态识别与操作决策,提升在复杂真实桌面/移动端环境下的任务完成能力。
2、长时序跨应用任务规划与执行:研究Agent在跨小时级、多应用协同的长程数字任务中的持续意图保持、动态重规划与自主纠错能力,解决当前CUA在长交互链中出现的上下文丢失、计划漂移与误差累积问题,使Agent能够自主稳定地完成复杂的端到端工作流。
3、实时流式感知与连续决策:从"处理静态截图"升级到"实时屏幕流+音频流"的连续感知模式,探索Agent在动态变化的数字环境中进行实时状态追踪与即时响应的能力,支撑直播监控、实时协作等需要持续交互的场景。
4、全模态Agent的高效学习范式:探索面向全模态CUA场景的强化学习训练方法,包括但不限于:多模态环境下的奖励建模与过程奖励设计、GUI交互轨迹的大规模RL Scaling、基于环境反馈的自进化与持续学习机制,以及多模态推理与行动的联合优化策略。
任职要求:
1、本科及以上学历,计算机、人工智能、自动化、数学等相关专业在读;
2、在以下一个或多个领域有较深入的研究或实践经验:多模态大模型(MLLM)、强化学习(RL)、Agent系统、GUI Agent / Computer Use、视觉-语言模型、跨模态融合;
3、熟悉Python,具备较强的工程实现能力,有大模型训练或推理实践经验者优先;
4、好奇心驱动,具备出色的问题分析与自主探索能力,能够在前沿不确定性较高的方向中持续推进;
5、具有良好的沟通协作能力,对追求前沿技术有强烈热情,能够与团队融洽合作,快速试验想法。
加分项:
1、在ICLR/NeurIPS/ICML/ACL/CVPR等顶会发表论文者优先;
2、有影响力的开源项目中做出过核心贡献者优先;
3、有GUI Grounding、Screen Agent、Computer Use Agent、Browser Use/Web Agent等相关项目经验者优先。
简介:下一代智能体将超越纯文本交互,在屏幕、软件乃至物理世界中运作——这要求模型具备将图像、视频、音频、文本等多模态感知与可靠的实时行动能力统一融合的底层能力。本课题聚焦于将全模态(Omni-modal)理解能力深度融入Computer Use Agent(CUA),构建"边看、边听、边想、边做"的原生全模态智能体系统,推动智能体从单一文本工具调用走向真实数字环境中的多模态自主操作。
具体地,我们关注如下研究方向:
1、全模态感知与GUI交互的统一建模:探索将视觉(屏幕截图、视频流)、听觉(语音指令、系统音频)、文本等多模态信号在统一架构下进行融合理解,使Agent能够基于多模态上下文进行精准的GUI元素定位、状态识别与操作决策,提升在复杂真实桌面/移动端环境下的任务完成能力。
2、长时序跨应用任务规划与执行:研究Agent在跨小时级、多应用协同的长程数字任务中的持续意图保持、动态重规划与自主纠错能力,解决当前CUA在长交互链中出现的上下文丢失、计划漂移与误差累积问题,使Agent能够自主稳定地完成复杂的端到端工作流。
3、实时流式感知与连续决策:从"处理静态截图"升级到"实时屏幕流+音频流"的连续感知模式,探索Agent在动态变化的数字环境中进行实时状态追踪与即时响应的能力,支撑直播监控、实时协作等需要持续交互的场景。
4、全模态Agent的高效学习范式:探索面向全模态CUA场景的强化学习训练方法,包括但不限于:多模态环境下的奖励建模与过程奖励设计、GUI交互轨迹的大规模RL Scaling、基于环境反馈的自进化与持续学习机制,以及多模态推理与行动的联合优化策略。
任职要求:
1、本科及以上学历,计算机、人工智能、自动化、数学等相关专业在读;
2、在以下一个或多个领域有较深入的研究或实践经验:多模态大模型(MLLM)、强化学习(RL)、Agent系统、GUI Agent / Computer Use、视觉-语言模型、跨模态融合;
3、熟悉Python,具备较强的工程实现能力,有大模型训练或推理实践经验者优先;
4、好奇心驱动,具备出色的问题分析与自主探索能力,能够在前沿不确定性较高的方向中持续推进;
5、具有良好的沟通协作能力,对追求前沿技术有强烈热情,能够与团队融洽合作,快速试验想法。
加分项:
1、在ICLR/NeurIPS/ICML/ACL/CVPR等顶会发表论文者优先;
2、有影响力的开源项目中做出过核心贡献者优先;
3、有GUI Grounding、Screen Agent、Computer Use Agent、Browser Use/Web Agent等相关项目经验者优先。
免责声明:
此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!