查看更多分享

美团(meituan)招聘【LongCat实习】面向Agentic场景的语音交互大模型前沿研究

招聘职位：

【LongCat实习】面向Agentic场景的语音交互大模型前沿研究 搜索同类职位

发布日期：: 2026-06-30
工作地点：: 北京市
上海市
深圳市
职位类型：: 兼职
职位类别：: 技术类算法
来源：: 美团官网

岗位职责：
下一代智能体将彻底打破“键盘与屏幕”的束缚，语音将成为人类与AI协作最自然、最高效的入口。这要求模型不仅能“听懂”字面意思，还要能感知语气、情绪与环境音，并基于这些多维度的语音信息直接进行思考、规划与行动。本课题聚焦于构建端到端（End-to-End）的语音原生大模型，并将其深度融入Agentic工作流，打造“边听、边想、边说、边做”的新一代语音智能体，推动AI从传统的“级联式语音助手（ASR+LLM+TTS）”走向具备极低延迟、全双工交互与复杂任务执行能力的真实世界数字伙伴。
具体地，我们关注如下研究方向：
1.端到端语音-语言统一建模与理解：摒弃传统的级联架构，探索将连续的音频流（包含语音、副语言特征、环境音）与离散的文本Token在统一的自回归/非自回归架构下进行联合建模。使Agent能够无损保留语音中的情绪、重音、语速等声学特征，并在极低延迟下实现跨模态的深度语义理解。
2.实时全双工流式交互与动态响应：研究面向真实对话场景的流式输入输出机制，攻克语音智能体在自然对话中的“听觉注意力”问题。探索支持随时打断（Interruption）、智能插话（Backchanneling）、端点检测（VAD）与即时状态切换的底层模型架构，实现媲美真人的丝滑对话节奏。
3.语音驱动的Agent规划与工具调用（Voice-to-Action）：探索如何将模糊、口语化、包含冗余信息的自然语音指令，直接转化为精准的Agent意图与工具调用（Tool Use/API Call）序列。研究语音模态下的长上下文记忆、多轮语音交互中的意图追踪，以及“边对话边执行任务”的并行处理能力。
4.面向语音Agent的高效对齐与强化学习：探索适用于语音大模型的训练范式与对齐策略。包括但不限于：基于人类偏好的语音强化学习（RLHF for Audio）、语音交互轨迹的大规模构建、针对“对话自然度”与“任务完成率”的多目标奖励建模，以及基于环境反馈的语音Agent自进化机制。
【为什么是我们】
1.全栈顶配算力支持，依托美团大规模算力集群，提供千卡至万卡级算力支持，具备成熟的分布式训练与低延迟推理优化栈，保障世界动作模型与 VLA 大规模训练。
2.与优秀人才同行，你将与行业顶尖的大模型研究员及机器人领域专家并肩作战，共同攻克具身智能的技术难点。
任职要求：
【必要项】
1.本科及以上学历，计算机、人工智能、自动化、信号处理、数学等相关专业在读；
2.在以下一个或多个领域有较深入的研究或实践经验：音频/语音大模型（Audio-LLM / Speech Language Models）、端到端语音对话系统、大语言模型（LLM）、Agent系统、语音识别/合成（ASR/TTS）、强化学习；
3.熟悉Python，熟练使用PyTorch等深度学习框架，具备较强的工程实现能力，有大规模分布式训练或流式推理优化实践经验者优先；
4.好奇心驱动，具备出色的问题分析与自主探索能力，能够在前沿不确定性较高的方向中持续推进；
5.具有良好的沟通协作能力，对追求前沿技术有强烈热情，能够与团队融洽合作，快速试验想法。
【加分项】
1.在ICASSP、Interspeech、ACL、ICLR、NeurIPS、ICML等顶会发表过相关论文者优先；
2.在有影响力的开源项目（如大模型、语音处理框架、Agent框架等）中做出过核心贡献者优先；
3.有AudioLM、VALL-E、Qwen-Audio等语音/音频大模型相关研究经验，或有Voice Agent、Tool-use大模型实战经验者优先。

前往官网投递

免责声明：

此信息由美团官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：美团(meituan)【LongCat实习】原生多模态大模型研究

下一职位：小红书(xiaohongshu)IOS开发实习生