美团招聘【大模型北斗实习】基于原生语音大模型的情感陪伴智能体
招聘职位:
【大模型北斗实习】基于原生语音大模型的情感陪伴智能体 搜索同类职位
岗位职责:
该课题聚焦于利用原生语音大模型构建情感陪伴 Agent,通过实时全双工交互,精准理解和感知用户情绪,凭借高情商为用户提供极具价值的回复,旨在为用户打造温暖、贴心且高度智能的情感陪伴体验。研究内容:
1)模型优化:参与优化原生语音多模态大模型,通过改进Speech Tokenizer和文本-语音的对齐机制等措施,提升模型对语音中包含的语义以及声学信息的实时理解与处理能力,增强其对用户情绪的精准识别。
2)交互设计:设计高效、自然的全双工交互机制,确保 Agent 与用户之间的交流流畅且符合日常沟通习惯,提高交互的实时性与稳定性。
3)情商塑造:运用先进技术手段,赋予 Agent 高情商特质,使其能够根据用户情绪做出恰当、暖心且富有智慧的回应,提升用户情感体验。
4)数据构建:收集、整理、合成与情感陪伴相关的语音对话数据,为模型训练与优化提供高质量的数据支持,推动模型性能持续提升。
任职要求:
1)熟悉LLM、Speech Codec、NLP Dialog、语音(ASR / TTS)、情感分析等相关领域,对至少一个方向有深入研究,并有实际项目经验,能够将理论知识应用于实践。
2)熟练掌握 Python 等编程语言,具备良好的编程习惯与代码能力,熟悉 Linux 开发环境。
3)熟悉 Megatron、DeepSpeed 等开源训练框架。
加分项:
1)曾在SpeechLM、Speech Codec、NLP Dialog等相关的开源项目中做出突出贡献。
2)曾在上述领域中发表过高水平论文者优先考虑。
该课题聚焦于利用原生语音大模型构建情感陪伴 Agent,通过实时全双工交互,精准理解和感知用户情绪,凭借高情商为用户提供极具价值的回复,旨在为用户打造温暖、贴心且高度智能的情感陪伴体验。研究内容:
1)模型优化:参与优化原生语音多模态大模型,通过改进Speech Tokenizer和文本-语音的对齐机制等措施,提升模型对语音中包含的语义以及声学信息的实时理解与处理能力,增强其对用户情绪的精准识别。
2)交互设计:设计高效、自然的全双工交互机制,确保 Agent 与用户之间的交流流畅且符合日常沟通习惯,提高交互的实时性与稳定性。
3)情商塑造:运用先进技术手段,赋予 Agent 高情商特质,使其能够根据用户情绪做出恰当、暖心且富有智慧的回应,提升用户情感体验。
4)数据构建:收集、整理、合成与情感陪伴相关的语音对话数据,为模型训练与优化提供高质量的数据支持,推动模型性能持续提升。
任职要求:
1)熟悉LLM、Speech Codec、NLP Dialog、语音(ASR / TTS)、情感分析等相关领域,对至少一个方向有深入研究,并有实际项目经验,能够将理论知识应用于实践。
2)熟练掌握 Python 等编程语言,具备良好的编程习惯与代码能力,熟悉 Linux 开发环境。
3)熟悉 Megatron、DeepSpeed 等开源训练框架。
加分项:
1)曾在SpeechLM、Speech Codec、NLP Dialog等相关的开源项目中做出突出贡献。
2)曾在上述领域中发表过高水平论文者优先考虑。
免责声明:
此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!