美团招聘【大模型北斗实习】多模态融合及多模态实时交互算法研究
招聘职位:
【大模型北斗实习】多模态融合及多模态实时交互算法研究 搜索同类职位
岗位职责:
大语言模型(LLM)最近取得的突破极大地加速了多模态大语言模型(MLLM)的发展。全模态多模态大语言模型(Omni-MLLM)通过融入如视频、音频等额外的非语言模态,拓展了多模态大语言模型的能力,从而有助于更全面、多维度地理解各种模态,提供更强的智能以及更智能的交互模式。研究方向包括不限于:
1) 多模态表征高效对齐研究:研究如何在统一模型架构下提取并共享视觉、语音、语言等模态的特征;探索基于对比学习、自监督学习的方法,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。
2) 多模态知识迁移与涌现能力研究:研究知识在不同模态间的迁移规律,激发模型在跨模态任务中的涌现能力,实现对未见任务的泛化。
3) 多模态融合:探索统一的全模态大模型框架,研究高效全模态预训练技术,探索跨模态数据上的scaling law和智能涌现能力。使之能够高效处理文本、音频、图像和视频输入的任意组合,并生成涵盖文本、音频和图像等多种模态的输出。
4) 实时多模态交互:探索高效的多模态智能交互技术,增强系统在多模场景下的智能,提升人机实时音视频交互体验。
任职要求:
1)对CV、NLP、语音等多模态相关领域有深入的理解,在其中一个或多个方向有深入的研究经历,且有相关实际项目经验。
2)熟练使用深度学习框架(比如PyTorch),熟悉 Megatron、DeepSpeed 等开源训练框架。
加分项:
1)在知名开源项目中有核心贡献者优先。
2)对多模态大模型有深入研究且有实际训练经验者优先。
3)发表过高水平论文,如 ICLR、NeurIPS、ICML、CVPR 等。
大语言模型(LLM)最近取得的突破极大地加速了多模态大语言模型(MLLM)的发展。全模态多模态大语言模型(Omni-MLLM)通过融入如视频、音频等额外的非语言模态,拓展了多模态大语言模型的能力,从而有助于更全面、多维度地理解各种模态,提供更强的智能以及更智能的交互模式。研究方向包括不限于:
1) 多模态表征高效对齐研究:研究如何在统一模型架构下提取并共享视觉、语音、语言等模态的特征;探索基于对比学习、自监督学习的方法,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。
2) 多模态知识迁移与涌现能力研究:研究知识在不同模态间的迁移规律,激发模型在跨模态任务中的涌现能力,实现对未见任务的泛化。
3) 多模态融合:探索统一的全模态大模型框架,研究高效全模态预训练技术,探索跨模态数据上的scaling law和智能涌现能力。使之能够高效处理文本、音频、图像和视频输入的任意组合,并生成涵盖文本、音频和图像等多种模态的输出。
4) 实时多模态交互:探索高效的多模态智能交互技术,增强系统在多模场景下的智能,提升人机实时音视频交互体验。
任职要求:
1)对CV、NLP、语音等多模态相关领域有深入的理解,在其中一个或多个方向有深入的研究经历,且有相关实际项目经验。
2)熟练使用深度学习框架(比如PyTorch),熟悉 Megatron、DeepSpeed 等开源训练框架。
加分项:
1)在知名开源项目中有核心贡献者优先。
2)对多模态大模型有深入研究且有实际训练经验者优先。
3)发表过高水平论文,如 ICLR、NeurIPS、ICML、CVPR 等。
免责声明:
此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!