查看更多分享

美团(meituan)招聘【基座大模型北斗实习】多模态大模型基座前沿探索与应用

招聘职位:

【基座大模型北斗实习】多模态大模型基座前沿探索与应用 搜索同类职位
发布日期:
2026-04-03
工作地点:
职位类型:
兼职
职位类别:
技术类算法
来源:
美团官网
岗位职责:
简介:多模态能力是通用人工智能的关键要素之一。本研究方向聚焦于多模态大模型的模型结构、统一训练范式、数据能力体系等前沿内容,旨在通过统一的模型架构打通视觉、语言、和语音等模态之间的壁垒,实现多模态信息的深度理解与高质量生成,持续提升视觉能力帮助多模态大模型更全面地理解世界知识,为跨模态对齐、复杂视觉任务、多模知识迁移提供基座模型。
具体地,我们关注如下研究方向:
1、多模态大模型基座:探索并不断突破多模态基座模型的能力上限。具体地,负责大模型相关技术前沿探索,包括但不限于融合模型架构探索、原生训练范式探索、高效训推框架探索等,不断提升模型的理解能力、生成质量、多样性、可控性等。负责不同规模、不同结构的多模态模型的数据准备和优化,构建多模态数据处理流程等。
2、视频多模态能力提升:负责解决多模态视频大模型领域的前沿技术难题,如视频后训练、长视频时序理解、音视频等,探索短视频、长视频、视频流等不同形态的视频多模态方案,探究图像、视频统一的多模态解决方案。
3、视觉基座表征能力提升:面向不同的多模态架构和训练范式,从视觉基座的角度深入探索视觉连续表征和离散表征的联系和区别,负责探索更具通用性的多模态视觉特征,生产行业内领先的视觉基座。
4、多模态理解生成统一:负责多模态理解与生成的前沿探索与研究,包括但不限于视觉表征统一训练、多模态统一架构探索、理解与生成任务关系研究。
任职要求:
1、硕士及以上学历,计算机、人工智能、自动化、数学、自然语言处理等相关专业,博士优先;
2、在以下一个或多个领域有较深入的研究或实践经验:多模态大模型(MLLM)、全模态融合大模型(Omni-LLM),视觉基座(Vision-Model)、理解生成统一(Unified-MM)、强化学习(RL);
3、具备扎实的算法和数学理论基础及良好的编程基础,熟悉PyTorch等深度学习框架;
4、在大模型领域有研究基础,或参与过有影响力的开源项目,在ICLR/NeurIPS/ICML/ACL等顶会发表论文者优先;
5、有良好的沟通协作能力,对追求前沿技术有强烈热情,能够与团队融洽合作,快速试验想法。
免责声明:

此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!