查看更多分享

美团招聘基础模型多模态

招聘职位：

发布日期：: 2026-06-03
工作地点：: 北京
职位类型：: 全职
来源：: 美团

【LongCat大模型人才校招】基础模型 - 多模态
更新时间：2026-06-03
工作地点：北京市
事业群：核心本地商业-基础研发平台
岗位职责
探索下一代原生多模态基础模型：让模型不止于接入视觉能力，而是能够统一建模文本、图像、视频与交互过程，像理解文字一样理解视觉世界，并在真实物理场景中进行推理、生成和行动。我们将重点探索统一的多模态表征体系，包括离散视觉 token、连续视觉表征及其混合形式，使图像与视频能够被基础模型高效学习、组合和生成。
你将参与以下方向中的一个或多个：
1.研究多模态与文本模态的深度融合策略，包括 early fusion 架构设计、多模态 / 文本数据配比优化、多模态上下文建模等，实现视觉能力与语言能力的协同提升。
2.从互联网及业务场景中大规模挖掘、清洗和构建高质量多模态训练数据，覆盖图文交错、视频、网页、文档、GUI、代码和交互轨迹等数据形态，支撑模型在 browser use、复杂文档理解、vision-to-code 等生产力场景的能力突破。
3.设计兼顾理解、重建与生成的视觉表征体系，包括离散视觉 tokenizer、多尺度视觉 token、视频 tokenization 以及连续 / 离散混合表征；基于理解与生成统一的表征，规模化构建图文交错、视频序列等多模态自监督预训练数据，解锁新的多模态智能维度。
4.基于理解与生成统一的模型能力，探索长程、多轮的多模态生成与交互任务，通过端到端强化学习激发模型的自我评估和迭代修正能力；进一步探索未来帧预测、状态建模和交互轨迹学习在物理视觉世界中的推理、规划与行动能力。
【为什么是我们】
1.明确的技术判断：团队在原生多模态方向有非共识的长期投入，已发布 LongCat-Next 技术报告（离散自回归原生多模态），不是跟随式的能力补齐。
2.顶级资源支撑：5～6万卡计算集群，万亿参数文本基座已训练完成，多模态正在进行大规模上推验证——你将直接参与业界最前沿规模的多模态实验。
3.主线与探索并行：既承担多模态基座的核心交付工作，也推进下一代原生多模态架构的前沿探索，覆盖"数据→tokenizer→预训练→后训练→RL"全链路。
岗位基本要求
熟悉 Python，熟练使用 PyTorch/Megatron/DeepSpeed 等训练框架，满足以下至少一项：
1.有大规模多模态预训练相关的训练经验；
2.对视觉表征设计、多模融合策略、生成范式等有深入理解，有独立探索新方向的研究经验。
以下优先：
1.有顶会论文发表经验（CVPR、NeurIPS、ICML、ACL 等）；
2.在多模态基座组有深度实习经历；
3.有视觉 tokenizer、视觉生成、具身智能等相关研究经验；
4.能够在方向不完全清晰的阶段独立判断和推进。
立即申请：zh***com[点击查看]

应聘方式：请留意职位介绍中的链接、邮箱、二维码等联系信息！

免责声明：

此信息由美团 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：北京陆美食品有限公司食品生产岗

下一职位：小红书(xiaohongshu)【2027届】马当路练习生-内容运营

美团招聘基础模型多模态

招聘职位：

FAQ 美团招聘常见问答

投递进展笔记

求职进度

进展结果

发生时间

求职体验

是否匿名

提示