美团招聘基础模型多模态

招聘职位:

基础模型多模态 搜索同类职位
发布日期:
2026-06-03
工作地点:
职位类型:
全职
来源:
美团

【LongCat大模型人才校招】基础模型 - 多模态
更新时间:2026-06-03
工作地点:北京市
事业群:核心本地商业-基础研发平台
岗位职责
探索下一代原生多模态基础模型:让模型不止于接入视觉能力,而是能够统一建模文本、图像、视频与交互过程,像理解文字一样理解视觉世界,并在真实物理场景中进行推理、生成和行动。我们将重点探索统一的多模态表征体系,包括离散视觉 token、连续视觉表征及其混合形式,使图像与视频能够被基础模型高效学习、组合和生成。
你将参与以下方向中的一个或多个:
1.研究多模态与文本模态的深度融合策略,包括 early fusion 架构设计、多模态 / 文本数据配比优化、多模态上下文建模等,实现视觉能力与语言能力的协同提升。
2.从互联网及业务场景中大规模挖掘、清洗和构建高质量多模态训练数据,覆盖图文交错、视频、网页、文档、GUI、代码和交互轨迹等数据形态,支撑模型在 browser use、复杂文档理解、vision-to-code 等生产力场景的能力突破。
3.设计兼顾理解、重建与生成的视觉表征体系,包括离散视觉 tokenizer、多尺度视觉 token、视频 tokenization 以及连续 / 离散混合表征;基于理解与生成统一的表征,规模化构建图文交错、视频序列等多模态自监督预训练数据,解锁新的多模态智能维度。
4.基于理解与生成统一的模型能力,探索长程、多轮的多模态生成与交互任务,通过端到端强化学习激发模型的自我评估和迭代修正能力;进一步探索未来帧预测、状态建模和交互轨迹学习在物理视觉世界中的推理、规划与行动能力。
【为什么是我们】
1.明确的技术判断:团队在原生多模态方向有非共识的长期投入,已发布 LongCat-Next 技术报告(离散自回归原生多模态),不是跟随式的能力补齐。
2.顶级资源支撑:5~6万卡计算集群,万亿参数文本基座已训练完成,多模态正在进行大规模上推验证——你将直接参与业界最前沿规模的多模态实验。
3.主线与探索并行:既承担多模态基座的核心交付工作,也推进下一代原生多模态架构的前沿探索,覆盖"数据→tokenizer→预训练→后训练→RL"全链路。
岗位基本要求
熟悉 Python,熟练使用 PyTorch/Megatron/DeepSpeed 等训练框架,满足以下至少一项:
1.有大规模多模态预训练相关的训练经验;
2.对视觉表征设计、多模融合策略、生成范式等有深入理解,有独立探索新方向的研究经验。
以下优先:
1.有顶会论文发表经验(CVPR、NeurIPS、ICML、ACL 等);
2.在多模态基座组有深度实习经历;
3.有视觉 tokenizer、视觉生成、具身智能等相关研究经验;
4.能够在方向不完全清晰的阶段独立判断和推进。
立即申请:zh***com[点击查看]
应聘方式:请留意职位介绍中的链接、邮箱、二维码等联系信息!
免责声明:

此信息由美团 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!

下一职位:美团提前批