查看更多分享

美团招聘基础模型数据策略与数据科学

招聘职位：

基础模型数据策略与数据科学 搜索同类职位

发布日期：: 2026-06-03
工作地点：: 北京
职位类型：: 全职
来源：: 美团

【LongCat大模型人才校招】基础模型 - 数据策略与数据科学
更新时间：2026-06-03
工作地点：北京市
事业群：核心本地商业-基础研发平台
岗位职责
随着模型架构逐渐收敛、算力成本持续上升，高质量数据策略正在成为提升基座模型 scaling efficiency 和能力上限的核心杠杆。本方向聚焦大规模预训练数据的理解、筛选、配比、合成与系统化迭代，致力于建立数据分布、训练动态与模型能力之间的可解释映射，并将其转化为可预测、可干预、可扩展的数据策略和数据系统，持续提升模型的 token efficiency、scaling efficiency 与智能上限。
工作内容包括但不限于：
1.研究数据来源、质量、多样性、难度、覆盖度与模型能力之间的关系，建立“数据分布—训练动态—模型效果”的分析与归因框架。
2.探索面向预训练的数据价值建模方法，包括自动化质量评估、样本筛选、语义去重、污染检测、覆盖度建模、长序列数据组织与高价值 token 挖掘。
3.研究 Data Mixture、动态配比、课程学习和多阶段训练策略，分析不同类型数据在不同模型规模、训练阶段和能力维度上的边际收益，提升 token efficiency 与 scaling efficiency。
4.探索合成数据、蒸馏数据、模型自生成数据和反馈数据在预训练中的有效使用方式，研究合成数据的有效性、多样性保持、退化机制和训练配比策略。
5.构建可复现、可扩展的大规模数据处理与实验闭环，将数据构建、训练验证、能力评测、数据诊断和策略更新结合起来，形成面向基础模型持续迭代的数据飞轮。
6.研究并缓解预训练数据中的污染、偏差、重复、低质、隐私、安全和合规风险，提升数据策略的可靠性、可控性和可持续性。
【为什么是我们】
1.明确的技术判断：团队在原生多模态方向有非共识的长期投入，已发布 LongCat-Next 技术报告（离散自回归原生多模态），不是跟随式的能力补齐。
2.顶级资源支撑：5～6万卡计算集群，万亿参数文本基座已训练完成，多模态正在进行大规模上推验证——你将直接参与业界最前沿规模的多模态实验。
3.主线与探索并行：既承担多模态基座的核心交付工作，也推进下一代原生多模态架构的前沿探索，覆盖"数据→tokenizer→预训练→后训练→RL"全链路。
岗位基本要求
1.熟悉 Python 和 PyTorch 等深度学习框架，具备扎实的机器学习、深度学习、概率统计和算法基础。
2.熟悉大语言模型或多模态基础模型训练流程，理解预训练数据、训练动态、模型能力和评估体系之间的关系；有大规模预训练、Data Mixture、合成数据或模型评估经验者优先。
3.对预训练数据有系统性理解，熟悉数据清洗、去重、污染检测、质量评估、覆盖度建模、长序列组织、合成 / 蒸馏数据和数据配比等关键问题。
4.具备优秀的实验设计和分析能力，能够围绕数据与模型能力提出 hypothesis，设计可复现实验，并基于训练动态、评测结果和模型行为分析实验结论。
5.具备较强的工程实现、自主探索和跨团队协作能力；有相关顶会论文、大模型 / 数据系统 / 训练系统 / 评估系统项目或开源经验者优先。
立即申请：zh***com[点击查看]

应聘方式：请留意职位介绍中的链接、邮箱、二维码等联系信息！

免责声明：

此信息由美团 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：美团Agentic Coding算法研究员

下一职位：小红书(xiaohongshu)【2027届】马当路练习生-内容运营

美团招聘基础模型数据策略与数据科学

招聘职位：

FAQ 美团招聘常见问答

投递进展笔记

求职进度

进展结果

发生时间

求职体验

是否匿名

提示