美团(meituan)招聘【基座大模型北斗实习】大模型预训练研究

招聘职位:

【基座大模型北斗实习】大模型预训练研究 搜索同类职位
发布日期:
2026-04-03
工作地点:
职位类型:
兼职
职位类别:
技术类算法
来源:
美团官网
岗位职责:
简介:千亿参数、万亿Token、万卡集群——预训练的核心命题只有一个:在极限规模下,让每一张GPU都跑满,每一次迭代都不浪费。这是工程复杂度最高、也最能锻炼系统能力的地方。

你可能会做以下方向研究:
1、超大规模分布式训练
①设计和优化ND并行(EP/CP/DP/TP/PP)+ MoE并行混合策略,支撑万亿参数模型训练。
②深入 Megatron-LM 内核,针对美团模型架构做定制化设计、改造,性能优化。
③解决流水线气泡、显存碎片、梯度累积等大规模训练特有的工程难题,细粒度控制平衡计算通行的精度和效率。
2、计算 & 算子优化
①基于 CUDA / Triton 开发高性能训练算子(FlashAttention变体、FusedMLP、RMSNorm等)。
②推进 8bit、4bit 混合精度训练落地,在精度与速度之间找到最优平衡。
③通过 profiling 定位热点,把MFU(模型算力利用率)推向理论上限。
3、通信链路优化
①深挖 NCCL / RDMA / InfiniBand 通信性能,优化 AllReduce/AllGather/MoE层Dispatch/Combine 等集合通信原语。
②结合网络拓扑设计通信-计算重叠策略,让通信开销近乎透明。
4、稳定性 & 大规模容错
①构建万卡级自动故障检测、弹性容错、断点续训机制。
②设计高效的异步checkpoint方案,千亿模型保存时间压到分钟级。
③开发训练健康度监控系统:loss异常、梯度爆炸、卡间通信超时等实时告警。
5、存储 & 数据IO
①解决 PB级预训练语料的高并发高吞吐读取问题。
②设计 tokenized 数据的分布式缓存与预取,IO不成为训练瓶颈。
任职要求:
1、具备 CUDA kernel 开发和 Profile 能力,理解并行计算、存储层级架构,或具备国产AI算力开发经验;
2、改过 Megatron-LM / DeepSpeed / FSDP 源码(不是只跑过);
3、了解 NCCL 原理 或有 RDMA / 网络协议栈经验;
4、MLSys / OSDI / SOSP / ISCA 等系统顶会论文;
5、PyTorch / Megatron 开源贡献记录。
免责声明:

此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!