美团(meituan)招聘【基座大模型北斗实习】大模型训练研究
招聘职位:
【基座大模型北斗实习】大模型训练研究 搜索同类职位
岗位职责:
简介:大模型的能力上限,很大程度取决于训练系统的天花板。我们在做的事:让千亿参数的模型在万卡集群上跑得更快、更稳、更省——把每一张GPU的算力榨干,把每一次训练崩溃的损失降到最低,把工程师等待结果的时间从“几天”压到“几小时”。
1、分布式训练框架优化
①深入源码,针对美团训练场景做定制化改造。
②设计和实现更高效的张量并行、流水线并行、数据并行混合策略。
③探索 MoE(混合专家) 模型的并行训练方案,解决专家负载均衡、通信爆炸等硬问题。
2、计算效率优化
①基于 CUDA / Triton 编写和优化高性能算子(FlashAttention、FusedMLP等)。
②分析训练 profiling 数据,定位计算/通信/内存的瓶颈并针对性优化。
③推进混合精度训练、梯度压缩等技术落地。
任职要求:
1、GPU编程:写过CUDA kernel,理解warp/SM/显存层次结构;
2、训练框架:用过或改过Megatron/DeepSpeed/FSDP,不只是跑过demo;
3、通信系统:了解NCCL原理,或有网络协议栈/RDMA相关经验;
4、编译优化:接触过 XLA/TorchInductor/TVM 等编译器,或做过IR优化;
5、顶会论文:MLSys/OSDI/SOSP/ATC/ISCA 等系统顶会在手。
简介:大模型的能力上限,很大程度取决于训练系统的天花板。我们在做的事:让千亿参数的模型在万卡集群上跑得更快、更稳、更省——把每一张GPU的算力榨干,把每一次训练崩溃的损失降到最低,把工程师等待结果的时间从“几天”压到“几小时”。
1、分布式训练框架优化
①深入源码,针对美团训练场景做定制化改造。
②设计和实现更高效的张量并行、流水线并行、数据并行混合策略。
③探索 MoE(混合专家) 模型的并行训练方案,解决专家负载均衡、通信爆炸等硬问题。
2、计算效率优化
①基于 CUDA / Triton 编写和优化高性能算子(FlashAttention、FusedMLP等)。
②分析训练 profiling 数据,定位计算/通信/内存的瓶颈并针对性优化。
③推进混合精度训练、梯度压缩等技术落地。
任职要求:
1、GPU编程:写过CUDA kernel,理解warp/SM/显存层次结构;
2、训练框架:用过或改过Megatron/DeepSpeed/FSDP,不只是跑过demo;
3、通信系统:了解NCCL原理,或有网络协议栈/RDMA相关经验;
4、编译优化:接触过 XLA/TorchInductor/TVM 等编译器,或做过IR优化;
5、顶会论文:MLSys/OSDI/SOSP/ATC/ISCA 等系统顶会在手。
免责声明:
此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!