小红书(xiaohongshu)招聘【Ace顶尖实习生】Large Scale Machine Learning Model训练和推理性能极致优化
招聘职位:
【Ace顶尖实习生】Large Scale Machine Learning Model训练和推理性能极致优化 搜索同类职位
岗位职责:
本课题研究面向超大规模机器学习模型的极致训练与推理性能优化,覆盖搜索、广告、推荐(搜广推)系统与大语言模型(LLM)两大核心方向。随着模型参数规模从十亿级跃升至万亿级、训练数据从 TB 迈向 PB、在线推理 QPS 持续攀升,底层算力、显存带宽、通信效率与系统稳定性面临前所未有的挑战。本课题致力于在算法、系统、硬件三层协同维度上构建业界领先的端到端解决方案,打造面向异构超大规模集群的极致性能基础设施。
在搜广推方向,研究内容涵盖稀疏 Embedding 的分布式存储与动态扩缩容、HugeCTR/TorchRec 级别的 GPU 训练加速、参数服务器与 AllReduce 混合并行架构、Embedding 通信压缩与流水化、特征工程与样本流的零拷贝优化,以及在线推理的低延迟图编译、算子融合、量化蒸馏与多模型共置调度,目标是在万亿参数稀疏模型下实现训练吞吐与推理时延的双重突破。
在 LLM 方向,研究内容覆盖 3D/4D 混合并行(DP/TP/PP/EP/SP)、MoE 专家路由与 All-to-All 通信优化、长上下文训练(Ring/Context Parallel)、FP8/FP4 低精度训练、RLHF 与强化学习训练框架;推理侧聚焦 PD 分离、Continuous Batching、PagedAttention、Speculative Decoding、KV Cache 分级缓存、量化(GPTQ/AWQ/SmoothQuant)以及面向 H 系列/国产芯片的 Kernel 极致优化(CUTLASS/Triton/CUDA)。
任职要求:
1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先;
2、熟悉Linux/Unix平台上的C++编程,熟悉网络编程-多线程编程,有良好的编程习惯;
3、熟悉其中一种主流的深度学习训练或推理框架(TensorFlow / PyTorch / Onnx / TensorRT等)的原理和实现者优先;
4、有扎实的专业基础知识,熟悉常用的数据结构和算法,对计算机系统结构-网络-操作系统等专业知识有深刻认知;
5、良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步。
【加分项】
1、在学术界或工业界具备顶尖影响力,例如在 OSDI、SOSP、MLSys、NeurIPS、ICML、SIGCOMM、ASPLOS、ISCA 等顶会发表过一作论文;
2、主导过 Megatron、DeepSpeed、vLLM、SGLang、TensorRT-LLM、FasterTransformer、HugeCTR、Horovod 等知名开源框架的核心模块;
3、在头部公司主导过千卡/万卡级训练平台与亿级 QPS 推理系统的落地,具备从算法洞察到系统工程的全栈视野与持续突破 SOTA 的硬核能力。
本课题研究面向超大规模机器学习模型的极致训练与推理性能优化,覆盖搜索、广告、推荐(搜广推)系统与大语言模型(LLM)两大核心方向。随着模型参数规模从十亿级跃升至万亿级、训练数据从 TB 迈向 PB、在线推理 QPS 持续攀升,底层算力、显存带宽、通信效率与系统稳定性面临前所未有的挑战。本课题致力于在算法、系统、硬件三层协同维度上构建业界领先的端到端解决方案,打造面向异构超大规模集群的极致性能基础设施。
在搜广推方向,研究内容涵盖稀疏 Embedding 的分布式存储与动态扩缩容、HugeCTR/TorchRec 级别的 GPU 训练加速、参数服务器与 AllReduce 混合并行架构、Embedding 通信压缩与流水化、特征工程与样本流的零拷贝优化,以及在线推理的低延迟图编译、算子融合、量化蒸馏与多模型共置调度,目标是在万亿参数稀疏模型下实现训练吞吐与推理时延的双重突破。
在 LLM 方向,研究内容覆盖 3D/4D 混合并行(DP/TP/PP/EP/SP)、MoE 专家路由与 All-to-All 通信优化、长上下文训练(Ring/Context Parallel)、FP8/FP4 低精度训练、RLHF 与强化学习训练框架;推理侧聚焦 PD 分离、Continuous Batching、PagedAttention、Speculative Decoding、KV Cache 分级缓存、量化(GPTQ/AWQ/SmoothQuant)以及面向 H 系列/国产芯片的 Kernel 极致优化(CUTLASS/Triton/CUDA)。
任职要求:
1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先;
2、熟悉Linux/Unix平台上的C++编程,熟悉网络编程-多线程编程,有良好的编程习惯;
3、熟悉其中一种主流的深度学习训练或推理框架(TensorFlow / PyTorch / Onnx / TensorRT等)的原理和实现者优先;
4、有扎实的专业基础知识,熟悉常用的数据结构和算法,对计算机系统结构-网络-操作系统等专业知识有深刻认知;
5、良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步。
【加分项】
1、在学术界或工业界具备顶尖影响力,例如在 OSDI、SOSP、MLSys、NeurIPS、ICML、SIGCOMM、ASPLOS、ISCA 等顶会发表过一作论文;
2、主导过 Megatron、DeepSpeed、vLLM、SGLang、TensorRT-LLM、FasterTransformer、HugeCTR、Horovod 等知名开源框架的核心模块;
3、在头部公司主导过千卡/万卡级训练平台与亿级 QPS 推理系统的落地,具备从算法洞察到系统工程的全栈视野与持续突破 SOTA 的硬核能力。
免责声明:
此信息由小红书官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!