查看更多分享

小红书(xiaohongshu)招聘【Ace顶尖实习生】Large Scale Machine Learning Model训练和推理性能极致优化

招聘职位：

【Ace顶尖实习生】Large Scale Machine Learning Model训练和推理性能极致优化 搜索同类职位

发布日期：: 2026-07-22
工作地点：: 北京市
上海市
职位类型：: 兼职
职位类别：: 大模型
来源：: 小红书官网

岗位职责：
本课题研究面向超大规模机器学习模型的极致训练与推理性能优化，覆盖搜索、广告、推荐（搜广推）系统与大语言模型（LLM）两大核心方向。随着模型参数规模从十亿级跃升至万亿级、训练数据从 TB 迈向 PB、在线推理 QPS 持续攀升，底层算力、显存带宽、通信效率与系统稳定性面临前所未有的挑战。本课题致力于在算法、系统、硬件三层协同维度上构建业界领先的端到端解决方案，打造面向异构超大规模集群的极致性能基础设施。

在搜广推方向，研究内容涵盖稀疏 Embedding 的分布式存储与动态扩缩容、HugeCTR/TorchRec 级别的 GPU 训练加速、参数服务器与 AllReduce 混合并行架构、Embedding 通信压缩与流水化、特征工程与样本流的零拷贝优化，以及在线推理的低延迟图编译、算子融合、量化蒸馏与多模型共置调度，目标是在万亿参数稀疏模型下实现训练吞吐与推理时延的双重突破。

在 LLM 方向，研究内容覆盖 3D/4D 混合并行（DP/TP/PP/EP/SP）、MoE 专家路由与 All-to-All 通信优化、长上下文训练（Ring/Context Parallel）、FP8/FP4 低精度训练、RLHF 与强化学习训练框架；推理侧聚焦 PD 分离、Continuous Batching、PagedAttention、Speculative Decoding、KV Cache 分级缓存、量化（GPTQ/AWQ/SmoothQuant）以及面向 H 系列/国产芯片的 Kernel 极致优化（CUTLASS/Triton/CUDA）。
任职要求：
1、不限年级，本科及以上在读，计算机/人工智能/软件工程等相关专业优先；
2、熟悉Linux/Unix平台上的C++编程，熟悉网络编程-多线程编程，有良好的编程习惯；
3、熟悉其中一种主流的深度学习训练或推理框架（TensorFlow / PyTorch / Onnx / TensorRT等）的原理和实现者优先；
4、有扎实的专业基础知识，熟悉常用的数据结构和算法，对计算机系统结构-网络-操作系统等专业知识有深刻认知；
5、良好的沟通协作能力，责任心强，积极主动，能和团队一起探索新技术，推进技术进步。
【加分项】
1、在学术界或工业界具备顶尖影响力，例如在 OSDI、SOSP、MLSys、NeurIPS、ICML、SIGCOMM、ASPLOS、ISCA 等顶会发表过一作论文；
2、主导过 Megatron、DeepSpeed、vLLM、SGLang、TensorRT-LLM、FasterTransformer、HugeCTR、Horovod 等知名开源框架的核心模块；
3、在头部公司主导过千卡/万卡级训练平台与亿级 QPS 推理系统的落地，具备从算法洞察到系统工程的全栈视野与持续突破 SOTA 的硬核能力。

前往官网投递

免责声明：

此信息由小红书官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：小红书(xiaohongshu)电商广告产品运营实习生

下一职位：美团(meituan)大模型算法实习生