查看更多分享

小红书(xiaohongshu)招聘大模型 GPU 调度研发工程师(练习生)

招聘职位:

大模型 GPU 调度研发工程师(练习生) 搜索同类职位
发布日期:
2026-06-01
工作地点:
职位类型:
兼职
职位类别:
引擎
来源:
小红书官网
岗位职责:
工作职责
1、参与内部大模型平台 QuickSilver 的 GPU 资源调度与治理模块研发,完成调度策略、后端服务和资源可视化功能交付。
2、参与 Quota 管理、资源配额、资源申请、资源回收、资源出借等能力建设,支持多业务、多团队、多集群资源管理。
3、参与万卡规模 GPU 集群调度优化,围绕资源分配率、GPU 利用率、任务等待时长、资源碎片等指标提升集群效率。
4、参与训练、后训练、推理等负载下的弹性调度建设,探索潮汐调度、抢占调度、在线 / 离线混部、低峰缩容、高峰预扩容等策略。
5、参与多机房、多集群、多卡型、GPU / NPU 等异构资源调度能力建设,结合网络、存储、通信拓扑优化调度策略。
6、参与 GPU 资源可观测体系建设,并将调度能力与大模型训练、推理、部署、评估链路结合,提升 AI 生产效率和平台稳定性。
任职要求:
任职要求
1、计算机、软件工程、人工智能等相关专业在校生,具备扎实的编程基础和计算机系统基础。
2、熟悉 Go / Python / Java 中至少一门语言,具备良好的代码能力和工程实现意识。
3、熟悉 Linux,了解 Docker / Kubernetes 等云原生技术栈,对 K8s Scheduler、Volcano、Kueue、Kubeflow、Argo Workflows 等调度系统有兴趣或实践经验。
4、理解分布式系统基本概念,了解服务发现、资源隔离、任务调度、故障恢复、弹性伸缩、监控告警等能力。
5、对大模型训练、后训练、推理、部署等流程有兴趣,愿意理解不同 AI 负载对 GPU、网络、存储和调度策略的差异化诉求。
6、具备较好的数据分析、问题定位、沟通协作和自驱能力,能熟练使用 Cursor、Claude Code、GitHub Copilot 等 AI 工具辅助研发。
加分项
1、接触过 Kubernetes Scheduler、Volcano、Kueue、Kubeflow、Ray、OpenKruise、联邦集群等云原生或调度系统。
2、有 GPU 集群、资源调度、Quota 管理、资源利用率分析、在线 / 离线混部、抢占调度、潮汐调度、弹性伸缩等实践经验。
3、有大模型训练、推理、部署平台使用或开发经验,了解 PyTorch、DeepSpeed、Megatron、vLLM、SGLang 等框架。
4、了解 RDMA、IB、RoCE、NCCL、网络拓扑、存储性能等基础知识,理解其对大规模训练和推理调度的影响。
5、有优秀个人开源项目、技术博客,或曾利用 AI 工具独立交付云原生、调度、平台类项目。
6、有资源利用率分析、监控指标看板、任务画像分析、调度策略评估等经验,能通过数据驱动系统优化。
免责声明:

此信息由小红书官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!

FAQ 小红书(xiaohongshu)招聘常见问答

小红书(xiaohongshu)招聘工作地点:
北京市,上海市
小红书(xiaohongshu)招聘经验要求:
in_school