小红书招聘大模型推理系统MaaS研发工程师(实习)
招聘职位:
大模型推理系统MaaS研发工程师(实习) 搜索同类职位
岗位职责:
1、参与小红书万亿级Token量MaaS系统构建,包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向,共同打造国内领先的大模型MaaS系统;
2、探索负载感知的推理系统流量调度算法,如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等,持续提升MaaS系统的稳定性、成本效益;
3、探索并跟进业界开源SOTA模型,如Qwen系列、DeepSeek系列,多维度评估模型效果并建立相关的准入体系,及时上架到MaaS系统;
4、参与MaaS系统的国产卡适配,如华为910C、阿里PPU等;
5、参与攻克大规模分布式推理系统带来的复杂挑战,通过弹性调度、容量规划、链路压测等手段提升系统健壮性,确保平台能够弹性扩展,支撑业务的飞速增长。
任职要求:
1、熟悉业界主流Dense、MOE大模型架构及主要特点,能识别出模型效果及主要使用场景,支持用户大模型的选型和使用需求;
2、了解至少一种大模型服务推理部署框架,如vLLM、SGLang、Dynamo等,并有过大模型服务部署的经验;
3、优秀的代码能力、数据结构和基础算法功底,熟悉C++/Python开发,熟悉 Linux/Git 开发环境;
4、有强烈的工作责任心,较好的学习能力、沟通协作能力和自驱力,能和团队一起探索新技术,推进技术进步。
加分项
1、有AI大模型网关相关方向研究或实操经验,如多模型路由、AI负载感知路由等;
2、有大模型推理系统问题排查和优化经验,如推理的RT分析和优化;
3、有国产主力卡型华为910C、阿里PPU性能评测或相关接入经验;
1、参与小红书万亿级Token量MaaS系统构建,包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向,共同打造国内领先的大模型MaaS系统;
2、探索负载感知的推理系统流量调度算法,如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等,持续提升MaaS系统的稳定性、成本效益;
3、探索并跟进业界开源SOTA模型,如Qwen系列、DeepSeek系列,多维度评估模型效果并建立相关的准入体系,及时上架到MaaS系统;
4、参与MaaS系统的国产卡适配,如华为910C、阿里PPU等;
5、参与攻克大规模分布式推理系统带来的复杂挑战,通过弹性调度、容量规划、链路压测等手段提升系统健壮性,确保平台能够弹性扩展,支撑业务的飞速增长。
任职要求:
1、熟悉业界主流Dense、MOE大模型架构及主要特点,能识别出模型效果及主要使用场景,支持用户大模型的选型和使用需求;
2、了解至少一种大模型服务推理部署框架,如vLLM、SGLang、Dynamo等,并有过大模型服务部署的经验;
3、优秀的代码能力、数据结构和基础算法功底,熟悉C++/Python开发,熟悉 Linux/Git 开发环境;
4、有强烈的工作责任心,较好的学习能力、沟通协作能力和自驱力,能和团队一起探索新技术,推进技术进步。
加分项
1、有AI大模型网关相关方向研究或实操经验,如多模型路由、AI负载感知路由等;
2、有大模型推理系统问题排查和优化经验,如推理的RT分析和优化;
3、有国产主力卡型华为910C、阿里PPU性能评测或相关接入经验;
免责声明:
此信息由小红书官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!