美团(meituan)招聘【LongCat大模型人才校招】基座大模型推理引擎工程师

招聘职位:

【LongCat大模型人才校招】基座大模型推理引擎工程师 搜索同类职位
发布日期:
2026-06-03
工作地点:
职位类型:
全职
职位类别:
技术类算法
来源:
美团官网
岗位职责:
随着Agent技术的规模化落地,大模型推理的Token消耗呈现指数级增长,推理系统的性能与成本已成为制约业务发展的核心瓶颈。LongCat推理团队致力于打造世界级的高效、稳定、可扩展的大模型推理引擎,支撑超大规模集群的复杂线上流量场景,为业务提供极致的推理性能与成本优势。岗位职责我们诚邀在以下一个或多个方向具备深厚积累的工程师加入:
1.模型-系统协同设计深度参与模型架构设计,将推理效率优化的思想前置到模型设计环节,与算法及训练工程团队紧密协作,从硬件亲和性角度出发,设计低延迟、高吞吐的模型结构,实现算法与系统的端到端优化。
2.高性能算子开发 面向异构计算硬件,研发极致优化的融合算子 ,探索Tiling策略、内存访问模式、流水线并行等底层性能优化手段。
3.推理框架优化 深入优化自研推理框架,降低调度开销,实现计算与通信的高效重叠,提升硬件利用率。
4.分布式系统架构 设计高可用的分布式推理系统,通过智能请求调度、动态负载均衡、反压控制等机制,保障系统在突发流量下的稳定性与SLA。
5.长上下文场景极致优化 针对T级别参数模型在M级别序列长度下的推理场景,系统性优化显存占用、IO带宽、算力分配及跨节点通信效率,充分释放硬件潜力。
【为什么是我们】
1.直面大模型时代最核心的工程挑战——用极致的系统优化,打破推理成本与性能的边界。
2.从大规模集群的分布式调度,到底层算子的硬件性能榨取;从长上下文场景的显存革命,到模型-系统协同设计的未来架构。每一行代码,都将直接影响千亿级Token的推理效率,改善数亿用户的线上服务体验。
任职要求:
1.理论基础,深入理解Transformer架构核心机制(Attention/MoE/Memory等),熟悉大模型训练流程及推理流程。
2.工程能力,熟悉主流推理框架(SGLang/vLLM)源码,对PD分离、模型量化 、投机推理、调度重叠、前缀缓存 等关键技术有实战落地经验。精通C++/CUDA/AscendC,具备复杂算子(如FlashAttention、量化GEMM等)的开发与调优经验者优化。掌握RDMA网络编程及分布式系统理论,有MoonCake/LMCache/Dynamo等分布式KV缓存系统实践经验者优先。
3.系统经验,具备大模型推理系统的一线工程经验,熟悉大规模PD分离集群的运维、监控及性能调优者优先。
4.工程素养,代码能力强,具备优秀的性能 profiling、瓶颈分析及跨层优化能力,对系统级问题有敏锐洞察力者优先。
免责声明:

此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!

下一职位:源件星球26春招