查看更多分享

小红书招聘Dots-【Ace顶尖实习生】下一代强化学习范式研究统

招聘职位：

Dots-【Ace顶尖实习生】下一代强化学习范式研究统 搜索同类职位

发布日期：: 2026-06-16
工作地点：: 北京市
上海市
杭州市
职位类型：: 兼职
职位类别：: 大模型
来源：: 小红书官网

岗位职责：
本课题面向大规模 MoE 模型在复杂任务上的强化学习方法研究，其核心挑战在于：稀疏的结果奖励在复杂任务中无法为中间过程提供有效训练信号；MoE 架构下专家路由在策略更新中引入额外的训练不稳定性；随模型能力提升，可靠的外部监督信号愈发稀缺，单纯依赖人工反馈的范式遭遇天花板。研究将围绕以下核心问题展开：如何构建不依赖人工标注的内在奖励信号（Intrinsic Reward），实现过程级稠密训练反馈；如何解决复杂环境下超大规模 MoE 架构下 RL 训练的稳定性问题；如何设计自我进化机制（Self-Evolving），使模型在迭代训练中持续突破能力边界；以及如何通过多专家知识融合（Multi-Teacher）将异构模型的互补能力有效整合，构建更强、更泛化的统一模型。
任职要求：
1、不限年级，本科及以上在读，计算机/人工智能/软件工程等相关专业优先；
2、优秀的代码能力、数据结构和基础算法功底，熟练掌握至少一门编程语言，包括但不限于Python等；
3、有LLM/MLLM等多模态理解技术背景，或大规模模型训练实际项目经验者优先；
4、在TPAMI/CVPR/NeurIPS/ICCV/ICML/ICLR等顶级期刊会议上发表相关论文者优先；
5、良好的沟通协作能力，责任心强，积极主动，能和团队一起探索新技术，推进技术进步。

前往官网投递

免责声明：

此信息由小红书官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：美团自然语言理解（大模型）实习生

下一职位：小红书推荐算法实习生-社区技术