小红书招聘Dots-【Ace顶尖实习生】下一代强化学习范式研究统
招聘职位:
Dots-【Ace顶尖实习生】下一代强化学习范式研究统 搜索同类职位
岗位职责:
本课题面向大规模 MoE 模型在复杂任务上的强化学习方法研究,其核心挑战在于:稀疏的结果奖励在复杂任务中无法为中间过程提供有效训练信号;MoE 架构下专家路由在策略更新中引入额外的训练不稳定性;随模型能力提升,可靠的外部监督信号愈发稀缺,单纯依赖人工反馈的范式遭遇天花板。研究将围绕以下核心问题展开:如何构建不依赖人工标注的内在奖励信号(Intrinsic Reward),实现过程级稠密训练反馈;如何解决复杂环境下超大规模 MoE 架构下 RL 训练的稳定性问题;如何设计自我进化机制(Self-Evolving),使模型在迭代训练中持续突破能力边界;以及如何通过多专家知识融合(Multi-Teacher)将异构模型的互补能力有效整合,构建更强、更泛化的统一模型。
任职要求:
1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先;
2、优秀的代码能力、数据结构和基础算法功底,熟练掌握至少一门编程语言,包括但不限于Python等;
3、有LLM/MLLM等多模态理解技术背景,或大规模模型训练实际项目经验者优先;
4、在TPAMI/CVPR/NeurIPS/ICCV/ICML/ICLR等顶级期刊会议上发表相关论文者优先;
5、良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步。
本课题面向大规模 MoE 模型在复杂任务上的强化学习方法研究,其核心挑战在于:稀疏的结果奖励在复杂任务中无法为中间过程提供有效训练信号;MoE 架构下专家路由在策略更新中引入额外的训练不稳定性;随模型能力提升,可靠的外部监督信号愈发稀缺,单纯依赖人工反馈的范式遭遇天花板。研究将围绕以下核心问题展开:如何构建不依赖人工标注的内在奖励信号(Intrinsic Reward),实现过程级稠密训练反馈;如何解决复杂环境下超大规模 MoE 架构下 RL 训练的稳定性问题;如何设计自我进化机制(Self-Evolving),使模型在迭代训练中持续突破能力边界;以及如何通过多专家知识融合(Multi-Teacher)将异构模型的互补能力有效整合,构建更强、更泛化的统一模型。
任职要求:
1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先;
2、优秀的代码能力、数据结构和基础算法功底,熟练掌握至少一门编程语言,包括但不限于Python等;
3、有LLM/MLLM等多模态理解技术背景,或大规模模型训练实际项目经验者优先;
4、在TPAMI/CVPR/NeurIPS/ICCV/ICML/ICLR等顶级期刊会议上发表相关论文者优先;
5、良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步。
免责声明:
此信息由小红书官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!