美团招聘【大模型北斗实习】语音基座大模型前沿探索
招聘职位:
【大模型北斗实习】语音基座大模型前沿探索 搜索同类职位
岗位职责:
语音基座大模型是下一代语音算法的基础,也是多模态大模型研究的重要组成部分。本课题研究方向包括不限于:
1)预训练方法研究:设计预训练任务,使训练可大规模扩展,且能够学习到丰富的知识,使得模型同时具备强大的理解和生成能力,进一步实现能力的涌现。
2)tokenizer 优化:探索同时适用于理解和生成任务、兼顾学习效率和效果的tokenizer。
3)泛音频理解:对语音理解之外,探索更广泛的音频(如音乐、环境声)理解能力,以及基于 reasoning 的理解能力。
4) token2wav:与基座大模型配合,实现高效、高质量的语音/音频生成。
5) post-training:探索基于 SFT 和 RL 的后训练策略,激活基座模型的理解和生成能力,实现通用的音频能力,并具备强表现力、多风格、多语种、多音色的能力。
任职要求:
1)对语音、NLP、CV等相关领域一个或多个方向有深入的研究经历,且有相关实际项目经验。
2)熟练使用深度学习框架(比如PyTorch),熟悉 Megatron、DeepSpeed 等开源训练框架。
加分项:
1)在知名开源项目中有核心贡献者优先。
2)对大模型有深入研究且有实际训练经验者优先。
3)发表过高水平论文。
语音基座大模型是下一代语音算法的基础,也是多模态大模型研究的重要组成部分。本课题研究方向包括不限于:
1)预训练方法研究:设计预训练任务,使训练可大规模扩展,且能够学习到丰富的知识,使得模型同时具备强大的理解和生成能力,进一步实现能力的涌现。
2)tokenizer 优化:探索同时适用于理解和生成任务、兼顾学习效率和效果的tokenizer。
3)泛音频理解:对语音理解之外,探索更广泛的音频(如音乐、环境声)理解能力,以及基于 reasoning 的理解能力。
4) token2wav:与基座大模型配合,实现高效、高质量的语音/音频生成。
5) post-training:探索基于 SFT 和 RL 的后训练策略,激活基座模型的理解和生成能力,实现通用的音频能力,并具备强表现力、多风格、多语种、多音色的能力。
任职要求:
1)对语音、NLP、CV等相关领域一个或多个方向有深入的研究经历,且有相关实际项目经验。
2)熟练使用深度学习框架(比如PyTorch),熟悉 Megatron、DeepSpeed 等开源训练框架。
加分项:
1)在知名开源项目中有核心贡献者优先。
2)对大模型有深入研究且有实际训练经验者优先。
3)发表过高水平论文。
免责声明:
此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!