AI对以前从未听过的流派进行分类

导读 即使是休闲音乐爱好者也可以毫不费力地按类别区分歌曲,但对于电脑而言并非如此。大多数基于音频的音乐分类和标记系统使用分类监督学

即使是休闲音乐爱好者也可以毫不费力地按类别区分歌曲,但对于电脑而言并非如此。大多数基于音频的音乐分类和标记系统使用分类监督学习 - 换句话说,学习一种基于示例对将歌曲映射到流派的功能 - 使用固定的标签集,其本质上不能处理看不见的标签,例如新的添加了流派。

这就是为什么总部设在韩国的互联网内容服务公司Naver Corp的一个科学家小组在预印本服务器Arxiv.org上发表的一篇论文(“基于音频的音乐分类和标记的零镜头学习”)中进行调查的原因为零 - 替代。他们的AI分类系统学习如何在没有任何标记的训练数据的情况下识别歌曲,即通过考虑关于乐器的辅助信息,关于歌曲的描述中的单词等。

研究人员在研究开始时确定了两种类型的辅助信息:人类标记的属性信息和一般单词语义信息。他们指出,前者可以用作二进制输出来训练分类器并根据学习的层次结构或其他关系推断看不见的类。另一方面,语义空间有大量的单词来预测看不见的标签。

团队的AI模型摄取了音频mel谱图(声音的短期功率谱的表示)并将它们传递给卷积神经网络,该网络直接通过来自地面实况注释的语义嵌入来学习。本质上,该模型使用由人类标记的属性数据或一般词语义空间组成的语义查找表从一个模块获取音频并从音频注释中随机选择单词。

在几个实验的第一个中,研究人员开发了两个数据集 - 免费音乐档案和OpenMIC-2018 - 包含音频文件和流派注释,他们过滤了音频文件以同时具有流派和乐器注释(例如,“贝司”,“声音,“”声音“)并随机将标签分成看不见的和看不见的标签。然后,他们在OpenMIC-2019数据集中的20个不同乐器上进行注释,以根据类型标签创建歌曲的乐器矢量(数学表示)。

在第二次测试中,团队使用了一个公开的预训练机器学习模型,其中有百万歌数据集和Last.fm标签注释(例如,“朋克”和“金属”用于涅ana的气味像青少年精神),后者随机随机分为看见和看不见的标签。

研究人员声称,在这两个测试中,该模型设法使用辅助信息将音乐音频与看不见的标签相关联。他们进一步说这允许它使用“丰富的词汇词汇”来描述音乐,并且他们留下未来的作品使用歌词作为辅助信息和训练AI模型以包含更多的音乐背景(如播放列表或音乐文章的文本描述)。