AI研习丨音乐问答—音乐的感知与理解_音乐_卷积
摘 要:
音乐剖析与理解一贯是专业人士的事情,为了帮助普通人感知理解音乐,提出了音乐问答任务。给定音乐和关于音乐的提问,任务的目标是供应准确的答案。为实现此目标,在MTAT数据集的根本上制作了MQAdataset,包含了乐器、速率、风格、情绪、演奏形式、措辞和音量七个根本分类;同时MQAdataset的所有问题被分为根本问题和深度问题,以便谈论不同模型在音乐问答任务上回答深度问题的能力。为完成MQA任务,搭建多个模型进行试验,并对结果进行谈论,在所有参与测试的模型中,Musicnn-MALiMo(Spectrogram,i=4)得到了准确度为71.13%的最好成绩。
关键词:
音乐理解;问答;特色提取;特色领悟
弁言:
随着深度学习的不断发展,打算机在认知理解视觉信息方面的能力得到不断提高,在目标检测、图片字幕、视觉问答等领域取得显著造诣,一大批精良的模型和网络框架应运而生。但是在音频内容理解方面却进展缓慢,尤其是音乐方面。虽然近年也存在几个干系方向,但都不能全面地帮助理解音乐内容。音乐自动标注旨在用一系列的标签来对音乐进行注释,而音乐字幕是为了通过一句大略的描述让我们对当前音乐有一个大略的认识,而这些对深入全面理解音乐的帮助甚微。本文提出的音乐问答任务,因此音乐的音频文件和针对音乐的提问作为输入,以预测该问题的回答作为输出(见图1)。我们希望它可以补充音乐理解方面的空缺,进而实现更高层次的音乐认知和理解。
图1 MQA 任务:以音乐和针对音乐的提问为输入,以系统的预测答案为输出
音乐问答系统可以帮助我们认知音乐。在听到一首音乐时,听众会想要理解它包含的乐器种类、措辞、风格划分等特色信息。但对付未接管专业演习的人而言,很难直接从听觉中感想熏染到上述信息,如普通人很难直接分辨出一首音乐中利用了几种乐器。同时不同的人对付音乐内容的理解也不尽相同。孩童对付音乐所想要理解的内容大多处在浅层,如这首音乐紧张利用的乐器是什么?但是对付有乐理根本的人而言,更关注音乐深层次的音乐信息,如这首音乐包含几种打击乐器。
我们在 MagnaTagATune(MTAT)数据集的根本上制作了数据集 MQAdataset,同时测试了多个模型的性能。为了加强对音乐内容的深度挖掘,知足人们对付不同层次音乐理解的需求,还引入了线性调制的多赞助掌握器(MALiMo),扩展并增强了特色线性调制 FILM 模型,具备信息推理的能力。
本文紧张贡献可以归纳为:①提出的音乐问答任务是一个全新的领域,可以帮助人们认知和感想熏染音乐。②制作了第一个音乐问答数据集MQAdataset,将其分为乐器、速率、风格、情绪、演出形式、措辞和音量七类,并按照问题的来源将其分为根本问题和深度问题。③测试了多个模型在MQA 任务上的表现,并且模型 Musicnn-MAliMo 取得准确度最好的成绩。
1 干系事情
1.1 音乐内容理解
在MQA之前,也存在一些可以认知音乐内容的任务,这里紧张先容音乐自动标注和音乐字幕。
Jordi Pons 和 Keunwoo Choi 曾分别提出基准模型用于音乐自动标注,并取得了不错效果。但是由于音乐标注数据每每存在冗余性,面对音乐的迷惑很难直接从大量的标注数据中得到答案。Karim M.Ibrahim 想借助音乐高下文行为来挖掘音乐的内部信息,但这对理解音乐内容的帮助甚微。Zhang 提出 BUTTER 模型,想通过音乐的潜在表示天生音乐描述,不过该事情还有许多方面须要进一步完善。Tian Cai 采取序列到序列的模型想通过天生一系列标签来认知音乐,并将其称为描述。这依然属于音乐标注,所得到的也是一系列离散的词汇。Ilaria Manco 借助音频描述的方法来天生音乐描述,如一段安静的吉他声。这种描述办法过于大略,涉及的音乐特色也较少,不能帮助我们全面认识音乐。
1.2 问答
自视觉问答任务提出以来,受到广泛关注。Qingbao Huang 使 用一种新的双通道图卷积网络(DC-GCN),用于更好地结合视觉和文本上风,不同的 GCN 网络捕获不同的目标关系。Deniz Engin将视频中的对话转化为择要,同时利用软韶光把稳机制订位永劫光输入,末了取得的成绩乃至比一些人类评估者表现得更好。Jungin Park 和 Pin Jiang 借助时空图提高自己模型的性能,取得了十分好的实验结果。Xinyu Wang 和 Amanpreet Singh 的事情紧张集中在文本视觉问答,关注的重点紧张是视觉信息中的笔墨部分。Haytham 的事情集中在声音问答任务上,通过自己制作数据集 DAQAdataset 来验证所提出网络 MALiMo 在时空推理方面的优胜性,不过 DAQAdataset 的音频文件是多个声音文件拼接在一起的,这显然与 MQA 的主体思想有明显差异。
2 MQAdataset 先容
2.1 MQA 数据集制作
为了实现 MQA 这个任务,我们在 MTAT的根本上制作了第一个用于音乐问答的数据集MQAdataset。MTAT 是一个包含大量音乐和音乐注释标签的数据集,共有 25 863 个音乐片段;每段音乐持续 29 s,包含 188 个注释标签。制作过程中参考了音乐剖析时常用的音乐剖析方法,并从中总结出人们进行音乐剖析时常常关注的音乐元素。结合MTAT 的标签内容,选定 59 个标签作为提问的紧张音乐元素,并将这些分为了乐器、速率、风格、情绪、演奏形式、措辞和音量七类。
MQAdataset 的每个数据由音乐、问题和回答三部分组成。个中,音乐部分利用的是 MTAT 数据集原有的音乐部分,长度是 29 s。问题部分由两类志愿者进行提问,第一类为来自中国传媒大学音乐专业的 10 逻辑学生;第二类为未接管过音乐演习的 20名普通学生。每个人按照自己的喜好提出问题,提问内容紧张是详细音乐元素或者音乐的种别归属。答案天生的过程为,首先为每个问题匹配音乐;然后根据 MTAT 数据集中的标签得到答案。我们尽可能地匹配那些同类标签较少的音乐。例如,如果问题是这首音乐是否利用了钢琴,则为其匹配乐器种类较少的音乐;对付计数类问题我们考虑的答案范围是(0~3),并且每个问题下不同答案的个数相同。对付答案是 Yes/No 问题,每个问题都有匹配不同答案的音乐,其个数相同。
根据两类志愿者提问时紧张关注的音乐元素有所不同,所有问题分为两类。未经由专业培训的学生提问紧张集中在速率、措辞、音量和乐器,这些问题称为根本问题。比较之下,音乐专业的学生提问紧张集中在风格、感情和演出形式上,这些问题称为深度问题。特殊的,将乐器的种别和计数类问题归为深度问题,由于这些音乐元素同样被音乐专业的学生所关注。
2.2 MQA 数据集剖析
实验中共天生了 4 350 组数据,每组数据包含 { 音乐,问题,回答 },个中 3 480 组用于演习、870 组用于测试。图 2 是每个问题前三个词的分布情形。
图 2 每个问题前三个词的分布情形
所有问题中最长的包含了 11 个单词(How many kinds of percussion music are used in this music?),最短的仅包括三个单词(Is it jazzy?)。深度问题共有 2 020 个,分别位于情绪、风格、演出形式和乐器四类,图 3 是深度问题在不同种别中所占比重。答案部分共包含 63 个,个中 yes、no、0、1、2、3涌现的频率最高,除此之外的答案均为详细的特色值,图 4 显示了各答案涌现的频率。
图 3 深度问题在不同种别中所占比重
图 4 各答案的涌现的频率
3 模型与方法
下面将从三个部分先容实验模型、音乐特色提取、措辞特色提取和领悟处理(没有考虑仅有问题和仅有音乐两种情形)。
Conv-LSTM 模型包含一个多层卷积网络和一个两层的 LSTM。卷积网络用于提取音频特色,包含5个卷积块和两个标准卷积层;每个卷积块包括两个具有 BatchNorm 和 ReLUs 的卷积层,以及在第二个卷积层之后具有 2×2 窗口的最大池层;然后是两个标准卷积层,带有 BatchNorm 和 ReLUs;再后是一层卷积网络;末了是每个通道的全局均匀池。第一个卷积块中的卷积层有 32 个大小为 3×12、步幅为1×9 的滤波器,而后每个卷积块的滤波器数量是前一个的 2 倍,所有这些滤波器的步幅为 3×3。
我们利用视觉问答研究中编码问题的常用方法——预演习的 GloVe 编码问题。每个单词都被嵌入到一个 300 维的 GLoVe 向量中,然后输入到一个两层的 LSTM 进行编码,产生问题表示。问题表示和音乐表示连接起来,并反馈到一个全连接神经网络。该神经网络由一个包含 1 024 个单元的隐蔽层和 ReLUs 组成,用于预测答案。
4 实验
4.1 实验细节
实验过程中音乐文件的预处理事情安排如下,对付利用根本卷积网络提取音频特色的模型,将每个音频片段以10 ms的步幅分割为25 ms帧,并运用汉明窗;然后从每个帧中提取 64 个对数频谱系数,并进行标准化。对付 Musicnn 中的谱形前端遵照先前事情,将音频片段转换为对数梅尔幅度谱图,并进行标准化。
公式中,T 表示模型预测精确的问题数量;A 表示本次测试所有的问题数量。
4.2 模型剖析
按照第三章提出的模型配置,在 MQAdataset 上进行实验,结果如表 1 所示。从表中可以看出,所有模型中 Musicnn- MALiMo 取得了最好的实验结果,与预期相同。总体来看,Conv-LSTM 模型较差,仅取得 37.47% 的成绩。但是在加入 Musicnn 提取音音乐特色后,模型性能得到了大幅度提升。这解释比较普通的卷积网络,Musicnn 提取音乐特色的能力是可靠的。加入 MALiMo 模块后,模型效果提升较小,这是由于在全体数据集中,须要对特色做领悟推理的问题不多导致的。将问题进行分类考虑,yes/no 类的问题在各模型中都是最好。加入 Musicnn后,受影响最大的是 else 类,缘故原由是这类的答案紧张是音乐详细特色的值,其更加依赖于网络对付音乐特色的提打水平。加入 MALiMo 模块后,Count类的准确度提升最大。这表明相较于其他类,这类问题对付模型的推理能力哀求更高。
为了谈论不同模型对付深度问题的效果,对其结果进行统计。从表 2 中可以看到,MALiMo 模块对付深度问题的贡献相称显著,对付不同的前端分别提升了 27.35% 和 22.84%,但是随着 MAliMo 个数增加,模型性能得到了大幅度提升。但是随着 MAliMo 个数增加,它对付深度问题效果提升的并不明显,对付所有问题的效果提升也不明显,我们认为是数据集太小导致的,这将是下一步事情重点。同时把稳到,对付Musicnn 的两个不同前端,谱形前真个表现领先,这与谱形前端中利用两种分支构造密不可分。
5 结束语
为了帮助感知理解音乐内容,提出了 MQA 的任务,并在 MTAT 数据集的根本上布局了第一个音乐问答数据集 MQAdataset。利用不同网络构造测试其对付 MQA 任务性能的结果表明,利用 Musicnn-MALiMo (Spectrogram,i=4)时的效果最好(71.13%),这个结果基本知足了 MQA 任务的哀求。此外剖析了 MALiMo 模块办理深度问题方面的能力,以及不同种别问题的准确度。不才一步事情中,更加完备的数据集和更好提取音乐特色的网络将是我们的事情重点,同时希望会有更多的人参加到这个任务中。
(参考文献略)
选自《中国人工智能学会通讯》
2022年第12卷第4期
艺术与人工智能专题
本文系作者个人观点,不代表本站立场,转载请注明出处!