探索高效翻唱识别新方法,还有智能音乐、音频合成、音频理解、超脑研究进展。
编辑 | ZeR0
智东西6月1日报道,近期,字节跳动火山语音团队的最新音乐检索系统ByteCover2入选了国际语音技术领域顶会ICASSP 2022。
该系统主要面向音乐信息检索(MIR)领域的重要任务之一——翻唱识别(CSI),通过表征学习方法让其具备提取音乐核心特征的能力,并且该特征能够对种类繁多的音乐重演绎具有良好的鲁棒性,检索速度提高8倍。
经Da-Tacos数据集上的评估,其准确率远超其他方案的SoTA性能。
除了ByteCover2,字节跳动火山语音团队还有多篇论文被ICASSP 2022收录,内容涵盖智能音乐、音频合成、音频理解、超脑等多个方向。
01.
翻唱识别:设计隐式嵌入降维方法
翻唱识别往往需要对音乐中的一些常见变化具有鲁棒性,从而保证系统专注于对音乐旋律走向的建模。在设计翻唱识别系统时,音乐调式偏移、音乐结构变化、音乐节奏变化这三种音乐变化通常会被重点考虑。
此外,抖音平台上每日新增千万量级的用户投稿,如何快速应对巨量查询需求,提高识别系统的整体吞吐量并同时确保识别准确性,也是亟待解决的问题。
在内部开发返厂识别时,字节跳动还面临另一挑战,即在设计特征时,如何在保障其他性质的前提下尽可能减小特征大小,从而减少存储空间,降低系统复杂度和成本。
在ByteCover2系统中,字节跳动火山语音团队通过多任务学习范式联合ResNet-IBN模型,做到从音频输入中提取鲁棒且具备区分性的向量表征。针对效率优化问题,团队还提出了PCA-FC模块,实践证明该模块在保证ByteCover2模型性能不变甚至提高的前提下,可将向量尺寸压缩至ByteCover1的1/8。▲Bytecover模型结构与训练流程
1、多任务学习提高音乐检索能力
翻唱识别领域通常存在两种训练范式,分别是多分类学习和度量学习。
前者将每个曲目视为一个独立类别,在特征层后加上全连接层,并通过交叉熵等分类损失对模型进行训练,训练完成后去掉全连接层,使用特征层的输出作为歌曲的表征;后者直接在特征层之上,使用triplet loss等度量学习损失训练网络。
总体来看,两种训练范式各有优劣,团队通过实验发现,分类损失往往能提高模型对同曲目不同风格版本的检索能力,细致设计的度量学习损失则能提高翻唱网络对相似风格不同曲目音乐的区分能力。
因此ByteCover系列模型对这两种学习范式进行了结合,并通过引入BNNeck模块,提高了两种损失的兼容性。
2、ResNet网络与IBN正则化方法(ResNet & Instance-Batch Normalization)
为了简化音乐特征提取的流程,加快特征提取速度,团队使用CQT频谱图作为模型的输入,而不使用在同期其他翻唱识别方法中常用的cremaPCP或其他更为复杂的特征,但此设计会天然地在输入特征层面上损害模型对音频频移的鲁棒性。
因此,团队选择卷积神经网络做了音乐表征提取网络,希望能利用卷积网络的平移不变性来实现模型对频移的不变性。
实验证明,CQT谱+普通ResNet组合已在效率和性能上超过CremaPCP+CNN的设计。
深入探究,团队引入了Instance-Batch Normalization来从网络隐表示的层面进一步学习和风格无关的音乐特征,即特征图上不同通道间的均值方差等统计量与输入的风格化特征相关。IN通过对特征图的通道维度做的归一化处理,一定程度上实现了在隐藏表征层面上去除风格化信息,从而提高翻唱识别模型对音色变化的鲁棒性。
3、特征降维模块(PCA-FC)
通过测算,团队发现工业级别的翻唱系统大部分耗时集中在特征检索阶段,而这一阶段的时间消耗基本和曲库的大小以及特征向量的尺寸线性相关。曲库中歌曲的数目会随着业务的增长而不断增加,因此降低特征向量尺寸成为优化检索系统整体耗时的必由之路,而同期其他翻唱向量特征降维的工作往往采用一个全连接层来将高维向量投影到维度更低的空间。
实验结果发现,单纯使用全连接层进行降维会明显降低系统的检索能力,团队认为这种现象不仅是因为更小的尺寸限制了向量的表征能力,性能的损失也来自于随机初始化的全连接层对特征各向同性的破坏。
随后对数据可视化之后可发现,降维后特征分布在一个锥形空间,表现出明显的各向异性,此种性质不利于使用余弦距离为度量的向量检索。
因此团队尝试使用PCA对特征向量进行降维操作并随后用PCA的变换矩阵初始化一个全连接层,把该层和特征提取网络连接进来并联合训练,并将模块称作PCA-FC。
实验结果显示,PCA-FC能显著提升降维模型的检索性能,在保持检索性能不变的前提下向量尺寸可以被压缩8倍。▲对比结果
从结果来看,一直以来Da-Tacos是作为评估翻唱识别的基准测试数据集,在该数据集上,
世界杯买球只能去体彩吗,采用1536维的ByteCover2模型取得了远超其他方案的SoTA性能,全类平均正确率指标(mAP)达到79.1%,而ByteCover系列以外的最好方法Re-MOVE的该项指标只有52.5%。
值得一提的是,128维的ByteCover2模型甚至超过了2048维的ByteCover1和Re-MOVE方法。
此外,ByteCover1系统还参加了2022国际音频检索评测大赛MIREX,过程中大幅刷新了翻唱识别赛道历年最好记录,mAP指标达到84%,是同年参加该竞赛的其他方案性能的14倍。02.
智能音乐:提高挑选音乐片段效率,
创新自监督音乐预训练算法
在智能音乐方向,字节跳动火山语音团队基于Transformer的声音事件检测模型HTS-AT、基于层级式Transformer的自监督音乐预训练算法S3T两篇论文均被ICASSP 2022收录。
1、HTS-AT:用于声音分类和检测的分层标记语义音频
HTS-AT针对音频任务的特性,该结构能有效提高音频频谱信息在深度Transformer网络中的流动效率,提高了模型对声音事件的判别能力,并且通过降低输出特征图的大小,显著降低了模型地计算量与内存消耗。HTS-AT还引入了Token Semantic模块,使模型具备预测声音时间起始与终止点的能力,并且无需使用额外有标注数据进行训练。
上一篇:线上线下放声唱 新老民歌焕光彩