国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

音樂自動(dòng)標(biāo)注分類方法研究綜述

2023-06-07 08:29:52張如琳王海龍裴冬梅
計(jì)算機(jī)與生活 2023年6期
關(guān)鍵詞:音頻標(biāo)簽自動(dòng)

張如琳,王海龍,柳 林,裴冬梅

內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,呼和浩特010022

迄今,我國(guó)同時(shí)在線音樂活躍用戶數(shù)已超7.7億,網(wǎng)絡(luò)用戶大量增長(zhǎng),音樂作品與日俱增,音樂類別日益多元化,人們對(duì)音樂信息檢索(music information retrieval,MIR)的需求達(dá)到前所未有的高度。然而,海量的音樂作品缺乏不同類別的語義標(biāo)簽,導(dǎo)致用戶無法便捷、精準(zhǔn)、高效地檢索音樂作品。音樂標(biāo)注作為音樂信息檢索領(lǐng)域的重要分支,可豐富音樂信息,有效管理音樂資源,并推動(dòng)音樂分類、音樂推薦以及樂器識(shí)別等其他音樂信息檢索任務(wù)的深入研究。

音樂標(biāo)注是利用手工或自動(dòng)的方式為音樂賦予不同類別的語義標(biāo)簽,進(jìn)而對(duì)音樂進(jìn)行合理化分類[1]。手工標(biāo)注又可分為專家型和社會(huì)型。專家型是由專業(yè)音樂人完成標(biāo)注,其具有權(quán)威性且標(biāo)簽質(zhì)量專業(yè)性強(qiáng)等優(yōu)勢(shì),但存在效率低、時(shí)間及人力成本消耗量大等問題。社會(huì)型是由普通聽眾完成標(biāo)注,其具備時(shí)間成本小、數(shù)據(jù)量大等優(yōu)勢(shì),但由于帶有很強(qiáng)的個(gè)人主觀性且音樂專業(yè)性偏低,標(biāo)注易產(chǎn)生模糊性和隨意性,標(biāo)簽質(zhì)量低。音樂自動(dòng)標(biāo)注方式(automatic music annotation,music auto-tagging)是利用先進(jìn)的計(jì)算機(jī)技術(shù)分析音樂的旋律、音色、語義并預(yù)測(cè)音樂描述性的關(guān)鍵詞或標(biāo)簽[2]。該方式結(jié)合手工標(biāo)注中兩種類型的優(yōu)點(diǎn),不僅減少了時(shí)間成本,還提高了標(biāo)注準(zhǔn)確率。通過音樂自動(dòng)標(biāo)注技術(shù),人們可高效地進(jìn)行相似性搜索、音樂流派分類、音樂情感分類和音樂推薦等,它是目前的主流標(biāo)注方法。表1對(duì)音樂標(biāo)注類型進(jìn)行了總結(jié)。

表1 音樂標(biāo)注類型總結(jié)Table 1 Summary of music annotation types

音樂自動(dòng)標(biāo)注最早可以追溯到2007年,Eck等人[3]使用傳統(tǒng)方法基于AdaBoost分類器對(duì)音頻特征進(jìn)行標(biāo)注,完成多標(biāo)簽音樂自動(dòng)標(biāo)注,取得開創(chuàng)性成果,然而在標(biāo)注過程中依舊面臨許多挑戰(zhàn)。當(dāng)前業(yè)界普遍聚焦于以下兩個(gè)研究問題:(1)特征選擇與提取問題。音頻信號(hào)的特征有許多種,每個(gè)特征描述音頻信號(hào)的能力有限,因此針對(duì)特定模型需要選擇合適的特征以及合適的提取方法,以保證音頻信息的完整提取,更好地進(jìn)行標(biāo)注預(yù)測(cè)。(2)模型選擇問題。在傳統(tǒng)方法中,選擇的特征越好就意味著對(duì)模型的選擇越簡(jiǎn)單,然而隨著人工智能的不斷進(jìn)步,出現(xiàn)了不同的模型與方法,人們意識(shí)到更有針對(duì)性地選擇模型可影響標(biāo)注性能的進(jìn)一步提升。

面對(duì)音樂自動(dòng)標(biāo)注,F(xiàn)u等人[4]圍繞任務(wù)研究進(jìn)展對(duì)當(dāng)時(shí)不同方法進(jìn)行歸納,為后續(xù)相關(guān)工作提供幫助。然而該綜述側(cè)重于對(duì)機(jī)器學(xué)習(xí)方法進(jìn)行梳理,缺乏對(duì)深度學(xué)習(xí)方法的歸類分析,并且由于同時(shí)整理了音樂流派分類、情感分類與樂器分類等不同研究方向,并未對(duì)機(jī)器學(xué)習(xí)下的音樂自動(dòng)標(biāo)注進(jìn)行著重分析。與上述綜述不同,本文既對(duì)機(jī)器學(xué)習(xí)方法進(jìn)行詳細(xì)總結(jié)與歸納,又對(duì)近年來面向深度學(xué)習(xí)的模型選擇與特征提取方法進(jìn)行分析與總結(jié)。本文貢獻(xiàn)總結(jié)如下:首先,詳細(xì)介紹音樂自動(dòng)標(biāo)注的相關(guān)知識(shí)。其次,根據(jù)當(dāng)前存在的研究問題,從音頻提取、機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)模型三方面進(jìn)行綜述,分析對(duì)比優(yōu)缺點(diǎn)并比較不同方法的性能。其中,對(duì)特征提取方法研究通過不同特征輸入的角度進(jìn)行論述,對(duì)面向機(jī)器學(xué)習(xí)的音樂自動(dòng)標(biāo)注研究通過不同模型的角度進(jìn)行論述,對(duì)面向深度學(xué)習(xí)的音樂自動(dòng)標(biāo)注研究通過不同模態(tài)的角度進(jìn)行論述。然后,列舉音樂自動(dòng)標(biāo)注領(lǐng)域常用的數(shù)據(jù)集與評(píng)價(jià)指標(biāo)。最后,分析目前音樂自動(dòng)標(biāo)注所面臨的挑戰(zhàn)與機(jī)遇,并指出未來的發(fā)展方向。

1 音樂自動(dòng)標(biāo)注相關(guān)知識(shí)

音樂自動(dòng)標(biāo)注為音樂預(yù)測(cè)多類別音樂標(biāo)簽,被視為多標(biāo)簽分類問題。與其他單標(biāo)簽分類任務(wù)不同,一首音樂可同時(shí)與多個(gè)音樂標(biāo)簽關(guān)聯(lián),而其他分類任務(wù)局限于特定語義的類別標(biāo)簽。例如,在圖1(a)中,音樂情感分類任務(wù)只能為音樂分配情感表述標(biāo)簽;然而,圖1(b)中音樂自動(dòng)標(biāo)注可為音樂預(yù)測(cè)情感、流派、樂器等多個(gè)不同類別語義標(biāo)簽,豐富了音樂信息。因此,當(dāng)在輸入集合上定義k個(gè)二元標(biāo)簽時(shí),單標(biāo)簽分類任務(wù)的輸出集合標(biāo)簽僅k個(gè),而音樂自動(dòng)標(biāo)注的輸出集合標(biāo)簽則達(dá)到2k個(gè)。

圖1 音樂信息檢索領(lǐng)域中單標(biāo)簽分類與多標(biāo)簽分類Fig. 1 Single-label classification and multi-label classification in music information retrieval

由上可知,對(duì)音樂進(jìn)行標(biāo)注需通過音樂標(biāo)簽定義對(duì)音樂的理解與感受,因此音樂標(biāo)簽是音樂自動(dòng)標(biāo)注的重要組成部分。音樂標(biāo)簽屬于社會(huì)標(biāo)簽,它能夠表達(dá)音樂特性的高層次描述性詞語。例如,描述情感的“快樂”“悲傷”等標(biāo)簽,描述流派的“嘻哈”“搖滾”等標(biāo)簽,描述樂器的“鋼琴”“小提琴”等標(biāo)簽。音樂標(biāo)簽是區(qū)分不同音樂類型最科學(xué)的表示,它具有以下特點(diǎn):

(1)無界限性。聽眾受不同文化、政治和宗教等復(fù)雜因素的影響,對(duì)相同音樂有著不同評(píng)判標(biāo)準(zhǔn),為音樂附上何種標(biāo)簽并沒有嚴(yán)格的定義與界限。

(2)共享性。聽眾間共享音樂標(biāo)簽資源,允許查看、添加、使用其他聽眾所標(biāo)注的標(biāo)簽,在主體聽眾用戶同意的情況下,可修改標(biāo)簽。

(3)動(dòng)態(tài)更新性。聽眾可以利用音樂平臺(tái)上傳原創(chuàng)歌曲或翻唱歌曲,進(jìn)而使音樂數(shù)量進(jìn)一步增加,平臺(tái)實(shí)時(shí)對(duì)增加的音樂進(jìn)行標(biāo)注并更新音樂標(biāo)簽[5]。

圖2為音樂自動(dòng)標(biāo)注通用框架。首先,將音樂進(jìn)行預(yù)處理操作,預(yù)處理是使用預(yù)加重、加窗、分幀等操作最大化呈現(xiàn)原始音頻的相關(guān)特征,并使后續(xù)操作更加精準(zhǔn)。其次,通過不同方法提取音頻特征,并找到合適的數(shù)據(jù)集音樂文本標(biāo)簽,將音頻特征向量與音樂標(biāo)簽作為模型輸入。對(duì)于機(jī)器學(xué)習(xí)模型來說,只需將提取好的音頻特征輸入到分類器模型進(jìn)行標(biāo)注預(yù)測(cè)即可。對(duì)于深度學(xué)習(xí)模型來說,則分為兩種方法,一是將預(yù)處理得到的原始波形直接輸入到深度學(xué)習(xí)模型,二是將特征向量送入深度模型中自動(dòng)學(xué)習(xí)音頻特征,以此來預(yù)測(cè)對(duì)應(yīng)的音樂標(biāo)簽。特征提取為學(xué)習(xí)模型提供大量的音頻特征數(shù)據(jù),但會(huì)存在冗余特征,使模型無法學(xué)習(xí)到重要特征,因此對(duì)其進(jìn)行降維處理。例如Nam 等人[6]使用主成分分析(principal component analysis,PCA)來消除二階依賴性并降低維度。再次,設(shè)計(jì)音樂自動(dòng)標(biāo)注模型算法,即學(xué)習(xí)模型,通過學(xué)習(xí)模型將音樂標(biāo)簽與音頻特征建立聯(lián)系,使模型發(fā)現(xiàn)兩者的相關(guān)性。然后,將待測(cè)音樂輸入到訓(xùn)練好的標(biāo)注模型中。最后,對(duì)模型是否符合當(dāng)前任務(wù)進(jìn)行最終評(píng)價(jià)[7]。

圖2 音樂自動(dòng)標(biāo)注通用框架Fig. 2 Generic framework for automatic music annotation

音樂自動(dòng)標(biāo)注問題是多標(biāo)簽分類問題,形式化定義可描述為:將音樂自動(dòng)標(biāo)注樣本的音頻特征集合設(shè)為X={xi:i=1,2,…,m},標(biāo)簽集合為Y={γj:j=1,2,…,k},給定多標(biāo)簽訓(xùn)練集合,設(shè)為S={(xi,Lj),i=1,2,…,q},其中xi∈X,Lj∈Y,xi與Lj為一對(duì)多的映射關(guān)系,音樂自動(dòng)標(biāo)注任務(wù)從訓(xùn)練集S中學(xué)習(xí)到函數(shù)C:X→2Lj,設(shè)計(jì)多標(biāo)簽學(xué)習(xí)模型C(·),對(duì)無標(biāo)簽樣本音頻測(cè)試集合T={(xq+i,?),i=1,2,…,p}進(jìn)行標(biāo)注,即預(yù)測(cè)C(x)∈Y作為音頻樣本特征的標(biāo)簽集合。

面對(duì)多標(biāo)簽音樂自動(dòng)標(biāo)注問題,機(jī)器學(xué)習(xí)的核心思想是將多標(biāo)簽分類任務(wù)轉(zhuǎn)換成多個(gè)單標(biāo)簽分類任務(wù)。(1)二元相關(guān)性(binary relevance,BR)[8],多標(biāo)簽分類任務(wù)轉(zhuǎn)換成多個(gè)單獨(dú)的二元分類學(xué)習(xí)任務(wù)。針對(duì)每個(gè)標(biāo)簽均訓(xùn)練分類器,使所有分類器對(duì)音頻樣本進(jìn)行預(yù)測(cè),樣本的預(yù)測(cè)標(biāo)簽就是所有分類器預(yù)測(cè)標(biāo)簽的集合,但該方法忽略了標(biāo)簽的相關(guān)性。(2)分類器鏈(classifier chains,CC)[9]將多標(biāo)簽分類任務(wù)轉(zhuǎn)換成二分類器鏈。在二元相關(guān)性的基礎(chǔ)上加入標(biāo)簽排序,在預(yù)測(cè)當(dāng)前標(biāo)簽時(shí),需考慮當(dāng)前標(biāo)簽的前個(gè)標(biāo)簽。然而當(dāng)音樂標(biāo)簽與音頻樣本數(shù)量過于龐大時(shí),會(huì)使計(jì)算效率與性能下降。在深度學(xué)習(xí)中,研究人員使用深度神經(jīng)網(wǎng)絡(luò)模型作為多標(biāo)簽分類算法,將每個(gè)輸出節(jié)點(diǎn)使用sigmoid 激活函數(shù),對(duì)每個(gè)輸出節(jié)點(diǎn)和對(duì)應(yīng)的標(biāo)簽計(jì)算二值交叉熵?fù)p失函數(shù)[10]。

2 音樂自動(dòng)標(biāo)注音頻特征提取方法

音頻特征是區(qū)分音樂的重要依據(jù),科學(xué)有效的音頻特征可充分表達(dá)出不同特性的音樂。因此,需合理提取不同類型的音頻特征,將它作為模型輸入進(jìn)而對(duì)音樂進(jìn)行準(zhǔn)確標(biāo)注。

2.1 基于領(lǐng)域知識(shí)輸入的特征提取方法

原始音頻是不定長(zhǎng)的時(shí)序信號(hào),不適合直接作為模型輸入,需轉(zhuǎn)換成專業(yè)音頻知識(shí)的特征表示。

2.1.1 基于統(tǒng)計(jì)特征的提取方法

統(tǒng)計(jì)特征是精通音樂信號(hào)的專業(yè)人士根據(jù)不同特定任務(wù)對(duì)音樂的原始波形進(jìn)行傅里葉變換、倒譜分析等操作轉(zhuǎn)換成時(shí)頻表示的音頻特征。常用的音頻特征包括音色特征(梅爾頻率倒譜系數(shù)(mel-frequency cepstrum coefficients,MFCC)、頻譜質(zhì)心、頻譜衰減、頻譜帶寬)、節(jié)奏特征(節(jié)拍直方圖、節(jié)拍速度)、音高特征(音高直方圖、音高等級(jí))、和聲特征等。

單個(gè)特征無法對(duì)音樂自動(dòng)標(biāo)注清晰表達(dá),研究人員將多種統(tǒng)計(jì)特征融合。首先將單個(gè)統(tǒng)計(jì)特征進(jìn)行描述性分析操作,其次計(jì)算各個(gè)特征對(duì)應(yīng)的統(tǒng)計(jì)值并將統(tǒng)計(jì)值拼接得到最終特征向量,最后將其輸入至分類器[11]。Wang等人[12]融合音色特征中的頻譜質(zhì)心、頻譜通量、頻譜衰減以及MFCC等特征來實(shí)現(xiàn)音樂自動(dòng)標(biāo)注,同時(shí)將融合特征與單一特征MFCC進(jìn)行比較,證明融合特征的性能優(yōu)于單一特征,為捕捉更多特征信息進(jìn)一步添加節(jié)奏特征[13]。Sordo[14]將音色特征(MFCC、頻譜質(zhì)心等)、節(jié)奏特征(節(jié)拍速度、起始點(diǎn)等)、和弦特征進(jìn)行融合,并將特征的均值、方差以及導(dǎo)數(shù)拼接作為整體音樂的特征向量。Ness等人[15]將MFCC、頻譜質(zhì)心、頻譜通量、頻譜衰減進(jìn)行融合,計(jì)算這些特征的均值和標(biāo)準(zhǔn)偏差,以此來獲取幀級(jí)音頻特征的整體表示。

基于統(tǒng)計(jì)特征融合的方法可有效提高音樂自動(dòng)標(biāo)注性能,但該方法存在一定局限性:(1)需要根據(jù)不同問題選取不同特征進(jìn)行融合,消耗大量人力及時(shí)間成本。(2)對(duì)原始音樂特征做一系列融合會(huì)存在冗余信息。(3)很難全面描述音樂特點(diǎn)。(4)模型效果與使用不同特征進(jìn)行融合的關(guān)系很大。

2.1.2 基于圖像特征的提取方法

由于統(tǒng)計(jì)特征融合的方法耗時(shí)耗力,需要花費(fèi)大量時(shí)間在特征選擇上,研究人員嘗試自動(dòng)找尋與任務(wù)相關(guān)的特征向量形式,將預(yù)處理后的波形信號(hào)通過傅里葉變換轉(zhuǎn)換成與圖像相似的時(shí)間-頻率二維聲譜圖并作為模型的輸入[16]。

梅爾頻譜圖符合大多數(shù)人非線性聽覺特征,因此梅爾頻譜圖是目前主要的輸入類型[17-18]。使用梅爾刻度濾波器組對(duì)信號(hào)進(jìn)行處理可獲得梅爾頻譜圖,研究人員將其應(yīng)用于實(shí)驗(yàn)中進(jìn)行測(cè)試[19]。Choi等人[20]使用梅爾頻譜圖與MFCC、STFT(short-time Fourier transform)特征在同一架構(gòu)下進(jìn)行測(cè)試,結(jié)果表明,在MTAT 數(shù)據(jù)集(MagnaTagATune Dataset)下使用梅爾頻譜圖輸入的性能值達(dá)到0.894,使用MFCC與STFT的性能值為0.862、0.846。Ferraro 等人[21]對(duì)比了不同尺寸的梅爾頻譜圖對(duì)模型的影響,證明了當(dāng)減少尺寸時(shí)既可保持良好性能,又可降低訓(xùn)練時(shí)間成本。Choi 等人[22]繼續(xù)對(duì)梅爾頻譜圖進(jìn)行不同的對(duì)數(shù)幅度縮放、頻率加權(quán)等操作,實(shí)驗(yàn)證明對(duì)數(shù)幅度壓縮可提高準(zhǔn)確性。以上均是將梅爾頻譜圖與不同特征進(jìn)行對(duì)比測(cè)試,并未有效捕捉更多音頻信息。Won等人[23]在梅爾頻譜圖前加入了諧波濾波器,使模型提取到更多音頻信息,實(shí)驗(yàn)表明,加入諧波濾波器的標(biāo)注模型在MTAT數(shù)據(jù)集下性能值達(dá)到0.914 1。

聲音的許多高層次特征與不同頻段的能量有關(guān),梅爾頻譜圖更能表現(xiàn)音頻中時(shí)頻的效用,且效果對(duì)比其他音頻特征向量效果是最好的,然而梅爾頻譜圖也會(huì)存在周期相位變換的問題。

目前,基于圖像特征有以下三種提取方法:

(1)受限玻爾茲曼機(jī)

受限玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)是一個(gè)由可視層和隱藏層組成的二分無定向圖形模型,可視層表示輸入音頻數(shù)據(jù),隱藏層表示通過RBM 學(xué)習(xí)音頻特征。Nam 等人[24]使用了RBM 算法,將預(yù)處理后的音頻數(shù)據(jù)利用稀疏RBM 獲取音樂中豐富的局部音色特征,并且用二元評(píng)價(jià)來判斷模型優(yōu)劣,當(dāng)在CAL500 數(shù)據(jù)集(computer audition lab 500 dataset)下使用RBM+頻譜圖方法時(shí),精確率為0.479,召回率為0.257,F(xiàn)1 值為0.289,是所有對(duì)比方法中效果最佳的。

RBM 注重訓(xùn)練音頻特征本身特性,表示能力強(qiáng)且易于推理。雖然使用RBM的效果較好,但RBM訓(xùn)練速度慢,算法很難調(diào)整,靈活性不夠強(qiáng)。

(2)K-均值

K-均值(K-means)算法是基于歐式距離的聚類算法,兩個(gè)音頻目標(biāo)的距離越近,相似度越大。算法步驟為:首先隨機(jī)選取k個(gè)音頻特征樣本{x1,x2,…,xm},x(i)∈Rn,初始聚類質(zhì)心點(diǎn)為u=u1,u2,…,uk∈Rn;其次計(jì)算音頻特征xi到k個(gè)聚類中心的距離,并將其分配到距離最近聚類中心所對(duì)應(yīng)的標(biāo)簽類中,重新計(jì)算該標(biāo)簽類uj的質(zhì)心;最后重復(fù)上一過程直至模型收斂。Dieleman 等人[25]與Oord 等人[26]均使用球形K-means算法學(xué)習(xí)特征,并使用多層感知器(multilayer perceptron,MLP)來標(biāo)注預(yù)測(cè)。不同的是,前者將梅爾頻譜圖劃分為不同幀級(jí)大小的窗口,然后進(jìn)行PCA處理,并提取K-means特征進(jìn)行不同時(shí)間尺度學(xué)習(xí),實(shí)驗(yàn)證明多時(shí)間尺度比單時(shí)間尺度性能更好;而后者則使用遷移學(xué)習(xí)方法,先在MSD 數(shù)據(jù)集(million song dataset)上訓(xùn)練模型并提取特征,轉(zhuǎn)移事先預(yù)訓(xùn)練的MLP 權(quán)重并在其他數(shù)據(jù)集上預(yù)測(cè)標(biāo)簽,實(shí)現(xiàn)音樂自動(dòng)標(biāo)注。

K-means 算法為淺層結(jié)構(gòu),相對(duì)于RBM 算法收斂速度快,聚類效果較好,然而采用迭代的方法只能得到局部最優(yōu)解,且該算法需選擇最近的聚類,因此對(duì)噪音點(diǎn)較敏感。

以上兩種提取方法均是將音頻的局部頻譜圖映射到高維度稀疏空間中,并對(duì)特征進(jìn)行統(tǒng)計(jì)得到音頻單層特征向量,將其輸入到模型中標(biāo)注預(yù)測(cè)。它們可以處理不同長(zhǎng)度的音頻,進(jìn)一步提高模型性能,但音樂是時(shí)序變化的,在提取音頻特征時(shí)很難控制對(duì)不同變化的音頻進(jìn)行標(biāo)注,不能對(duì)音樂有層次化的特征向量進(jìn)行學(xué)習(xí)。

(3)深度神經(jīng)網(wǎng)絡(luò)

深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)受大腦的分層結(jié)構(gòu)啟發(fā),將前幾層神經(jīng)網(wǎng)絡(luò)充當(dāng)特征提取器,無需明確的特征選擇或相關(guān)特征的計(jì)算,即特征學(xué)習(xí)。目前,研究人員利用深度神經(jīng)網(wǎng)絡(luò)的隱藏層來表示音頻數(shù)據(jù)底層結(jié)構(gòu)特征與標(biāo)簽之間的映射關(guān)系。例如,Ju等人[27]使用梅爾頻譜圖作為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)輸入進(jìn)行音樂自動(dòng)標(biāo)注學(xué)習(xí),該方法在MTAT 數(shù)據(jù)集下的性能值達(dá)到0.918 7。深度學(xué)習(xí)音頻特征提取方法在音樂自動(dòng)標(biāo)注中占主導(dǎo)地位,僅需要將音頻信號(hào)轉(zhuǎn)化成二維輸入表示,使模型從中學(xué)習(xí)重要特征即可。該方法一定程度上避免了尋找與任務(wù)相關(guān)的音頻特征問題,提取更深層次的特征。然而這種方法的音頻數(shù)據(jù)需要具有一定的專業(yè)音樂知識(shí),成本過高。該方法是使用深度神經(jīng)網(wǎng)絡(luò)將特征提取與標(biāo)注預(yù)測(cè)結(jié)合在同一架構(gòu)下進(jìn)行的。

基于知識(shí)領(lǐng)域的輸入是目前常用的輸入類型,它可更有效地進(jìn)行表示學(xué)習(xí),并且系統(tǒng)性能也隨著改進(jìn)逐步提升,但領(lǐng)域知識(shí)輸入會(huì)消耗大量先驗(yàn)知識(shí),當(dāng)為模型后端增加大量算法提升性能時(shí),會(huì)使整體計(jì)算量急劇加大。表2 總結(jié)了基于領(lǐng)域知識(shí)的特征提取方法對(duì)比。

表2 基于領(lǐng)域知識(shí)的特征提取方法對(duì)比Table 2 Comparison of feature extraction methods based on domain knowledge

2.2 基于非領(lǐng)域知識(shí)特征輸入的提取方法

為進(jìn)一步減少所需要的先驗(yàn)知識(shí),研究人員將原始波形信號(hào)直接輸入模型中。2014 年,Dieleman等人[28]首次使用原始波形輸入端到端對(duì)音頻進(jìn)行標(biāo)注預(yù)測(cè),實(shí)驗(yàn)結(jié)果顯示,原始波形的效果還有待提高,但它可避免梅爾頻譜圖存在周期相位變化問題,這也為提高原始波形的輸入性能奠定了基礎(chǔ)。

基于非領(lǐng)域知識(shí)輸入更少依賴于專業(yè)音頻知識(shí),在音樂自動(dòng)標(biāo)注領(lǐng)域上取得了顯著成果。然而與梅爾頻譜圖輸入方法相比性能略差,原因有:(1)梅爾頻譜圖需要通過振幅壓縮方式進(jìn)行提取,而人們無法在原始波形中找到合適的非線性函數(shù)代替。(2)雖然原始波形減少了先驗(yàn)知識(shí),但后續(xù)操作并未找到合適的模型繼續(xù)學(xué)習(xí)復(fù)雜的音頻結(jié)構(gòu)。Lee等人[29]提出樣本級(jí)卷積神經(jīng)網(wǎng)絡(luò)模型,將卷積神經(jīng)網(wǎng)絡(luò)中第一層濾波器的長(zhǎng)度和步幅減小至兩個(gè)樣本并增加深度進(jìn)行標(biāo)注,卷積核尺寸為1×3,通過此方法,標(biāo)注性能有所提升。同時(shí),他們更深入地研究分層學(xué)習(xí)濾波器,進(jìn)行多層次、多尺度的特征聚合,對(duì)多個(gè)任務(wù)進(jìn)行遷移學(xué)習(xí)與可視化[30],結(jié)合不同級(jí)別的特征進(jìn)而提高性能。Pons 等人[31]根據(jù)不同數(shù)據(jù)量對(duì)原始波形輸入與梅爾頻譜圖進(jìn)行比較,結(jié)果表明,當(dāng)數(shù)據(jù)量有限時(shí),梅爾頻譜圖將水平[32]與垂直[33]濾波器組合的效果更好,原始波形的效果不盡如人意;使用大量數(shù)據(jù)時(shí),原始波形輸入可勝過梅爾頻譜圖。

研究人員對(duì)非領(lǐng)域知識(shí)的輸入做進(jìn)一步探索,使用領(lǐng)域知識(shí)專注提取某種音頻特征可能會(huì)丟失部分音頻信息,使模型無法對(duì)丟失信息進(jìn)行標(biāo)注,進(jìn)而導(dǎo)致標(biāo)注結(jié)果不準(zhǔn)確。Song等人[34]將原始波形轉(zhuǎn)換成散射系數(shù),將散射變換作為循環(huán)神經(jīng)網(wǎng)絡(luò)模型的輸入,散射變換輸入具有穩(wěn)定性,可以平衡音頻信息的完整獲取與音頻特征的有效提取。他們進(jìn)一步將散射變換輸入與梅爾頻譜圖和MFCC 進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,散射變換效果最好。該方法使用兩階散射變換。一階散射變換系數(shù)如式(1)所示:

其中,x表示信號(hào)中的一幀數(shù)據(jù);φ(v)表示低通濾波器;表示小波模數(shù)變換,其目的是將丟失的信息從此變換中恢復(fù);λ為小波的尺度。通過式(1)可得到長(zhǎng)度為Λ1的向量,Λ是λ的最大值。

二階散射變換系數(shù)如式(2)所示:

通過式(2)得到長(zhǎng)度為Λ2·Λ1的向量。零階散射變換為S0=x(v)*φ(v),該變換系數(shù)為標(biāo)量,長(zhǎng)度為1。將零階散射、一階散射與二階散射系數(shù)堆疊,得到長(zhǎng)度為1+Λ1+Λ2·Λ1的向量,通過堆疊每幀的散射系數(shù)向量并沿對(duì)數(shù)頻率映射,構(gòu)建CNN 的輸入維度Nf×(1+Λ1+Λ2·Λ1),其中Nf表示從音樂信號(hào)提取的總幀數(shù)。

非領(lǐng)域知識(shí)輸入將原始波形直接送入模型中,利用小濾波器的深度堆棧,分層組合上下文信息學(xué)習(xí)音頻特征,一定程度上避免了繁瑣的特征提取與梅爾頻譜圖周期波形相位變化產(chǎn)生的變性問題,減少了對(duì)先驗(yàn)知識(shí)的需求,將所提取的音頻特征工程量降到最低,只需根據(jù)專業(yè)知識(shí)調(diào)整學(xué)習(xí)模型的超參數(shù)即可。然而當(dāng)考慮更長(zhǎng)音頻的輸入時(shí),增加學(xué)習(xí)模型深度的方法會(huì)使計(jì)算成本變大,且更長(zhǎng)的輸入意味著在每層都有更大的特征圖,因此GPU 內(nèi)存消耗更多。表3 總結(jié)了基于非領(lǐng)域知識(shí)的特征提取方法對(duì)比。

表3 基于非領(lǐng)域知識(shí)的特征提取方法對(duì)比Table 3 Comparison of feature extraction methods based on non-domain knowledge

3 基于機(jī)器學(xué)習(xí)的音樂自動(dòng)標(biāo)注方法

基于機(jī)器學(xué)習(xí)的音樂自動(dòng)標(biāo)注是將特征提取與分類分為兩部分,分類作為音樂自動(dòng)標(biāo)注的主要步驟之一,選擇合適的分類器是決定性能優(yōu)劣的重要因素。在機(jī)器學(xué)習(xí)中通常將分類器模型分為判別式與生成式。

3.1 判別式模型

判別式模型不需要明確學(xué)習(xí)每個(gè)樣本如何生成,僅學(xué)習(xí)不同類別之間的最優(yōu)邊界即可。由于判別模型可直接判斷不同類別之間的差異,進(jìn)一步提高效率,研究人員將不同判別模型應(yīng)用于音樂自動(dòng)標(biāo)注中。首先將音頻特征與音樂標(biāo)簽作為模型的輸入,其次訓(xùn)練分類器模型學(xué)習(xí)音頻特征與標(biāo)簽之間的映射關(guān)系,最后對(duì)待測(cè)試的音樂進(jìn)行標(biāo)注預(yù)測(cè)。

3.1.1 支持向量機(jī)

支持向量機(jī)(support vector machine,SVM)分類器的基本訓(xùn)練原理為:首先使用SVM 核函數(shù)將音頻特征映射到高維特征空間,并找到音樂數(shù)據(jù)點(diǎn)的超平面以及最優(yōu)線性超平面函數(shù)的參數(shù),即確定SVM分類器。其次將測(cè)試的音頻特征輸入SVM 分類器,通過計(jì)算得到的數(shù)值來判斷音頻特征位于超平面的某一側(cè),從而預(yù)測(cè)標(biāo)簽。SVM 分類器用于解決二分類學(xué)習(xí)問題[35],而音樂自動(dòng)標(biāo)注為多標(biāo)簽分類問題,需訓(xùn)練多個(gè)SVM分類器并使用不同策略來結(jié)合其結(jié)果,以此完成音樂自動(dòng)標(biāo)注。常見策略為“one-againstone”與“one-against-all”。若將每個(gè)標(biāo)簽看作一個(gè)類別,“one-against-one”則是選取任意兩個(gè)標(biāo)簽來訓(xùn)練一個(gè)SVM,構(gòu)造C=k(k-1)/2 個(gè)SVM 分類器,其中k為標(biāo)簽數(shù)量,然后對(duì)待測(cè)試音頻的所有預(yù)測(cè)結(jié)果做投票法組合,投票最多的標(biāo)簽為最終預(yù)測(cè)標(biāo)簽;“oneagainst-all”是對(duì)K個(gè)標(biāo)簽訓(xùn)練K個(gè)SVM,每個(gè)SVM定義一個(gè)分類函數(shù)fi用于區(qū)分該音頻片段屬于標(biāo)簽i或其他標(biāo)簽,待測(cè)試音頻的所屬標(biāo)簽即為最大輸出的分類函數(shù)fi對(duì)應(yīng)的標(biāo)簽類別。最常用的分類函數(shù)公式如式(3)所示:

其中,x表示音頻特征;wi表示第i個(gè)標(biāo)簽所對(duì)應(yīng)的SVM的權(quán)重;bi表示第i個(gè)標(biāo)簽所對(duì)應(yīng)的SVM的偏置。

待測(cè)試音頻片段的標(biāo)注如式(4)所示:

其中,K表示標(biāo)簽個(gè)數(shù)。

為了尋找標(biāo)簽之間的相關(guān)性,Ness等人[15]將堆疊泛化的方法應(yīng)用到SVM分類器中并進(jìn)行擴(kuò)展。設(shè)詞匯表V由|W|個(gè)單詞組成,音頻片段為S=s1,s2,…,sR,音樂S中的特征向量表示為X=x1,x2,…,xT,每個(gè)向量xt代表從音頻片段中提取到的音頻特征。每首音樂的標(biāo)注向量設(shè)為y=(y1,y2,…,y|V|),若wi與音頻片段相關(guān)聯(lián),則yi>0 ;若無關(guān)聯(lián),則yi=0,即語義權(quán)重。將語義權(quán)重映射到{0,1}范圍中,設(shè)數(shù)據(jù)集為音頻片段與標(biāo)簽的集合D=(X1,Y1),(X2,Y2),…,(X|D|,Y|D|),并對(duì)待測(cè)試的數(shù)據(jù)進(jìn)行標(biāo)注預(yù)測(cè)。由于每個(gè)音樂片段由多個(gè)標(biāo)簽標(biāo)注,特征向量被多次送到多類SVM中,然后訓(xùn)練SVM 并計(jì)算標(biāo)簽概率輸出,將第一層SVM 的概率輸出作為第二層SVM 輸入,以此類推完成標(biāo)注。相較于單獨(dú)的SVM,堆疊的SVM 性能更好。

Mandel 等人[36]結(jié)合多實(shí)例學(xué)習(xí)方法,使用實(shí)例嵌入式選擇方法(multiple-instance learning via embedded instance selection,MILES),將音頻片段作為分類的實(shí)例,標(biāo)簽類別為袋。其中,Bi表示第i個(gè)袋,大小為li,袋中第j個(gè)實(shí)例為xij,j∈1…li,Bi的標(biāo)簽為Yi∈{1,-1},實(shí)例xij的標(biāo)簽為yij,設(shè)正袋指數(shù)集合為I+={i:Yi=1},負(fù)袋指數(shù)集合為I-={i:Yi=-1}。使所有音頻實(shí)例對(duì)袋進(jìn)行映射,其次使用1-norm SVM來進(jìn)行音頻特征選擇與分類,從而完成標(biāo)注。

SVM 分類器是機(jī)器學(xué)習(xí)最常見的模型,其計(jì)算復(fù)雜度取決于特征向量的數(shù)目并非音頻樣本的維數(shù),這也避免了維數(shù)災(zāi)難問題。然而SVM 是二分類模型,面對(duì)音樂自動(dòng)標(biāo)注任務(wù)時(shí),標(biāo)簽類別存在交叉重疊部分且需對(duì)每個(gè)標(biāo)簽進(jìn)行二元決策,使計(jì)算效率變低,時(shí)間變慢。

3.1.2 k-近鄰

k-近鄰(knearest neighbor,kNN)模型的核心思想是:只依據(jù)最鄰近的一個(gè)或者幾個(gè)音頻樣本的標(biāo)簽來決定待測(cè)試音頻特征所屬的標(biāo)簽。其步驟為:預(yù)測(cè)音頻樣本特征x,首先給出距離度量方法在訓(xùn)練集T中找出與音頻樣本特征x最相近的K個(gè)音頻樣本點(diǎn),記為NK(x),其次根據(jù)多數(shù)投票原則,K個(gè)音頻樣本大多數(shù)對(duì)應(yīng)類別y,則確定音頻特征x對(duì)應(yīng)標(biāo)簽y。投票如式(5)所示:

其中,i=1,2,…,N,j=1,2,…,K,I表示指數(shù)函數(shù)。

由此可見,kNN有兩個(gè)關(guān)鍵點(diǎn):選取k值,計(jì)算點(diǎn)距離。

對(duì)于k值的選?。寒?dāng)k值較小時(shí),預(yù)測(cè)結(jié)果對(duì)近鄰音頻樣本敏感,若近鄰音頻樣本點(diǎn)為噪音點(diǎn),則預(yù)測(cè)錯(cuò)誤,因此k值過小會(huì)導(dǎo)致模型過擬合;當(dāng)k值較大時(shí),雖模型相對(duì)具有魯棒性,但近鄰誤差偏大,距離較遠(yuǎn)且與預(yù)測(cè)音頻樣本不相似的點(diǎn)同樣影響預(yù)測(cè)結(jié)果,使其偏差較大,導(dǎo)致模型欠擬合。因此,需通過交叉驗(yàn)證的方式,選取較小的k值同時(shí)不斷增加k值并計(jì)算驗(yàn)證集的方差,最終找到合適的k值。

對(duì)于距離的計(jì)算:音頻樣本空間內(nèi)兩點(diǎn)之間的距離量度表示兩個(gè)音頻樣本點(diǎn)之間的相似度,距離越短,相似度越高,反之,相似度越低。目前常用歐氏距離作為距離量度方式。

Sordo[14]使用了kNN 模型,首先為待測(cè)音頻檢索一組近鄰音頻樣本,通過加權(quán)投票方式選擇音頻所對(duì)應(yīng)的標(biāo)簽。對(duì)于樣本的投票權(quán)重如式(6)所示:

其中,t表示標(biāo)簽,n表示標(biāo)簽排名。該函數(shù)為最遠(yuǎn)的音頻樣本點(diǎn)提供邊際權(quán)重,因此最近的樣本點(diǎn)對(duì)排名較高的標(biāo)簽影響較大。

kNN 為監(jiān)督學(xué)習(xí)模型,音樂的標(biāo)簽類別是已知的,其通過對(duì)已分類的音頻數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),找到不同標(biāo)簽的特征后,再對(duì)待測(cè)試的音頻數(shù)據(jù)進(jìn)行分類。對(duì)比SVM 模型,kNN 模型效率更高,復(fù)雜度更低,避免每個(gè)標(biāo)簽均進(jìn)行訓(xùn)練,更適合多標(biāo)簽音樂自動(dòng)標(biāo)注任務(wù),但音樂片段由成百上千個(gè)幀組成且不同標(biāo)簽的幀級(jí)特征可能會(huì)彼此相似,這會(huì)限制kNN鑒別的能力且預(yù)測(cè)結(jié)果存在不均衡性。

3.1.3 條件隨機(jī)場(chǎng)

條件隨機(jī)場(chǎng)(conditional random field,CRF)模型是無向概率圖模型,為了獲取更多音頻片段信息且考慮相鄰音頻的標(biāo)簽信息,將CRF 模型引入音樂自動(dòng)標(biāo)注任務(wù)中以更準(zhǔn)確地表達(dá)標(biāo)簽與音頻片段之間的關(guān)系。普通分類模型是將(x,y)看作一個(gè)樣本,其中x為音頻特征,y為標(biāo)簽;CRF 模型為序列分類問題,將(x1,x2,…,xt,y1,y2,…,yt)整體看作一個(gè)樣本,x為音頻特征序列,y為與之對(duì)應(yīng)的不同時(shí)刻或位置標(biāo)簽序列。條件隨機(jī)場(chǎng)如式(7)所示:

其中,λK、ul表示對(duì)應(yīng)權(quán)值;tk表示轉(zhuǎn)移特征函數(shù),依賴于當(dāng)前與前一個(gè)位置;sl表示狀態(tài)特征函數(shù),依賴于當(dāng)前位置;Z(x)表示歸一化因子。

局部音頻片段預(yù)測(cè)的標(biāo)簽不能代表整首音樂的標(biāo)簽,Wang 等人[37]將CRF 模型應(yīng)用于音樂自動(dòng)標(biāo)注中,首先優(yōu)化CRF 能量函數(shù)來計(jì)算每個(gè)片段所對(duì)應(yīng)的互斥標(biāo)簽集合,并不斷更新標(biāo)簽直至標(biāo)簽不再變化,將最后一次迭代出現(xiàn)次數(shù)最多的標(biāo)簽作為最終標(biāo)注結(jié)果。能量函數(shù)如式(8)所示:

其中,wl表示從訓(xùn)練音頻數(shù)據(jù)中學(xué)習(xí)到的標(biāo)簽l的回歸參數(shù)。

其中,xpwi與xqwi表示加權(quán)數(shù);Dist()表示歐式距離;σ表示計(jì)算距離的尺度超參數(shù);N=NS?N0,NS表示相同音樂分割的相接片段,N0表示相鄰分割的時(shí)間重疊片段。

其中,c表示控制音樂級(jí)標(biāo)注與音樂片段級(jí)標(biāo)注的一致性強(qiáng)度的權(quán)重參數(shù);η(·)表示指示函數(shù),滿足條件時(shí)值為1,反之為0。

CRF 模型相較其他判別模型可以通過序列化的形式對(duì)音樂進(jìn)行標(biāo)注,且CRF模型為無向圖,更充分地提取音樂上下時(shí)刻信息作為特征,然而該模型復(fù)雜度高,訓(xùn)練時(shí)收斂速度較慢。

對(duì)于音樂自動(dòng)標(biāo)注任務(wù)來看,判別模型實(shí)際上是將多標(biāo)簽問題轉(zhuǎn)化成二分類問題,即對(duì)N個(gè)標(biāo)簽進(jìn)行N次分類,其最大優(yōu)勢(shì)是可以直接學(xué)習(xí)音頻之間的差異進(jìn)行標(biāo)注預(yù)測(cè),相較于生成模型,靈活性較高。但也存在缺點(diǎn):(1)音樂自動(dòng)標(biāo)注標(biāo)簽類別多,在各學(xué)習(xí)模型上存在不均等表示,有時(shí)會(huì)產(chǎn)生數(shù)據(jù)不平衡的問題,導(dǎo)致模型性能下降。(2)音樂自動(dòng)標(biāo)注需采用一對(duì)多的方法對(duì)每首音樂進(jìn)行多種標(biāo)簽類別標(biāo)注,然而對(duì)每個(gè)標(biāo)簽進(jìn)行二元決策會(huì)使效率下降,并且導(dǎo)致標(biāo)簽之間相互獨(dú)立并不能互相關(guān)聯(lián)。

3.2 生成式模型

生成模型的特點(diǎn)是學(xué)習(xí)數(shù)據(jù)本身特性從而做出分類。在音樂自動(dòng)標(biāo)注中,生成模型將音頻特征作為特定概率下的樣本,學(xué)習(xí)音頻特征與標(biāo)簽的聯(lián)合概率分布。

3.2.1 高斯混合模型

高斯混合模型(Gaussian mixture model,GMM)是一種聚類算法,由K個(gè)子高斯模型混合而成,高斯模型使用高斯概率密度函數(shù)(正態(tài)分布曲線)精確地量化事物,將一個(gè)事物分解為若干高斯概率密度函數(shù)形成的模型。音樂可被多種類別標(biāo)簽定義,其音頻數(shù)據(jù)的分布并非單一橢圓形狀,單個(gè)高斯模型無法很好地描述多標(biāo)簽分布,因此將高斯混合模型應(yīng)用于音樂自動(dòng)標(biāo)注中,以此量化該分布。GMM模型核心思想是將音頻特征數(shù)據(jù)看作從各子高斯概率密度函數(shù)中生成,首先計(jì)算所有音頻特征對(duì)各個(gè)子模型的高斯概率密度函數(shù);其次根據(jù)各子模型的高斯概率密度函數(shù)計(jì)算各子模型參數(shù)并不斷迭代更新直至最優(yōu);最后將音頻特征xi按照GMM模型聚類劃分到子模型概率最大的簇中。GMM 的概率分布如式(13)所示:

其中,γik表示第i個(gè)音頻特征為第k個(gè)子模型的概率。

Turnbull等人[38]采用數(shù)據(jù)集標(biāo)簽在音頻特征空間上訓(xùn)練GMM 模型,采用學(xué)習(xí)好的模型直接預(yù)測(cè)標(biāo)注,并將EM算法作為參數(shù)估計(jì)。音頻特征的標(biāo)簽中每個(gè)標(biāo)簽的后驗(yàn)概率如式(15)所示:

其中,X={x1,x2,…,xT}表示音頻片段s中的特征向量袋;P(i)=1/|V|,i=1,2,…,|V|,表示詞匯wi被標(biāo)注的先驗(yàn)概率,每個(gè)詞匯wi看作一個(gè)標(biāo)簽,wi∈V;P(X)表示音頻的先驗(yàn)概率;P(X|i)表示音頻特征空間中每個(gè)標(biāo)簽wi的概率分布。

然而該方法并沒有考慮詞語之間的潛在關(guān)系,Chen等人[39]使用類似方法并針對(duì)每個(gè)詞語的反義詞也學(xué)習(xí)了GMM,從而更進(jìn)一步找到每個(gè)標(biāo)簽之間的相關(guān)性。反義詞集如式(16)所示:

其中,Y表示標(biāo)注權(quán)重矩陣,根據(jù)標(biāo)注權(quán)重Y對(duì)GMM 進(jìn)行建模;Y(i)與Y(j)是在wi與wj的相關(guān)音頻片段中收集到的標(biāo)注權(quán)重構(gòu)成的標(biāo)注向量;corr(·)表示相關(guān)系數(shù)函數(shù),若1-Y(i)與Y(j)之間相似度大于θ1,則wj屬于wi的反義詞集。定義維數(shù)為|V|×|V|的詞-反義權(quán)重矩陣,以此構(gòu)建反義詞級(jí)GMM。詞-反義權(quán)重矩陣如式(17)所示:

相較于第2.1.2 小節(jié)中K-means 算法,二者均為聚類算法且均需迭代執(zhí)行,然而二者需計(jì)算的參數(shù)不同,K-means 需計(jì)算質(zhì)心,即直接給出音頻特征屬于哪個(gè)標(biāo)簽;而GMM則是計(jì)算各子模型的高斯分布參數(shù),即給出每一個(gè)音頻特征由哪個(gè)子模型生成的概率。音樂自動(dòng)標(biāo)注的標(biāo)簽分布不平衡,對(duì)于GMM模型來說,可生成不同大小的形狀簇,且少量參數(shù)就能較好地描述音頻特性。然而GMM 模型每一步迭代的計(jì)算量較大,收斂較慢且子模型標(biāo)簽數(shù)量難以預(yù)先選擇。

3.2.2 狄利克雷混合模型

狄利克雷混合模型(Dirichlet mixture model,DMM)也是一種聚類算法,即狄利克雷分布混合模型。文獻(xiàn)[39]全面考慮了缺失反義詞標(biāo)簽的問題,但沒有對(duì)每個(gè)標(biāo)簽整體性進(jìn)行關(guān)聯(lián)。Miotto 等人[40]提出使用DMM 模型標(biāo)注音樂的新方法,基于不同的模型(GMM、SVM 等)生成標(biāo)簽權(quán)重,即語義多項(xiàng)分布(semantic multinomial distribution,SMN),再使用DMM 對(duì)每個(gè)標(biāo)簽的SMN 進(jìn)行建模。DMM 模型可以進(jìn)一步根據(jù)SMN中共同出現(xiàn)標(biāo)簽的可能性調(diào)整每個(gè)標(biāo)簽的SMN 權(quán)重,從而提高模型性能,結(jié)果表明DMM與GMM相結(jié)合效果最好。SMN的DMM概率分布如式(18)所示:

其中,Γ(·)表示伽馬函數(shù)。

DMM模型是建模過程中的第二個(gè)附加階段,通過對(duì)標(biāo)簽之間的上下文關(guān)系進(jìn)行建模來提升音樂自動(dòng)標(biāo)注性能。對(duì)比GMM,在標(biāo)注過程中,GMM模型僅僅是在對(duì)單獨(dú)標(biāo)簽進(jìn)行獨(dú)立建模,而DMM可以通過利用上下文相關(guān)信息來更加細(xì)化第一階段的標(biāo)注,并且DMM模型將在給定由其他共現(xiàn)標(biāo)簽提供上下文信息的情況下調(diào)整(減少或提高)每個(gè)標(biāo)簽的權(quán)重,進(jìn)一步增強(qiáng)后驗(yàn)概率估計(jì),提高標(biāo)注準(zhǔn)確率。

生成模型下的音樂自動(dòng)標(biāo)注可以更好地學(xué)習(xí)每個(gè)標(biāo)簽與音頻之間的相關(guān)性,與判別模型相比,生成模型只訓(xùn)練與語義標(biāo)簽相關(guān)的正樣本使模型直接對(duì)音頻分類,進(jìn)而標(biāo)注預(yù)測(cè),而判別模型還需訓(xùn)練負(fù)樣本來區(qū)分音頻類別,增加了時(shí)間成本。然而生成模型也存在缺點(diǎn):(1)每個(gè)標(biāo)簽都需轉(zhuǎn)化成獨(dú)立的語義模型進(jìn)行訓(xùn)練,當(dāng)標(biāo)簽存在多種類別時(shí)會(huì)使訓(xùn)練過程復(fù)雜,靈活性較差。(2)不同標(biāo)簽之間有關(guān)聯(lián)時(shí),可能會(huì)丟失上下文音頻信息。(3)數(shù)據(jù)集較大時(shí),生成模型的標(biāo)注性能劣于判別模型。Wang等人[41]結(jié)合生成模型和判別模型的優(yōu)點(diǎn),將生成RBM與判別RBM相結(jié)合組成混合判別玻爾茲曼機(jī)(hybrid discriminative restricted Boltzmann machines,HDRBM)進(jìn)行訓(xùn)練,從原始音頻中提取音色與旋律特征,加入Dropout正則化方法防止過擬合,對(duì)比SVM與MLP,正則化的HDRBM在MTAT數(shù)據(jù)集上的性能分別提高了2.9%、3.3%。

雖然機(jī)器學(xué)習(xí)方法目前取得了成功,但仍有一定的局限性:(1)音樂具有連續(xù)的非線性特點(diǎn)且音樂語義信息也極為復(fù)雜、抽象,而分類器是淺層結(jié)構(gòu),并沒有豐富的非線性變換,同時(shí)淺層結(jié)構(gòu)很難提取到復(fù)雜的語義信息,因此通過分類器來提高模型性能有一定阻礙。(2)對(duì)于分類器的濾波器選取、參數(shù)調(diào)整等問題,有時(shí)需要人工調(diào)整,這會(huì)消耗大量的時(shí)間成本且性能不穩(wěn)定。(3)音樂以分鐘來計(jì)算,而短時(shí)信號(hào)的時(shí)間間隔過短不能包含整首音樂。同時(shí),單獨(dú)音頻片段的標(biāo)簽不能代表整首音樂,需長(zhǎng)時(shí)間訓(xùn)練才能發(fā)現(xiàn)深層次信息。表4 總結(jié)了基于機(jī)器學(xué)習(xí)的不同模型方法對(duì)比。表5 給出了基于機(jī)器學(xué)習(xí)模型的不同方法性能對(duì)比。

表4 基于機(jī)器學(xué)習(xí)的不同模型方法對(duì)比Table 4 Comparison of different model methods based on machine learning

表5 基于機(jī)器學(xué)習(xí)模型的不同方法性能對(duì)比Table 5 Performance comparison of different methods based on machine learning models

4 基于深度學(xué)習(xí)的音樂自動(dòng)標(biāo)注方法

隨著深度學(xué)習(xí)的逐步發(fā)展,如今不同的神經(jīng)網(wǎng)絡(luò)已成功應(yīng)用于自然語言處理[42]與計(jì)算機(jī)視覺[43]等領(lǐng)域,研究人員使用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等不同網(wǎng)絡(luò)提高相關(guān)任務(wù)性能,并逐漸將其應(yīng)用于音樂自動(dòng)標(biāo)注任務(wù)。

音樂數(shù)據(jù)信息通常以多種模態(tài)存在,下面對(duì)不同模態(tài)下的音樂自動(dòng)標(biāo)注研究成果與特點(diǎn)進(jìn)行梳理和分析。音頻信號(hào)是音樂主要組成部分,目前大部分工作是在音頻模態(tài)下進(jìn)行,文章重點(diǎn)圍繞面向音頻模態(tài)的音樂自動(dòng)標(biāo)注進(jìn)行深入探討。

4.1 面向音頻模態(tài)的音樂自動(dòng)標(biāo)注

4.1.1 卷積神經(jīng)網(wǎng)絡(luò)方法

卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型可以分層學(xué)習(xí)特征且在時(shí)間和空間上具有平移不變性,在音樂自動(dòng)標(biāo)注中,可利用CNN 不變性來克服音頻信號(hào)本身的多樣性。大多數(shù)音樂自動(dòng)標(biāo)注使用CNN或其變體對(duì)音樂進(jìn)行標(biāo)注預(yù)測(cè)。CNN 主要由輸入層、卷積層、池化層、全連接層和輸出層所構(gòu)成,其中卷積層、池化層與全連接層統(tǒng)稱為隱藏層。通常將音頻信號(hào)的原始特征(梅爾頻譜圖、原始波形等)作為CNN輸入,通過CNN隱藏層表示音頻原始特征與標(biāo)簽之間的映射關(guān)系。其中,卷積層與池化層可學(xué)習(xí)到深層次且合適的特征向量,全連接層用于預(yù)測(cè)音頻所標(biāo)注的置信度,采用ReLU作為除輸出層之外每層卷積的激活函數(shù),并使用sigmoid函數(shù)將輸入壓縮在[0,1]之間,在每次卷積之后與激活之前添加批歸一化,并在每個(gè)池化層之后添加Dropout。

使用CNN模型一定程度上避免尋找與任務(wù)相關(guān)的音頻特征問題。Dieleman 等人[28]將經(jīng)典1D-CNN模型應(yīng)用于音樂自動(dòng)標(biāo)注。為了使特征與相關(guān)任務(wù)更好地關(guān)聯(lián),Choi等人[20]提出了一種基于深度全卷積網(wǎng)絡(luò)模型(fully convolutional networks,F(xiàn)CN)。FCN模型僅由卷積層與子采樣組成,卷積核大小尺寸為3×3,沒有任何全連接層,通過共享權(quán)值來減少參數(shù)數(shù)量,更大程度發(fā)揮CNN的優(yōu)勢(shì),該方法的性能值超過1D-CNN模型的0.012。FCN不僅最大化卷積網(wǎng)絡(luò)優(yōu)勢(shì)且系統(tǒng)不易過擬合,雖可以減少參數(shù)數(shù)量,但它將全連接網(wǎng)絡(luò)變成卷積層的操作使音頻空間缺乏一致性,進(jìn)而導(dǎo)致模型不能精細(xì)地對(duì)音樂進(jìn)行標(biāo)注預(yù)測(cè)。Tang[44]為了保留音樂中的空間特征,將膠囊網(wǎng)絡(luò)應(yīng)用于音樂自動(dòng)標(biāo)注,相較CNN方法,膠囊網(wǎng)絡(luò)可以通過協(xié)議路由機(jī)制提取空間特征來進(jìn)行更全面化預(yù)測(cè)。

目前,基于CNN 模型的音樂自動(dòng)標(biāo)注主要對(duì)以下方面進(jìn)行研究與探索:

(1)提高模型性能與計(jì)算效率。音樂自動(dòng)標(biāo)注任務(wù)最根本的目標(biāo)是提高模型性能,而一些模型會(huì)存在效率低、計(jì)算量大等問題,高效率地提高系統(tǒng)性能也是目前所攻克的問題。Kim等人[45]在文獻(xiàn)[29]的基礎(chǔ)上對(duì)樣本級(jí)CNN 模型堆疊ResNet 和SENet,以此來進(jìn)行多級(jí)特征聚合,對(duì)比原始樣本級(jí)CNN模型,該方法在MTAT 數(shù)據(jù)集上標(biāo)注性能提高到0.911 3。堆疊多層的樣本級(jí)CNN 模型可提高系統(tǒng)性能,但模型的層數(shù)太深使計(jì)算量過大。Yu等人[46]將WaveNet[47]塊與SENet塊的分層卷積層相結(jié)合,改進(jìn)后的模型不僅可以擴(kuò)大感受野,還可以提高計(jì)算效率,訓(xùn)練時(shí)間更少,模型也獲得更多層次的特征向量。

(2)獲取更多特征信息。音樂自動(dòng)標(biāo)注需要對(duì)整首音樂預(yù)測(cè)標(biāo)簽,僅通過對(duì)幾秒鐘的音樂片段附上標(biāo)簽顯然不具有整體性。針對(duì)此問題,Lee等人[48]使用不同大小的CNN 捕獲局部音頻特征,并從每一層卷積層中提取音頻特征,將它們聚合為長(zhǎng)音頻,實(shí)驗(yàn)證明這種方法在多層級(jí)、多尺度的音樂自動(dòng)標(biāo)注上是有效的。Liu等人[49]使用FCN模型架構(gòu),在輸出層前添加累積層,累積層是通過添加高斯濾波器實(shí)現(xiàn)的,其作用是隨著時(shí)間的推移總結(jié)前一層所做的預(yù)測(cè),更有效地捕獲整體音樂的上下文信息。

(3)解決標(biāo)簽噪音問題。音樂標(biāo)簽在音樂自動(dòng)標(biāo)注中的作用越來越重要,而在多標(biāo)簽音樂數(shù)據(jù)集中存在噪音問題。Choi 等人[50]對(duì)噪音的產(chǎn)生做深入研究,在MSD數(shù)據(jù)集上對(duì)標(biāo)簽噪音進(jìn)行分析。首先,通過標(biāo)簽共現(xiàn)方法發(fā)現(xiàn),只有39%的“獨(dú)立搖滾”標(biāo)簽被同時(shí)標(biāo)注為“搖滾”標(biāo)簽,其余標(biāo)簽則會(huì)因缺少標(biāo)注信息被標(biāo)注為“非搖滾”標(biāo)簽,因此缺少標(biāo)簽是造成噪聲的原因之一;其次,對(duì)該數(shù)據(jù)集中子集(正確標(biāo)注)的標(biāo)簽進(jìn)行噪聲統(tǒng)計(jì)與精確率、召回率計(jì)算,實(shí)驗(yàn)表明標(biāo)簽噪聲主要分布在負(fù)標(biāo)簽上,且不同標(biāo)簽的噪聲差異與標(biāo)注能力有關(guān),標(biāo)注能力越低的標(biāo)簽在數(shù)據(jù)集中存在更多錯(cuò)誤的負(fù)標(biāo)注;最后,使用不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)不同類別的不同標(biāo)簽測(cè)試,證明了標(biāo)簽噪聲會(huì)對(duì)網(wǎng)絡(luò)訓(xùn)練產(chǎn)生不良影響。由上可知,標(biāo)簽分類體系異構(gòu)、不同主觀性標(biāo)注使信息不足等情況會(huì)導(dǎo)致標(biāo)簽缺失、標(biāo)注較差等問題,進(jìn)而使標(biāo)簽產(chǎn)生噪聲。并且由用戶標(biāo)注的部分?jǐn)?shù)據(jù)集標(biāo)簽會(huì)出現(xiàn)標(biāo)簽標(biāo)錯(cuò)、某類別標(biāo)簽過度使用、樣本標(biāo)簽不平衡等問題,使其產(chǎn)生弱標(biāo)注,同樣會(huì)導(dǎo)致標(biāo)簽產(chǎn)生噪音。Wang等人[51]提出標(biāo)簽深度分析法,通過卷積操作與表示學(xué)習(xí)方法來降低噪聲數(shù)據(jù),以此挖掘標(biāo)簽和音樂之間更深層的關(guān)系。Lu 等人[52]提出了雙教師-學(xué)生模型,第一個(gè)教師模型過濾掉明顯標(biāo)簽噪聲,第二個(gè)教師模型防止學(xué)生模型在其余數(shù)據(jù)上過度擬合標(biāo)簽噪聲。該方法提高了標(biāo)簽準(zhǔn)確性與泛化能力,并且兩個(gè)教師模型監(jiān)督一個(gè)學(xué)生模型的方法最大程度上保護(hù)學(xué)生模型不受標(biāo)簽噪聲的影響。損失函數(shù)如式(20)所示:

其中,Lmask表示平衡掩蔽方法,其目的是防止模型被負(fù)樣本主導(dǎo),緩解數(shù)據(jù)平衡的問題;Lcon表示教師模型所提供的一致監(jiān)督性;β(T)表示隨迭代次數(shù)T變化以平衡噪聲數(shù)據(jù)和一致性約束之間的權(quán)重。Lmask、Lcon、β(T)分別如式(22)、(23)、(24)所示:

其中,βmax是β(T)的上限;T0表示加速迭代次數(shù);γ表示控制加速曲線斜率。

以上方法均是對(duì)網(wǎng)絡(luò)模型進(jìn)行改進(jìn),在解決噪音的同時(shí)提高音樂自動(dòng)標(biāo)注系統(tǒng)的性能,然而這些方法的系統(tǒng)性能均取決于訓(xùn)練數(shù)據(jù)的質(zhì)量,且在測(cè)試時(shí)也僅將“用戶最常使用的”前50 個(gè)標(biāo)簽作為參考,這會(huì)使一些冷門標(biāo)簽得不到使用,導(dǎo)致標(biāo)簽出現(xiàn)長(zhǎng)尾形狀。為了使每首音樂與更多潛在相關(guān)的標(biāo)簽關(guān)聯(lián)起來,提高標(biāo)簽利用率,Lin 等人[53]在樣本級(jí)CNN 模型上構(gòu)建標(biāo)簽傳播方法,標(biāo)簽傳播可為音頻生成相關(guān)標(biāo)簽并移除不正確標(biāo)簽,繼而減少噪聲標(biāo)簽的影響。首先利用播放列表這一音樂背景在相鄰歌曲之間共享標(biāo)簽,并通過多任務(wù)目標(biāo)函數(shù)優(yōu)化自動(dòng)標(biāo)注模型,該方法將之前經(jīng)常使用的前50 個(gè)標(biāo)簽擴(kuò)展到1 000個(gè)標(biāo)簽。給定輸入音樂s和被選擇的播放列表,被選擇音樂s′的概率如式(25)所示:

其中,d(s′,s)代表輸入音樂s與被選擇音樂s′之間的距離;r表示概率搜索范圍,即控制播放列表p~ 中下一個(gè)相鄰音樂被訪問的概率,r=0 即傳播更多附近音樂標(biāo)簽,反之亦然。

損失函數(shù)如式(26)所示:

其中,第一個(gè)求和項(xiàng)表示原始二值交叉熵;第二個(gè)求和項(xiàng)表示支持二值交叉熵;P(s′|s)表示支持目標(biāo)函數(shù),如式(27)所示:

然而該方法會(huì)部分存在錯(cuò)誤標(biāo)注標(biāo)簽,導(dǎo)致音頻與標(biāo)簽之間存在弱連接問題,同義詞標(biāo)簽分配給不同對(duì)象,進(jìn)而使標(biāo)簽在數(shù)據(jù)集中鏈接到不同音頻,導(dǎo)致相關(guān)標(biāo)簽與音頻之前的鏈接丟失問題,這些問題均會(huì)使標(biāo)簽產(chǎn)生噪聲。Lin等人[54]在樣本級(jí)CNN、FCN與CRNN三種模型上利用所有的音樂背景來確定相似歌曲,進(jìn)一步擴(kuò)大標(biāo)簽傳播范圍,并將成本敏感值γ與速率α納入損失函數(shù)中,使損失函數(shù)歸于無關(guān)(負(fù))鏈接并通過調(diào)整相關(guān)(正)鏈接對(duì)無關(guān)(負(fù))鏈接的權(quán)重來增強(qiáng)魯棒性,繼而減少標(biāo)簽缺失。損失函數(shù)如式(28)所示:

其中,ys∈{0,1}|T|,若對(duì)應(yīng)標(biāo)簽與音樂s相關(guān)則為1,反之為0,ys[t]=1(0),則音樂s與標(biāo)簽t相關(guān)聯(lián)的y~s[t]相關(guān)性增加(減少);α∈[0,1]表示傳播速率;γ∈[0,2]表示正鏈接的敏感值,2-γ表示負(fù)鏈接的敏感值;P(s′|s)表示給出音樂s,其他音樂選為s~ 的概率,如式(29)所示:

其中,U為上下文信息元素集合;Us是U的子集,只包含與s連接的元素;Su是鏈接到u的一組音樂;Us~是鏈接到s~ 的一組上下文元素。

為驗(yàn)證在不同影響下的標(biāo)注性能,研究人員對(duì)不同模型進(jìn)行對(duì)比實(shí)驗(yàn)。Won 等人[55]針對(duì)音樂自動(dòng)標(biāo)注中不同模型的軟件版本與數(shù)據(jù)集不同的問題,進(jìn)行了有關(guān)時(shí)間拉伸、音調(diào)偏移等泛化能力的實(shí)驗(yàn),實(shí)驗(yàn)表明諧波CNN[56]在所有方面都表現(xiàn)出了最好的性能與泛化能力。通過以上討論與分析可知CNN可以解決不同問題,面對(duì)提高模型性能與獲取更多特征信息問題,需通過堆疊濾波器深度或增加不同濾波器來擴(kuò)大感受野,進(jìn)而可提取更多復(fù)雜特征,然而這些方式雖在一定程度上提升性能,但會(huì)使層級(jí)太深,需要的硬件設(shè)施需更強(qiáng)大,并且提升效果并不明顯。面對(duì)噪音問題,則主要有兩種解決思路:(1)調(diào)整模型架構(gòu),該方法需調(diào)整模型參數(shù)或增加功能性模塊來提高模型的魯棒性,然而該方法僅是通過網(wǎng)絡(luò)模型過濾掉噪音標(biāo)簽,對(duì)于標(biāo)簽的弱標(biāo)注問題并未得到根本性解決。(2)改善標(biāo)簽弱標(biāo)注問題,該方法在原有模型架構(gòu)的基礎(chǔ)上對(duì)標(biāo)簽的標(biāo)錯(cuò)、標(biāo)少等問題進(jìn)行處理或增加標(biāo)簽的使用率來進(jìn)一步提高標(biāo)注正確性,進(jìn)而解決由弱標(biāo)注產(chǎn)生的噪音問題,然而當(dāng)所有標(biāo)簽均與上下文進(jìn)行關(guān)聯(lián)時(shí)會(huì)導(dǎo)致標(biāo)注性能下降,因此還需進(jìn)一步改進(jìn)。CNN 通過最大池化增加整體感受野的大小,以此來捕獲局部和全局特征,它需要學(xué)習(xí)的參數(shù)比其他網(wǎng)絡(luò)架構(gòu)要少很多,且可降低模型復(fù)雜度,增強(qiáng)音樂自動(dòng)標(biāo)注泛化能力,避免手工提取特征帶來的誤差,提升系統(tǒng)的標(biāo)注性能。但CNN 在特征提取過程中會(huì)損失結(jié)構(gòu)信息且CNN實(shí)際感受野遠(yuǎn)小于理論感受野。另外音樂是序列數(shù)據(jù)的形式,一些聲學(xué)特性標(biāo)簽局部出現(xiàn)就可感受到(例如樂器類別標(biāo)簽),而一些其他特性則需長(zhǎng)序列感受(例如情緒、流派類別標(biāo)簽),CNN更善于挖掘語義中的深層次特征,在捕獲長(zhǎng)距離特征方面性能較弱,并且CNN 模型設(shè)計(jì)成本較高。表6 總結(jié)了基于CNN模型的不同方法。

表6 基于CNN模型的不同方法對(duì)比Table 6 Comparison of different methods under CNN-based model

4.1.2 序列建模方法

音樂具有關(guān)聯(lián)性與連續(xù)性等特點(diǎn),需對(duì)音頻數(shù)據(jù)進(jìn)行序列化處理,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neuralnetwork,RNN)將隱藏層之間的節(jié)點(diǎn)連接,保證前一時(shí)刻的信息可以傳遞到下一時(shí)刻,避免信息丟失[57-58],從而更好地處理時(shí)間序列數(shù)據(jù)。Choi等人[59]將RNN應(yīng)用于音樂自動(dòng)標(biāo)注,使FCN 與RNN 相結(jié)合,得到CRNN。為了獲取全局特征,將RNN 替換最后一層CNN卷積層進(jìn)行特征聚合,剩余的CNN提取局部特征,對(duì)比FCN,該模型系統(tǒng)性能值提升至0.862。雖然CRNN的性能有所提升,但對(duì)于長(zhǎng)時(shí)間的序列建模問題,需要CNN堆疊較深的卷積層,這使時(shí)間分辨率下降,且長(zhǎng)序列RNN存在計(jì)算量大、梯度消失或爆炸等問題。RNN 的許多衍生模型,例如長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、門控循環(huán)單元(gated recurrent unit,GRU)可以避免這些問題。Song等人[60]使用五層GRU,并將自注意力機(jī)制添加到最后一層CNN 中提高音樂自動(dòng)標(biāo)注性能。GRU 作為RNN 的變體,解決了RNN 中梯度消失及爆炸的問題并減少參數(shù),更好地處理時(shí)間序列。Wang 等人[61-62]將GRU與CNN 融合,首先將原始波形與梅爾頻譜圖作為模型的輸入,以此對(duì)音樂進(jìn)行表示學(xué)習(xí),其次使用Bi-LSTM提取兩種輸入之間的時(shí)序相關(guān)性,最后使用注意力機(jī)制聚合音樂片段特征向量來預(yù)測(cè)音樂標(biāo)簽。上述模型均將注意力機(jī)制與RNN及衍生模型結(jié)合來捕獲更多特征信息,注意力機(jī)制參數(shù)少,復(fù)雜度低,可以捕獲長(zhǎng)時(shí)間特征且關(guān)注長(zhǎng)特征中的特定部分[63],將二者結(jié)合可進(jìn)一步提高標(biāo)注性能,但RNN 及衍生模型存在序列依賴的問題,訓(xùn)練速度受到限制,并行計(jì)算能力不強(qiáng)。為此,Won等人[64]提出了Transformer模型架構(gòu),利用半監(jiān)督方法通過訓(xùn)練學(xué)生模型來提高標(biāo)注性能,當(dāng)增加知識(shí)擴(kuò)展與知識(shí)蒸餾方法時(shí)可進(jìn)一步增強(qiáng)模型性能,使用知識(shí)蒸餾的性能值在MSD數(shù)據(jù)集上高達(dá)0.921 7,優(yōu)于之前模型。Zhao等人[65]使用Transformer 的衍生模型Swin-Transformer,利用自監(jiān)督方法進(jìn)行預(yù)測(cè)標(biāo)注,Swin-Transformer 可在分層分割的頻譜圖中提取多分辨率的時(shí)頻特征,提取更多有意義特征。Transformer 模型架構(gòu)對(duì)比RNN及衍生模型,訓(xùn)練時(shí)間更少,可以在整體上處理音頻片段而非依賴之前音頻信息,不存在丟失音頻特征信息的問題;對(duì)比CNN模型方法,Transformer模型能夠利用自注意力捕獲長(zhǎng)距離依賴關(guān)系,長(zhǎng)距離特性使模型捕獲全局信息的能力更強(qiáng),此外Transformer 模型中的多頭注意力和位置嵌入等功能均可提供不同音頻之間的信息。然而Transformer模型雖然能夠捕獲更加豐富的全局上下文信息,但是不能有效應(yīng)對(duì)音樂的實(shí)時(shí)變化,且訓(xùn)練需要大量的時(shí)間成本,不能滿足實(shí)時(shí)性需求。

使用序列建模方法從更符合音頻知識(shí)的角度學(xué)習(xí)音樂序列特性,對(duì)音樂自動(dòng)標(biāo)注進(jìn)行改進(jìn)。但由于音樂具有時(shí)序性,音樂會(huì)隨著時(shí)間的變換而變化,細(xì)粒度的標(biāo)注很難獲取。表7 總結(jié)了基于序列建模的不同方法對(duì)比。

表7 基于序列建模的不同方法對(duì)比Table 7 Comparison of different methods under sequence-based modeling

面向音頻模態(tài)的音樂自動(dòng)標(biāo)注是目前人們解決問題最常使用的方法,但音樂的多樣性僅通過音頻提取數(shù)據(jù)信息仍不夠全面。表8 給出了基于深度學(xué)習(xí)的不同方法性能對(duì)比。

表8 基于深度學(xué)習(xí)的不同方法性能對(duì)比Table 8 Performance comparison of different methods based on deep learning

4.2 面向多模態(tài)的音樂自動(dòng)標(biāo)注

音頻模態(tài)下的音樂自動(dòng)標(biāo)注只能提取聲音的信息特征,而對(duì)于音樂來說,歌詞的文本信息與音樂視頻的圖像信息也是關(guān)鍵特征之一,為了提取更全面的特征,研究人員使用音頻與文本結(jié)合的方式對(duì)音樂進(jìn)行多模態(tài)標(biāo)注。Yang[68]在音頻模態(tài)下使用CNN模型完成流派與樂器類別的標(biāo)注并提出不同的卷積方式,其中卷積方式K4是將局部橫向卷積核滑動(dòng),其覆蓋區(qū)域包含一個(gè)頻率和多個(gè)時(shí)間幀,實(shí)驗(yàn)證明K4卷積方式的性能最佳。在歌詞文本處理方面使用了ALBERT 得到歌詞向量表示,再通過注意力機(jī)制和TextCNN 獲得全局信息,通過標(biāo)簽詞典獲得局部特征,進(jìn)而對(duì)情感進(jìn)行標(biāo)簽標(biāo)注。該方法在文本與音頻模態(tài)均進(jìn)行了標(biāo)注,但并沒有將兩種模態(tài)做到真正的融合。Han[69]在音頻模態(tài)中將CNN 與LSTM 相結(jié)合形成混合網(wǎng)絡(luò)結(jié)構(gòu),在文本方面使用CBOW(continuous bag of words)模型對(duì)語料庫(kù)進(jìn)行無監(jiān)督訓(xùn)練,構(gòu)建詞嵌入字典,查找對(duì)應(yīng)詞向量,并按照歌詞內(nèi)容對(duì)詞向量進(jìn)行順序拼接作為神經(jīng)網(wǎng)絡(luò)的輸入,最后為防止兩種模態(tài)在融合時(shí)出現(xiàn)冗余相差較大等問題,對(duì)輸入音頻特征加入規(guī)范化操作。結(jié)果表明,多模態(tài)音樂自動(dòng)標(biāo)注的性能值達(dá)到0.815 6,比音頻模態(tài)的性能提升了0.022,比文本模態(tài)提升了0.102 8。Wang 等人[70]在音頻模態(tài)下使用CRNN 模型,文本模態(tài)使用卷積循環(huán)注意分層注意循環(huán)神經(jīng)網(wǎng)絡(luò)(convolutional recurrent attention hierarchical attention recurrent neural network,CRAHARNN),利用早期融合與晚期融合兩種方法將歌詞特征與音頻提取特征相融合。早期融合是將不同的數(shù)據(jù)特征組合輸入到同一個(gè)模型,晚期融合是用不同來源的數(shù)據(jù)訓(xùn)練各自的預(yù)測(cè)模型,再利用融合函數(shù)對(duì)預(yù)測(cè)值進(jìn)行融合,最后采取多任務(wù)學(xué)習(xí)方法來學(xué)習(xí)標(biāo)簽之間的相關(guān)性。實(shí)驗(yàn)證明,該方法比僅使用音頻數(shù)據(jù)的單任務(wù)學(xué)習(xí)性能更好,且早期融合方法性能略優(yōu)于晚期融合。

以上方法表明,音頻與文本模態(tài)相結(jié)合的多模態(tài)是通過文本模態(tài)對(duì)標(biāo)簽進(jìn)行處理或者對(duì)情感語義詞進(jìn)行挖掘,音頻模態(tài)主要對(duì)音樂標(biāo)注流派、樂器等類別標(biāo)簽,且需通過整段音頻進(jìn)行標(biāo)注確認(rèn)。多模態(tài)獲取到的特征比單模態(tài)更全面,但當(dāng)兩種模態(tài)相結(jié)合時(shí),音頻信息的冗余度、數(shù)據(jù)量與淺層特征向量維度比文本信息大,學(xué)習(xí)模型會(huì)著重學(xué)習(xí)音頻特征導(dǎo)致文本信息丟失,進(jìn)而使模型成本較大,仍有很大的提升空間。而在電影或音頻視頻中可以通過視覺場(chǎng)景來描繪潛在的音樂情感,因此Avramidis等人[71]將音頻與圖像模態(tài)結(jié)合,提出VCMR(video-conditioned music representations)模型,使用自我監(jiān)督的多模態(tài)框架在音樂音頻上進(jìn)行訓(xùn)練,并以官方視頻發(fā)布中的伴隨視覺背景為條件,利用音樂視頻的上下文信息來增強(qiáng)音頻音樂表征。表9 總結(jié)了多模態(tài)下不同方法對(duì)比,表10給出了多模態(tài)中不同方法性能對(duì)比。

表10 多模態(tài)下不同方法性能對(duì)比Table 10 Performance comparison of different methods under multimodal

深度學(xué)習(xí)下的音樂自動(dòng)標(biāo)注方法與之前的模型相比,具有非線性的特點(diǎn),且基于深度學(xué)習(xí)模型提取到的音頻特征泛化能力很強(qiáng),目前大多數(shù)研究均基于深度學(xué)習(xí)模型展開。然而,深度學(xué)習(xí)模型也存在局限性:(1)模型對(duì)硬件設(shè)施的依賴性較大,硬件成本較高。(2)無法跳出傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)模型,很難設(shè)計(jì)性能高、泛化能力高的模型框架。(3)對(duì)模型結(jié)構(gòu)的調(diào)參以及如何使模型收斂缺乏理論指導(dǎo)依據(jù)?;诖耍蟛糠盅芯考杏趯?duì)模型結(jié)構(gòu)的改進(jìn)。

根據(jù)上述音樂自動(dòng)標(biāo)注性能可以看出,最好的系統(tǒng)AUC 值為0.92 左右,且每一次的上升幅度并不明顯,對(duì)比音樂流派分類的分類準(zhǔn)確率目前已高達(dá)0.967[72],其主觀原因有:(1)評(píng)價(jià)指標(biāo)不同。準(zhǔn)確率是音樂流派分類的主要評(píng)價(jià)指標(biāo),而AUC 值是目前音樂自動(dòng)標(biāo)注的主要評(píng)價(jià)指標(biāo)。不同評(píng)價(jià)指標(biāo)對(duì)模型的評(píng)判標(biāo)準(zhǔn)不一樣,且準(zhǔn)確率雖可作為音樂自動(dòng)標(biāo)注的評(píng)價(jià)標(biāo)準(zhǔn),但音樂自動(dòng)標(biāo)注的數(shù)據(jù)集樣本存在不平衡問題,當(dāng)某一類樣本數(shù)量明顯過大時(shí),其類別會(huì)成為影響準(zhǔn)確率的最主要因素。(2)數(shù)據(jù)集不同。大多數(shù)音樂流派分類使用GTZAN 數(shù)據(jù)集[73],而音樂自動(dòng)標(biāo)注大多在MTAT數(shù)據(jù)集下進(jìn)行。GTZAN數(shù)據(jù)集標(biāo)簽均衡且僅有10 個(gè)流派類別標(biāo)簽,每類流派標(biāo)簽均有100首音樂作品,MTAT數(shù)據(jù)集有上萬條音頻數(shù)據(jù)且標(biāo)簽分配不均勻,因此當(dāng)數(shù)據(jù)量不同時(shí),計(jì)算量與效率也不同。

其宏觀原因可能有:(1)起步晚。音樂自動(dòng)標(biāo)注的第一次出現(xiàn)是2007 年,而流派分類早在2002 年就已出現(xiàn),音樂自動(dòng)標(biāo)注的前期研究較少。(2)類別多。音樂自動(dòng)標(biāo)注是多標(biāo)簽分類任務(wù),會(huì)出現(xiàn)計(jì)算量大、類別標(biāo)簽互相依賴等問題,導(dǎo)致系統(tǒng)性能提升不夠明顯。(3)針對(duì)性弱。由于音樂自動(dòng)標(biāo)注需要為多種類別進(jìn)行分類,會(huì)出現(xiàn)效率低、輸出空間爆炸增長(zhǎng)等問題,因此當(dāng)完成自動(dòng)標(biāo)注任務(wù)時(shí),不會(huì)僅針對(duì)性能方面進(jìn)行改進(jìn),需更全面地考慮可能發(fā)生的情況。雖然音樂自動(dòng)標(biāo)注系統(tǒng)性能提升效果不夠明顯,但發(fā)展前景與實(shí)際應(yīng)用價(jià)值高,并且逐步提升的系統(tǒng)性能也為此帶來了很大動(dòng)力。

5 音樂自動(dòng)標(biāo)注常用公開數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

5.1 音樂自動(dòng)標(biāo)注常用公開數(shù)據(jù)集

音樂自動(dòng)標(biāo)注數(shù)據(jù)集包含大量音頻片段與多種類別標(biāo)簽,是進(jìn)行音樂自動(dòng)標(biāo)注的數(shù)據(jù)基礎(chǔ)。

(1)MTAT數(shù)據(jù)集

MTAT 數(shù)據(jù)集是音樂自動(dòng)標(biāo)注領(lǐng)域最常使用的公開數(shù)據(jù)集[74]。該數(shù)據(jù)集共有25 863條音頻數(shù)據(jù),每條數(shù)據(jù)大約29.1 s,均以MP3 格式發(fā)布,比特率為32 Kbit/s,采樣率為16 kHz,音樂標(biāo)簽共188個(gè),其中包括流派、情感、樂器、年代等標(biāo)簽。數(shù)據(jù)集被分為16 個(gè)文件夾,前12 個(gè)文件夾為訓(xùn)練集,第13 個(gè)文件夾為驗(yàn)證集,剩余3 個(gè)文件夾為測(cè)試集[75]。它通過Tag A Tune闖關(guān)游戲向玩家收集音樂標(biāo)簽,只有兩名玩家同時(shí)給出相同的音樂標(biāo)簽,游戲才能通關(guān)。游戲設(shè)計(jì)者通過該游戲收集到大量音樂標(biāo)簽并整理成MTAT數(shù)據(jù)集,該方法收集到的標(biāo)簽也提高了標(biāo)注準(zhǔn)確性。

(2)MSD數(shù)據(jù)集

MSD 數(shù)據(jù)集是目前世界上最大的音樂數(shù)據(jù)集,也是目前音樂自動(dòng)標(biāo)注常用數(shù)據(jù)集之一[76]。該數(shù)據(jù)集是世界各個(gè)音樂社區(qū)音樂數(shù)據(jù)集的集合體,包括SecondHandSongs 數(shù)據(jù)集、musiXmatch 數(shù)據(jù)集、Last.fm 數(shù)據(jù)集、tagtraum 流派標(biāo)注數(shù)據(jù)集等,它提供了免費(fèi)的音頻和元數(shù)據(jù)。該數(shù)據(jù)集共有100萬條數(shù)據(jù),共占用了280 GB 的存儲(chǔ)空間,其中每條數(shù)據(jù)約1 MB,均以MP3 格式發(fā)布,比特率約64~128 Kbit/s,采樣率約22 kHz或44 kHz。音樂標(biāo)簽包括流派、年代、藝術(shù)家、專輯封面、歌曲名稱、歌詞、用戶聽歌歷史等標(biāo)簽。

(3)CAL500數(shù)據(jù)集

CAL500數(shù)據(jù)集由Turnbull等人于2008年創(chuàng)建[77]。由于其他數(shù)據(jù)集是聽眾用戶標(biāo)注,用戶的音樂專業(yè)性不強(qiáng),出現(xiàn)了標(biāo)注錯(cuò)誤、很少情況考慮為音樂標(biāo)注負(fù)相關(guān)標(biāo)簽等問題,這些問題使數(shù)據(jù)集產(chǎn)生“弱標(biāo)注”,導(dǎo)致數(shù)據(jù)集中標(biāo)簽-音頻矩陣的0值代表“未知”而非“不適用”,而學(xué)習(xí)模型會(huì)將“未知”標(biāo)簽認(rèn)為是“不適用”的負(fù)相關(guān)標(biāo)簽從而產(chǎn)生噪音。而CAL500數(shù)據(jù)集收錄了由500 名西方藝術(shù)家創(chuàng)作的500 首西方流行音樂,是“強(qiáng)標(biāo)注”數(shù)據(jù)集。該數(shù)據(jù)集共有1 700 條音頻數(shù)據(jù),包含174 個(gè)音樂標(biāo)簽,分別為流派、情感、樂器、場(chǎng)景用途、人聲特點(diǎn)等標(biāo)簽,且對(duì)音樂正相關(guān)與負(fù)相關(guān)的屬性標(biāo)簽均有描述。CAL500數(shù)據(jù)集提供了兩種標(biāo)注規(guī)則:

①二元標(biāo)注。根據(jù)基本事實(shí)標(biāo)注標(biāo)簽,若標(biāo)簽已標(biāo)注該音樂,則標(biāo)簽標(biāo)注值為1,反之,值為0。

②軟標(biāo)注。每個(gè)音樂片段均有3 人以上依照標(biāo)注規(guī)則標(biāo)注。首先,標(biāo)注人員認(rèn)為某標(biāo)簽符合音樂片段(正相關(guān))則將標(biāo)注值附為1,反之(負(fù)相關(guān)),值為-1,若不確定,值為0。其次,將所有的標(biāo)注值取平均,得到音樂對(duì)應(yīng)標(biāo)簽的最終權(quán)重,若權(quán)值為負(fù),則取值0。

(4)MTG數(shù)據(jù)集

MTG 數(shù)據(jù)集是最新用于音樂自動(dòng)標(biāo)注的數(shù)據(jù)集[78],由Jamendo平臺(tái)在2019年構(gòu)建。該數(shù)據(jù)集包含55 701條數(shù)據(jù),每個(gè)片段數(shù)據(jù)最少在30 s以上且均以比特率為320 Kbit/s的MP3格式發(fā)布,較大的比特率使編碼質(zhì)量更高,音質(zhì)更好。音樂標(biāo)簽共195 個(gè),包含流派、情感、樂器等,所有標(biāo)簽均由被收錄音樂的藝術(shù)家所提供,提高了標(biāo)簽準(zhǔn)確性與專業(yè)性。由于數(shù)據(jù)集是最新發(fā)布,僅有少數(shù)研究人員使用該數(shù)據(jù)集驗(yàn)證模型性能。

由于多標(biāo)簽音樂自動(dòng)標(biāo)注的輸出集合標(biāo)簽高達(dá)2k個(gè),如此龐大的數(shù)據(jù)量使計(jì)算成本急劇加大,需限制標(biāo)簽數(shù)量來緩解該問題。因此,在音樂自動(dòng)標(biāo)注數(shù)據(jù)集中通常使用“前N個(gè)用戶最常使用”的前K個(gè)標(biāo)簽作為標(biāo)注依據(jù)[79]。表11歸納了常用公開音樂自動(dòng)標(biāo)注數(shù)據(jù)集。

表11 公開音樂自動(dòng)標(biāo)注數(shù)據(jù)集總結(jié)Table 11 Summary of open music automatic annotation datasets

5.2 音樂自動(dòng)標(biāo)注評(píng)價(jià)指標(biāo)

音樂自動(dòng)標(biāo)注評(píng)價(jià)指標(biāo)是預(yù)測(cè)模型優(yōu)劣最直觀的表達(dá),目前有兩種類型評(píng)價(jià)指標(biāo)。

(1)二元評(píng)價(jià)

二元評(píng)價(jià)是將每個(gè)標(biāo)簽均看作一個(gè)二分類問題,即判斷標(biāo)簽是正確或錯(cuò)誤,從而預(yù)測(cè)正確的概率。二元評(píng)價(jià)通常采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1-measure 值作為模型的評(píng)價(jià)指標(biāo)。

準(zhǔn)確率定義如式(30)所示:

其中,TP(true positive)表示音頻樣本屬于正例且預(yù)測(cè)為正例,TN(true negative)表示音頻樣本屬于負(fù)例且預(yù)測(cè)為負(fù)例,F(xiàn)P(false positive)表示音頻樣本屬于負(fù)例但預(yù)測(cè)為正例,F(xiàn)N(false negative)表示音頻樣本屬于正例但預(yù)測(cè)為負(fù)例,TP+TN+FP+FN為音頻樣本總數(shù)。準(zhǔn)確率是衡量測(cè)試集所有音頻預(yù)測(cè)為正例的比例。雖然準(zhǔn)確率可以判斷總體的正確率,但在樣本不平衡的情況下,不能作為準(zhǔn)確的衡量標(biāo)準(zhǔn)。

精確率定義如式(31)所示:

精確率是衡量學(xué)習(xí)模型預(yù)測(cè)為正例的音頻中真正正例的比例。精確率可使預(yù)測(cè)結(jié)果準(zhǔn)確性進(jìn)一步提升。

召回率定義如式(32)所示:

召回率是衡量真正正例中被學(xué)習(xí)模型預(yù)測(cè)為正例的比例。

F1值定義如式(33)所示:

其中,P為精確率,R為召回率。F1 值與精確率和召回率密切相關(guān),二者值越高,F(xiàn)1 值越高,但從上述公式可知,兩者是相互制約的關(guān)系。因此,F(xiàn)1 值是精確率與召回率的調(diào)和均值,且F1值越高,模型越有效。

二元評(píng)價(jià)是判斷預(yù)測(cè)音頻樣本正例的概率,根據(jù)需求為學(xué)習(xí)模型設(shè)置閥值,若概率大于閥值則為正例,反之為負(fù)例。然而,當(dāng)閥值較小時(shí),預(yù)測(cè)為正例的概率則會(huì)增大,使數(shù)據(jù)產(chǎn)生不平衡性,僅用二元評(píng)價(jià)指標(biāo)不能準(zhǔn)確地評(píng)估音樂自動(dòng)標(biāo)注任務(wù)的性能。

(2)多元評(píng)價(jià)

為了排除閥值對(duì)標(biāo)注預(yù)測(cè)的影響,通常將多元評(píng)價(jià)作為音樂自動(dòng)標(biāo)注模型性能的評(píng)價(jià)指標(biāo)[80]。

ROC 曲線又稱接受者操作特征曲線,既可體現(xiàn)閥值不同時(shí)的分類效果,也可衡量模型類別分布的性能。它是以假正率(false positive ratio,F(xiàn)PR)為橫軸、真正率(true positive ratio,TPR)為豎軸構(gòu)成的坐標(biāo)系,將得到的(FPR,TPR)坐標(biāo)點(diǎn)連接起來形成ROC 曲線。ROC-AUC 是ROC 曲線的下方面積,僅觀察不同ROC 曲線的凸起程度很難判定模型性能,需使用ROC-AUC值來量化ROC曲線,ROC-AUC的值越大,音樂自動(dòng)標(biāo)注性能越好。當(dāng)正負(fù)樣本分布變化時(shí),ROC曲線有很強(qiáng)的魯棒性,可避免樣本不平衡問題,但正因?yàn)椴粫?huì)由樣本的改變而影響判定,導(dǎo)致數(shù)據(jù)偏差較大,所以引入PR-AUC 作為ROC-AUC的輔助評(píng)價(jià)。

假正率定義如式(34)所示:

假正率是音頻樣本屬于負(fù)例但預(yù)測(cè)為正例與負(fù)例實(shí)際數(shù)量的比例。

真正率定義如式(35)所示:

真正率是音頻樣本屬于正例且預(yù)測(cè)為正例與正例實(shí)際數(shù)量的比例。

PR-AUC 則是P-R 曲線的下方面積。PR 曲線是以召回率為橫軸,精確率為縱軸的坐標(biāo)點(diǎn)的連接線。曲線越接近右上角,模型性能越好。PR 曲線對(duì)正樣本較敏感,當(dāng)數(shù)據(jù)樣本不平衡且主要關(guān)心正例時(shí),PR-AUC的性能準(zhǔn)確值優(yōu)于ROC-AUC,然而當(dāng)評(píng)價(jià)指標(biāo)沒有明確細(xì)分的情況下,通常將AUC 看作ROC-AUC。

MAP(mean average percision)是均值平均精度,是所有音頻中所有類別的AP 的平均值。AP 為平均精度,是所有音頻中具體某類的PR曲線下的面積。

對(duì)于音樂自動(dòng)標(biāo)注任務(wù)來說,單個(gè)音樂標(biāo)簽標(biāo)注所有音頻片段的概率很低,這會(huì)使負(fù)樣本數(shù)量大于正樣本數(shù)量,當(dāng)樣本預(yù)測(cè)錯(cuò)誤時(shí)會(huì)更敏感地影響模型性能。而AUC有較強(qiáng)的魯棒性且可用一維數(shù)字直觀明了地表示模型性能,因此,ROC-AUC 與PRAUC是音樂自動(dòng)標(biāo)注的常用評(píng)價(jià)指標(biāo)。

6 挑戰(zhàn)與展望

通過上述對(duì)音樂自動(dòng)標(biāo)注的深入分析可知,音樂自動(dòng)標(biāo)注是豐富語義標(biāo)簽的有效解決方案之一,也是MIR 領(lǐng)域內(nèi)的研究熱點(diǎn)與實(shí)用技術(shù),但目前還處在前瞻性階段且面臨一些挑戰(zhàn):

(1)音樂標(biāo)簽利用率低。根據(jù)歷年實(shí)驗(yàn)發(fā)現(xiàn),所使用的標(biāo)簽往往只有數(shù)據(jù)集的前50 個(gè)常用標(biāo)簽,而超過80%的標(biāo)簽與不到5%的音樂相關(guān)聯(lián),導(dǎo)致標(biāo)簽出現(xiàn)長(zhǎng)尾分布形狀。如何使數(shù)據(jù)集中的所有標(biāo)簽都能被音樂相關(guān)聯(lián),提高標(biāo)簽利用率值得進(jìn)一步研究。在之前方法中,研究人員通過有監(jiān)督的標(biāo)簽傳播方法提高標(biāo)簽利用率,為此,可使用半監(jiān)督與無監(jiān)督方法對(duì)標(biāo)簽進(jìn)行傳播,并利用每個(gè)標(biāo)簽之間的相似度獲得上下文信息使標(biāo)簽進(jìn)一步關(guān)聯(lián),最后調(diào)試模型的學(xué)習(xí)率、動(dòng)量或批量大小確定影響因素。

(2)對(duì)文本標(biāo)簽操作實(shí)施太少。通過梳理目前音樂自動(dòng)標(biāo)注研究進(jìn)展可知,研究人員主要對(duì)音頻特征進(jìn)行改進(jìn),對(duì)數(shù)據(jù)集文本標(biāo)簽改進(jìn)甚少,如何處理文本標(biāo)簽使其對(duì)模型性能進(jìn)一步優(yōu)化還有待研究。Chen 等人[66-67]則對(duì)標(biāo)簽進(jìn)行改進(jìn),利用LDA 模型將音樂標(biāo)簽聚類來獲取主題類別,運(yùn)用生成對(duì)抗網(wǎng)絡(luò)中的衍生模型infoGAN 進(jìn)行訓(xùn)練,以此找到音頻特征和標(biāo)簽之間的映射關(guān)系,從而實(shí)現(xiàn)對(duì)歌曲標(biāo)簽的標(biāo)注。未來,可以使用標(biāo)簽推理等方法進(jìn)一步使標(biāo)簽學(xué)習(xí)相關(guān)信息,更好地提高標(biāo)注準(zhǔn)確性。

(3)模態(tài)提取特征單一。通過分析看出目前大多數(shù)研究人員在單一模態(tài)下提取特征信息,雖然這些方法在該模態(tài)下標(biāo)注效果較好,但應(yīng)用范圍有所限制。僅有少數(shù)研究人員使用多模態(tài)音樂自動(dòng)標(biāo)注,雖可提取到更加全面的特征,但標(biāo)注性能不盡如人意,進(jìn)行特征融合時(shí)也出現(xiàn)冗余度大等問題。在未來研究中,可同時(shí)增加文本、圖像與視頻模態(tài)信息,例如音樂發(fā)布時(shí)間、作者所處地理位置或音樂MV 等信息,挖掘更深層次的語義信息,并且可以在不同維度上進(jìn)行多特征融合,如何在多模態(tài)下既能全面提取特征,又能更好地融合各個(gè)模態(tài)特征,提高標(biāo)注性能值得深入探索。

(4)數(shù)據(jù)集單體化。目前大多數(shù)數(shù)據(jù)集都基于單一類別或單一模態(tài)進(jìn)行創(chuàng)建,通用的數(shù)據(jù)集已經(jīng)不能對(duì)不同國(guó)家地區(qū)的文化和語言進(jìn)行正確標(biāo)注。例如,蒙古族音樂在曲風(fēng)、演唱方式等方面都具有較強(qiáng)的民族性與地域性,與主流音樂有很大區(qū)別。Song[81]對(duì)蒙古族音樂創(chuàng)建數(shù)據(jù)集,在標(biāo)注的過程中請(qǐng)專業(yè)蒙古族音樂人對(duì)音樂進(jìn)行半結(jié)構(gòu)化標(biāo)注,提高了標(biāo)注準(zhǔn)確率。基于不同地區(qū)的差異與文化,構(gòu)建多元化數(shù)據(jù)集還需要進(jìn)一步研究。

7 結(jié)束語

通過音樂自動(dòng)標(biāo)注,音樂數(shù)據(jù)信息可與多種類別語義標(biāo)簽相對(duì)應(yīng),它在MIR 領(lǐng)域中的作用至關(guān)重要。即使針對(duì)音樂自動(dòng)標(biāo)注的研究仍處于探索階段,但它為后續(xù)任務(wù)奠定了基礎(chǔ),具有重要的發(fā)展?jié)摿?,有很大的發(fā)展空間。論文對(duì)目前音樂自動(dòng)標(biāo)注領(lǐng)域的研究進(jìn)展進(jìn)行了系統(tǒng)梳理。首先,介紹了音樂自動(dòng)標(biāo)注的相關(guān)知識(shí);其次,對(duì)該領(lǐng)域的音頻特征類型及提取方法進(jìn)行深入探討,并進(jìn)一步分析機(jī)器學(xué)習(xí)與深度學(xué)習(xí)不同模型方法的音樂自動(dòng)標(biāo)注分類特點(diǎn);然后整理了該領(lǐng)域常用的數(shù)據(jù)集及評(píng)價(jià)指標(biāo)并總結(jié)其特點(diǎn);最后指出音樂自動(dòng)標(biāo)注所面臨的挑戰(zhàn)以及對(duì)未來的展望。在數(shù)字音樂快速發(fā)展的時(shí)代,音樂自動(dòng)標(biāo)注具有廣闊的發(fā)展前景與應(yīng)用價(jià)值,未來會(huì)取得一定的成功。

猜你喜歡
音頻標(biāo)簽自動(dòng)
自動(dòng)捕盜機(jī)
必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
基于STM32的自動(dòng)喂養(yǎng)機(jī)控制系統(tǒng)
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
關(guān)于自動(dòng)駕駛
汽車博覽(2016年9期)2016-10-18 13:05:41
標(biāo)簽化傷害了誰
Pro Tools音頻剪輯及修正
人間(2015年8期)2016-01-09 13:12:42
扎赉特旗| 隆林| 定远县| 青浦区| 林西县| 峨边| 呈贡县| 南木林县| 和平县| 金门县| 西吉县| 平江县| 永清县| 县级市| 玛纳斯县| 普宁市| 防城港市| 阳春市| 建始县| 清丰县| 衢州市| 安达市| 河东区| 尼木县| 泰和县| 诏安县| 晴隆县| 上饶县| 易门县| 新巴尔虎右旗| 齐齐哈尔市| 乡城县| 兴海县| 浙江省| 淅川县| 洪湖市| 炉霍县| 大厂| 大姚县| 年辖:市辖区| 裕民县|