杜 威,林 滸,孫建偉,于 波,姚愷豐
1(中國科學(xué)院 沈陽計(jì)算技術(shù)研究所,沈陽 110168)2(中國科學(xué)院大學(xué),北京 110049)3(國家電網(wǎng)公司東北分部 國網(wǎng)東北電力調(diào)控分中心,沈陽 110180)
隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,以音頻、視頻為代表的數(shù)字化媒體資源得到了廣泛應(yīng)用[1].以音樂媒體為例,數(shù)以百萬計(jì)的音樂資源通過互聯(lián)網(wǎng)的方式為用戶所消費(fèi),這使得用戶在隨時(shí)、隨地、使用任何可以接入網(wǎng)絡(luò)的設(shè)備訪問媒體資源成為了可能.但與此同時(shí),一系列的問題也得以出現(xiàn).例如,對于用戶來說,如何能夠高效地從海量的媒體資源中快速檢索到自己感興趣的媒體,甚至幫助自己發(fā)現(xiàn)自己潛在感興趣的媒體;對于商家來說,如何能夠結(jié)合重尾效應(yīng),為用戶提供符合消費(fèi)者品味的冷門的音樂媒體資源.因此,研究媒體資源具有重要的意義.
音樂流派自動分類在音樂信息檢索中具有重要作用[2].通過將音樂分為不同的類別,一方面可以為音樂的存儲提供方便,使得相同類型的音樂存放在一起;另一方面可以降低音樂檢索的工作量,提升檢索效率.與人工分類相比,自動分類方法能夠顯著地降低分類任務(wù)的工作量,同時(shí)保證了最終分類結(jié)果的準(zhǔn)確率.音樂流派自動劃分本質(zhì)是通過抽取音樂的核心特征,結(jié)合機(jī)器學(xué)習(xí)的相關(guān)方法把不同流派的音樂分為不同的類型.
當(dāng)前主流的音樂流派自動分類方法主要包括以下幾個(gè)步驟:首先,從音樂數(shù)據(jù)中抽取特征參數(shù);然后,使用數(shù)據(jù)處理方法完成數(shù)據(jù)的預(yù)處理,以便于進(jìn)一步的分類操作;最后,使用基于監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)的分類方法將數(shù)據(jù)進(jìn)行分類[4].當(dāng)前主流的特征參數(shù)包括以Mel頻率倒頻譜系數(shù)(MFCC)為核心的音色(Timbre)、音高(pitch)和旋律(Rhythm).主要的分類方法有支持向量機(jī)(Support Vector Machines,SVM),K最近鄰居(K Nearest Neighbors,KNN),Gaussian混合模型(Gaussian Mixture Model,GMM)等,其中以SVM在音頻分類中應(yīng)用最為廣泛[5].
本文在分析國內(nèi)外主流研究成果的基礎(chǔ)上,提出了基于分層結(jié)構(gòu)的音樂流派自動分類方法.該方法首先使用K均值聚類方法分析不同類別之間的關(guān)系,并構(gòu)建了基于類別關(guān)系的層次結(jié)構(gòu)圖,在此基礎(chǔ)上,使用支持向量機(jī)完成對不同類別間的音樂分類.通過將該方法應(yīng)用在GTZAN數(shù)據(jù)集上,對比單屬性及平面結(jié)構(gòu)的分類方法,實(shí)驗(yàn)結(jié)果表明該方法取得了較好的分類效果.
本文的結(jié)構(gòu)如下:第二部分主要描述了模型本身,并詳細(xì)介紹了包括特征抽取、數(shù)據(jù)處理、分類過程等細(xì)節(jié);第三部分,通過開放數(shù)據(jù)集GTZAN結(jié)合本文所提出的分層結(jié)構(gòu)結(jié)合支持向量機(jī)方法進(jìn)行了相關(guān)的對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該方法可以取得較好的分類效果;第四部分總結(jié)全文并提出了進(jìn)一步的研究方向.
以支持向量機(jī)、K最近鄰居、高斯混合分布模型等為代表的傳統(tǒng)分類方法在音頻分類中得到廣泛應(yīng)用中,并取得了不錯的效果,但隨著計(jì)算能力的提高和計(jì)算技術(shù)的進(jìn)步,包括音頻、MIDI文件、上下文場景等在內(nèi)的多種屬性被應(yīng)用于音樂流派自動分類,并試圖提升分類的準(zhǔn)確率[6].事實(shí)上,過多的屬性導(dǎo)致分類的計(jì)算過程過于復(fù)雜,且有可能導(dǎo)致分類的準(zhǔn)確率下降.此外,某些單一屬性針對不同的音樂流派表現(xiàn)出不同的分類效果.例如,描述打擊強(qiáng)度的屬性可以很好地區(qū)分classical和pop音樂,但對于chamber音樂的子類別不能夠很好地區(qū)分[7].因此,本文使用基于分層結(jié)構(gòu)的分類方法來完成對不同流派的音樂進(jìn)行自動分類.
分層結(jié)構(gòu)分類方法與傳統(tǒng)的平面型分類方法的區(qū)別在于其結(jié)構(gòu)的層次關(guān)系.分層結(jié)構(gòu)通過將特征部署到不同的層級內(nèi),在保證分類準(zhǔn)確率的前提下,降低了計(jì)算的復(fù)雜度.與其他分類方法類似,分層分類方法也包括特征抽取、數(shù)據(jù)預(yù)處理、自動分類等若干步驟,但其不同在于需要提前基于現(xiàn)有數(shù)據(jù)結(jié)合其不同屬性的不同分類效果,構(gòu)造一個(gè)具有特定層次結(jié)構(gòu)并保證分類效果的分層模型.
本文所提出的音樂流派自動分類方法基于包括MFCC在內(nèi)的相關(guān)音樂特征,結(jié)合監(jiān)督化分類方法,采用分層結(jié)構(gòu)的分類模型,以完成對音樂流派的自動分類.該方法是在傳統(tǒng)平面模型的基礎(chǔ)上,結(jié)合不同流派音樂的統(tǒng)計(jì)學(xué)屬性和單一屬性的在不同數(shù)據(jù)子集的不同分類效果,構(gòu)建的基于分層結(jié)構(gòu)的模型.模型中所使用的分類特征來自于不同層級的考慮,第一層主要是基于音樂的核心特征并結(jié)合其統(tǒng)計(jì)學(xué)屬性而展開,該統(tǒng)計(jì)學(xué)屬性主要集中于均值、標(biāo)準(zhǔn)差、中位數(shù),針對單值屬性,使用該數(shù)值本身,而不需要再做任何處理;第二層及以下層級,則使用基于音樂流派的各種分類效果較好的屬性完成對不同子數(shù)據(jù)集的分類.
使用該方法存在以下幾個(gè)問題:第一,層次結(jié)構(gòu)如何構(gòu)建;第二,使用何種特征來完成針對不同層次和不同大小數(shù)據(jù)集的分類任務(wù),即每個(gè)層次結(jié)構(gòu)中其特征選擇如何進(jìn)行.這其中涉及到一個(gè)如何判斷哪個(gè)屬性分類效果最好的問題,因?yàn)椴煌膶傩詫τ诓煌臄?shù)據(jù)集呈現(xiàn)不同的分類效果.如果簡單地將所有屬性堆疊在一起進(jìn)行分類,一方面增加了分類的計(jì)算任務(wù);另一方面,有可能不同屬性之間的相關(guān)關(guān)系導(dǎo)致分類的準(zhǔn)確率下降.
因此,本文使用了單一屬性來分別驗(yàn)證單一屬性的分類效果,在具體到每個(gè)層次所使用特征的效果,本文提出了特征分類效果判斷指標(biāo).針對參數(shù)維度較大的情況,本文使用了主成份分析(PCA)和線性判別分析(LDA)的方法來降低維度,以實(shí)現(xiàn)降低運(yùn)算復(fù)雜度的目標(biāo).在此基礎(chǔ)上,使用支持向量機(jī)(SVM)和K最近鄰居來完成對音樂流派的自動分類.
特征抽取的目標(biāo)是從原始數(shù)據(jù)中抽取出最能夠代表該流派特征的若干指標(biāo),以此來區(qū)別于其他類別[8].本文使用的基本特征包括:音色(timbre)、音高(pitch)、旋律(rhythm)及其他相關(guān)參數(shù).其中,音色、音高和旋律是屬于核心特征,其他特征包括短時(shí)過零率、短時(shí)能量、譜中心、低能量等.選擇這些特征的依據(jù)是這些特征具有較高的區(qū)分度,且易于抽取和進(jìn)行相關(guān)的計(jì)算.
由于本文使用的是分層結(jié)構(gòu),因此一個(gè)核心的問題就是判斷哪些特征應(yīng)該應(yīng)用到哪個(gè)層次及哪個(gè)數(shù)據(jù)集?考慮到模型的目標(biāo)是提高分類的準(zhǔn)確率并降低計(jì)算量,此外如果上層的分類出現(xiàn)錯誤,則下層的處理會保留該錯誤(該子集即為類別的終點(diǎn))或者進(jìn)一步加大該錯誤(該數(shù)據(jù)子集進(jìn)一步分類),因此需要每一步的分類準(zhǔn)確率都得到保證.
當(dāng)前音樂分類研究所涉及的主流特征主要包括過零率(zero-crossings),譜中心(Spectral centroid),滾降(rolloff),波動(flux),色度(chroma),MFCC,Beat、onsets、energy特征等[8].在此基礎(chǔ)上進(jìn)行合理的特征組合、統(tǒng)計(jì)屬性抽取等操作,以實(shí)現(xiàn)抽取分辨率最高的特征.由于目前沒有針對特征抽取的最優(yōu)的解決方案,具體到本文的分層結(jié)構(gòu)所使用的特征,主要從以下兩個(gè)方面開展了研究:
針對第一層特征的選擇,本文使用了音色、音高和旋律作為基本的判斷指標(biāo),結(jié)合其統(tǒng)計(jì)學(xué)屬性,一起構(gòu)成了基本的分類特征.因?yàn)榈谝粚邮切枰獙θw數(shù)據(jù)集進(jìn)行基本的分類操作,同時(shí)該層分類因?yàn)樾枰紤]到對下層分類的影響,需要使用盡可能獲取高準(zhǔn)確率的分類結(jié)果.因此,本文中使用了音色和音高作為第一層的核心分類屬性,在此基礎(chǔ)上使用了包括均值、方差、最大、最小、域值范圍、中位數(shù)(Median)及偏度(skewness)和峰度(kurtosis)等.具體的分類特征包括:以MFCC為基礎(chǔ)的均值、方差、最大、最小等共計(jì)156維度的MFCC、ΔMFCC和ΔΔMFCC的特征[11],Zerocross(1),flat(1),rolloff(1),flux(mean(1),var(1),median(1)),entropy(1),kurtosis(1),skewness(1),spread(1),key(1),mode(1),Chroma(12).
針對第二層及以下的層次結(jié)構(gòu),一個(gè)核心的功能是針對若干類別組合的數(shù)據(jù)集,如何能夠分辨出具有最高分類準(zhǔn)確率的屬性.考慮到數(shù)據(jù)集的規(guī)模已經(jīng)縮小了,因此需要結(jié)合該數(shù)據(jù)集中最能夠達(dá)到最高分類效果的屬性來完成數(shù)據(jù)的分類.本文的解決辦法是使用高分類效果的屬性,在對其參數(shù)與已選定的屬性進(jìn)行相關(guān)性分析后,再將不同的屬性疊加使用.結(jié)合分層分類的特點(diǎn),上層的特征通常情況下不再適用于下層的分類操作.但具體到本應(yīng)用的特征有限和類別有限的特點(diǎn),在第二層和第三層的分類中,首先使用若干單屬性對若干子數(shù)據(jù)集進(jìn)行分類,再從中選擇出最優(yōu)分類指標(biāo)的特征,對其進(jìn)行相關(guān)性分析,并對無關(guān)特征進(jìn)行組合疊加,構(gòu)成針對若干特征數(shù)據(jù)集的候選特征[12].
數(shù)據(jù)處理的主要工作是將數(shù)據(jù)完成相應(yīng)的操作,使得全體數(shù)據(jù)集合理地分布于一定的數(shù)據(jù)范圍內(nèi).由于不同的屬性具有不同的數(shù)據(jù)分布范圍,而不同的數(shù)據(jù)值影響不同屬性的表征特性,甚至對于最終分類結(jié)果將產(chǎn)生不可預(yù)見的影響[13].因此,數(shù)據(jù)處理能夠消除不同屬性對于最終分類結(jié)果的影響.本文使用Z-score標(biāo)準(zhǔn)化預(yù)處理所有數(shù)據(jù),使所有數(shù)據(jù)經(jīng)映射后符合標(biāo)準(zhǔn)正態(tài)分布.其處理辦法如下
A=(A-mean(A))/std(A)
(1)
本文的實(shí)驗(yàn)結(jié)果表明,Z-score標(biāo)準(zhǔn)化數(shù)據(jù)預(yù)處理可以顯著地提升特征數(shù)據(jù)分類的準(zhǔn)確率.
針對數(shù)據(jù)集維度較多的情況,使用合理的降維方法以降低運(yùn)算量,同時(shí)保證分類的準(zhǔn)確率.當(dāng)前主流方法是主成份分析(Principal Component Analysis,PCA)和線性判別分析(Linear Discriminant Analysis,LDA),本文實(shí)驗(yàn)結(jié)果表明主成份分析在音樂數(shù)據(jù)集上降維效果不如線性判別式分析效果明顯.因此,在具體的實(shí)驗(yàn)過程中使用了LDA來完成針對數(shù)據(jù)集的降維操作.
自動分類的工作是在數(shù)據(jù)集特征抽取的,結(jié)合機(jī)器學(xué)習(xí)方法來完成特征的自動分類,并保證分類的準(zhǔn)確率.當(dāng)前主流方法包括支持向量機(jī)、K最近鄰居、決策樹、Gaussian混合分布等[14],這些方法各有優(yōu)缺點(diǎn),如何能夠結(jié)合本文的應(yīng)用場景,使用合適的分類方法非常關(guān)鍵.
在參考了眾多文獻(xiàn)中所使用的分類方法后,結(jié)合本文的應(yīng)用場景,本文使用了支持向量機(jī)(SVM)作為音樂類別分類方法[13].該方法能夠使得在低緯度空間不容易分辨的特征,在保證核心參數(shù)不發(fā)生改變的情況下,通過增加維度進(jìn)而提高分辨的準(zhǔn)確率.本文使用了由libSVM庫所實(shí)現(xiàn)的SVM方法,并使用了徑向基核函數(shù)(Radial Basis Kernel Function)結(jié)合10折交叉驗(yàn)證來驗(yàn)證特征對分類效果的影響[9].
在匯總以上信息的基礎(chǔ)上,本小節(jié)提出了分層支持向量機(jī)的實(shí)施流程.
本方法的整體框架如圖1所示,具體包括三個(gè)層次.這三個(gè)層次的構(gòu)造都是使用K-Means聚類針對不同的數(shù)據(jù)集而得到.第一層,主要是使用K-Means對全體數(shù)據(jù)集進(jìn)行聚類而得到的四個(gè)基本類別,分為四個(gè)類是為了使得數(shù)據(jù)不太過于集中,同時(shí)又能夠保證分類的準(zhǔn)確率不至于太低.第二層是考慮當(dāng)前的子數(shù)據(jù)集特征,而具體地分析分為幾類合適.經(jīng)過分析Hiphop、Pop、Reggae組可以合理地分為三類,但在Blues、Country、Metal、Disco和Rock組中如果分為五類,則分類準(zhǔn)確率太低,尤其是Country和Rock,其正確分類的個(gè)數(shù)只占總數(shù)的41%和47%,因此,考慮將其分為四類,將Country和Rock作為一類由下一層次進(jìn)行再次劃分.第三層針對Country和Rock組進(jìn)行分類,以提高分類的準(zhǔn)確率.
在構(gòu)造完層次結(jié)構(gòu)以后,使用SVM對該層次所對應(yīng)的數(shù)據(jù)集進(jìn)行分類.由于高層次的分類結(jié)果對低層次分類結(jié)果產(chǎn)生不可糾正的影響,因此,在高層次盡可能使用足夠的屬性以提升分類的準(zhǔn)確率.
圖1 音樂類別層次結(jié)構(gòu)圖Fig.1 Genre hierarchical structure for music
該部分主要描述實(shí)驗(yàn)相關(guān)信息,具體包括實(shí)驗(yàn)數(shù)據(jù)、實(shí)驗(yàn)步驟和實(shí)驗(yàn)結(jié)果及分析等.
本文中所用的數(shù)據(jù)集是音樂流派劃分研究中主流的GTZAN數(shù)據(jù)集[3].該數(shù)據(jù)集包括10個(gè)類,每個(gè)類有100個(gè)長度為30秒的文件,共計(jì)1000首歌曲片段,每個(gè)片段的采樣速率為22050Hz.這10個(gè)類別是:blues,classical,country,disco,hiphop,jazz,metal,pop,reggae和rock.在實(shí)驗(yàn)過程中使用了基于Matlab 語言的MIRtoolbox 1.6.1程序包[10],該程序包由丹麥的Olivier所開發(fā),該程序包內(nèi)嵌了Auditory toolbox等程序包,通過該程序包可以直接從后綴名為.au的音頻文件中獲取包括MFCC、Rolloff、fluctuation、low energy等屬性在內(nèi)的信息,也可以使用圖形的形式將相關(guān)信息表達(dá)出來.
實(shí)驗(yàn)過程主要包括三個(gè)主要部分.第一,使用數(shù)據(jù)集驗(yàn)證包括統(tǒng)計(jì)特征在內(nèi)的單一特征分類效果;第二,使用數(shù)據(jù)集驗(yàn)證組合特征分類效果;第三,使用K-Means聚類方法構(gòu)建分層模型;第四步,使用分層結(jié)構(gòu)進(jìn)行音樂流派分類,即使用數(shù)據(jù)集驗(yàn)證分層架構(gòu)的分類效果.其中,單一特征就是從音頻文件中直接提取出來的相關(guān)數(shù)據(jù)信息,組合特征是將若干特征組合起來而構(gòu)成的特征.通過使用不同的特征,進(jìn)而區(qū)分不同特征間的分類能力.結(jié)合不同子數(shù)據(jù)集,使得分類能力最好的特征得以抽取出來.本實(shí)驗(yàn)過程中使用的KNN和SVM兩種分類器,并對這兩種分類器的分類效果進(jìn)行了對比驗(yàn)證.
本文首先驗(yàn)證了單一屬性的分類效果,對比其他幾個(gè)屬性,該數(shù)據(jù)顯示MFCC具有較高的分類效果,其準(zhǔn)確率達(dá)到42%.其中,MFCC使用的是1行13列的原始數(shù)據(jù),Pitch信息是Pitch信息在Mono狀態(tài)下獲取的,Beat信息是通過計(jì)算自相關(guān)函數(shù)(An Autocorrelation Function)而得到.通過實(shí)驗(yàn)驗(yàn)證,MFCC分類的準(zhǔn)確率為42%,Entropy分類的準(zhǔn)確率為18%,Pitch分類的準(zhǔn)確率為23%.
本文然后驗(yàn)證了組合屬性分類效果,圖2結(jié)果了包括MFCC及其統(tǒng)計(jì)學(xué)特征和其他特征在內(nèi)的180維特征在全體數(shù)據(jù)集的分類效果.該組合屬性結(jié)果表明Classical類型具有典型的特征而不同于其他屬性,Country、Disco和Rock類別具有較為相似的特征.這也大體符合本文分層結(jié)構(gòu)中對于不同類型音樂層次的劃分.由于結(jié)果是基于多種屬性特征經(jīng)SVM分類而得到,且該分類效果準(zhǔn)確率較高,該結(jié)果顯示了在相同條件下,組合屬性通常要優(yōu)于單一屬性.本文認(rèn)為這是由于單一屬性所獲取的信息有限,多特征構(gòu)成的組合屬性,尤其是經(jīng)過標(biāo)準(zhǔn)化以后的組合屬性則能夠更全面地獲取多類型的音樂特征,因而取得更好的分類準(zhǔn)確率.
圖2 基于180維度特征分類效果Fig.2 Classification Results for 180 Features
然后本文使用了K-Means聚類方法分析了音樂的基于MFCC的156維特征進(jìn)而構(gòu)建音樂的層次結(jié)構(gòu),在聚類過程中.首先,對全體數(shù)據(jù)集以4組進(jìn)行聚類分析,這四個(gè)組分別是Classical、Jazz、(Hiphop、Pop、Reggae)和(Country、Blues、Metal、Rock、Disco).這其中較為難以分辨的是Reggae和Rock,Reggae與Hiphop、Pop的特征較為接近,與由Country等類型所組成的組也較為接近,但考慮到Country等類型組已經(jīng)包含了5個(gè)流派,而且從聚類結(jié)果看Reggae也更接近Hiphop等類型組多一些,因此將其分為了由Hiphop和Pop所構(gòu)成的組.與組合特征類似,Rock由于其數(shù)據(jù)特征的原因,很難從其他類別中區(qū)分出來,尤其是將Rock從Country和Disco中區(qū)分出來.在此基礎(chǔ)上,使用K-Means對兩個(gè)分類未完全的組進(jìn)行分類,以此進(jìn)行,進(jìn)而構(gòu)建分層結(jié)構(gòu),最終結(jié)果如圖1所示.在實(shí)際的聚類中,不同組由于分類的不同所需特征個(gè)數(shù)也不同.例如,使用LDA降為4個(gè)維度即可以對Hiphop、Pop和Reggae取得較好的分類效果.而對于Blues、Country、Disco、Metal和Rock分為四個(gè)組時(shí),則需要使用LDA降低為40維度,則可以取得能夠接受的結(jié)果.對于Country和Rock則只需要LDA降低到2個(gè)維度即可以完全區(qū)分清楚.以Blues等所在組進(jìn)行4個(gè)簇的聚類分析其結(jié)果如下:
當(dāng)使用分層結(jié)構(gòu)時(shí),首先根據(jù)上文提出的分層結(jié)構(gòu)使用支持向量機(jī)對全體數(shù)據(jù)分為四個(gè)組,經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化以后,該步驟的分類準(zhǔn)確率為90.2%,而與此對比KNN分類方法的準(zhǔn)確率在未經(jīng)標(biāo)準(zhǔn)化處理前為67.4%,經(jīng)過標(biāo)準(zhǔn)化處理后其準(zhǔn)確率為87.5%.該結(jié)果表明在音樂分類過程中,支持向量機(jī)要優(yōu)于K最近鄰居分類方法.然后,對其中的兩個(gè)組進(jìn)行再次分類.其中Hiphop、Pop和Reggae組結(jié)合上文的分析,使用較少特征就能夠取得較好的分類效果,該組最終分類準(zhǔn)確率為89%,KNN在未標(biāo)準(zhǔn)化預(yù)處理時(shí)分類準(zhǔn)確率為59%,預(yù)處理后準(zhǔn)確率為79.33%.而Blues、Country等分類結(jié)果準(zhǔn)確率為85.6%,KNN未標(biāo)準(zhǔn)化預(yù)處理分類準(zhǔn)確率為55%,預(yù)處理后準(zhǔn)確率為76.2%.最后,對Country和Rock進(jìn)行了SVM分類,其分類準(zhǔn)確率為84%,而對比方法KNN在未標(biāo)準(zhǔn)化預(yù)處理時(shí)分類準(zhǔn)確率為69%,經(jīng)預(yù)處理以后為78.5%.經(jīng)過以上分析可知,分層分類的準(zhǔn)確率高于平面性分類的準(zhǔn)確率.本文認(rèn)為,分層分類準(zhǔn)確率高的原因在于限制了數(shù)據(jù)的數(shù)量和分類的個(gè)數(shù),在分類過程中只需要對數(shù)據(jù)子集內(nèi)的類型進(jìn)行分析,當(dāng)某些特征區(qū)分能力強(qiáng)時(shí),能夠取得較好的分類效果;對于所添加的其他區(qū)分能力不強(qiáng)特征,則在標(biāo)準(zhǔn)化預(yù)處理過程中提升了其對結(jié)果產(chǎn)生的部分影響.
表1 針對Blues等子數(shù)據(jù)集的K-Means聚類結(jié)果Table 1 K-Means clustering results for blues etc subsets
綜上所述,本文所提出的基于分層結(jié)構(gòu)的分類方法能夠獲取比平面結(jié)構(gòu)分類方法和KNN分類方法更好的分類效果,而且可以顯式地描述不同流派之間的層次結(jié)構(gòu).因此,基于分層結(jié)構(gòu)的分類方法是一種較好的分類方法.
音樂流派自動分類方法是當(dāng)前音樂信息獲取領(lǐng)域的一個(gè)研究熱點(diǎn),如何能夠自動地判斷出一首音樂的類別能夠減少人力費(fèi)用,同時(shí)保證了判斷的準(zhǔn)確率.盡管當(dāng)前流行的K最近鄰居、Gaussian混合模型、支持向量機(jī)模型能夠取得可以接受的效果,但由于平面結(jié)構(gòu)的分類方法并不能夠充分顯示不同流派之間的相對距離和層次關(guān)系.本文使用K-Means聚類方法,構(gòu)建了基于音樂特征的分層結(jié)構(gòu),在此基礎(chǔ)上使用支持向量機(jī)進(jìn)行音樂流派自動分類,一方面,通過層次結(jié)構(gòu)顯示了不同流派之間的層次關(guān)系,另一方面,在保證分類準(zhǔn)確率的同時(shí),降低了分類的計(jì)算復(fù)雜度.通過使用開源的GTZAN數(shù)據(jù)集進(jìn)行驗(yàn)證,本文所提出的基于分層結(jié)構(gòu)的分類方法可以取得較好的分類效果.
:
[1] Lerch Alexander.An introduction to audio content analysis:applications in signal processing and music informatics[M].John Wiley & Sons,2012.
[2] Correa Debora C,Rodrigues Francisco Ap.A survey on symbolic data-based music genre classification[J].Expert Systems with Applications,2016,60(C):190-210.
[3] Tzanetakis George,Cook Perry.Musical genre classifi-cation of audio signals[J].IEEE Transactions on Speech and Audio Processing,2002,10(5):293-302.
[4] Eric D Scheirer.Tempo and beat analysis of acoustic musical signals[J].The Journal of the Acoustical Society of America,1998,103(1):588-601.
[5] Prockup Matthew,Ehmann Andreas F,Gouyon Fabien,et al.Modeling genre with the music genome project:comparing human-labeled attributes and audio features[C].16thInternational Society for Music Information Retrieval Conference(ISMIR 2015),2015:31-37.
[6] Loris Nanni,Yandre M G Costa,Alessandra Lumini,et al.Combining visual and acoustic features for music genre classification[J].Expert Systems with Applications,2016,45(C):108-117.
[7] Wu Ming-ju,Jang JYH-Shing R.Combing acoustic and multilevel visual features for music genre classification[J].ACM Transactions on Multimedia Computation Communication,2015,12(10):1-17.
[8] Lykartsis Athanasios,Lerch Alexander.Beat histogram features for rhythm-based musical genre classification using multiple novelty functions[C].Proceedings of the 16thInternational Conference on Digital Audio Effects(DAFx-15),2015:434-440.
[9] Chang Chih-chung,Lin Chih-jen.LibSVM:a library for support vector machines [J].ACM Transactions on Intelligent Systems and Technology,2011,2(27):1-27.
[10] Lartillot Olivier,Toiviainen Petri.A matlab toolbox for musical feature extraction from audio[C].Proceedings of the 10thInternational Conference on Digital Audio Effects(DAFx-07),2007:127-130.
[11] Sergio Oramas,Luis Espinosa-Anke,Aonghus Lawlor,et al.Exploring customer reviews for music genre classification and evolutionary studies[C].17thInternational Society for Music Information Retrieval Conference(ISMIR 2016),2016:150-156.
[12] Dong Ruihai,Schaal Markus,Mahony Michael P O,et al.Topic Extraction from online reviews for classification and recommendation[C].Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence(IJCAI′13),2013:1310-1316.
[13] Alastair Porter,Dmitry Bogdanov,Robert Kaye,et al.Acousticbrainz:a community platform for gathering music information obtained from audio [C].16thInternational Society for Music Information Retrieval Conference(ISMIR 2015),2015:786-792
[14] Vladimir Vapnik.The nature of statistical learning theory [M].Springer,2000.