王詩(shī)俊, 陳 寧
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
基于混合判別受限波茲曼機(jī)的音樂自動(dòng)標(biāo)注算法
王詩(shī)俊, 陳 寧
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
對(duì)于音樂自動(dòng)標(biāo)注任務(wù),在很多情況下,未標(biāo)注的歌曲量遠(yuǎn)遠(yuǎn)超過已標(biāo)注的歌曲數(shù)據(jù),從而導(dǎo)致訓(xùn)練結(jié)果不理想。生成模型能夠在某種程度上適應(yīng)少量數(shù)據(jù)集的情況,得出較為滿意的結(jié)果,然而,在有充分?jǐn)?shù)據(jù)集的情況下生成模型的效果卻劣于判別模型。本文提出了一種結(jié)合生成模型與判別模型兩者優(yōu)勢(shì)的面向音樂自動(dòng)標(biāo)注的混合判別波茲曼機(jī)模型,該模型可明顯提升音樂自動(dòng)標(biāo)注的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,混合波茲曼機(jī)的效果不僅好于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,同時(shí),模型在擁有足夠訓(xùn)練數(shù)據(jù)量的情況下與判別模型效果相當(dāng),且在訓(xùn)練集較少的情況下效果也好于判別模型。另外,為了防止模型過擬合,還引入了Dropout規(guī)則化方法以進(jìn)一步加強(qiáng)模型的性能。
音樂自動(dòng)標(biāo)注; 混合判別受限波茲曼機(jī); 機(jī)器學(xué)習(xí); 人工智能
隨著數(shù)字音樂的發(fā)展,在線歌曲的數(shù)量呈指數(shù)級(jí)增長(zhǎng)。讓用戶快速找到自己感興趣的歌曲,是目前互聯(lián)網(wǎng)服務(wù)必須解決的一個(gè)問題。一個(gè)可行的方法是利用歌曲標(biāo)簽,即用戶可以通過搜索標(biāo)簽的方式找到自己喜歡的歌曲。
Tingle等[1]利用兩種新的特征——Echo Nest Timbre (ENT)和Echo Nest Songs (ENS),以聲學(xué)標(biāo)簽 (Acoustic tags) 和流派標(biāo)簽(Genre tags)作為標(biāo)注為音頻進(jìn)行自動(dòng)標(biāo)注。Sordo等[2]利用基于音頻內(nèi)容相似性的模型對(duì)具有近似風(fēng)格或感情的音樂進(jìn)行了自動(dòng)標(biāo)注。
除上述標(biāo)簽外,一種最容易獲得的標(biāo)簽是社群標(biāo)簽(Social tags)[3],社群標(biāo)簽的獲得不需要專業(yè)人士的參與,極大地節(jié)約了人力和時(shí)間成本。所有用戶都可以為歌曲進(jìn)行標(biāo)注,例如“女聲”、“舒緩”、“好聽”等語(yǔ)義級(jí)別描述。文獻(xiàn)[4]提出了利用MFCC(Mel Frequency Cepstrum Coefficient)特征來訓(xùn)練AdaBoost模型,該模型能夠根據(jù)音頻特征和社群標(biāo)簽進(jìn)行自標(biāo)注。文獻(xiàn)[5]利用社群標(biāo)簽進(jìn)行情感音樂分類,使用聚類的方式將音樂分為“高興”、“悲傷”、“憤怒”和“溫和”4種情緒。文獻(xiàn)[6]利用文本挖掘和信息檢索技術(shù)對(duì)龐大的語(yǔ)義級(jí)社群標(biāo)簽進(jìn)行文本分析,從而最終對(duì)音樂進(jìn)行情感分類。文獻(xiàn)[7]結(jié)合利用用戶信息、社群標(biāo)簽以及音頻特征為用戶推薦音樂。
但社群標(biāo)簽存在一些問題。第一,并不是所有的歌曲都擁有足夠的社群標(biāo)簽,只有少量的熱門歌曲擁有足夠多的標(biāo)簽,新歌或是冷門歌曲的標(biāo)簽都很缺乏。第二,用戶可能會(huì)使用同義詞(如Favorite,Favorites)、無用詞(如Awesome,Own it)、歧義詞(如Love可以代表用戶喜愛的歌曲也可代表是愛情歌曲)來標(biāo)注音樂。第三,由于社群標(biāo)簽是語(yǔ)義級(jí)特征,需要對(duì)其進(jìn)行語(yǔ)義分析。因此,可以參與模型進(jìn)行訓(xùn)練的歌曲量其實(shí)并不多。正因?yàn)槿绱?在少量訓(xùn)練數(shù)據(jù)集的情況下對(duì)音樂進(jìn)行準(zhǔn)確的自動(dòng)標(biāo)注非常重要。
目前,擁有高準(zhǔn)確率的深度學(xué)習(xí)模型被用于音樂自標(biāo)注研究中。文獻(xiàn)[8]利用深度置信網(wǎng)絡(luò)DBN(Deep Belief Network)來自動(dòng)提取輸入音頻的特征以進(jìn)行流派分類,不過該模型需要足夠的訓(xùn)練集,并且流派類別非常少,屬于某個(gè)流派的歌曲數(shù)量依舊十分龐大,無法使用戶快速找到自己喜歡的歌曲,本文不再對(duì)該方法進(jìn)行比較。
生成模型(Generative model)可以解決訓(xùn)練數(shù)據(jù)集數(shù)量較少的問題,在少量數(shù)據(jù)集情況下的效果要好于分類問題中常使用的判別模型(Discriminative model)[9],但在擁有大量訓(xùn)練數(shù)據(jù)的情況下,判別模型卻要好于生成模型。為了兼顧兩者的優(yōu)勢(shì),本文提出了一種將生成波茲曼機(jī)和判別波茲曼機(jī)混合組成的混合判別波茲曼機(jī)(Hybrid Discriminative Restricted Boltzmann Machines,HDRBM)。實(shí)驗(yàn)證明該模型即使在少量帶標(biāo)簽音樂訓(xùn)練集的情況下也能達(dá)到精準(zhǔn)標(biāo)注的結(jié)果。
另外在訓(xùn)練模型時(shí),可能因?yàn)橛?xùn)練數(shù)據(jù)集太少會(huì)導(dǎo)致過擬合的情況。為了防止過擬合,本文在混合判別波茲曼機(jī)中加入了Dropout[10]規(guī)則化方法。Dropout能夠提高模型的準(zhǔn)確率[11],本文實(shí)驗(yàn)證實(shí)了Dropout使混合波茲曼機(jī)在小規(guī)模數(shù)據(jù)集下也能保持準(zhǔn)確性。
混合判別波茲曼機(jī)模型在音樂數(shù)據(jù)訓(xùn)練集較為充分時(shí),標(biāo)注準(zhǔn)確率能達(dá)到與單一的判別波茲曼機(jī)相仿的效果,在小規(guī)模訓(xùn)練集上訓(xùn)練時(shí),混合判別波茲曼機(jī)的準(zhǔn)確度相比判別波茲曼機(jī)或是其他機(jī)器學(xué)習(xí)模型更為優(yōu)秀。同時(shí),本文的實(shí)驗(yàn)證實(shí)了Dropout方法確實(shí)能夠防止因?yàn)樯倭恳魳窋?shù)據(jù)集而導(dǎo)致的過擬合現(xiàn)象。
1.1生成波茲曼機(jī)
如圖1所示,傳統(tǒng)波茲曼機(jī)是一種無向生成模型,擁有一層輸入層和一層隱層,層與層之間互相連接,層之內(nèi)無連接。通過訓(xùn)練,隱層可以學(xué)習(xí)到輸入層的概率分布模型,也可以理解為隱層學(xué)習(xí)到了輸入層的特征。
圖1 生成受限波茲曼機(jī)Fig.1 Generation restricted Boltzmann machines
傳統(tǒng)受限波茲曼機(jī)是無監(jiān)督學(xué)習(xí)模型,若將音頻放入模型中學(xué)習(xí),隱層將能夠?qū)W習(xí)到音頻特征,并重構(gòu)原始的輸入音頻信息。正因?yàn)檫@種特性,傳統(tǒng)波茲曼機(jī)常常被當(dāng)作多層深度學(xué)習(xí)模型中的一層,用來提取上一層輸入的特征。不過,將原來的輸入(音頻)聯(lián)合其類別(社群標(biāo)簽)一同輸入波茲曼機(jī),就能使波茲曼機(jī)學(xué)習(xí)到輸入和標(biāo)簽的聯(lián)合分布,即生成波茲曼機(jī),如圖2所示。
圖2 判別受限波茲曼機(jī)Fig.2 Discriminative restricted Boltzmann machines
在音樂自標(biāo)注任務(wù)中,假設(shè)生成波茲曼機(jī)有n個(gè)隱節(jié)點(diǎn),輸入數(shù)據(jù)為d維音頻特征,有c種音樂標(biāo)簽,由此形成的概率分布為
(1)
-hTWx-bTx-cTh-dTy-hTUy
(2)
式(2)為波茲曼機(jī)的能量公式,其中,參數(shù)W為隱層和輸入層之間的連接權(quán)值系數(shù);U為隱層和標(biāo)簽之間的連接權(quán)重系數(shù);b,c,d分別為輸入層、隱層和標(biāo)簽的偏置系數(shù)。
假設(shè)有訓(xùn)練集Dtrain,以最小化負(fù)對(duì)數(shù)似然為目標(biāo),即最小化目標(biāo)函數(shù):
(3)
其中,p(xi,yi)為一個(gè)樣本x和一個(gè)標(biāo)簽y的聯(lián)合分布。
為了最小化式(3),使用隨機(jī)梯度下降法,得到由兩個(gè)期望組成的梯度公式:
(4)
式(4)的第1項(xiàng)可以通過給定的xi,yi計(jì)算得到;第2項(xiàng)卻因?yàn)樾枰械膞和y求和,不能通過直接的計(jì)算求得,可以通過逼近的方法得到。文獻(xiàn)[12]提出了一種對(duì)比散度方法(ContrastiveDivergence,CD),通過以(xi,yi)為起始點(diǎn)的有限步長(zhǎng)吉布斯采樣來逼近所要求的期望。
1.2判別波茲曼機(jī)
生成波茲曼機(jī)能得到音頻特征與社群標(biāo)簽之間的聯(lián)合概率分布,但本文關(guān)注的是社群標(biāo)簽的自動(dòng)標(biāo)注,因此,我們的目標(biāo)是對(duì)輸入音樂的精準(zhǔn)標(biāo)注,而不是概率分布,即可以將目標(biāo)函數(shù)p(x,y)替換為p(y|x)。繼續(xù)考慮負(fù)對(duì)數(shù)似然,目標(biāo)函數(shù)從式(4)的聯(lián)合分布變?yōu)闂l件分布:
(5)
通過與式(4)相似的式(6)計(jì)算梯度下降:
(6)
同生成波茲曼機(jī)一樣,在訓(xùn)練判別波茲曼機(jī)時(shí),同樣可以利用對(duì)比散度方法計(jì)算梯度,最大的區(qū)別是在計(jì)算式(6)的第2項(xiàng)時(shí),由于是計(jì)算后驗(yàn)概率,不需要考慮輸入xi的重構(gòu),因此將xi固定即可。
相比于生成波茲曼機(jī),判別波茲曼機(jī)的優(yōu)勢(shì)體現(xiàn)在訓(xùn)練時(shí)數(shù)據(jù)集的量上,大量的訓(xùn)練集將使判別波茲曼機(jī)發(fā)揮更出色,反之,生成波茲曼機(jī)在少量的數(shù)據(jù)集上更有優(yōu)勢(shì)。
因此,為了既能適應(yīng)本文音樂數(shù)據(jù)集較少的情況,又能在日后數(shù)據(jù)集足夠充足的情況下不影響性能,本文提出了一種結(jié)合兩者優(yōu)勢(shì)的基于混合判別波茲曼機(jī)模型的音樂自標(biāo)注模型,使得音樂標(biāo)注任務(wù)在不同數(shù)量的音樂數(shù)據(jù)集上的標(biāo)注結(jié)果達(dá)到比單一模型更好的效果,同時(shí)標(biāo)注的準(zhǔn)確度好于傳統(tǒng)的機(jī)器學(xué)習(xí)模型。
混合判別波茲曼機(jī)的目標(biāo)函數(shù)由式(3)和式(5)共同組成:
(7)
其中,可調(diào)參數(shù)α表示生成模型對(duì)于整個(gè)模型的影響比重。若α較大,則更偏重于生成波茲曼機(jī),即少量音樂數(shù)據(jù)集的情況;反之,則偏重于判別波茲曼機(jī)。在實(shí)際運(yùn)用中,可以利用交叉驗(yàn)證的方法調(diào)節(jié)α,以達(dá)到在不同音樂訓(xùn)練集的情況下都能為新的音樂標(biāo)注上準(zhǔn)確的社群標(biāo)簽。事實(shí)上,也可以將式(7)的后一項(xiàng)看成判別波茲曼機(jī)的正則化項(xiàng)。
另一方面,在機(jī)器學(xué)習(xí)訓(xùn)練中,有時(shí)由于訓(xùn)練數(shù)據(jù)集不充足,模型會(huì)產(chǎn)生過擬合問題,最終訓(xùn)練得到的模型對(duì)在訓(xùn)練時(shí)“未見過”數(shù)據(jù)的分類效果很差。為此,本文引入了近些年在深度模型中廣泛使用的Dropout規(guī)則化方法。
在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程中,層與層之間的權(quán)值和偏置都會(huì)在每一次的訓(xùn)練過程里強(qiáng)制更新,因此可能會(huì)導(dǎo)致一些系數(shù)過分地共適應(yīng)(co-adaption),也就是說,一些權(quán)重系數(shù)可能會(huì)收斂于某個(gè)值,而這個(gè)值可能會(huì)過分依賴于另一些權(quán)重系數(shù)所收斂的值。
在訓(xùn)練過程中,Dropout將一層單元中的一部分隨機(jī)置零,也就相當(dāng)于舍棄被置零的單元與下一層的鏈接,這樣便會(huì)阻止神經(jīng)元間的過分的共適應(yīng)。文獻(xiàn)[10]證實(shí)了帶有Dropout的受限波茲曼機(jī)將優(yōu)于傳統(tǒng)受限波茲曼機(jī)。
本文將Dropout應(yīng)用于混合判別波茲曼機(jī)中,使輸入音頻特征的一部分置零,以達(dá)到防止模型過擬合的效果。同時(shí),實(shí)驗(yàn)結(jié)果也證實(shí)了Dropout確實(shí)能使模型的標(biāo)注準(zhǔn)確率更高。
圖3為基于混合判別波茲曼機(jī)的音樂自標(biāo)注模型的訓(xùn)練流程圖。首先從原始音樂中提取出音色特征和旋律特征,然后送入混合波茲曼模型中進(jìn)行訓(xùn)練,以最小化負(fù)對(duì)數(shù)似然為目標(biāo)函數(shù),其中混合模型使用了Dropout方法防止過擬合。通過交叉驗(yàn)證方法,調(diào)整模型中的參數(shù)使模型達(dá)到最優(yōu)的效果。
與流派標(biāo)注或其他的標(biāo)注問題不同的是,在為音樂標(biāo)注社群標(biāo)簽時(shí),一首歌曲一般有多個(gè)標(biāo)簽,如一首音樂可能被同時(shí)標(biāo)記為“男聲”、“搖滾”等,因此,在使用模型為測(cè)試集音樂標(biāo)注時(shí),將混合波茲曼機(jī)由softmax函數(shù)得到的一組概率值向量p(y|x),即表征模型將一首歌曲標(biāo)記為某個(gè)標(biāo)簽的把握程度,取其概率最大的一部分標(biāo)記與真實(shí)標(biāo)記進(jìn)行比較來計(jì)算模型的準(zhǔn)確率。
圖3 帶Dropout的混合判別波茲曼機(jī)的訓(xùn)練流程圖Fig.3 Training flowchart of the Hybrid discriminative restricted Boltzmann machines with Dropout
3.1數(shù)據(jù)集
本文實(shí)驗(yàn)采用混合判別波茲曼機(jī)模型為音樂自動(dòng)標(biāo)注。社群標(biāo)簽數(shù)據(jù)集采用Amazon.com的Mechanical Turk數(shù)據(jù)集[13]。Mturk讓用戶任意描述一段10 s的歌曲片段,用戶可以隨意去標(biāo)記片段的流派、情感和樂器類型等多種多樣的標(biāo)簽(例如“孤獨(dú)”、“快節(jié)奏”等語(yǔ)義標(biāo)簽)。本實(shí)驗(yàn)一共選取915首10 s片段,同時(shí)摘取最常用且有意義的25種社群標(biāo)簽。
模型輸入特征采用文獻(xiàn)[14]中的音色與旋律特征。音色特征是音頻梅爾倒譜系數(shù)(MFCC)協(xié)方差的均值與方差,這種特征能捕捉到音頻的樂器信息。旋律特征由4個(gè)頻帶得到,能夠提取到鼓樂器成分,還能夠分離具有強(qiáng)烈節(jié)奏的樂曲與其他樂曲,如舞曲與搖滾民謠。上述特征都進(jìn)行了歸一化預(yù)處理,具有零均值與單位方差。音色特征有189維,旋律特征有200維,將兩者合并,輸入為389維特征。
3.2實(shí)驗(yàn)?zāi)P?/p>
本文實(shí)驗(yàn)采用了判別波茲曼機(jī)、混合判別波茲曼機(jī)、帶有Dropout處理的混合判別波茲曼機(jī)、經(jīng)典分類器——支持向量機(jī)(SVM),以及多層感知機(jī)MLP模型。
所有的波茲曼機(jī)在建立模型時(shí)都引入了高斯單元[15]以適應(yīng)連續(xù)音頻特征x和二值標(biāo)簽序列y,具體來說,在訓(xùn)練時(shí),通過隱層生成的可視層具有正態(tài)分布(連續(xù)值序列),通過隱層生成的標(biāo)簽為二值序列。
實(shí)驗(yàn)還使用了線性核支持向量機(jī)(SVM)來進(jìn)行比較,由于是多分類問題,故采用一對(duì)多分類器。
3.3實(shí)驗(yàn)
3.3.1 實(shí)驗(yàn)1 實(shí)驗(yàn)1比較了在訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集數(shù)量不同的情況下,判別波茲曼機(jī)、混合判別波茲曼機(jī)、SVM與多層感知機(jī)MLP結(jié)果的差異。實(shí)驗(yàn)結(jié)果如圖4所示。
訓(xùn)練過程中,采用10折交叉驗(yàn)證(10-fold validation)設(shè)置使模型最優(yōu)的參數(shù)。數(shù)據(jù)集被分為10折,模型將被訓(xùn)練10次,每一次的訓(xùn)練都采用9折的樣本集,剩下的1折樣本子集作為測(cè)試集。這種方法能最大限度地利用整個(gè)數(shù)據(jù)集樣本,并且由于驗(yàn)證集基本涵蓋了整個(gè)數(shù)據(jù)集,能最大限度考察模型的泛化能力并依據(jù)驗(yàn)證集設(shè)置模型參數(shù)。最終,本實(shí)驗(yàn)的波茲曼機(jī)與多層感知機(jī)的模型系數(shù)如表1所示,其中,將式(8)中的α設(shè)為0.005,以達(dá)到較為顯著的效果。
從圖4中可以看到,當(dāng)訓(xùn)練數(shù)據(jù)集足夠多時(shí),混合判別波茲曼機(jī)和判別波茲曼機(jī)都能達(dá)到較為滿意的準(zhǔn)確率,且兩者的結(jié)果非常接近且都優(yōu)于SVM與MLP。當(dāng)訓(xùn)練數(shù)據(jù)集開始減少時(shí),所有的分類器的準(zhǔn)確率都開始下降,但混合判別波茲曼機(jī)的優(yōu)勢(shì)開始體現(xiàn)出來,比判別波茲曼機(jī)準(zhǔn)確率高2%左右。當(dāng)訓(xùn)練數(shù)據(jù)集進(jìn)一步減少時(shí),混合判別波茲曼機(jī)的準(zhǔn)確率與判別波茲曼的準(zhǔn)確率之間的差距又有了進(jìn)一步的拉大。
表1 實(shí)驗(yàn)1中波茲曼機(jī)與多層感知機(jī)的模型參數(shù)Table 1 Model parameters of the Boltzmann machines and the MLP in experiment 1
更多的實(shí)驗(yàn)數(shù)據(jù)表明,在有足夠多的訓(xùn)練數(shù)據(jù)學(xué)習(xí)時(shí),混合判別波茲曼機(jī)與判別波茲曼的效果非常近似,當(dāng)不斷減少訓(xùn)練數(shù)據(jù)量時(shí),混合判別波茲曼機(jī)的優(yōu)勢(shì)逐漸體現(xiàn)出來,最終的差距維持在3%左右。
圖4 不同數(shù)據(jù)集樣本數(shù)量下4種分類器的準(zhǔn)確率Fig.4 Accuracy of four classifiers in different amounts of datasets
3.3.2 實(shí)驗(yàn)2 實(shí)驗(yàn)2把經(jīng)Dropout處理后的混合判別波茲曼機(jī)與文獻(xiàn)[16]中的判別波茲曼機(jī)、多層感知機(jī)(MLP)、SVM進(jìn)行比較,觀察Dropout規(guī)則化處理方法的效果。訓(xùn)練采用5折交叉驗(yàn)證來設(shè)置參數(shù)與比較模型,其中3折是訓(xùn)練集,1折是驗(yàn)證集,1折是測(cè)試集,即549個(gè)訓(xùn)練樣本,驗(yàn)證集和測(cè)試集分別為189。同文獻(xiàn)[16]一樣,也采用AUC判別標(biāo)準(zhǔn)[17]。模型參數(shù)如表2所示,實(shí)驗(yàn)結(jié)果如表3所示。
表2 實(shí)驗(yàn)2中的模型參數(shù)Table 2 Model parameters in experiment 2
表3 實(shí)驗(yàn)2中5種分類器的AUC準(zhǔn)確率結(jié)果Table 3 AUC accuracy of five classifiers in experiment 2
實(shí)驗(yàn)結(jié)果表明,Dropout確實(shí)能夠提升混合判別波茲曼機(jī)的性能,防止因?yàn)橛?xùn)練樣本過少而產(chǎn)生的過擬合情況。在同樣的環(huán)境參數(shù)下,經(jīng)過Dropout的混合判別波茲曼機(jī)比未經(jīng)過Dropout的單一判別波茲曼機(jī)或混合判別波茲曼機(jī)的準(zhǔn)確率提高了0.5%左右。
本文通過實(shí)驗(yàn)論證了混合判別波茲曼機(jī)在音樂標(biāo)注上的效果不僅好于傳統(tǒng)分類器,且在訓(xùn)練數(shù)據(jù)集較少的情況下,效果也能優(yōu)于判別波茲曼機(jī)。這一優(yōu)勢(shì)在帶標(biāo)注數(shù)據(jù)較少的情況下,即帶標(biāo)注數(shù)據(jù)少,而未標(biāo)注數(shù)據(jù)量極大的情況下很有意義。同時(shí),為了進(jìn)一步應(yīng)對(duì)實(shí)驗(yàn)中少量訓(xùn)練集的情況,引入了Dropout方法,以解決混合判別波茲曼機(jī)模型過擬合問題。
在音樂推薦系統(tǒng)中,往往需要計(jì)算得到符合用戶需求的音樂,從而能夠?qū)?yōu)秀的推薦結(jié)果呈現(xiàn)給用戶,而通過人工對(duì)音樂進(jìn)行標(biāo)注、分類等工作需要耗費(fèi)大量的人力成本以及時(shí)間成本。本文研究的模型能夠在一定程度上為音樂進(jìn)行自動(dòng)標(biāo)注,從而能為后續(xù)的推薦系統(tǒng)算法,包括基于內(nèi)容或基于協(xié)同過濾等推薦算法提供便利。
目前的深度學(xué)習(xí)模型中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network)或是深度置信網(wǎng)絡(luò)(Deep belief network)的分類準(zhǔn)確率很高,我們將把深度學(xué)習(xí)模型與本文研究的混合判別波茲曼機(jī)相結(jié)合,即可以將深度學(xué)習(xí)模型最后的線性回歸(Logistic regression)層替換為混唄判別波茲曼機(jī),同時(shí)加上Dropout等規(guī)則化方法,試圖能夠在少量樣本數(shù)量的情況下得到更好的標(biāo)注結(jié)果。
[1] TINGLE D,KIM Y E,TURNBULL D.Exploring automatic music annotation with acoustically-objective tags[C]//Proceedings of the International Conference on Multimedia Information Retrieval.Philadelphia,PA,USA:ACM,2010:55-62.
[2] SORDO M,LAURIER C,CELMA O.Annotating music collections:How content-based similarity helps to propagate labels[C]//Proceedings of the 8th International Conference on Music Information Retrieval.Vienna,Austria:DBLP,2007:531-534.
[3] LAMERE P.Social tagging and music information retrieval[J].Journal of New Music Research,2008,37(2):101-114.
[4] BERTIN-MAHIEUX T,ECK D,MAILLET F,etal.Autotagger:A model for predicting social tags from acoustic features on large music databases[J].Journal of New Music Research,2008,37(2):115-135.
[5] LAURIER C,SORDO M,SERRA J,etal. Music mood representations from social tags[C]//Proceedings of the 10th International Society for Music Information Retrieval Conference.Kobe,Japan:DBLP,2009:381-386.
[6] LEVY M,SANDLER M.A semantic space for music derived from social tags[C]//Proceedings of the 8th International Conference on Music Information Retrieval.Vienna,Austria:DBLP,2007:411-416.
[7] SYMEONIDIS P,RUXANDA M M,NANOPOULOS A,etal.Ternary semantic analysis of social tags for personalized music recommendation[C]//9th International Conference on Music Information Retrieval.Philadelphia,USA:DBLP,2008:219-224.
[8] HAMEL P,ECK D.Learning features from music audio with deep belief networks[C]//Proceedings of the 11th International Society for Music Information Retrieval Conference.Utrecht,Netherlands:DBLP, 2010:339-344.
[9] NG A,JORDAN M.On discriminative vs.generative classiers:A comparison of logistic regression and naive Bayes[C]//Advances in Neural Information Processing Systems.Vancouver,British Columbia,Canada:NIPS,2002:841-848.
[10] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.
[11] SRIVASTAVA N,HINTON G,KRIZHEVSKY A,etal.Dropout:A simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research,2014,15(1):1929-1958.
[12] HINTON G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1771-1800.
[13] MANDEL M I,ECK D,BENGIO Y.Learning tags that vary within a song[C]//Proceedings of the 11th International Society for Music Information Retrieval Conference.Utrecht,Netherlands:DBLP, 2010:399-404.
[14] MANDEL M I,ELLIS D P W.A web-based game for collecting music metadata[J].Journal of New Music Research,2008,37(2):151-165.
[15] WELLING M,ROSEN-ZVI M,HINTON G E.Exponential family harmoniums with an application to information retrieval[C]//Advances in Neural Information Processing Systems.Vancouver,British Columbia,Canada:NIPS,2004:1481-1488.
[16] MANDEL M,PASCANU R,LAROCHELLE H.Autotagging music with conditional restricted Boltzmann machines[C]//Asian Couference on Information and Database Systems.USA:IEEE,2012:284-293.
[17] CORTES C,MOHRI M.AUC optimization vs.error rate minimization[J].Advances in Neural Information Processing Systems,2004,16(16):313-320.
AnnotatingMusicwithHybridDiscriminativeRestrictedBoltzmannMachines
WANGShi-jun,CHENNing
(SchoolofInformationScienceandEngineering,EastChinaUniversityofScienceandTechnology,Shanghai200237,China)
For the music annotation,the amount of unlabeled music data is often much more than the labeled ones such that the training results are usually unsatisfying.Although generation model can be suitable for the smaller training data case to some extent and get higher quality results,it may be inferior to the discriminative model in the case of sufficient training data.By combining the advantages of the generation model and the discriminative model,this paper presents a hybrid discriminative restricted Boltzmann machines.The proposed hybrid model can improve the accuracy of the music annotation tasks.The experiment results show that the hybrid model is much better than the traditional machine learning models.Moreover,it is also better than the single discriminative Boltzmann machines for the case that the amount of training data is small and can attain the similar performance to the discriminative model in the case that the amount of training data is sufficient.Besides,the Dropout method is introduced in this paper to improve the model and prevent the overfitting for the smaller training data.
annotating music; hybrid discriminative restricted Boltzmann machines; machine learning; artificial intelligence
1006-3080(2017)04-0540-06
10.14135/j.cnki.1006-3080.2017.04.013
2016-09-28
國(guó)家自然科學(xué)基金(61271349)
王詩(shī)俊(1991-),男,碩士生,研究方向?yàn)橐纛l信號(hào)處理。
陳 寧,E-mail:chenning_750210@163.com
TP391
A