沈哲旭,曾景杰,丁 健,楊 亮,林鴻飛
(大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
音樂(lè)具有傳達(dá)情感的功能,與聽(tīng)眾之間產(chǎn)生情感共鳴是音樂(lè)創(chuàng)作的重要原則之一。對(duì)音樂(lè)的情感進(jìn)行正確分析和預(yù)測(cè),在諸多現(xiàn)實(shí)場(chǎng)景中均具有較高的應(yīng)用價(jià)值。例如,將網(wǎng)絡(luò)平臺(tái)中的海量音樂(lè)數(shù)據(jù)按情感分類(lèi),可以方便用戶檢索,也可更好地針對(duì)用戶喜好進(jìn)行推薦;利用情感信息來(lái)指導(dǎo)音樂(lè)生成,可以自動(dòng)化地提供與場(chǎng)景氛圍相匹配的音樂(lè);用音樂(lè)進(jìn)行心理治療時(shí),治療師可根據(jù)音樂(lè)的情感分析結(jié)果選擇出療效更好的音樂(lè)[1]。樂(lè)譜作為準(zhǔn)確記錄各類(lèi)音樂(lè)信息的載體,一直是人們進(jìn)行音樂(lè)學(xué)習(xí)、傳播與分享的重要媒介。常見(jiàn)的記譜法有五線譜、簡(jiǎn)譜、TAB譜等,分別應(yīng)用于不同的樂(lè)器與音樂(lè)形式。隨著計(jì)算機(jī)音樂(lè)技術(shù)的發(fā)展,陸續(xù)產(chǎn)生了多種適用于計(jì)算機(jī)存取的電子樂(lè)譜格式。其中,由Good[2]在2001年基于可擴(kuò)展標(biāo)記語(yǔ)言(eXtensible Markup Language,XML)提出的音樂(lè)擴(kuò)展標(biāo)記語(yǔ)言(Music eXtensible Markup Language,Music XML)[1]電子樂(lè)譜格式具有描述精確、檢索方便等優(yōu)點(diǎn),同時(shí)適用于音樂(lè)表示與網(wǎng)絡(luò)傳輸,在隨后的數(shù)年之內(nèi)迅速成為了計(jì)算機(jī)制譜軟件的通用標(biāo)準(zhǔn)。本文基于預(yù)訓(xùn)練語(yǔ)言模型,對(duì)Music XML樂(lè)譜所表達(dá)的音樂(lè)開(kāi)展情感分類(lèi)研究。
國(guó)內(nèi)外對(duì)音樂(lè)情感分析的研究從21世紀(jì)初開(kāi)始興起,其中絕大多數(shù)研究是針對(duì)音頻音樂(lè)或歌詞文本開(kāi)展的[3]。2005年,Lu等[4]利用音頻片段的3種特征,基于高斯混合模型提出了一種分層架構(gòu),完成了音樂(lè)的情感分類(lèi)任務(wù)。2012年,李靜等[5]用歌詞中的情感詞建立情感向量空間模型,并考慮情感詞與所屬歌曲情感標(biāo)簽的相似度來(lái)實(shí)現(xiàn)歌曲分類(lèi)任務(wù),其改進(jìn)方法的分類(lèi)準(zhǔn)確度有了較為明顯的提升。2013年,Hwang等[6]提取了節(jié)奏、動(dòng)態(tài)和音高等音頻特征來(lái)表示音樂(lè)樣本,并利用K-最近鄰分類(lèi)器來(lái)輸出結(jié)果。隨著數(shù)據(jù)規(guī)模的增加與計(jì)算機(jī)算力的提升,深度學(xué)習(xí)(Deep learning)逐漸成為音樂(lè)情感分類(lèi)的主流手段。2019年,Zhou等[7]使用無(wú)監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行音樂(lè)的多模態(tài)特征學(xué)習(xí),并引入一系列回歸實(shí)驗(yàn)評(píng)估學(xué)習(xí)到的特征,該項(xiàng)研究證明了深度神經(jīng)網(wǎng)絡(luò)具有良好的特征學(xué)習(xí)能力。2021年,趙劍等[8]提出了一種基于知識(shí)蒸餾與遷移學(xué)習(xí)結(jié)合的多模態(tài)融合方法,該方法在音樂(lè)情感識(shí)別任務(wù)中的準(zhǔn)確率有明顯提高,泛化能力也得到了提升。
針對(duì)符號(hào)音樂(lè)(Symbolic music)或電子樂(lè)譜開(kāi)展的情感分類(lèi)研究相對(duì)較少。2010年,Cuthbert等[9]開(kāi)發(fā)了用于計(jì)算音樂(lè)學(xué)分析的工具包music21,大大簡(jiǎn)化了對(duì)符號(hào)音樂(lè)以及電子樂(lè)譜的解析與特征提取過(guò)程。2018年,Sun等[10]運(yùn)用統(tǒng)計(jì)學(xué)方法探究歌詞與其對(duì)應(yīng)音符的音樂(lè)特征的情感關(guān)聯(lián),發(fā)現(xiàn)歌詞中情感色彩濃烈的詞語(yǔ)所對(duì)應(yīng)的音符也往往具有異于其鄰近音符的音樂(lè)特征。此外,該項(xiàng)研究直接對(duì)Music XML電子樂(lè)譜進(jìn)行量化分析,以避免因不同演奏者或演唱者在演繹上的區(qū)別造成的聽(tīng)感不一致,也為后續(xù)的基于音樂(lè)序列的研究提供了一定的指導(dǎo)。符號(hào)音樂(lè)與自然語(yǔ)言都具有類(lèi)似的序列特征,故自然語(yǔ)言處理的相關(guān)研究手段同樣可應(yīng)用于符號(hào)音樂(lè)的研究中。2019年,Ferreira等[11]構(gòu)建了基于VA(Valence-Arousal)模型[12]進(jìn)行情感標(biāo)注的符號(hào)音樂(lè)數(shù)據(jù)集VGMIDI,并將自然語(yǔ)言處理的研究方法應(yīng)用于對(duì)音樂(lè)序列的分析研究中,使符號(hào)音樂(lè)的情感分類(lèi)與生成工作有了新的解決方案。
近年來(lái),以基于Transformer的雙向編碼器(Bidirectional Encoder Representation from Transformers,BERT)[13]為代表的基于大規(guī)模文本數(shù)據(jù)訓(xùn)練得到的預(yù)訓(xùn)練語(yǔ)言模型(Pre-trained Language Model,PLM)成為了主流的文本表示模型。相較于早期的語(yǔ)言模型,預(yù)訓(xùn)練語(yǔ)言模型采用海量的語(yǔ)料進(jìn)行訓(xùn)練,模型參數(shù)量規(guī)模得到了極大的擴(kuò)增,也能夠更好地提取文本特征。在完成不同的任務(wù)時(shí),需要將預(yù)訓(xùn)練模型依據(jù)任務(wù)目標(biāo)增加不同功能的輸出層聯(lián)合訓(xùn)練,進(jìn)行精調(diào)(Fine-tuning)以適應(yīng)各類(lèi)下游領(lǐng)域?!邦A(yù)訓(xùn)練+精調(diào)”已成為了目前解決自然語(yǔ)言處理相關(guān)任務(wù)的主流范式。2021年,Zeng等[14]提出了一種符號(hào)音樂(lè)的編碼方式——Octuple MIDI,并在超過(guò)150萬(wàn)條的符號(hào)音樂(lè)數(shù)據(jù)上采用小節(jié)級(jí)別的掩碼訓(xùn)練得到MusicBERT模型,該模型經(jīng)過(guò)精調(diào)后在多項(xiàng)符號(hào)音樂(lè)理解任務(wù)中都達(dá)到了較高水平。Chou等[15]在多個(gè)符號(hào)音樂(lè)數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,得到MIDIBERT-Piano模型,其在主旋律抽取、力度預(yù)測(cè)、作曲家分類(lèi)以及情感分類(lèi)等下游任務(wù)中均大幅度超越了未經(jīng)過(guò)預(yù)訓(xùn)練的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型。
本文基于預(yù)訓(xùn)練語(yǔ)言模型構(gòu)建的歌詞情感分類(lèi)模型和音樂(lè)序列情感分類(lèi)模型可以較好地學(xué)習(xí)歌詞文本和音樂(lè)序列的語(yǔ)義特征,系統(tǒng)的整體表現(xiàn)與未經(jīng)預(yù)訓(xùn)練的方法相比得到顯著改善。
MusicXML是電子樂(lè)譜的一種通用格式,為了方便樂(lè)譜的存檔、傳輸及在應(yīng)用程序之間的共享而設(shè)計(jì)。正如音頻音樂(lè)的通用格式MP3一樣,MusicXML也已成為了共享交互式電子樂(lè)譜的行業(yè)標(biāo)準(zhǔn)。MusicXML電子樂(lè)譜的一般結(jié)構(gòu)為整張樂(lè)譜包括若干個(gè)聲部(Parts),每個(gè)聲部之中以小節(jié)為單位記錄樂(lè)譜的音樂(lè)信息。音樂(lè)信息由元素(Elements)和屬性(Attributes)來(lái)表示,各類(lèi)音樂(lè)參數(shù)均可詳細(xì)記錄。如圖1所示為一段MusicXML代碼示例。
圖1 Music XML代碼示例Fig.1 Sample of MusicXML code
現(xiàn)有的公開(kāi)的Music XML電子樂(lè)譜數(shù)據(jù)集較少,本文利用爬蟲(chóng)(用Python編寫(xiě)實(shí)現(xiàn))從互聯(lián)網(wǎng)上獲取Music XML樂(lè)譜數(shù)據(jù)以供研究,使用music21工具包對(duì)數(shù)據(jù)集中所有樂(lè)譜進(jìn)行解析,并提取歌詞文本與音樂(lè)序列。經(jīng)檢查發(fā)現(xiàn),樂(lè)譜數(shù)據(jù)集中存在一定比例的低質(zhì)量數(shù)據(jù),如樂(lè)譜內(nèi)容為空、音樂(lè)序列均為相同單音、無(wú)歌詞、歌詞均為無(wú)意義的襯詞、歌詞非英語(yǔ)等,故進(jìn)行數(shù)據(jù)清洗工作以將這部分低質(zhì)量數(shù)據(jù)去除。此外,進(jìn)行樂(lè)譜節(jié)拍的篩選,僅保留拍號(hào)為4/4拍的樂(lè)譜數(shù)據(jù),以便于音樂(lè)序列分析模型的構(gòu)建。經(jīng)過(guò)數(shù)據(jù)清洗之后,用于后續(xù)研究的Music XML樂(lè)譜數(shù)據(jù)規(guī)模在5 000條以上。
本文構(gòu)建含有情感標(biāo)注的歌詞文本數(shù)據(jù)集,用于歌詞文本情感分類(lèi)模型的訓(xùn)練。多數(shù)網(wǎng)絡(luò)音樂(lè)平臺(tái)允許用戶自行創(chuàng)建并公開(kāi)含有若干情感標(biāo)簽的歌單,其中包含的歌曲均經(jīng)過(guò)用戶人工篩選并分類(lèi),用戶標(biāo)注的情感標(biāo)簽可作為歌曲情感類(lèi)別劃分的重要參考。為了保證歌曲情感標(biāo)注的準(zhǔn)確性,本文選取的情感歌單播放量均在10萬(wàn)及以上級(jí)別,且僅選用“快樂(lè)”和“傷感”這兩類(lèi)較為強(qiáng)烈、明顯的情感標(biāo)簽,分別作為正向(Positive)和負(fù)向(Negative)的判定標(biāo)準(zhǔn)。經(jīng)初步篩查發(fā)現(xiàn),數(shù)據(jù)集中的一些歌詞存在前后兩部分的情感表達(dá)不完全一致的現(xiàn)象,且情感波動(dòng)較為顯著,故數(shù)據(jù)清洗時(shí)將這樣的歌詞去除。在此基礎(chǔ)上,采用回譯的方式對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),以擴(kuò)大數(shù)據(jù)規(guī)模。具體操作為: 使用機(jī)器翻譯系統(tǒng),將歌詞內(nèi)容從初始的英文分別翻譯為4種不同語(yǔ)言,再重新翻譯為英文,并補(bǔ)充回原數(shù)據(jù)集中。歌詞數(shù)據(jù)集的分布如表1所示。
表1 含有情感標(biāo)注的英文歌詞數(shù)據(jù)集分布Tab.1 Statistics of sentiment-annotated english lyrics dataset
3.1.1 基于情感詞典的歌詞文本情感分類(lèi)模型
本文選用英文文本情感分析領(lǐng)域通用的標(biāo)準(zhǔn)情感詞典SentiWord Net 3.0[16]作為歌詞文本情感分類(lèi)的基線模型之一。該詞典中包含每個(gè)單詞經(jīng)人工標(biāo)注的3個(gè)情感傾向值,依次為褒義、貶義和中性。通過(guò)對(duì)整段文字中單詞的詞頻與情感值進(jìn)行加權(quán)平均運(yùn)算,可得到文本的情感得分,進(jìn)而判斷其情感傾向性。
3.1.2 基于TextCNN的歌詞文本情感分類(lèi)模型
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一類(lèi)包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),其所具有的獨(dú)特的卷積處理與池化能力可避免對(duì)圖像的復(fù)雜前期預(yù)處理,自動(dòng)提取其高級(jí)特征,在圖像處理領(lǐng)域有著廣泛應(yīng)用。Kim[17]于2014年提出的TextCNN模型使卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用擴(kuò)展到自然語(yǔ)言處理領(lǐng)域。首先將每個(gè)單詞映射為一個(gè)詞向量,作為整個(gè)網(wǎng)絡(luò)的輸入,然后經(jīng)過(guò)若干卷積層學(xué)習(xí)到不同的特征后,通過(guò)最大池化層,使不同長(zhǎng)度的向量變?yōu)槎ㄩL(zhǎng)表示,拼接成為一個(gè)特征向量,最后經(jīng)過(guò)一個(gè)全連接層分類(lèi)器輸出分類(lèi)結(jié)果,如圖2所示。
圖2 TextCNN模型的結(jié)構(gòu)Fig.2 Structure of TextCNN model
在本文的歌詞情感分類(lèi)任務(wù)中,使用預(yù)訓(xùn)練好的Glo Ve.6B.100d詞向量數(shù)據(jù)作為詞嵌入輸入。先通過(guò)3種不同尺寸的濾波器將輸入分割為不同長(zhǎng)度的字節(jié)片段,隨后依次經(jīng)過(guò)卷積層和最大池化層,最后通過(guò)一個(gè)全連接層,輸出歌詞情感分類(lèi)結(jié)果。
3.1.3 基于BERT+Bi-GRU的歌詞文本情感分類(lèi)模型
BERT是Devlin等[13]提出的一種自編碼式預(yù)訓(xùn)練語(yǔ)言模型。其基于雙向深層Transformer網(wǎng)絡(luò),擁有雙向編碼能力和強(qiáng)大的特征提取能力,在11項(xiàng)自然語(yǔ)言處理任務(wù)中取得了當(dāng)時(shí)業(yè)界的最高水平,使自然語(yǔ)言處理進(jìn)入了“預(yù)訓(xùn)練+精調(diào)”范式的新階段。
BERT的預(yù)訓(xùn)練任務(wù)之一為掩碼語(yǔ)言模型(Masked Language Model,MLM),該訓(xùn)練任務(wù)類(lèi)似于填空,可使得模型對(duì)上下文關(guān)系有更好的理解。在BERT模型中,掩碼(Mask)比例為15%,在這其中的80%用[MASK]標(biāo)記來(lái)替換,10%替換為任意隨機(jī)詞,10%保持原詞不變,這樣的操作可避免雙向語(yǔ)言模型導(dǎo)致的信息泄漏問(wèn)題。BERT的另一個(gè)預(yù)訓(xùn)練任務(wù)為下一個(gè)句子預(yù)測(cè)(Next Sentence Prediction,NSP)。在該任務(wù)中,模型需要判斷后一段文本是否為前一段文本的下一個(gè)句子。其中的正樣本為語(yǔ)料庫(kù)的兩個(gè)相鄰句子A和B,負(fù)樣本將句子B替換為其他任意的語(yǔ)句。正負(fù)樣本的比例設(shè)置為1∶1。
門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)是Cho等[18]提出的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long and Short-Term Memory networks,LSTM)的一種變體,它將標(biāo)準(zhǔn)LSTM中的遺忘門(mén)和輸入門(mén)組合到一個(gè)單獨(dú)的“更新門(mén)”中,模型比標(biāo)準(zhǔn)LSTM模型更加簡(jiǎn)單,而性能表現(xiàn)幾乎相當(dāng),能夠很大程度上提高訓(xùn)練效率。GRU的單元結(jié)構(gòu)如圖3所示。
圖3中:x t代表輸入;h t-1與h t為相應(yīng)節(jié)點(diǎn)的隱藏狀態(tài);r t和z t分別為重置門(mén)和更新門(mén);h~t為候選隱狀態(tài)。計(jì)算公式如下所示:
圖3 GRU的結(jié)構(gòu)Fig.3 Structure of GRU
式中:⊙代表張量逐元素積;σ為Sigmoid函數(shù),使得各門(mén)的取值范圍保持在(0,1);W與b均為待優(yōu)化的網(wǎng)絡(luò)參數(shù),其下標(biāo)用以區(qū)分不同門(mén)的參數(shù)。
本文的任務(wù)中,首先將BERT預(yù)訓(xùn)練模型中的Transformer層進(jìn)行凍結(jié)處理,保留其原有參數(shù),將其輸出的詞句表示通過(guò)一個(gè)多層的雙向GRU(Bi-GRU)進(jìn)行下游任務(wù)的精調(diào),通過(guò)Softmax分類(lèi)器輸出歌詞文本的情感分類(lèi)結(jié)果:
式中:z為輸入向量[z1,z2,…,z k];k為類(lèi)別數(shù);y i表示輸入向量屬于第i個(gè)類(lèi)別的概率。在本文的歌詞情感分類(lèi)任務(wù)中,類(lèi)別數(shù)為2,故式(5)可簡(jiǎn)化為下面的形式,即Sigmoid函數(shù):
完整的BERT+Bi-GRU模型結(jié)構(gòu)如圖4所示。
圖4 基于BERT的歌詞文本情感分類(lèi)模型的整體結(jié)構(gòu)Fig.4 Overall structure of BERT-based lyric text sentiment classification model
3.2.1 基于MIDIBERT的音樂(lè)情感分類(lèi)模型(1) 預(yù)訓(xùn)練階段
2.2節(jié)中構(gòu)建的Music XML樂(lè)譜數(shù)據(jù)集均為無(wú)標(biāo)注數(shù)據(jù),可以用于預(yù)訓(xùn)練。將音樂(lè)數(shù)據(jù)輸入至模型時(shí),需要對(duì)音樂(lè)進(jìn)行合理的表示,以便于模型對(duì)音樂(lè)信息進(jìn)行處理。Hsiao等[19]提出的復(fù)合詞(Compound Word,CP)是一種適用于深度學(xué)習(xí)的符號(hào)音樂(lè)序列表示方法,將音樂(lè)序列及其時(shí)間信息轉(zhuǎn)換為高維向量的表示,使神經(jīng)網(wǎng)絡(luò)模型可以讀取。本文的研究中將其進(jìn)行簡(jiǎn)化,單個(gè)標(biāo)記(Token)僅表示單個(gè)音符的相關(guān)事件,其具體結(jié)構(gòu)為: 所在小節(jié)(新一小節(jié)的開(kāi)始/小節(jié)內(nèi)部)、分拍(以十六分音符為單位,4/4拍的音樂(lè)每小節(jié)有16個(gè)分拍)、音高(同MIDI事件范圍,數(shù)值為0~127)、時(shí)值(以三十二分音符為單位)。一段音樂(lè)序列的簡(jiǎn)化的CP表示方式的結(jié)構(gòu)如圖5所示。
圖5 符號(hào)音樂(lè)的簡(jiǎn)化CP表示Fig.5 Simplified CP representation for symbolic music
本文將所有樂(lè)譜的音樂(lè)序列部分提取并轉(zhuǎn)換為CP表示,并將該數(shù)據(jù)集與MIDIBERT初始預(yù)訓(xùn)練使用的5個(gè)數(shù)據(jù)集混合,重新進(jìn)行預(yù)訓(xùn)練,該處理方式相當(dāng)于擴(kuò)充了預(yù)訓(xùn)練的數(shù)據(jù)規(guī)模,這樣可使模型更好地學(xué)習(xí)音樂(lè)序列的上下文知識(shí)。預(yù)訓(xùn)練任務(wù)與BERT模型的MLM任務(wù)類(lèi)似,將一段音樂(lè)序列中的某個(gè)Token進(jìn)行掩碼處理,讓模型還原被掩碼掉的音符及其對(duì)應(yīng)的事件。
(2) 精調(diào)階段
EMOPIA數(shù)據(jù)集是Hung等[20]構(gòu)建的含有情感標(biāo)注的鋼琴符號(hào)音樂(lè)數(shù)據(jù)集。其數(shù)據(jù)規(guī)模為1 000級(jí)別,情感標(biāo)注基于Russell提出的VA模型[12]。在本文的情感分類(lèi)研究中,僅討論情感極性,即VA模型的愉悅度(Valence)維度,故分別將VA模型中的第一象限和第四象限、第二象限和第三象限視為同一標(biāo)簽。訓(xùn)練集、驗(yàn)證集、測(cè)試集比例劃分為7∶2∶1。
本文將預(yù)訓(xùn)練后的MIDIBERT模型在EMOPIA數(shù)據(jù)集上進(jìn)行精調(diào),使預(yù)訓(xùn)練模型適配下游的音樂(lè)序列情感分類(lèi)任務(wù)。模型的整體結(jié)構(gòu)如圖6所示。
圖6 基于MIDIBERT的音樂(lè)情感分類(lèi)模型整體結(jié)構(gòu)Fig.6 Overall structure of MIDIBERT-based music sentiment classification model
歌詞情感分類(lèi)模型所用計(jì)算設(shè)備的配置為:NVIDIA GeForce RTX 2080 GPU,操作系統(tǒng)為Ubuntu 18.04.2 LTS,Python版本為3.8.3,深度學(xué)習(xí)框架為Py Torch 1.5.1。實(shí)驗(yàn)參數(shù): 批尺寸為64,采用Adam優(yōu)化器,初始學(xué)習(xí)率為1×10-4,訓(xùn)練輪次為20。
音樂(lè)序列情感分類(lèi)模型所用計(jì)算設(shè)備的配置為:NVIDIA GeForce RTX 3090 GPU(雙卡),操作系統(tǒng)為Ubuntu 20.04.2 LTS,Python版本為3.8.12,深度學(xué)習(xí)框架為Py Torch 1.8.2。實(shí)驗(yàn)參數(shù): 批尺寸為12,采用Adam W優(yōu)化器,初始學(xué)習(xí)率為2×10-5,設(shè)置權(quán)重衰減為0.01;預(yù)訓(xùn)練階段訓(xùn)練輪次為500,精調(diào)階段訓(xùn)練輪次為10。
本文的實(shí)驗(yàn)采用準(zhǔn)確率(Accuracy)λAccuracy、精確率(Precision)λPrecision、召回率(Recall)λRecall和F1值(F1-Measure)F1作為電子樂(lè)譜情感分類(lèi)模型的評(píng)價(jià)指標(biāo)。以下將分別對(duì)歌詞情感分類(lèi)模型與音樂(lè)序列情感分類(lèi)模型的性能表現(xiàn)進(jìn)行分析。
4.2.1 歌詞情感分類(lèi)模型性能表現(xiàn)
將帶有情感標(biāo)簽的英文歌詞數(shù)據(jù)集分別輸入至TextCNN與BERT+Bi-GRU模型中進(jìn)行訓(xùn)練,取若干次訓(xùn)練中損失最小的模型在測(cè)試集上進(jìn)行檢驗(yàn)。3種分類(lèi)模型在該數(shù)據(jù)集的測(cè)試集上的最佳表現(xiàn)如表2所示。
表2 歌詞文本情感分類(lèi)模型性能表現(xiàn)Tab.2 The performance of lyric text sentiment classification model
通過(guò)以上實(shí)驗(yàn)結(jié)果可以看出,基于深度神經(jīng)網(wǎng)絡(luò)的方法在歌詞文本情感分類(lèi)任務(wù)上的表現(xiàn)顯著優(yōu)于情感詞典。這是因?yàn)楦柙~文本中除了顯式的情感詞,還存在很多的隱式情感表達(dá),而情感詞典對(duì)于隱式情感的處理能力較弱。采用預(yù)訓(xùn)練精調(diào)方法的BERT+Bi-GRU模型在帶有情感標(biāo)簽的英文歌詞數(shù)據(jù)集上相比于TextCNN取得了更好的表現(xiàn),這表明預(yù)訓(xùn)練語(yǔ)言模型確實(shí)能有效學(xué)習(xí)到更豐富的語(yǔ)言知識(shí)。
4.2.2 音樂(lè)序列情感分類(lèi)模型性能表現(xiàn)
將EMOPIA數(shù)據(jù)集輸入至MIDIBERT模型中進(jìn)行訓(xùn)練,取若干次訓(xùn)練中損失最小的模型在測(cè)試集上進(jìn)行檢驗(yàn)。為了檢驗(yàn)預(yù)訓(xùn)練在該任務(wù)中的有效性,取未經(jīng)預(yù)訓(xùn)練的模型作為對(duì)比。表3為符號(hào)音樂(lè)序列情感分類(lèi)模型在EMOPIA數(shù)據(jù)集上的情感二分類(lèi)性能表現(xiàn)。
表3 符號(hào)音樂(lè)序列情感分類(lèi)模型性能表現(xiàn)Tab.3 The performance of symbolic music sequence sentiment classification model
從實(shí)驗(yàn)結(jié)果可以看出,經(jīng)過(guò)了預(yù)訓(xùn)練的MIDIBERT模型的情感分類(lèi)性能表現(xiàn)相比未經(jīng)預(yù)訓(xùn)練的方法有了很大程度上的提升,說(shuō)明BERT類(lèi)型的預(yù)訓(xùn)練不僅適用于自然語(yǔ)言處理任務(wù),對(duì)于符號(hào)音樂(lè)序列也是有效的。
本文構(gòu)建了Music XML樂(lè)譜數(shù)據(jù)集和帶有情感標(biāo)簽的英文歌詞數(shù)據(jù)集,并進(jìn)行了較為完善的數(shù)據(jù)預(yù)處理工作,以保證數(shù)據(jù)的質(zhì)量。隨后,在英文歌詞數(shù)據(jù)集上分別利用情感詞典、卷積神經(jīng)網(wǎng)絡(luò)、精調(diào)后的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型BERT等方法構(gòu)建歌詞文本情感分類(lèi)模型;在樂(lè)譜數(shù)據(jù)集上利用MIDIBERT預(yù)訓(xùn)練模型構(gòu)建音樂(lè)序列情感分類(lèi)模型。實(shí)驗(yàn)結(jié)果表明,本文提出的電子樂(lè)譜情感分類(lèi)模型相比于基線模型效果有顯著提升,體現(xiàn)了預(yù)訓(xùn)練模型在語(yǔ)義特征學(xué)習(xí)上的優(yōu)勢(shì)。在未來(lái)的研究工作中將繼續(xù)關(guān)注預(yù)訓(xùn)練模型等方法,探究其在情感控制的音樂(lè)生成任務(wù)中的作用。