汪 洋
(沈陽音樂學院,沈陽 110000)
音色反映了聲音的特色和品質(zhì)。不同樂器因材料和結構不同,會有不同的音色,從而使樂器發(fā)出不同品質(zhì)的聲音,這成就了樂器獨一無二的藝術特征。音色識別是辨別樂器的重要手段,但傳統(tǒng)樂器音色識別主要依靠專業(yè)人員,存在效率低、辨別準確率不高等問題,因此如何采用更為智能化的手段進行識別成為當前研究的熱點。近年來,隨著人工智能技術的發(fā)展,樂器音色的識別成為智能識別領域研究的熱點。目前,國內(nèi)外對樂器音色的識別主要通過倒譜特征結合深度學習方法進行,如趙慶磊等[1]融合倒譜特征和圖像領域特征,采用ResNet34變體網(wǎng)絡對融合特征進行學習,實現(xiàn)了樂器音色的識別,且識別準確率達93.3%;李峰等[2]利用粒子群優(yōu)化算法(particle swarm optimization,PSO)改進BP神經(jīng)網(wǎng)絡,構建PSO-BP神經(jīng)網(wǎng)絡識別模型,實現(xiàn)了對中國民族樂器的識別;李子晉等[3]針對中國民族復音音樂的樂器識別難度高的問題,提出一種基于卷積循環(huán)神經(jīng)網(wǎng)絡(CRNN)的分類識別方法,實現(xiàn)了對10種中國民族樂器的識別。上述研究積累了豐富經(jīng)驗,但謝黛安[4]認為現(xiàn)有樂器識別的準確率還可進一步提高。因此,本文基于去噪自編碼器(Denoising Autoencoder,DA)和受限玻爾茲曼機(Restricted Boltzmann Machines,RBM)在特征提取中的優(yōu)勢,提出一種DA-RBM模型的不同樂器結構音色分類識別方法。
去噪自編碼器是在傳統(tǒng)自編碼器的基礎上,通過添加噪聲,然后利用含噪聲的損壞樣本重構不含噪聲的原始樣本的一種神經(jīng)網(wǎng)絡,從而提取到原始數(shù)據(jù)更深層次的表達性特征,基本結構如圖1所示[5]。
圖1 去噪自編碼器結構
去噪自編碼器的目的是重構輸入,以使網(wǎng)絡可更好學習到輸入特征。通俗來說,去噪自編碼器的目的是使誤差函數(shù)η最小。因此,設原始數(shù)據(jù)為M,重構后的數(shù)據(jù)為N,則去噪自編碼器的誤差函數(shù)η的表達式為:
受限玻爾茲曼機是利用輸入數(shù)據(jù)學習概率分布的一種隨機生成神經(jīng)網(wǎng)絡,其結構如圖2所示。該網(wǎng)絡是一種由可視層和隱藏層構成的無向圖模型。
圖2 RBM模型結構
設受限玻爾茲曼機的可視層和隱藏層神經(jīng)元數(shù)量分別為n和m個,對應的狀態(tài)表示為V和H,則對于已知狀態(tài)(v,h),RBM的負能量函數(shù)表示為[6]:
式(2)中,vi、hj分別表示可視層節(jié)點i和隱藏層節(jié)點j的狀態(tài);θ={Wij,bj,ai}為RBM的參數(shù);Wij表示節(jié)點i到j的實數(shù)權值;bj表示節(jié)點j的偏置;ai表示節(jié)點i的偏置。若給定參數(shù),基于能量函數(shù)E(v,h|θ),可抽樣得到狀態(tài)(v,h)的聯(lián)合概率分布函數(shù)為:
根據(jù)RBM模型結構可知,當可視層神經(jīng)元狀態(tài)已知時,隱藏層的神經(jīng)元狀態(tài)是相互獨立的。因此,RBM模型的激活概率可用式(4)和式(5)表示:
為更好地提取音色的高級特征,結合去噪自編碼器(DA)和受限玻爾茲曼機(RBM)的特點,將不同樂器結構音色識別模型構建為圖3所示。模型由兩層DA和兩層RBM組成,負責提取不同樂器結構音色的聽覺譜圖??紤]到DA網(wǎng)絡和RBM網(wǎng)絡均為特征提取網(wǎng)絡,不能進行分類與識別,因此在DA網(wǎng)絡和RBM網(wǎng)絡后連接1層softmax分類層,從而用于樂器音色聽覺譜圖的分類與識別,并輸出識別結果。
圖3 基于DA-RBM的不同樂器結構音色識別網(wǎng)絡結構
由圖3可知,以聽覺譜圖作為深度學習網(wǎng)絡的輸入,以不同樂器結構的音色識別結果作為輸出。具體流程如下:
(1)樣本集制作。收集整理不同樂器結構的音色音頻,并將所有樣本生成聽覺譜圖。然后結合經(jīng)驗按7∶3的比例將聽覺譜圖劃分為訓練集和測試集,用于DA-RBM模型的訓練與測試;
(2)確定DA-RBM各層網(wǎng)絡節(jié)點數(shù)。由于聽覺圖譜的濾波器為128組,因此生成的聽覺譜圖為128*100的矩陣,故將DA-RBM模型的輸入節(jié)點數(shù)為12800??紤]到第一層去噪自編碼器隱藏層節(jié)點數(shù)直接關系到模型性能,因此通過試驗法設置第二層DA隱藏層節(jié)點數(shù)和第一層RBM和第二層RBM隱藏層節(jié)點數(shù)。最后,根據(jù)分類識別結果設置softmax分類層節(jié)點數(shù);
(3)確定網(wǎng)絡激活函數(shù)及參數(shù)。采用relu函數(shù)降低網(wǎng)絡梯度下降復雜度,并以10%的概率對網(wǎng)絡顯層節(jié)點進行失活,梯度下降概率設為0.002,學習速率設為0.01;
(4)網(wǎng)絡微調(diào)。采用adam優(yōu)化算法自適應調(diào)整網(wǎng)絡梯度下降速率,設置步長為0.001,并以50%的概率對每層節(jié)點進行隨機失活;
(5)基于上述訓練的模型,將測試集輸入模型,得不同樂器結構音色的分類識別結果。
由于樂器結構不同,其諧波分量也不相同,因此選用聽覺譜圖對不同樂器特征進行提取。聽覺譜圖由耳蝸模型通過頻率分解得到,而耳蝸模型包括基底膜和外毛細胞模型[7-8]。其中基底膜模型是利用Gammatone帶通濾波器將樂音分解為多個不同中心頻率的通道,每個中心頻率覆蓋8.6個倍頻程。通過基底膜模型的樂音信號可表示為[9]:
y1(t;s)=m(t)*th(t;s)
(6)
式中,下標*t表示對時間t進行卷積;s表示濾波器組的中心頻率;h(t;s)表示Gammatone帶通濾波器脈沖響應,可通過式(7)計算:
h(t;s)=ctn-1e-2nbtcos(2πst+φ),t>0
(7)
式中,c=1為調(diào)節(jié)比例常數(shù);n=4表示濾波器級數(shù);b=1表示衰減系數(shù);φ表示相位。
外毛細胞模型負責對濾波器組通道進行差分,并使用積分窗模擬快速變化的信號。最終得聽覺譜圖,表示為[10]:
y2(t;s)=?sy1(t;s)*tμ(t;τ)
(8)
式中,?s表示差分,μ(t;τ)=e-t/τε(t),τ為時間常數(shù)。
本實驗基于Tensorflow深度學習框架搭建DA-RBM模型,并在Windows10操作系統(tǒng)上進行仿真驗證。系統(tǒng)配置Intel(R)Xeon(R)Gold6152 CPU,GTX1050(4G)顯卡。
本次實驗選用愛荷華大學電子音樂實驗中心的IOWA音響庫作為不同樂器結構音色分類識別的樣本。該音響庫包括弦大號、鋼琴、吉他、大提琴、小提琴、薩克斯管、木琴、長笛、低音管9種樂器,均為44.1 KHz頻率采集的16 bit單聲道數(shù)字信號[11]。考慮到不同樂器樣本量不同,為均衡樣本量,從每種樂器中任意選取500個樣本作為實驗樣本,共4500個樣本。
最后,將選取的樣本按照7∶3比例劃分為訓練集和測試集用于本文所提DA-RBM模型訓練與測試。
本次實驗選用準確率(acc)、F值和平均訓練時間作為性能評估指標。其中,準確率和F值的計算方法如下[12-13]:
式(9)中,TP、TN分別表示真正例和真負例;FP、FN分別表示假正例和假負例。式(10)中,P表示精確度,可通過式(11)計算;R表示召回率,可通過式(12)計算[14];α=1表示調(diào)和因子。
設本文所提DA-RBM模型輸入層節(jié)點數(shù)為12800,第二層DA的隱藏層節(jié)點數(shù)和兩層RBM隱藏層節(jié)點數(shù)分別設置為5000、1000、200,softmax層輸出節(jié)點數(shù)設為9,學習率設置為0.01,梯度下降概率設為0.002,采用adam優(yōu)化算法對梯度下降速率進行自適應調(diào)整,步長設置為0.001。
由于第一層DA負責提取聽覺譜圖特征,直接影響到所提DA-RBM模型的識別效果。因此,第一層DA的隱藏層節(jié)點數(shù)選擇十分重要。為選取第一層DA的隱藏層節(jié)點數(shù),通過設置不同隱藏層節(jié)點數(shù)量,并觀察模型的識別準確率,從而確定最佳隱藏層節(jié)點數(shù)。第一層DA不同隱藏層節(jié)點數(shù)下的識別準確率如圖4所示。由圖4可知,隨著節(jié)點數(shù)與輸入節(jié)點數(shù)倍數(shù)增加,DA-RBM模型的識別準確率先上升后下降。當?shù)谝粚覦A節(jié)點數(shù)是輸入節(jié)點數(shù)2倍時,DA-RBM模型的識別準確率最高,達到97.50%。因此,將第一層DA的隱藏層節(jié)點數(shù)設為輸入節(jié)點數(shù)的2倍,即25600。
圖4 第一層DA不同隱藏層節(jié)點設置下的識別準確率
3.5.1模型驗證
(1)性能驗證
為驗證DA-RBM模型的有效性,利用實驗數(shù)據(jù)集對DA-RBM模型中層2到層4進行訓練。圖5為DA-RBM模型各層的訓練過程。由圖5可知,隨著DA-RBM模型迭代進行,各層誤分率逐漸減小,且下降速率較快;當?shù)?0次后,各層誤分率達到最小值,說明迭代50次可確保DA-RBM模型參數(shù)達到局部最優(yōu)。由此說明,所提DA-RBM模型通過訓練可快速收斂,模型有效。利用DA-RBM模型可有效抽象表示不同樂器結構聽覺譜圖中音色的高級時頻。
圖5 DA-RBM模型各層訓練過程
為分析所提DA-RBM模型對特征提取的有效性,利用線性判別分析的方法將模型每層節(jié)點的輸出投影到二維平面,得到本研究提出的圖3深度學習從第一層DA到第四層RBM的投影如圖6所示。由圖6可知,所提DA-RBM模型對樣本的分離程度逐漸增強,說明所提DA-RBM模型可有效逐層提取特征,足以證明所提DA-RBM模型具有一定的合理性和正確性。
a.第一層投影
(2)輸入特征對DA-RBM模型識別率的影響
為驗證所提DA-RBM模型選用聽覺譜圖作為輸入特征的有效性,對比了以聽覺譜圖和語譜圖以及MFCC作為所提DA-RBM模型輸入特征時,模型的識別混淆矩陣,結果如圖7所示。由圖7可知,基于語譜圖特征輸入的DA-RBM模型平均識別準確率為96%,基于MFCC特征輸入的DA-RBM模型平均識別準確率為78%,基于聽覺譜圖特征輸入的DA-RBM模型平均識別準確率為97%。由此說明,相較于基于語譜圖和MFCC作為模型輸入時,采用聽覺譜圖作為模型輸入的準確率更高。分析其原因,是語譜圖頻率為線性,而人耳對樂器結構音色的頻率感知為非線性,因此語譜圖特征增加了特征的冗余信息,導致樂器分類識別準確率達不到理想效果;MFCC的本質(zhì)是一種倒譜特征,對共振腔結構的樂器容易出現(xiàn)錯分,因此其識別準確率較低。由此說明,所提DA-RBM模型選用聽覺譜圖作為輸入特征,具有一定的有效性和合理性。
(a)聽覺譜圖輸入的混淆矩陣
3.5.2模型對比
對比所提DA-RBM模型與雙層DA網(wǎng)絡堆疊的SDA+softmax模型和雙層RBM+softmax堆疊的DBN模型的識別優(yōu)勢,結果如表1所示。由表1可知,所提的DA-RBM模型在準確率指標上的表現(xiàn)均優(yōu)于SDA模型和DBN模型,識別準確率達到97.18%,說明DA-RBM模型對不同樂器結構音色的識別準確率更高,具有一定的有效性和優(yōu)越性。
表1 不同模型性能對比
對比所提DA-RBM模型與多尺度時頻調(diào)制和基于CNN識別的準確率和訓練時長,結果如表2所示。由表2可知,所提DA-RBM模型的平均識別準確率相較于對比的模型高5.49%和1.30%;在訓練總時長方面,所提DA-RBM模型與多尺度時頻調(diào)制和CNN的訓練總時長差異較小,分別為2.57 s、2.34 s、2.86 s。由此說明,所提DA-RBM模型在確保訓練時長前提下,可有效提升了識別的準確率。
表2 不同模型分類識別性能對比
綜上,所提的DA-RBM的不同樂器結構音色識別方法,在對大號、鋼琴、吉他等不同樂器結構的音色識別中,平均識別準確率達到97.18%,平均訓練時長2.57 s,在識別準確率上具有一定的優(yōu)勢。由此表明本研究構建的DA-RBM的識別模型可行,對不同樂器結構音色識別具有一定的有效性和優(yōu)越性。