胡淑娟
(仙桃職業(yè)學(xué)院 教育學(xué)院, 湖北 仙桃 433000)
網(wǎng)絡(luò)技術(shù)的快速發(fā)展令互聯(lián)網(wǎng)中產(chǎn)生大量視頻與音頻等多媒體數(shù)據(jù)[1],電子音樂為網(wǎng)絡(luò)上最為普遍的多媒體音頻。電子音樂辨識(shí)作為音樂信號(hào)處理的核心問題之一,在歌曲識(shí)別、音頻匹配與推薦等方面均具有關(guān)鍵作用。針對網(wǎng)絡(luò)數(shù)據(jù)的海量性特性,研究一種可在海量音頻中準(zhǔn)確快速地獲取感興趣的電子音樂是當(dāng)前音頻識(shí)別領(lǐng)域中的熱點(diǎn)研究問題。
文獻(xiàn)[2]提出一種雙向卷積神經(jīng)網(wǎng)絡(luò)的音樂識(shí)別模型。該模型構(gòu)建雙向卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提取音樂細(xì)節(jié)特征,將細(xì)節(jié)特征合并成一維特征向量。但該模型無法去除電子音樂內(nèi)的噪聲含量。文獻(xiàn)[3]提出一種直接利用視音頻特征進(jìn)行識(shí)別的算法,該算法融合BoW、GIST、顏色矩特征、顏色直方圖和音頻特征進(jìn)行識(shí)別,但該方法無法分辨電子音樂類型,辨識(shí)精度較低。
針對當(dāng)前普遍使用的音頻辨識(shí)變模型無法分辨電子音樂類型,辨識(shí)精度較低等難題,設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂辨識(shí)模型,并通過實(shí)驗(yàn)驗(yàn)證該模型的實(shí)際應(yīng)用性能。
依照信號(hào)理論能夠得到[6],電子音樂信號(hào)的諧波成分在諧波矩陣A上僅分布在分散的數(shù)個(gè)頻率成分上,同時(shí)在時(shí)間尺度上電子音樂存在顯著的重復(fù)性,由此得到矩陣A存在內(nèi)在的低秩特征,也就是電子音樂和弦波信息分布在低維子空間內(nèi)[7]。電子音樂非諧波成分E矩陣內(nèi)聚集各種不同類型噪聲,由于不同類型造成變化的頻繁性存在一定稀疏特性[8],基于此可利用秩函數(shù)構(gòu)建諧波成分模型,利用零范數(shù)構(gòu)建稀疏噪聲模型。由此可將灰度低秩矩陣定義為一個(gè)雙目標(biāo)優(yōu)化問題,描述為式(1)。
(1)
在式(1)內(nèi)引入大于零的折中因子λ,由此以單目標(biāo)優(yōu)化問題替代式(1)所示的雙目標(biāo)優(yōu)化問題,如式(2)。
(2)
式中,多描述的優(yōu)化問題實(shí)質(zhì)上是1種多項(xiàng)式復(fù)雜程度的非確定性問題,基于此,需確定合適的可取代秩函數(shù)與零范數(shù)的函數(shù)。以確保優(yōu)化問題整體具有全局最優(yōu)解為目的[9],要求確定取代函數(shù)為原函數(shù)凸包絡(luò)。而矩陣的核范數(shù)表示矩陣內(nèi)全部奇異值相加的結(jié)果,可理解為是矩陣秩函數(shù)的凸包絡(luò),矩陣內(nèi)非零元素相加的結(jié)果可利用矩陣的1范數(shù)表示,一般情況下可經(jīng)其作為矩陣的稀疏算子,即0范數(shù)的凸包?;诖丝蓪⑹?2)所示的單目標(biāo)優(yōu)化問題轉(zhuǎn)化為式(3)所示的凸優(yōu)化問題。
(3)
式(3)所示的凸優(yōu)化問題可通過增廣拉格朗日乘子法解決,由此能夠獲取最優(yōu)解電子音樂諧波信息矩陣A,其為電子音樂原始信號(hào)頻譜重建后的諧波頻譜。重建后的諧波頻譜內(nèi)可分離稀疏噪聲,并重建了頻譜的低秩信息,由此可知,頻譜矩陣A內(nèi)具有一定魯棒性。將去除噪聲后的電子音樂文件制作成波形圖,利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)電子音樂辨識(shí)。
1.2.1 典型卷積神經(jīng)網(wǎng)絡(luò)
輸入層、卷積層、下采樣層、全連接層標(biāo)和輸出層共同組成標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)[10]。
卷積層與下采樣層結(jié)合是卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)特征的主要結(jié)構(gòu)[11],將去除噪聲后的電子音樂頻譜波形圖作為輸入層輸入信息,可用T表示。以Xi表示卷積神經(jīng)網(wǎng)絡(luò)第i層的特征(X0=T)。在Xi為卷積層的條件下,描述為式(4)。
Xi=f(Xi-1*Ki+bi)
(4)
式中,Ki和bi分別表示可訓(xùn)練的卷積核和偏置量;*和f(x)分別表示卷積運(yùn)算和激活函數(shù)。
使用較為普遍的激活函數(shù)有sigmoid函數(shù)、tanb函數(shù)以及ReLu函數(shù)等[12]。綜合考慮不同激活函數(shù)性能,選取ReLu函數(shù)作為卷積層激活函數(shù),描述為式(5)。
f(x)=max(0,x)
(5)
ReLu函數(shù)的主要優(yōu)勢主要體現(xiàn)在其可令卷積神經(jīng)網(wǎng)絡(luò)部分神經(jīng)元輸出為0,由此令卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生稀疏選性,降低計(jì)算過程的復(fù)雜性;同時(shí)ReLu函數(shù)可顯著提升卷積神經(jīng)網(wǎng)絡(luò)的分類能力,降低參數(shù)間的依賴性,在一定程度上改善卷積神經(jīng)網(wǎng)絡(luò)過擬合問題;ReLu函數(shù)的導(dǎo)數(shù)僅為1或0,可改善卷積神經(jīng)網(wǎng)絡(luò)誤差反向傳播過程中的梯度消失問題。
下采樣層對卷積層獲取的各特征圖內(nèi)n×n區(qū)域的像素實(shí)施采樣處理,降低特征圖尺寸。普遍使用的采樣處理過程可分為上限值采樣與均值采樣[13]。在Xi表示下采樣層的條件下,上限值采樣與均值采樣表示為式(6)、式(7)。
Xi=f(WiPmax(Xi-1)+bi)
(6)
Xi=f(WiPmean(Xi-1)+bi)
(7)
式中,Pmax(x)和Pmean(x)分別表示上限值采樣操作和均值采樣操作;Wi和bi分別表示取值與偏置值。
下采樣層的主要功能是以保留原始特征信息為基礎(chǔ),進(jìn)行特征圖降維處理,防止出現(xiàn)維數(shù)災(zāi)難,提升變形魯棒性;同時(shí)利用下采樣層還可壓縮特征圖,令計(jì)算過程難度下降。
通常情況下,全連接層處于卷積層、下采樣層同輸出層之間,可將其定義為一個(gè)同淺層神經(jīng)網(wǎng)絡(luò)功能相似的多層感知機(jī),其主要功能是將分布式特征表示映射至樣本標(biāo)記空間內(nèi),并在卷積神經(jīng)網(wǎng)絡(luò)模型表示能力遷移過程中發(fā)揮防火墻功能[14]。
輸出層為一個(gè)解決多分類問題的分類器,采用由Logistic回歸模型在多分類問題方面演化處的Soft Max分類器??紤]Logistic函數(shù)僅可實(shí)現(xiàn)二分類功能,因此Soft Max分類器在繼承Logistic函數(shù)回歸的基礎(chǔ)上,通過多項(xiàng)Logistic回歸完成多分類任務(wù)。用y表示Logistic回歸內(nèi)的多分類標(biāo)簽,其取值范圍為不小于2,訓(xùn)練樣本集合為k個(gè)被標(biāo)簽的樣本,描述為式(8)。
T={(x1,y1),(x2,y2),…,(xk,yk)}
(8)
式中,yi∈{1,2,…,k}和xi分別表示分類標(biāo)簽與樣本集合。
j表示不同電子音樂類型,判斷j的概率值,表示單個(gè)電子音樂頻譜波形圖歸為第k類標(biāo)簽概率的表達(dá)式為式(9)。
P(y=j|x)(j=1,2,…,k)
(9)
式中,能夠表示回歸樣本集合轉(zhuǎn)換為k維度的概率向量,概率向量的函數(shù)為式(10)。
(10)
(11)
式中,1{yi=j}表示若yi=j,則兩者均為1,相反兩者均為0。損失函數(shù)迭代次數(shù)的提升可優(yōu)化Soft Max分類器參數(shù)[15-16],提升參數(shù)準(zhǔn)確定,實(shí)現(xiàn)不同電子音樂頻譜波形圖樣本的準(zhǔn)確辨識(shí)。
1.2.2 卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化
標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行一層層的映射,直至最后只將輸出層作為特征提取結(jié)果[17-18],這一過程中在中間層丟失大量關(guān)鍵圖像特征,降低辨識(shí)精度。針對這一問題,結(jié)合層間特征融合思想,在輸出層輸出特征提取結(jié)果過程中輸出輸入圖像在卷積神經(jīng)網(wǎng)絡(luò)內(nèi)每一層的映射結(jié)果,選取主成分分析法對提取的全體輸出特征實(shí)施降維處理,將其融合為多層深度特征。同時(shí),在下采樣過程中將上限值采樣與均值采樣相結(jié)合,即利用混合采樣的方式充實(shí)采樣層的多樣性。利用混合采樣模式能夠同時(shí)得到上限值采樣與均值采樣獲取的特征值[19-20],得到更為豐富的圖像,提升卷積神經(jīng)網(wǎng)絡(luò)辨識(shí)的穩(wěn)定性,混合采樣模式的表達(dá)式為式(12)、式(13)。
(12)
Xi=f(WiTi+bi)
(13)
基于特征提取方式的優(yōu)化能夠改善標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)中單一輸出層與采樣層特征提取不全面的問題,可充分提取電子音樂頻譜波形圖的特征并實(shí)現(xiàn)特征融合,提升卷積神經(jīng)網(wǎng)絡(luò)辨識(shí)性能。
利用反向傳播算法進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練,卷積神經(jīng)網(wǎng)絡(luò)經(jīng)由正向計(jì)算與反向傳播過程,持續(xù)優(yōu)化權(quán)值與閾值,令自身均方誤差函數(shù)持續(xù)下降,以滿足卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練需求。
實(shí)驗(yàn)為測試本文設(shè)計(jì)的基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂辨識(shí)模型對于電子音樂辨識(shí)的性能,選取國際音頻檢測賽事中所有數(shù)據(jù)的音頻數(shù)據(jù)集為實(shí)驗(yàn)對象,其中包含220首電子音樂(采樣率與比特率分別為10 080 Hz和16 bits)。將實(shí)驗(yàn)對象內(nèi)全部電子音樂手動(dòng)標(biāo)記的標(biāo)簽文件作為實(shí)際標(biāo)簽文件,將這些標(biāo)簽文件作為測試數(shù)據(jù)的生成依據(jù)以及本文模型電子音樂辨識(shí)結(jié)果的對比依據(jù)。
利用本文模型對實(shí)驗(yàn)對象內(nèi)的電子音樂進(jìn)行預(yù)處理,研究對象中編號(hào)為22號(hào)的電子音樂預(yù)處理結(jié)果如圖1所示。
分析圖1得到,采用本文模型對研究對象進(jìn)行預(yù)處理后,研究對象頻譜波動(dòng)更為平滑,這是由于本文模型中重建研究對象信號(hào)頻譜內(nèi)諧波信息,去除研究對象信號(hào)頻譜內(nèi)的噪聲,對去噪后的研究對象進(jìn)行辨識(shí),可提升本文模型辨識(shí)結(jié)果。
(a) 預(yù)處理前
(b) 預(yù)處理后圖1 研究對象預(yù)處理結(jié)果
將研究對象內(nèi)全部220首電子音樂分為兩部分,分別定義為訓(xùn)練樣本集和測試樣本集,各樣本集內(nèi)電子音樂數(shù)量分別為160首和60首。在本文模型中輸入訓(xùn)練樣本集進(jìn)行訓(xùn)練,本文模型訓(xùn)練過程如圖2所示。
圖2 模型訓(xùn)練過程
分析圖2得到采用本文模型辨識(shí)研究對像過程中,卷積神經(jīng)網(wǎng)絡(luò)初次迭代時(shí),本文模型擬合誤差為0.067。隨著本文模型迭代次數(shù)逐漸上升,本文模型的擬合誤差呈逐漸下降狀態(tài)。本文模型迭代次數(shù)提升至30次時(shí),本文模型的擬合誤差下降至0.01。在本文模型迭代次數(shù)上升至100次時(shí),本文模型的擬合誤差下降至0.008。隨著本文模型迭代次數(shù)持續(xù)上升,本文模型的擬合誤差保持在0.008,由此說明本文模型具有較快的訓(xùn)練效率,即本文模型具有較快的辨識(shí)效率。同時(shí)由圖2可知,隨著本文模型迭代次數(shù)逐漸上升,本文模型的擬合誤差呈逐漸下降狀態(tài),擬合誤差越小,表明擬合精度越高。這是因?yàn)槔肧oft Max分類器優(yōu)化迭代過程,使得損失函數(shù)迭代次數(shù)的提升可優(yōu)化Soft Max分類器參數(shù),進(jìn)一步提升參數(shù)準(zhǔn)確率。且ReLu函數(shù)可顯著提升卷積神經(jīng)網(wǎng)絡(luò)的分類能力,降低參數(shù)間的依賴性,在一定程度上改善卷積神經(jīng)網(wǎng)絡(luò)過擬合問題,迭代次數(shù)的提升可進(jìn)一步提升擬合精度。
為驗(yàn)證本文模型的有效性,將文獻(xiàn)[2]模型和文獻(xiàn)[3]模型作為對比對象,不同方法辨識(shí)結(jié)果如圖3所示。
圖3 不同模型辨識(shí)結(jié)果
分析圖3得到,相比文獻(xiàn)[2]模型和文獻(xiàn)[3]模型,本文模型對測試樣本集內(nèi)各測試樣本進(jìn)行辨識(shí),所得辨識(shí)率均高于98.5%,由此說明本文模型能夠準(zhǔn)確辨識(shí)測試樣本,具有較高的辨識(shí)率。
為研究模型下采樣層不同采樣方式對模型辨識(shí)率的影響,在本文模型其他條件完全一致的條件下,對比下采樣層采用上限值采樣、均值采樣和混合采樣時(shí)本文模型的辨識(shí)率如圖4所示。
圖4 不同采樣方式下模型的辨識(shí)率
分析圖4,本文模型采用上限值采樣方法、均值采樣方式和混合采樣方式進(jìn)行研究對象辨識(shí)的運(yùn)行時(shí)間差距較小,低于2 s。說明不同采樣方式對本文模型的辨識(shí)效率的影響并不顯著。但本文模型采用混合采樣方式進(jìn)行辨識(shí)的辨識(shí)率均值達(dá)到98.5%,顯著高于采用上限值采樣與均值采樣時(shí)的辨識(shí)率。由此說明混合采樣方式可提升本文模型辨識(shí)率。
本文設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂辨識(shí)模型,在電子音樂信息預(yù)處理后,利用優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)辨識(shí)電子音樂。實(shí)驗(yàn)結(jié)果顯示本文模型能夠準(zhǔn)確辨識(shí)電子音樂,且具有較快的效率。在后續(xù)優(yōu)化過程中主要針對如何利用多尺度池化的理念進(jìn)一步優(yōu)化卷積神經(jīng)網(wǎng)絡(luò),令本文模型在保障辨識(shí)精度與效率的基礎(chǔ)上,能夠接受任意尺寸的輸入圖像。