国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于VGGish 網(wǎng)絡(luò)的音頻信息情感智能識別算法

2022-02-27 03:27張志超李曉燕
電子設(shè)計工程 2022年4期
關(guān)鍵詞:音頻準(zhǔn)確率卷積

張志超,李曉燕

(1.延安大學(xué)魯迅藝術(shù)學(xué)院,陜西延安 716000;2.延安大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,陜西延安 716000)

音樂是人類情感交流的一種方式,移動互聯(lián)網(wǎng)的普及,使得人們能夠隨時隨地享受音樂。音樂中蘊(yùn)藏著豐富的情感,作為人類精神生活的重要部分,借助計算機(jī)和人工智能技術(shù)實現(xiàn)對音樂所表達(dá)的情感進(jìn)行智能化分析、識別及分類,對音樂數(shù)據(jù)的深度應(yīng)用具有重要意義[1-3]。然而目前對音頻情感的研究仍相對較少,缺乏一套完整的體系對其進(jìn)行智能化處理。

針對上述問題,文中設(shè)計了一種對音樂情感自動分析和識別的算法,該算法主要由音頻信息采集、數(shù)據(jù)標(biāo)注、數(shù)據(jù)轉(zhuǎn)換等模塊組成。其中,音頻信息采集模塊主要用于獲取原始的音頻信息;數(shù)據(jù)標(biāo)注模塊用于對獲取到的音頻信息進(jìn)行二次情感劃分;數(shù)據(jù)轉(zhuǎn)換模塊則是將原始數(shù)據(jù)轉(zhuǎn)換為VGGish 網(wǎng)絡(luò)可用的數(shù)據(jù)。該算法可用于對海量音頻數(shù)據(jù)的智能化自動分類,并形成音頻數(shù)據(jù)庫。同時,可以將各類音頻文件片段分類存儲,用于輔助創(chuàng)作。

1 VGGish網(wǎng)絡(luò)

VGG(Visual Geometry Group)網(wǎng)絡(luò)是英國牛津大學(xué)提出的一系列以VGG 開頭的卷積網(wǎng)絡(luò)模型,也稱為VGGish 網(wǎng)絡(luò)[4]。目前已被廣泛應(yīng)用于圖像識別等人工智能領(lǐng)域,在音頻情感分析領(lǐng)域仍應(yīng)用較少。但有研究表明,VGGish 網(wǎng)絡(luò)能夠提取到數(shù)據(jù)更全面、復(fù)雜的特征,這能為智能分析音頻信息情感奠定良好的基礎(chǔ)[5]。

截至目前,VGGish網(wǎng)絡(luò)共推出了6種網(wǎng)絡(luò)結(jié)構(gòu)[6-8],分別是VGG11(A)、VGG11(ALRN)、VGG13(B)、VGG16(C)、VGG16(D)和VGG19(E)。VGG16(D)是其中應(yīng)用最為廣泛的網(wǎng)絡(luò)結(jié)構(gòu),也是被認(rèn)為架構(gòu)層次最深的一種網(wǎng)絡(luò)結(jié)構(gòu),但是在加深卷積網(wǎng)絡(luò)深度的同時,算法所涉及的參數(shù)也會相應(yīng)增加。VGGish 網(wǎng)絡(luò)模型為了降低這一問題帶來的影響,在卷積層采用多個小的卷積核代替大卷積核,同時將卷積步長設(shè)置為1。這樣不但有效減少了網(wǎng)絡(luò)訓(xùn)練所需的參數(shù),而且等效于在網(wǎng)絡(luò)中增加了非線性映射,可以有效提高網(wǎng)絡(luò)的綜合性能[9]。6 種VGGish 網(wǎng)絡(luò)的具體結(jié)構(gòu)如圖1 所示。

圖1 VGGish網(wǎng)絡(luò)結(jié)構(gòu)

VGGish 網(wǎng)絡(luò)根據(jù)不同的層數(shù)進(jìn)行區(qū)分(層數(shù)=卷積層數(shù)+全連接層數(shù)),以VGG19(E)為例,該網(wǎng)絡(luò)由16 個卷積層和3 個全連接層組成。每種網(wǎng)絡(luò)均包含了5 個池化層(maxpool),并合理置于卷積層之間。但是,并非所有的卷積層都需要搭配池化層,具體位置也要根據(jù)實際情況來確定[10]。在圖1中,C3-64 的全稱是Conv3-64,表示該卷積層有64個大小為3×3 的卷積核。FC 代表全連接層,后面的4096 表示該全連接層的大小。但無論是哪種網(wǎng)絡(luò)模型,其最后一層均為soft-max 層[11]。該層是實現(xiàn)分類功能的關(guān)鍵,通常被置于網(wǎng)絡(luò)的最后,起到歸一化的作用。在VGGish 網(wǎng)絡(luò)的訓(xùn)練過程中,通過對訓(xùn)練集的學(xué)習(xí),不斷對該層中的損失函數(shù)(代價函數(shù))進(jìn)行求導(dǎo)。同時,對卷積層中的相關(guān)參數(shù)進(jìn)行微調(diào),從而得到使損失函數(shù)達(dá)到最小值的最優(yōu)解,因此該過程也可看作是對損失函數(shù)不斷擬合的過程。

得益于上文所述小卷積核的設(shè)計,雖然6 種網(wǎng)絡(luò)結(jié)構(gòu)的深度不同,但其所包含參數(shù)數(shù)量的差異卻不大,具體如表1 所示。

表1 VGGish網(wǎng)絡(luò)參數(shù)數(shù)量

雖然VGGish 網(wǎng)絡(luò)解決了卷積神經(jīng)網(wǎng)絡(luò)深度不能超過10 層的問題,但其深度也不能無限加深,在超過一定的閾值后會出現(xiàn)梯度爆炸、模型訓(xùn)練效果急劇降低等問題。因此在加深網(wǎng)絡(luò)深度的同時,也需要兼顧模型的應(yīng)用效果。

VGGish 網(wǎng)絡(luò)所具有的特點(diǎn)主要包括:

1)結(jié)構(gòu)簡單、層次分明:整個結(jié)構(gòu)只有較小的卷積核,連續(xù)的卷積層通過5 個池化層隔開,雖然層數(shù)較多但功能明確;

2)小卷積核:卷積層中用較小的卷積核來代替大核,這樣做的優(yōu)勢在于減少訓(xùn)練所需參數(shù),增加非線性映射的強(qiáng)度[12],同時還能夠降低感受野;

3)通道數(shù)更多、特征度更寬:通道代表著特征,VGG 網(wǎng)絡(luò)最多提供512 個通道,可以挖掘出數(shù)據(jù)中更多的深層次特征,增強(qiáng)結(jié)果的準(zhǔn)確度。

2 識別算法設(shè)計

2.1 算法架構(gòu)

該文利用VGGish 網(wǎng)絡(luò)所設(shè)計的音頻信息情感智能識別算法,用于實現(xiàn)對海量音頻數(shù)據(jù)的智能化分類。算法設(shè)計結(jié)構(gòu)及算法工作流程如圖2 所示。

圖2 算法設(shè)計結(jié)構(gòu)及工作流程

該算法流程:首先是音頻信息收集,收集的內(nèi)容除了最重要的音頻數(shù)據(jù)之外,還包括其平臺原有的情感化劃分信息,便于該文進(jìn)行初步篩選;然后是數(shù)據(jù)標(biāo)注,其是對獲取到的音頻信息進(jìn)行二次情感劃分,由于原有的劃分種類有一定的重合與包含關(guān)系存在,因此還需要進(jìn)一步調(diào)整;接下來是數(shù)據(jù)轉(zhuǎn)換,音頻初始信息不能直接輸入VGGish 網(wǎng)絡(luò),需要對原始數(shù)據(jù)進(jìn)行處理,通常采用梅爾頻率倒譜頻率(MFCC)對信息進(jìn)行轉(zhuǎn)換,得到符合網(wǎng)絡(luò)模型要求的輸入數(shù)據(jù)[13];VGGish 網(wǎng)絡(luò)通過不斷學(xué)習(xí)與訓(xùn)練可以得到音頻數(shù)據(jù)的Embedding 特征;此外,為了避免人為標(biāo)注帶來的誤差還需要將提取到的音頻特征進(jìn)行降維可視化,不斷調(diào)整不同情感音樂數(shù)據(jù)集分布,從而達(dá)到縮小組內(nèi)差異,增加組間差異的目的,使得模型更加準(zhǔn)確;最終經(jīng)支持向量機(jī)(SVM)[14]和長短記憶模型(LSTM)[15]兩種方式對Embedding特征進(jìn)行分類,得到最為符合該首音樂的情感。下面將對其中涉及到的關(guān)鍵過程進(jìn)行進(jìn)一步深入分析。

2.2 算法關(guān)鍵過程

1)數(shù)據(jù)標(biāo)注

文中采用的音頻信息來源于國內(nèi)某音樂網(wǎng)站,選取了9 個大類共計1 442 首音頻數(shù)據(jù),具體數(shù)據(jù)集如表2 所示。

表2 音頻數(shù)據(jù)原始數(shù)據(jù)集

可以發(fā)現(xiàn),原始的情感分類有些界限比較模糊,有些則是籠統(tǒng)地包含了其他分類,例如懷舊。因此需要將原始數(shù)據(jù)進(jìn)行重新分類,使其具有相對明確的界限,分類標(biāo)準(zhǔn):第一類為激動興奮類,主要為氣勢磅礴、令人慷慨激昂、節(jié)奏感強(qiáng)的音頻;第二類為快樂類,主要是小清新、令人高興快樂、節(jié)奏輕快的音頻;第三類為輕松類,是令人心情放松舒暢、節(jié)奏舒緩的音頻;第四類為傷感類,以令人傷感、節(jié)奏沉悶的音頻為主;第五類為恐懼類,以奇怪詭異和令人感到不適的音頻為主。經(jīng)重新調(diào)整后,各類別對應(yīng)的音頻數(shù)量如表3 所示,同時按6∶2∶2 的比例將數(shù)據(jù)集分為訓(xùn)練集、測試集和驗證集。

表3 經(jīng)調(diào)整后的各類情感音頻數(shù)據(jù)集

2)數(shù)據(jù)轉(zhuǎn)換

該文利用MFCC 方法對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,具體步驟如下[16]:

①預(yù)處理:將原始音頻數(shù)據(jù)重新采樣為16 kHz的數(shù)據(jù)格式;

②加窗:將每一幀數(shù)據(jù)乘以漢明窗,以增加連續(xù)性;

③快速傅里葉變換(FFT):對每20 ms 的數(shù)據(jù)片段進(jìn)行FFT,得到頻譜數(shù)據(jù);

④頻譜映射:將得到的頻譜數(shù)據(jù)映射到75~7 500 Hz窗口區(qū)間;

⑤分幀:將音頻信息按照每480 ms 為一幀,幀內(nèi)再以每10 ms 進(jìn)行細(xì)分,從而得到48×64 的MFCC 特征數(shù)據(jù)。

3)VGGish 網(wǎng)絡(luò)

該文采用VGG11(A)網(wǎng)絡(luò)進(jìn)行模型的訓(xùn)練,具體設(shè)計結(jié)構(gòu)如圖3 所示。

圖3 VGG11(A)設(shè)計結(jié)構(gòu)

該模型的作用是將輸入到模型中的48×64 MFCC特征數(shù)據(jù)轉(zhuǎn)換為128 維的Embedding 特征。

4)降維可視化

目前對數(shù)據(jù)進(jìn)行降維可視化的方法主要包括鄰接圖法、LDA法、PCA法、基于切空間法和t-SNE法等,該文選用其中處理效果最優(yōu)的t-SNE 法進(jìn)行處理。t-SNE(t-distributed Stochastic Neighbor Embedding)由傳統(tǒng)的SNE 發(fā)展而來,適用于將高維數(shù)據(jù)降為二維或三維,再進(jìn)行可視化展示。

3 算法測試

為了測試該文所提算法在音頻信息情感智能識別中的表現(xiàn),在完成對VGGish 網(wǎng)絡(luò)模型的訓(xùn)練后,利用測試集對算法性能進(jìn)行測試。測試分為兩組,兩組的區(qū)別在于分類器的選擇,第一組采用傳統(tǒng)的支持向量機(jī)(SVM),第二組采用長短記憶模型(LSTM)。

首先,利用傳統(tǒng)的SVM 算法對VGGish 網(wǎng)絡(luò)所得到的Embedding 特征進(jìn)行分類,SVM 算法的各參數(shù)設(shè)置如表4 所示。

表4 SVM參數(shù)設(shè)置

其中,C代表懲罰系數(shù),用來對損失函數(shù)進(jìn)行一定控制,通常取值范圍為[0.000 1,10 000],C值越大,雖然可以使訓(xùn)練出的模型在對訓(xùn)練集進(jìn)行測試時的準(zhǔn)確度有所提高,但對測試集進(jìn)行測試時的準(zhǔn)確度不足,因此僅適用于特定數(shù)據(jù)集,其泛化能力欠缺,容易形成過擬合;C值過小則會增強(qiáng)模型的容錯率,因此泛化能力較強(qiáng),但容易形成欠擬合,所以文中將C值設(shè)置為1;根據(jù)可視化的結(jié)果確定核函數(shù)Kernel為RBF 高斯核,同時在將Gamma 設(shè)置為0.02 時得到的模型效果最優(yōu),文中選用了一對一的OVO 方法。最終的試驗結(jié)果如表5 所示。

表5 SVM分類試驗結(jié)果

從結(jié)果可以看出,傳統(tǒng)的SVM 方法總體表現(xiàn)良好,能夠達(dá)到82.46%的平均準(zhǔn)確率。從單一類別來看,對第一類(激動興奮類)的情感分類效果是最優(yōu)的,準(zhǔn)確率能夠達(dá)到86.4%。但對于第四類(傷感類)的準(zhǔn)確率卻較低,僅為76.4%。

然后采用LSTM對VGGish網(wǎng)絡(luò)得到的Embedding特征進(jìn)行分類,分類試驗結(jié)果如表6 所示。

表6 LSTM分類試驗結(jié)果

從結(jié)果可以看出,LSTM 分類方法總體表現(xiàn)優(yōu)秀,平均準(zhǔn)確率能夠達(dá)到90.12%。同時,從單個類別來看,對第五類(恐懼類)的情感分類效果最優(yōu),準(zhǔn)確率可達(dá)92.7%;而對于第三類(輕松類)的處理效果相對較差,但仍能達(dá)到88.4%。由上述結(jié)果可知,該文所提算法能夠進(jìn)行音頻信息情感的智能識別。尤其是當(dāng)采用LSTM 分類方法時,其分類的平均準(zhǔn)確率可達(dá)到90%以上,具有良好的識別效果。

4 結(jié)束語

該文通過介紹和分析VGGish 網(wǎng)絡(luò),提出了基于VGGish 網(wǎng)絡(luò)的音頻信息情感智能識別算法。算法主要由音頻信息采集、數(shù)據(jù)標(biāo)注、數(shù)據(jù)轉(zhuǎn)換、VGGish模型訓(xùn)練、降維可視化、分類等模塊組成,各模塊之間相互配合共同完成對音頻信息情感的智能識別。兩項算法測試結(jié)果充分驗證了文中所提算法的可行性與有效性,兩種分類方法中,SVM 方法表現(xiàn)良好,平均準(zhǔn)確率能夠達(dá)到82.46%;LSTM 分類方法則表現(xiàn)優(yōu)秀,平均準(zhǔn)確率可達(dá)90.12%。為海量音頻信息的智能化分析與情感識別分類提供了解決方案。

猜你喜歡
音頻準(zhǔn)確率卷積
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計
從濾波器理解卷積
必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
基于傅里葉域卷積表示的目標(biāo)跟蹤算法