国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

N-DenseNet的城市聲音事件分類模型

2019-12-24 06:23:22黃子龍
西安電子科技大學學報 2019年6期
關(guān)鍵詞:馬爾可夫圖層準確率

曹 毅 ,黃子龍,張 威,劉 晨,李 巍

(1. 江南大學機械工程學院,江蘇 無錫 214122; 2.江蘇省食品先進制造裝備技術(shù)重點實驗室,江蘇 無錫 214122; 3. 蘇州工業(yè)職業(yè)技術(shù)學院,江蘇 蘇州 215104)

現(xiàn)代社會中構(gòu)建智慧城市綜合體是城市發(fā)展的一個重要趨勢,利用龐大的傳感器網(wǎng)絡(luò)收集目標城市的交通狀況、噪音水平等音頻數(shù)據(jù),并對其進行數(shù)據(jù)分析后用以指導城市設(shè)計和技術(shù)決策,是當前智慧城市的熱門研究方向之一[1]。智慧城市綜合體未來必將城市聲音事件信息采集和分類研究納入其中,構(gòu)建視聽物聯(lián)網(wǎng),從而進一步提高智慧城市綜合體的智能感知水平。城市聲音事件分類研究主要應用于噪音監(jiān)控、城市安防、聲景評定、多媒體信息檢索等方面[2-6]。

針對城市聲音事件分類,國內(nèi)外諸多學者分別采用支持向量機、BP神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等算法開展了前瞻性研究[7-12]。其中,文獻[7]提供了城市聲音事件分類的標準數(shù)據(jù)集UrbanSound8k,并使用支持向量機模型制定了基線準確率71.00%,后續(xù)該領(lǐng)域開展研究的算法與模型,在該數(shù)據(jù)集測試的分類準確率是評價性能的重要參考之一。通過局部特征和全局特征融合,基于卷積神經(jīng)網(wǎng)絡(luò),文獻[8]開展了音頻特征融合的研究,其分類準確率為77.36%。通過提取80維FBANK特征,基于BP神經(jīng)網(wǎng)絡(luò)模型,文獻[9]分類準確率為79.23%。通過數(shù)據(jù)增廣,基于深層卷積神經(jīng)網(wǎng)絡(luò)模型,文獻[10]在四個數(shù)據(jù)集開展研究,其模型分類準確率為81.50%。隨著卷積神經(jīng)網(wǎng)絡(luò)進一步發(fā)展,擴張卷積神經(jīng)網(wǎng)絡(luò)中間隔性的卷積核代替?zhèn)鹘y(tǒng)池化處理,其能保留更多特征信息;文獻[11]使用60維梅爾語譜圖特征在擴張卷積神經(jīng)網(wǎng)絡(luò)開展研究,其模型的分類準確率為78.00%。而文獻[12]通過使用伽馬通聽覺特征,以及優(yōu)化的激活函數(shù)leaky relu進一步優(yōu)化擴張卷積神經(jīng)網(wǎng)絡(luò),最終其模型的分類準確率可達81.90%。

綜上所述,針對城市聲音事件分類盡管諸多學者開展了較為深入的研究,但不難發(fā)現(xiàn):①當前國內(nèi)對城市聲音事件分類以及應用的研究相對欠缺;②已有模型分類準確率不夠高,且泛化能力不夠強。文獻[13]提出了密集卷積神經(jīng)網(wǎng)絡(luò)(Dense Convolutional Network, DenseNet),其在避免梯度消失的前提下通過大量的特征信息重用,在圖像識別領(lǐng)域證明,相較于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)性能更加優(yōu)秀,但該模型在音頻分類領(lǐng)域尚無較為系統(tǒng)的研究與運用。因此,筆者在已有研究模型的基礎(chǔ)上,首先將具有特征重用的DenseNet運用于城市聲音分類領(lǐng)域;其次為進一步提升分類準確率、泛化能力,基于N階馬爾可夫模型思想改進而設(shè)計一種新的網(wǎng)絡(luò)模型,從而提出了一種基于N階密集卷積神經(jīng)網(wǎng)絡(luò)的城市聲音事件分類模型。

1 DenseNet和N階馬爾可夫模型

1.1 DenseNet

DenseNet網(wǎng)絡(luò)結(jié)構(gòu)中每一層的輸入來自前面所有層的輸出,其Dense Block中每層均以密集連接的方式連接到后續(xù)所有層[13-14],一個具有i層的Dense Block結(jié)構(gòu),其密集連接數(shù)目為i×(i+1)/2。設(shè)Dense Block結(jié)構(gòu)中有i層特征圖層,從第1層到第i層的輸入記作x0,x1,x2, …,xi,則

(1)

式中,[x0,x1,…,xi-1]表示使用合并級聯(lián)層將前面特征圖層輸入進行通道數(shù)合并級聯(lián),Hi(·)函數(shù)是使用批量標準化、激活函數(shù)、卷積操作后的結(jié)果[13]。其中合并級聯(lián)是DenseNet網(wǎng)絡(luò)設(shè)計中很重要的一種操作,用于將卷積特征提取框架的特征融合或輸出層信息的融合,增加了圖像訓練時的原始特征,更有利于提高模型的分類準確率。

1.2 N階馬爾可夫模型

馬爾可夫模型是一種統(tǒng)計模型,廣泛應用在語音識別、自然語言處理等領(lǐng)域。其當前狀態(tài)的轉(zhuǎn)移依賴于前N個狀態(tài),且與之前的歷史狀態(tài)無關(guān)的離散時間隨機過程,稱之為N階馬爾可夫模型[15],定義如下:

p(xt|xt-1,xt-2, … ,x1)=p(xt|xt-1,xt-2,…,xt-N) 。

(2)

當前運用較為廣泛的N階馬爾科夫模型為其子模型一階和二階,即其當前狀態(tài)僅與前一個狀態(tài)有關(guān),為一階馬爾可夫模型;當前狀態(tài)僅與前兩個狀態(tài)有關(guān),為二階馬爾可夫模型,如圖1和圖2所示。

雖然N階馬爾科夫模型的時間和狀態(tài)都是離散的,當前運用較為成功的領(lǐng)域在語音識別,而音頻分類和語音識別初始樣本相同,且提取特征方式、網(wǎng)絡(luò)訓練過程類似;當前運用于圖像識別較為成功的DenseNet模型,已證明層與層之間通過密集連接實現(xiàn)特征重用可改善梯度消失問題,有效提高準確率。兩者方法原理上均強調(diào)對前面已有的狀態(tài)或特征進行利用。因此,該文以N階馬爾科夫模型的有針對性、規(guī)律性的N階有關(guān)連接思想,對DenseNet中的密集連接改進,將兩者優(yōu)點結(jié)合運用于城市聲音事件分類領(lǐng)域。

圖1 一階馬爾可夫模型示意圖

圖2 二階馬爾可夫模型示意圖

為設(shè)計出一種更適合音頻分類的網(wǎng)絡(luò)模型,進一步提高該領(lǐng)域分類準確率、泛化能力,以N階狀態(tài)有關(guān)連接為改進思想,密集連接卷積神經(jīng)網(wǎng)絡(luò)為研究對象,提供一種新的改進方案。即通過有針對性和規(guī)律性裁剪密集連接,卷積神經(jīng)網(wǎng)絡(luò)中當前層僅與前N層進行有關(guān)連接,在結(jié)合N階馬爾科夫模型和DenseNet兩者特點下,設(shè)計出一種更適合音頻分類模型,即N階密集卷積神經(jīng)網(wǎng)絡(luò)[16]。

2 N-DenseNet網(wǎng)絡(luò)模型

2.1 N階有關(guān)連接

值得指出的是,①N階馬爾可夫模型中時間和狀態(tài)都是離散的,N階有關(guān)連接表示當前狀態(tài)僅與前N個狀態(tài)有關(guān)連接;②卷積神經(jīng)網(wǎng)絡(luò)層與層之間需依靠前向傳播連接才能進行數(shù)據(jù)運算,且層與層之間非離散,故當前層前向傳播傳遞到下一層的連接可定義為零階連接?;诖耍瑸楦庇^地表示N-DenseNet中層與層有關(guān)連接,且實現(xiàn)對N-DenseNet中有關(guān)連接數(shù)的量化評價,基于N階馬爾可夫模型定義如下:

(1) 層與層之間的有關(guān)連接僅限為使用Concatenation層的連接;

(2) 在卷積神經(jīng)網(wǎng)絡(luò)中層與層之間前向傳播連接為N-DenseNet模型的零階連接。

N階有關(guān)連接可定義為第N+1層的輸入與前N層的輸出有關(guān),且使用Concatenation層進行連接,如圖3所示。設(shè)Block結(jié)構(gòu)中有l(wèi)個特征圖層,從第1個特征圖層到第l個特征圖層的輸入記作x1,x2, … ,xl。在N-DenseNet模型中的零階連接,其為卷積層前向傳播通過卷積核規(guī)律性地掃過輸入特征,在感受野內(nèi)對輸入特征做矩陣元素乘法求和并疊加偏差量,其定義為

(3)

式中,求和∑表示卷積層的前向傳播過程,Xl-1、Xl表示第l層特征圖的輸入與輸出;表示卷積運算,w表示

圖3 N-DenseNet模型Block示意圖

核函數(shù),b表示偏置值,X(i,j)對應特征圖上的像素;k為特征圖的通道數(shù),m、n為卷積核尺寸大小。當前層使用Concatenation層進行N階有關(guān)連接時,即當前層的輸入來自前N層的輸出,其定義為

(4)

式中,H(·)函數(shù)是用Concatenation進行通道數(shù)合并級聯(lián)、經(jīng)Conv、BN、ReLU操作后的輸出結(jié)果。在音頻分類中輸入為幀數(shù)和特征系數(shù)的二維特征圖,基于N階馬爾科夫模型,對DenseNet的密集連接進行改進后主要運用一階和二階DenseNet模型,1-DenseNet中當前層的輸入僅與前一層的輸出有關(guān),其定義為

(5)

2-DenseNet中當前層的輸入僅與前兩層的輸出有關(guān),即對前兩層特征圖Concatenation合并,其定義為

(6)

2.2 特征信息重用

由DenseNet和N-DenseNet結(jié)構(gòu)對比可知,兩者的共同點均是特征圖層重用,形式上均使用Concatenation層進行通道數(shù)合并級聯(lián);其不同點在于N-DenseNet使用的是有針對規(guī)律性、N階有關(guān)連接。為實現(xiàn)對N-DenseNet中有關(guān)連接數(shù)的精確量化評價,以及探究N階有關(guān)連接方法減少特征信息重用情況,對Concatenation層連接的運算過程定義如下。模型中X(i,j)表示特征圖的輸入,、b、k定義同前。在一個l層的Block結(jié)構(gòu)中,使用Concatenation層連接,則運算量定義為

(7)

式中,∑表示運算疊加,l×(l-1)/2是Block中Concatenation操作的層數(shù);k表示當前層與前N層進行通道數(shù)合并級聯(lián);理論上每減少一次層與層之間的Concatenation連接,在具有密集連接的模型中可約減少數(shù)據(jù)運算量級106。因此,通過有針對性減少層與層Concatenation有關(guān)連接數(shù),可理論上提升模型的收斂速度和效率。

為進一步比較N-DenseNet和DenseNet的特征圖層重用情況,基于特征圖層層數(shù)L,以有關(guān)連接數(shù)為評價標準,DenseNet和N-DenseNet的比較如表1所示。

表1 DenseNet與N-DenseNet特征重用對比

由表1可得以下結(jié)論:

(1) 對于給定層數(shù)L=5,1-DenseNet、2-DenseNet有關(guān)連接數(shù)相對于DenseNet模型減少50%左右。

上述研究表明,N-DenseNet模型在避免梯度消失的前提下,可有效減少特征圖層之間連接,極大減少特征信息的重用,模型的收斂速度更快,效率相對更高;且與DenseNet模型應有相近的分類準確率。

3 實 驗

3.1 實驗設(shè)計

為進一步驗證N-DenseNet模型,利用城市聲音事件標準數(shù)據(jù)集UrbanSound8K[7]和IEEE AASP聲音場景和事件檢測分類挑戰(zhàn)賽數(shù)據(jù)集Dcase2016[17]開展城市聲音事件研究,其實驗平臺配置為Window10系統(tǒng),CPU為i7-8750H,顯卡GTX1060,內(nèi)存16 GB;keras+TensorFlow作為深度學習框架。

3.1.1 梅爾頻率倒譜系數(shù)特征提取

梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,mfcc)是當前語音識別和音頻識別應用最廣泛的特征提取方案之一[18-19],其具體提取流程如下:

(1)音頻文件數(shù)據(jù)預處理,其具體包括采樣與量化、預加重處理和加窗。實驗中UrbanSound8K數(shù)據(jù)集樣本統(tǒng)一幀數(shù)為174,Dcase2016數(shù)據(jù)集樣本幀數(shù)為323。

(2)音頻幀序列時域和頻域分析,其具體包括快速傅里葉變換、梅爾濾波器組、對數(shù)譜、離散余弦變換。

(3) mfcc一階差分(mfcc_d)和二階差分(mfcc_d_d)的特征提取。

在斯各格蘭德本人看來,她既非雕塑家,也非畫家,甚至不算攝影師。道格拉斯·克林普(Douglas Crimp,美國作家、策展人和藝術(shù)史學家。)曾將她的作品現(xiàn)象定義為一種多藝術(shù)形式的“雜交”。更準確地說,斯各格蘭德屬于這樣的一代藝術(shù)家:他們將原本從雕塑與繪畫領(lǐng)域獲取的學院派技術(shù)應用到自1980年代初開始興起的“舞臺攝影”中。攝影師可以去尋找或是創(chuàng)造自己想要拍攝的東西。

(4) mfcc特征向量序列的輸出,實驗中UrbanSound8K[174,174]、Dcase2016[323,174]。

3.1.2 模型結(jié)構(gòu)設(shè)計

步驟1 特征輸入,輸入模型后進行一層卷積操作以提取更多特征和一次池化處理以壓縮圖層尺寸。

步驟2 基于圖3構(gòu)建N-DenseBlock結(jié)構(gòu),將特征向量序列輸入連續(xù)的m個N-DenseBlock和過渡層(Transition Layer)中,其中N-DenseBlock結(jié)構(gòu)是對特征信息進行有針對性重用,Transition Layer層中1×1卷積層降維處理、2×2最大池化層進一步壓縮尺寸以減少網(wǎng)絡(luò)參數(shù)。

步驟3 特征向量序列扁平化,將最大池化后二維數(shù)據(jù)扁平化為一維數(shù)據(jù),輸入全連接層進行分類處理。

步驟4 分類結(jié)果經(jīng)過向量歸一化Softmax處理后輸出具體類別。

實驗中分別搭建了DenseNet-16、1-DenseNet-16、2-DenseNet-16以及2-DenseNet-22模型,其中,DenseNet-16模型中16表示網(wǎng)絡(luò)深度;本實驗中Block個數(shù)m=3,對于每個Block結(jié)構(gòu)中特征圖層層數(shù),1-DenseNet-16中為3(1-DenseBlock中初始Input為x1),2-DenseNet-22中為4。

3.2 實驗結(jié)果分析

為驗證N-DenseNet模型相較于DenseNet訓練時的收斂速度更快,且具有良好的分類準確率和泛化能力,分別利用UrbanSound8K和Dcase2016數(shù)據(jù)集在實驗平臺上開展城市聲音事件分類研究。

3.2.1 模型訓練

基于已搭建的4種模型,對于給定卷積層數(shù)(16)、卷積核尺寸、通道數(shù)、優(yōu)化器adam、Batch size為32等,表2分別給出了訓練輪數(shù)為50的情況下DenseNet、1-DenseNet、2-DenseNet模型的各項指標,圖4、圖5給出了損失值及分類準確率隨訓練輪數(shù)的變化曲線。

表2 訓練模型的各項指標

由表2、圖4、圖5可得以下結(jié)論:

(1)1-DenseNet和2-DenseNet相較于DenseNet用于訓練模型的總參數(shù)量分別減少0.17%、5.04%;模型大小分別減少0.03MB、0.98MB。

(2)N-DenseNet模型的訓練時間更少,其中1-DenseNet、2-DenseNet相對于DenseNet分別減少6.5%、18%,即模型的效率相對更高。

(3)N-DenseNet中1階、2階模型相較于傳統(tǒng)DenseNet,其有關(guān)連接數(shù)減少33.33%,精簡網(wǎng)絡(luò)結(jié)構(gòu),更有針對高效融合前面特征信息,因此,收斂速度更快,趨于收斂所需要的輪數(shù)更少,趨于收斂的分類準確率略有提升。

上述研究也進一步證明,N-DenseNet模型采用N階有關(guān)連接代替密集連接,其中本實驗里1-DenseNet通過減少H(·)函數(shù)中特征圖層xl,而2-DenseNet減少了合并級聯(lián)函數(shù)H(·)的使用,兩者更有針對性地對前面特征圖層進行特征重用,一定程度上可緩解無差別密集連接的特征冗余現(xiàn)象。以上也證明了N-DenseNet模型確實可有效減少特征圖層間的連接,更有針對性利用特征信息重用,模型訓練時間更短,收斂速度更快,且收斂效果更好。

圖4 損失值變化曲線

圖5 準確率變化曲線

3.2.2 分類準確率

為探索N-DenseNet模型的分類準確率,基于1-DenseNet和2-DenseNet模型,使用UrbanSound8K測試集數(shù)據(jù)測試模型的分類準確率,并分別與DenseNet和已有的研究成果模型對比,其實驗結(jié)果如表3所示。

表3 N-DenseNet模型與不同模型準確率對比

由表3表明:

(1)在兩種不同的高維mfcc特征方案下,128mfcc+23mfcc_d+23mfcc_d_d(174mfcc)特征方案的分類準確率相比128mfcc更高,對模型的分類準確率提高約為0.70%。

(2)1-DenseNet、2-DenseNet模型相較于DenseNet,在128mfcc下準確率分別提高約1.87%、1.32%,在174mfcc下準確率分別提高約2.63%、2.17%。

(3)在UrbanSound8K數(shù)據(jù)集下,1-DenseNet、2-DenseNet模型最佳分類準確率約為83.63%、83.27%。

(4)1-DenseNet、2-DenseNet模型準確率比使用SVM[7]的Baseline分別約提高12.62%、11.17%,相較于D-CNN-ESC[12]分別約提高1.73%、1.37%。

上述研究也進一步證明,N-DenseNet模型在避免梯度消失的前提下,相比DenseNet和已有研究成果模型,具有更高的分類準確率。

3.2.3 泛化能力

機器學習的目的是使學得的模型能很好地適用于“新樣本”,模型在先前未預測到的輸入上表現(xiàn)良好的能力被稱為泛化能力,通常度量模型在測試集上的性能,來評估模型的泛化能力。為探索N-DenseNet模型的泛化能力,在UrbanSound8K數(shù)據(jù)集實驗后增加Dcase2016數(shù)據(jù)集進行實驗。基于1-DenseNet和2-DenseNet模型,使用測試集的分類準確率這一指標評價模型的泛化能力,其實驗結(jié)果如表4和圖6、圖7所示。

表4 N-DenseNet模型不同數(shù)據(jù)集分類準確率

圖6 1-DenseNet模型acc為83.63%混淆矩陣

圖7 2-DenseNet模型acc為81.03%混淆矩陣

由表4、圖6、7可得以下結(jié)論:

(1)在Dcase2016數(shù)據(jù)集下,1-DenseNet、2-DenseNet模型最佳分類準確率分別約為80.00%、81.03%。

(2)在UrbanSound8K 和Dcase2016兩個數(shù)據(jù)集下,1-DenseNet、2-DenseNet模型均高于80.00%,證明了N-DenseNet模型確實具有良好的泛化能力。

(3) 模型各子類的準確率也趨于分類準確率均在80%左右,進一步驗證了模型分類的穩(wěn)定性。

上述研究也進一步證明了N-DenseNet模型具有良好的泛化能力。

綜上結(jié)論表明,N-DenseNet模型相較于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)以及DenseNet,不僅具有更好的分類準確率,在單個類別中分類穩(wěn)定性較好,且模型具有良好的泛化能力。

4 結(jié)束語

針對城市聲音事件分類中分類準確率不夠高,以及模型泛化能力不夠強的問題,首先將DenseNet模型運用該領(lǐng)域;然后為更有針對性利用特征信息重用以提升模型的效率,基于N階馬爾可夫模型將密集連接改進為N階有關(guān)連接,以此提出更適合城市聲音事件分類模型N-DenseNet;最后為驗證模型的正確性,采用N-DenseNet中子模型1-DenseNet和2-DenseNet,基于UrbanSound8K和Dcase2016數(shù)據(jù)集開展城市聲音事件分類研究。實驗結(jié)果表明,N-DenseNet模型相較于DenseNet模型有關(guān)連接數(shù)更少,極大地減少了特征信息重用,訓練模型時收斂速度更快且效果更好;分類準確率分別約為83.63%、81.03%,相較于DenseNet以及已有研究成果模型具有更高的分類準確率及良好的泛化能力。

猜你喜歡
馬爾可夫圖層準確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
高速公路車牌識別標識站準確率驗證法
巧用混合圖層 制作抽象動感森林
保費隨機且?guī)в屑t利支付的復合馬爾可夫二項模型
圖層法在地理區(qū)域圖讀圖中的應用
地理教學(2015年18期)2016-01-06 12:00:38
基于SOP的核電廠操縱員監(jiān)視過程馬爾可夫模型
應用馬爾可夫鏈對品牌手機市場占有率進行預測
淺析“遞層優(yōu)化法”在礦井制圖中的應用
河南科技(2014年6期)2014-04-04 08:00:42
闽清县| 奎屯市| 南溪县| 苏州市| 望奎县| 福海县| 建德市| 社会| 仙桃市| 武陟县| 长葛市| 读书| 招远市| 双流县| 柯坪县| 湾仔区| 中西区| 金昌市| 金阳县| 荣成市| 景德镇市| 永州市| 江油市| 简阳市| 新昌县| 礼泉县| 嘉祥县| 宁蒗| 桂阳县| 新竹市| 密山市| 崇左市| 玛纳斯县| 宿州市| 赤水市| 布尔津县| 福清市| 宜昌市| 蒙阴县| 乌兰浩特市| 屏南县|