国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向網(wǎng)絡(luò)輿情分析的多任務(wù)學(xué)習(xí)策略時間卷積網(wǎng)絡(luò)

2023-10-17 05:50:42張會云黃鶴鳴
計算機工程 2023年10期
關(guān)鍵詞:多任務(wù)空洞卷積

張會云,黃鶴鳴

(1.青海師范大學(xué) 計算機學(xué)院,西寧 810008;2.藏語智能信息處理及應(yīng)用國家重點實驗室 西寧 810008)

0 概述

在多目標(biāo)學(xué)習(xí)領(lǐng)域,CARUANA[1]提出的多任務(wù)學(xué)習(xí)(Multi-Task Learning,MTL)使用單一模型,并同時學(xué)習(xí)包含在多個相關(guān)聯(lián)任務(wù)中的信息,通過共享表示層參數(shù)實現(xiàn)信息共享,提高模型在多個任務(wù)上的泛化性[2]。

近年來,多任務(wù)學(xué)習(xí)越來越成熟并被廣泛應(yīng)用到人臉表情識別[3]、無人駕駛[4]等諸多領(lǐng)域,但在網(wǎng)絡(luò)輿情分析領(lǐng)域應(yīng)用不多,主要的研究有:文獻[5]提出交互式的多任務(wù)學(xué)習(xí)模型,通過一組共享的隱變量迭代地傳遞給不同任務(wù),能夠在標(biāo)記層和文檔層學(xué)習(xí)多個相關(guān)任務(wù);文獻[6]利用門控循環(huán)單元(Gated Recurrent Unit,GRU)捕捉對話的全局上下文信息,通過注意力機制實現(xiàn)模態(tài)間的交互,最后結(jié)合多任務(wù)學(xué)習(xí)預(yù)測情感類型;文獻[7]提出一種對抗性多任務(wù)學(xué)習(xí)架構(gòu),減輕了共享和私有潛在特征間的相互干擾,該方法在16種分類任務(wù)中具有明顯優(yōu)勢。

本文根據(jù)不同信噪比和噪聲類型對基線數(shù)據(jù)集EMODB 進行數(shù)據(jù)擴充,在擴充的數(shù)據(jù)集上提取融合的特征集,同時提出用于情感分類、說話人辨識和性別識別的策略時間卷積網(wǎng)絡(luò)(Diplomatic Temporal Convolutional Network,DTCN)來增強多任務(wù)學(xué)習(xí)性能。

1 數(shù)據(jù)集與特征提取

DTCN 模型的性能主要在德語語音情感數(shù)據(jù)集EMODB[8]上進行驗證。數(shù)據(jù)集EMODB包含10 位說話人(5 男5 女)和7 類情感,即中性(Neutral/N)、憤怒(Anger/A)、恐懼(Fear/F)、高興(Happiness/H)、悲傷(Sadness/S)、厭惡(Disgust/D)和無聊(Boredom/B),每類情感包含的樣本數(shù)量依次為79、127、69、71、62、46、81。

為了充分驗證DTCN 模型的魯棒性和泛化性,本文對數(shù)據(jù)集EMODB 進行擴充。首先,根據(jù)數(shù)據(jù)集EMODB 分別在-10、-5、0、5 和10 dB 信噪比(Signal-to-Noise Ratio,SNR)下利用噪聲庫NoiseX-92[9]中的15 種噪聲進行擴充,得到5 個單信噪比含噪數(shù)據(jù)集,分別記為EMODB-10、EMODB-5、EMODB0、EMODB5 以及EMODB10,每個數(shù)據(jù)集中的樣本數(shù)是數(shù)據(jù)集EMODB 中樣本數(shù)的15倍;其次,合并5個單信噪比含噪數(shù)據(jù)集,構(gòu)建多信噪比含噪數(shù)據(jù)集EMODBM,EMODBM 的樣本數(shù)是數(shù)據(jù)集EMODB 樣本數(shù)的75倍?;€數(shù)據(jù)集EMODB 及相應(yīng)的擴充數(shù)據(jù)集中各類樣本數(shù)量占比相同,如圖1所示。

具體來說,在SNR=-10 dB 條件下,首先采用Babble 噪聲對基線數(shù)據(jù)集EMODB 中的每類情感(如憤怒、開心等7 類)樣本依次加噪,這樣將獲得包含Babble 噪聲的含噪數(shù)據(jù)集EMODB,記為B-EMODB,該數(shù)據(jù)集與基線數(shù)據(jù)集EMODB 中的樣本數(shù)量相同。此時,由于對每類情感的每條樣本只是添加了Babble 噪聲,因此各類情感樣本數(shù)量并未增加,情感類別也未發(fā)生改變。相應(yīng)地,依次向基線數(shù)據(jù)集EMODB 添加White、Pink、Factory1 等剩余的14 種噪聲,同樣,每添加一種類型的噪聲,就會形成包含某一類型噪聲的含噪數(shù)據(jù)集,依次記為W-EMODB、P-EMODB、F-EMODB等。在每種噪聲下構(gòu)建的含噪數(shù)據(jù)集中的各類樣本數(shù)量均相同,只是噪聲類型不同。其次,將不同類型噪聲的含噪數(shù)據(jù)集按照情感類別合并,此時構(gòu)建的數(shù)據(jù)集稱為EMODB-10。該數(shù)據(jù)集是對各類情感的所有樣本均進行加噪,樣本數(shù)量增加的倍數(shù)等于噪聲的種類數(shù),即各類情感樣本數(shù)量隨噪聲種類的增加等比例增加。

韻律特征和譜特征是語音的主要特征。首先提取5 維的韻律特征,即音高(Pitch)和過零率(Zero Crossing Rate,ZCR)的低級描述符(Low-Level Descriptor,LLD),并計算這些LLD 的高級統(tǒng)計函數(shù)(High-level Statistic Function,HSF)。然后提取214 維的譜特征:即頻譜平坦度(Flatness)、梅爾頻率倒譜系數(shù)(Mel Frequency Ceptrum Cofficient,MFCC)、譜重心(Centroid)、色譜圖(Chroma)、幅度(Amplitude)、梅爾頻譜(Mel)以及譜對比度(Contrast)等特征的LLD,并計算這些LLD 的HSF。如表1 所示,融合這些韻律特征和譜特征的HSF 作為DTCN 模型的輸入。

表1 低級描述符與高級統(tǒng)計函數(shù)特征Table 1 Low-level descriptor and high-level statistical function features

2 策略時間卷積網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)通過門控結(jié)構(gòu)保留歷史信息,實時更新模型參數(shù)[10],但RNN 存在模型訓(xùn)練時間較長、模型構(gòu)建時定性參數(shù)較多、內(nèi)存消耗較大、梯度消失或梯度爆炸等缺點。文獻[11]提出的時間卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)有效地避免了時間序列建模中出現(xiàn)的梯度消失或梯度爆炸問題[12],在時序預(yù)測方面引起了巨大反響。

模型TCN 的結(jié)構(gòu)簡單,參數(shù)較少,對單任務(wù)的學(xué)習(xí)能力較強,但對多任務(wù)的非線性映射能力較弱。本文提出的基于模型TCN 的策略時間卷積網(wǎng)絡(luò)能夠有效提升模型在多任務(wù)學(xué)習(xí)中的并行處理能力。DTCN 模型結(jié)構(gòu)如圖2 所示。

圖2 DTCN 模型的結(jié)構(gòu)Fig.2 Structure of the DTCN model

DTCN 模型由全連接層、級聯(lián)TCN 模塊、Flatten層以及多任務(wù)輸出層構(gòu)成。其中,級聯(lián)TCN 模塊由3 個堆疊的TCN 構(gòu)成,核心結(jié)構(gòu)是時序模塊和殘差連接。時序模塊由因果空洞卷積、加權(quán)歸一化、ReLU 和Dropout構(gòu)成。

通過硬參數(shù)共享、殘差模塊、激活函數(shù)ReLU 以及Adam 優(yōu)化器等機制,可有效提升DTCN 模型對多任務(wù)的并行處理能力。通過硬參數(shù)共享機制,DTCN 模型減少了參數(shù),保證了各個任務(wù)互相充分挖掘有用信息;殘差模塊[13]在很大程度上避免了網(wǎng)絡(luò)層數(shù)加深引起的梯度爆炸或梯度消失問題;通過使用激活函數(shù)ReLU[14]使DTCN 模型避免了單純的線性組合,具有較強的非線性映射能力,提升了模型的整體表達能力;Adam 優(yōu)化器[15]能夠避免網(wǎng)絡(luò)學(xué)習(xí)進入局部最優(yōu)或鞍點。

2.1 因果卷積

因果卷積[16]是指DTCN 模型中時序模塊的上下層神經(jīng)元之間存在因果關(guān)系,而且當(dāng)前網(wǎng)絡(luò)層t時刻的值僅與先前時刻的值有關(guān),這意味著數(shù)據(jù)信息的傳遞是單向的,如圖3 所示。

圖3 因果卷積的可視化Fig.3 Visualization of causal convolution

DTCN 模型中的因果卷積能較好地處理時序問題,它能根據(jù)時間序列X=(x1,x2,…,xt)預(yù)測輸出Y=(y1,y2,…,yt)。令濾波器F=(f1,f2,…,fK),K為卷積核大小,則xt的因果卷積如下:

假設(shè)輸入層最后兩個節(jié)點為xt-1和xt,第1 個隱藏層的最后一個節(jié)點為,濾波器F=(f1,f2),則根據(jù)式(1)有:時刻t的輸出來自前一層中的時刻t和更早時刻的元素卷積,是一種嚴(yán)格的時間約束模型。此外,時序模塊中隱藏層越多,追溯的歷史信息越多。例如,第2 個隱藏層的最后一個節(jié)點關(guān)聯(lián)了輸入的3 個節(jié)點,即xt-2、xt-1和xt;輸出層最后一個節(jié)點關(guān)聯(lián)了輸入層的5 個節(jié)點,即xt-4、xt-3、xt-2、xt-1和xt(實心箭頭關(guān)聯(lián)的節(jié)點)。

2.2 因果空洞卷積

單純的因果卷積對時間的建模長度受限于卷積核大小。線性堆疊更多的層能夠擴大感受野,從而捕獲更長的依賴關(guān)系,但這會增加網(wǎng)絡(luò)層數(shù),加大反向訓(xùn)練難度,導(dǎo)致梯度消失、訓(xùn)練復(fù)雜、擬合效果差等問題。為此,在DTCN 模型的時序模塊中引入了空洞卷積[17-18]。

空洞卷積允許對輸入進行間隔采樣,通過設(shè)置空洞系數(shù)d將每兩個相鄰層之間卷積神經(jīng)元的數(shù)量減少為原來的1/d。隨著網(wǎng)絡(luò)層數(shù)的增加,有效窗口的數(shù)量大幅增長。這意味著引入空洞卷積后,相同深度的網(wǎng)絡(luò)可以獲得更大的視野。圖4 所示為空洞卷積計算過程。

圖4 空洞卷積的可視化過程Fig.4 Visualization process of dilated convolution

因果空洞卷積[19-20]允許卷積時的輸入存在間隔采樣,采樣率受空洞率d的控制。輸入層的空洞率為d=1,表示輸入時每個點都采樣;第1 個隱藏層的空洞率d=2,表示輸入時每2 個點采樣1 個作為輸入。一般來講,層數(shù)越高對應(yīng)的空洞率d越大??斩淳矸e使得有效窗口的大小隨著網(wǎng)絡(luò)層數(shù)的增加而呈指數(shù)型增長,從而用比較少的層獲得更大的感受野。

令輸入序列X=(x1,x2,…,xt),濾波器F=(f1,f2,…,fK),當(dāng)空洞率為d時,xt處的因果空洞卷積如下:

具體來說,當(dāng)空洞率d=1時,因果空洞卷積是簡單的因果卷積,此時第1 個隱藏層的最后一個節(jié)點關(guān)聯(lián)了輸入的3 個節(jié)點;當(dāng)空洞率d=2時,第2 個隱藏層的最后一個節(jié)點關(guān)聯(lián)了輸入的7 個節(jié)點,關(guān)聯(lián)了第1 個隱藏層的3 個節(jié)點,根據(jù)式(2)有=f1xt-2d+f2xt-d+f3xt(d=2)。通常,因果空洞卷積的感受野大小為(K-1)d+1。其中,K表示卷積核大小,d以2 的指數(shù)增長,依次取1、2、4。由于采用了空洞卷積,每一層都要填充,填充大小為(k-1)d。

2.3 殘差模塊

殘差網(wǎng)絡(luò)[21-22]具有非常強大的表達能力,使得網(wǎng)絡(luò)以跨層跳躍的方式傳遞信息,解決了深層網(wǎng)絡(luò)訓(xùn)練時存在的梯度問題。因此,在DTCN 模型中引入殘差模塊結(jié)構(gòu),如圖5 所示。殘差模塊由左右2 個分支構(gòu)成:左分支由2 個時序模塊構(gòu)成,右分支由1×1 卷積構(gòu)成。每個時序模塊由卷積和ReLU 非線性映射構(gòu)成,并在每層中引入了權(quán)重歸一化和Dropout 來正則化網(wǎng)絡(luò)。若輸入通道的數(shù)量與第2 個時序模塊中空洞卷積的濾波器數(shù)量不同,則啟用右分支,將卷積輸出和輸入元素相加,確保殘差連接有效。

圖5 殘差塊的結(jié)構(gòu)Fig.5 Structure of residual block

級聯(lián)TCN 模塊使用殘差連接構(gòu)建深層網(wǎng)絡(luò)。對左分支中輸入殘差塊的序列yt按照式(3)進行計算:

其中:Wa、Wb分別表示兩個時序模塊中卷積層權(quán)重向量;右分支是殘差塊中的一維全卷積操作,確保輸入序列yt和輸出序列yt+1具有相同長度。殘差塊計算如下:

3 實驗結(jié)果與分析

3.1 實驗設(shè)置

實驗采用一臺服務(wù)器進行計算,CPU 為40 核80 線程,內(nèi)存為64 GB。通過深度學(xué)習(xí)框架Keras[23]搭建模型DTCN,使用RTX 2080 Ti GPU 進行訓(xùn)練。

在本文研究中,優(yōu)化器為Adam[24],迭代周期(Epoch)為100,批處理(Batch Size)為256,損失函數(shù)為交叉熵,用5 次實驗結(jié)果的平均值來刻畫模型的整體性能。

DTCN 模型同時對情感類別、說話人和性別進行多任務(wù)學(xué)習(xí)。其中,情感類別數(shù)為7,說話人類別數(shù)為10,性別類別為2。當(dāng)特征維度為219時,DTCN 模型的參數(shù)量為532 883;當(dāng)特征維度增加到233 時(增加了譜對比度的最大值和方差特征),模型DTCN 的參數(shù)量為566 931。

3.2 結(jié)果分析

為了驗證模型DTCN 在多任務(wù)學(xué)習(xí)中的效果,依次進行消融研究、泛化性驗證和魯棒性驗證,并與同類模型的性能進行對比。

1)消融研究:選擇最優(yōu)模型,特征維度為219,通過在數(shù)據(jù)集EMODB0 上進行多任務(wù)識別,選擇最優(yōu)DTCN 模型,取5 次實驗的均值和標(biāo)準(zhǔn)差衡量模型的分類性能。

2)泛化性驗證:驗證DTCN 模型在用不同方法擴充后的數(shù)據(jù)集上的性能,特征維度分別為219和233。

3)魯棒性驗證:選 擇NoiseX-92中的Babble、Pink、White 以及Factory1 噪聲,分別驗證這4 種噪聲及由它們構(gòu)成的混合噪聲對模型性能的影響。

4)對比DTCN 模型與同類模型AHPCL、HMN、MA-CapsNet 的性能。

3.2.1 消融研究

表2 所示為模型TCN1、TCN2、TCN3、Dense1、Dense2、Dense3 及DTCN 在數(shù)據(jù)集EMODB0 上的多任務(wù)分類性能(表中數(shù)據(jù)為Avg±Std)。圖6 所示為上述模型在數(shù)據(jù)集EMODB0 上進行5 次實驗的分布。其中,TCN1 模型中濾波器的數(shù)量為32,核大小為4,空洞率依次為1、2、4、8;TCN2 由兩層TCN1 構(gòu)成;TCN3由三層TCN1構(gòu)成;Dense1模型由一層 包含128 個神經(jīng)元節(jié)點的全連接網(wǎng)絡(luò)構(gòu)成,模型Dense2 由兩層Dense1構(gòu)成,Dense3 模型由三層Dense1構(gòu)成;DTCN 由一個全連接 層、3 個級聯(lián)的TCN 模塊、Flatten 層及輸出層構(gòu)成。

表2 不同模型在數(shù)據(jù)集EMODB0 上的多任務(wù)識別結(jié)果Table 2 Multi-task recognition results of different models on the dataset EMODB0 %

圖6 不同模型在數(shù)據(jù)集EMODB0 上的多任務(wù)識別準(zhǔn)確率Fig.6 Multi-task recognition accuracy of different models on dataset EMODB0

從表2 和圖6 可以看出:

1)在多任務(wù)學(xué)習(xí)過程中,所有模型的穩(wěn)定性均較好,且對多任務(wù)學(xué)習(xí)的性能均達到了90%以上,對性別的分類性能優(yōu)于對說話人和情感識別的性能。其中,全連接網(wǎng)絡(luò)對說話人的區(qū)分能力優(yōu)于對情感類別的區(qū)分能力,而TCN 及其相關(guān)衍生類模型則相反;結(jié)合全連接層和TCN 的模型能更好地區(qū)分情感類別和說話人。

2)絕大多數(shù)模型對說話人識別的魯棒性較低,對性別識別的魯棒性最高。因為說話人類別數(shù)較多(包含10 個類別),識別難度較大;而性別僅有兩類,識別難度大幅降低。

3)在7 類模型中,DTCN 模型的多任務(wù)學(xué)習(xí)性能最好,對情感、說話人以及性別的識別準(zhǔn)確率依次為97.38%、95.34%、99.35%,這是一個非常理想的結(jié)果。

3.2.2 模型的泛化性

為驗證DTCN 模型的泛化性,分別采用219D 特征和233D 特征詳細(xì)對比DTCN 模型在基線數(shù)據(jù)集EMODB 和擴充數(shù)據(jù)集EMODB-10、EMODB-5、EMODB0、EMODB5、EMODB10 及EMODBM上的性能,如表3、圖7 所示,其中,圖7 橫坐標(biāo)表示在不同SNR 下構(gòu)建的數(shù)據(jù)集。從表3 和圖7 可以看出:

表3 DTCN 模型在基線數(shù)據(jù)集EMODB 及其擴充數(shù)據(jù)集上的性能對比Table 3 Performance comparison of DTCN model on baseline dataset EMODB and its augmented datasets %

圖7 DTCN 模型在擴充的數(shù)據(jù)集EMODB 上的多任務(wù)識別結(jié)果Fig.7 Multi-task recognition results of DTCN model on the augmented dataset EMODB

1)在基線數(shù)據(jù)集EMODB 和擴充數(shù)據(jù)集EMODB-10上,DTCN 模型在233D 特征上的性能較大程度上優(yōu)于219D 特征上的性能,而在其他擴充數(shù)據(jù)集上,模型在219D 特征上性能較好。

2)DTCN 模型的性能與信噪比成正相關(guān):使用不同SNR 對數(shù)據(jù)集進行擴充時,隨著SNR 的增大,模型的性能線性提升;當(dāng)SNR 為10 dB時,無論采用219D 特征還是233D 特征,模型的多任務(wù)學(xué)習(xí)能力均取得了非常理想的效果。其中,在233D 特征下,DTCN 模型對多任務(wù)學(xué)習(xí)的穩(wěn)定性最高。

3)從圖7 可以看出,無論采用哪一種特征向量,模型的多任務(wù)學(xué)習(xí)能力隨SNR 的變化趨勢相同。其中,當(dāng)采用219D 的特征向量時,模型在不同SNR 下對情感的區(qū)分能力優(yōu)于對說話人的區(qū)分能力;當(dāng)SNR≥-5 dB時,模型對情感和對說話人的區(qū)分能力非常接近。

3.2.3 模型的魯棒性

為了驗證不同類型噪聲對模型性能的影響,在限定SNR 為10 dB 條件下,對數(shù)據(jù)集EMODB 分別添加Babble、Pink、White 及Factory1 噪聲,當(dāng)特征維度為233時,模型DTCN 在這些含噪數(shù)據(jù)集上的性能對比分別如表4 和圖8 所示,其中,No 表示未加噪聲的情況。從表4 和圖8 可以看出:

表4 DTCN 模型在SNR=10 dB 下對數(shù)據(jù)集EMODB 使用單一噪聲的實驗結(jié)果Table 4 Experimental results of the DTCN model using single noise on the dataset EMODB under the SNR=10 dB %

圖8 不同噪聲下DTCN 模型對多任務(wù)的識別結(jié)果Fig.8 Results of DTCN model for multitask recognition under the different noise

1)不同噪聲對模型性能的影響程度不一,Babble噪聲對模型性能的干擾較小,Pink 噪聲對情感識別的影響較大,White噪聲對說話人識別的影響較大。

2)DTCN 模型在Pink 和Factory1 噪聲下進行多任務(wù)學(xué)習(xí)時的魯棒性較好,而在White噪聲下魯棒性較差。

3)DTCN 模型對性別的識別性能最高,對情感識別的性能最差。

為進一步驗證噪聲對DTCN 模型性能的影響,當(dāng)SNR 為10時,對數(shù)據(jù)集EMODB 分別添加Babble、Pink、White 及Factory1 噪聲,通過合并得到的含噪數(shù)據(jù)集,構(gòu)建了10 種混合噪聲下的樣本數(shù)據(jù)集。表5 和圖9 所示為DTCN 模型在這些混合噪聲下的識別性能。其中,特征向量維度為233,B、P、W和F 分別表示對數(shù)據(jù)集EMODB 添加Babble、Pink、White 和Factory1 噪聲。BP 表示對數(shù)據(jù)集EMODB添加了Babble 噪聲和Pink 噪聲后的混合而成的數(shù)據(jù)集,PW、BW、PF、BF、WF、BPW、BPF、BPWF 與BP 定義相似。從表5 和圖9 可以看出:

表5 DTCN 模型在混合噪聲數(shù)據(jù)集上的識別精確率Table 5 Performance of the DTCN model on the hybrid noisy datasets %

圖9 混合噪聲下DTCN 模型對多任務(wù)識別的影響Fig.9 Performance of DTCN model for multitask recognition under the hybrid noise

1)隨著噪聲種類的增加,DTCN 模型的多任務(wù)學(xué)習(xí)能力明顯提升。對情感、說話人以及性別的識別精確率最高可達95.87%、97.86%和99.54%,這可能是因為隨著噪聲種類的增多,訓(xùn)練樣本數(shù)量成倍增加,模型能夠得到更充分的訓(xùn)練。

2)隨著噪聲種類的增加,模型的魯棒性逐漸增強。在絕大多數(shù)情況下,模型對說話人的識別效果優(yōu)于對情感的識別效果,這可能是因為說話人之間的特征差異較大且所提取的特征能夠更好地區(qū)分說話人。

3.2.4 與同類模型的性能對比

為了全面評估DTCN 模型的多任務(wù)學(xué)習(xí)能力,表6 對比了特征維度為233 時DTCN 模型與同類模型HMN[25]、AHPCL[26]、MA-CapsNet[27]、CNN[28]、LSTM[29]、GRU[30]、BiLSTM[31]以及BiGRU[32]對多任務(wù)的分類性能。從表6 可以看出:與上述研究的同類模型相比,DTCN 模型的性能均優(yōu)于其他幾種模型且復(fù)雜度較低,說明DTCN 模型能夠更有效地捕獲數(shù)據(jù)的時序信息,而且DTCN 模型所花費的時間最少。另外,CNN 比各種循環(huán)網(wǎng)絡(luò)的變體(如LSTM、GRU、BiLSTM、GRU)更有效。

表6 在數(shù)據(jù)集EMODBM 上使用不同模型進行多任務(wù)識別的性能Table 6 Multi-task recognition performance of different models on the dataset EMODBM

4 結(jié)束語

本文提出一種新的用于情感分類、說話人識別和性別識別的DTCN 多任務(wù)學(xué)習(xí)模型,并設(shè)計數(shù)據(jù)增強技術(shù),在不同信噪比下采用加噪的方式對數(shù)據(jù)集EMODB 進行擴充,驗證不同噪聲對多任務(wù)學(xué)習(xí)能力的影響。實驗結(jié)果表明,DTCN 模型在多任務(wù)學(xué)習(xí)中取得了較好的效果,當(dāng)SNR>0時,DTCN 模型的多任務(wù)學(xué)習(xí)能力優(yōu)于基線,且隨著噪聲種類的增多,DTCN 模型的多任務(wù)學(xué)習(xí)能力越來越強,在混合噪聲下,DTCN 模型的魯棒性和泛化性更好。下一步將研究DTCN 模型在數(shù)據(jù)集CASIA 和SAVEE 上的多任務(wù)學(xué)習(xí)能力,并探究更有利于多任務(wù)學(xué)習(xí)的特征。

猜你喜歡
多任務(wù)空洞卷積
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
基于中心化自動加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
空洞的眼神
基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
電測與儀表(2016年5期)2016-04-22 01:13:46
用事實說話勝過空洞的說教——以教育類報道為例
新聞傳播(2015年20期)2015-07-18 11:06:46
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
未知環(huán)境下基于粒子群優(yōu)化的多任務(wù)聯(lián)盟生成
計算機工程(2014年6期)2014-02-28 01:26:17
新津县| 晋宁县| 金华市| 辛集市| 台北市| 石首市| 南陵县| 土默特左旗| 辽宁省| 礼泉县| 监利县| 当雄县| 英超| 和龙市| 四会市| 白玉县| 五指山市| 大英县| 齐河县| 定陶县| 古交市| 墨江| 乌鲁木齐县| 黄大仙区| 梁平县| 韶山市| 洪泽县| 原平市| 丰都县| 隆化县| 疏附县| 青田县| 九江县| 文昌市| 蒲城县| 秦皇岛市| 宁乡县| 潮安县| 郧西县| 正阳县| 宾阳县|