邱寧佳,王曉霞,王 鵬,周思丞,王艷春
長(zhǎng)春理工大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長(zhǎng)春130022
近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(CNN)逐漸被學(xué)者們應(yīng)用到構(gòu)建分類模型中。為提高分類的精度,Johnson R 等在CNN 卷積層中引入詞袋轉(zhuǎn)換進(jìn)行文本分類[1]。周錦峰等通過(guò)堆疊多個(gè)卷積層,提取不同窗口的局部語(yǔ)義特征來(lái)進(jìn)行分類[2]。鈕成明等利用Word2Vec 和針對(duì)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)的方法對(duì)中文微博情感進(jìn)行分類[3]。Liao S 等通過(guò)對(duì)比基于SVM 和樸素貝葉斯算法的傳統(tǒng)分類方法對(duì)twitter 數(shù)據(jù)進(jìn)行情感分類[4],驗(yàn)證了CNN具有更好的準(zhǔn)確性。Gamb?ck B等應(yīng)用神經(jīng)網(wǎng)絡(luò)模型[5]對(duì)Twitter仇恨語(yǔ)音文本進(jìn)行訓(xùn)練,并通過(guò)實(shí)驗(yàn)驗(yàn)證基于word2vec 嵌入的模型表現(xiàn)最佳。Dos Santos C等[6]使用從字符到句子級(jí)別的信息來(lái)執(zhí)行短文本的情感分析。王吉俐等[7]通過(guò)引入注意力機(jī)制得到文本類別的特征向量矩陣后,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)模型完成文本的分類。
由于傳統(tǒng)機(jī)器學(xué)習(xí)方法假設(shè)訓(xùn)練集和數(shù)據(jù)集都處于統(tǒng)一特征空間并分布一致,而在實(shí)際應(yīng)用中,這種假設(shè)不太可能成立,因此學(xué)者們引入了遷移學(xué)習(xí)的思想。鄭遠(yuǎn)攀等在圖像識(shí)別領(lǐng)域有效使用了遷移學(xué)習(xí)技術(shù)識(shí)別小樣本數(shù)據(jù)[8]。王立偉等在高光譜圖像分類中將深層殘差網(wǎng)絡(luò)運(yùn)用到特征提取器中解決了樣本空間特征利用不足的問(wèn)題[9]。Uguroglu S等提出了一種新的遷移學(xué)習(xí)方法來(lái)識(shí)別兩個(gè)數(shù)據(jù)集之間的變量和不變特征[10],以此提高算法的準(zhǔn)確性。Oquab M等利用有限數(shù)量的訓(xùn)練數(shù)據(jù)將CNN在大規(guī)模標(biāo)注的數(shù)據(jù)集訓(xùn)練得到的圖像表示有效地遷移到其他視覺(jué)識(shí)別任務(wù)中[11]。張智在圖像分類模型構(gòu)建中結(jié)合遷移學(xué)習(xí)與深度學(xué)習(xí)的思想[12]來(lái)達(dá)到提高模型精度的同時(shí)節(jié)約訓(xùn)練成本的目的。Tang Y等使用基于CNN的遷移學(xué)習(xí)方法來(lái)研究歷史文字識(shí)別問(wèn)題,解決了標(biāo)記訓(xùn)練樣本不足的問(wèn)題[13]。邢恩旭等在少量目標(biāo)樣本訓(xùn)練集中使用基于遷移學(xué)習(xí)的雙層生成式對(duì)抗網(wǎng)絡(luò)模型[14]訓(xùn)練出更好的模型。么素素等提出了一種基于級(jí)聯(lián)結(jié)構(gòu)的集成遷移學(xué)習(xí)算法解決數(shù)據(jù)絕對(duì)不平衡的問(wèn)題[15]。徐旭東等提出了一種基于遷移學(xué)習(xí)和CNN的控制圖識(shí)別方法,通過(guò)比對(duì)BP神經(jīng)網(wǎng)絡(luò)提高了控制圖識(shí)別準(zhǔn)確率[16]。Ravishankar H 等通過(guò)遷移學(xué)習(xí)算法在ImageNet圖像上訓(xùn)練以執(zhí)行圖像分類,并通過(guò)調(diào)整遷移程度來(lái)提高圖像檢測(cè)分類性能[17]。周清清等利用遷移學(xué)習(xí)方法對(duì)H7N9微博主觀語(yǔ)料文本進(jìn)行情感分類[18],驗(yàn)證了其分類效果優(yōu)于非遷移學(xué)習(xí)方法。
但傳統(tǒng)CNN需要大量有監(jiān)督的訓(xùn)練樣本才能獲得較高的分類精度,而實(shí)際上數(shù)據(jù)集很難滿足獨(dú)立同分布的條件,且數(shù)據(jù)標(biāo)注成本較高。為了解決以上問(wèn)題,本文提出了一種基于模型遷移的卷積神經(jīng)網(wǎng)絡(luò)(trCNN)算法。設(shè)定源域數(shù)據(jù)集為帶標(biāo)注的文本分類數(shù)據(jù)集,目標(biāo)數(shù)據(jù)集為人工標(biāo)注的少量微博評(píng)論數(shù)據(jù)集。首先為了使數(shù)據(jù)集更好地符合遷移學(xué)習(xí)的要求,利用主成分分析法(PCA)算法和自編碼機(jī)模型對(duì)源域數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集進(jìn)行降維處理。其次利用源域數(shù)據(jù)集中大量帶標(biāo)注的數(shù)據(jù)集構(gòu)建源域神經(jīng)網(wǎng)絡(luò)模型,同時(shí)設(shè)定模型遷移規(guī)則,并部分源域模型遷移至目標(biāo)域任務(wù)。最后使用少量帶標(biāo)注的目標(biāo)域數(shù)據(jù)集對(duì)遷移模型進(jìn)行訓(xùn)練微調(diào)其神經(jīng)網(wǎng)絡(luò)參數(shù),完成遷移模型的構(gòu)建。本文實(shí)驗(yàn)結(jié)果表明,基于模型遷移的卷積神經(jīng)網(wǎng)絡(luò)具有較高的分類精度。
為了滿足在低維度特征空間下源域與目標(biāo)域數(shù)據(jù)集具有相似的特征分布,下面對(duì)源域與目標(biāo)域數(shù)據(jù)集進(jìn)行特征降維處理。
PCA算法能夠?qū)崿F(xiàn)無(wú)監(jiān)督降維且計(jì)算速度較快,故針對(duì)本文源域數(shù)據(jù)量大的情況,采用PCA 算法挑選出主要特征,對(duì)數(shù)據(jù)集進(jìn)行無(wú)監(jiān)督降維處理,使得數(shù)據(jù)降維后產(chǎn)生更小但保持?jǐn)?shù)據(jù)完整性的新數(shù)據(jù)集,有效提高了數(shù)據(jù)分析效率。
PCA 算法首先選取方差最大的方向作為新的坐標(biāo)軸方向,然后重復(fù)選擇與新坐標(biāo)軸正交且方差最大的方向(重復(fù)次數(shù)為原始數(shù)據(jù)的特征維數(shù))。
設(shè)原始數(shù)據(jù)樣本集為X={x1,x2,…,xm},xi∈Rn,其中m 代表樣本數(shù),n 代表特征維度。為了避免數(shù)據(jù)均值對(duì)坐標(biāo)變換的影響,本文先對(duì)數(shù)據(jù)集進(jìn)行處理,將每個(gè)特征值減去該維特征的平均值,對(duì)第i 個(gè)樣例的第j 個(gè)特征,計(jì)算公式為:
u 為第j 個(gè)特征的期望。設(shè)協(xié)方差矩陣為n×n 大小的方陣,具有n 個(gè)特征向量,計(jì)算出協(xié)方差的特征向量及對(duì)應(yīng)的特征值。將特征向量按照特征值的大小按列排放,組成矩陣u={u1,u2,…,un},設(shè)定閾值p,k 為選擇的特征維度,n 為全部的特征維度當(dāng)滿足:
由此得到降維后的源域樣本集X={x1,x2,…,xm},xi∈Rk,完成源域數(shù)據(jù)集的降維工作。
自編碼機(jī)模型在數(shù)據(jù)降維過(guò)程中可以通過(guò)正則化項(xiàng)得到數(shù)據(jù)集的稀疏編碼形式,本文選用了自編碼機(jī)模型對(duì)目標(biāo)域進(jìn)行降維,將源數(shù)據(jù)集降維后的特征信息作為稀疏正則化因子,來(lái)指導(dǎo)目標(biāo)域數(shù)據(jù)集降維,以此盡可能地保留與源域數(shù)據(jù)較為相似的特征,并完成對(duì)目標(biāo)域的降維工作。
本文使用源域數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集的數(shù)據(jù)分布相似程度作為正則化項(xiàng),但因其在原始維度下的數(shù)據(jù)分布可能無(wú)法重疊,此時(shí)的KL 散度無(wú)法計(jì)算出數(shù)據(jù)分布的差異。因此,為了得到目標(biāo)域數(shù)據(jù)的稀疏特征表達(dá),使用最小化源域與目標(biāo)域數(shù)據(jù)集的分布差異的JS散度作為稀疏正則項(xiàng),以此來(lái)提高模型在數(shù)據(jù)分布差異較大時(shí)的敏感性,JS散度的計(jì)算公式如下:
其中,p 為源域數(shù)據(jù)集降維后的特征分布,q 為目標(biāo)域數(shù)據(jù)集降維后的特征分布。故得到自編碼機(jī)的損失函數(shù)公式如式(4):
其中,β 為調(diào)節(jié)因子,用來(lái)調(diào)節(jié)稀疏化的強(qiáng)度,并通過(guò)梯度下降算法完成自編碼機(jī)降維模型的收斂。最終經(jīng)過(guò)多個(gè)編碼層后得到目標(biāo)域數(shù)據(jù)低維度的特征表達(dá)形式。
由于卷積神經(jīng)網(wǎng)絡(luò)具有共享隱藏層矩陣和層次化特征提取的特點(diǎn),故本文選擇了深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)作為遷移模型,并在此基礎(chǔ)上提出了trCNN 模型。模型構(gòu)建過(guò)程如下:
第一步,利用源域數(shù)據(jù)集訓(xùn)練一個(gè)用于文本分類任務(wù)的源域模型。設(shè)P 為源域數(shù)據(jù)Us的特征分布,Q 為目標(biāo)域Ut的概率密度分布,con_pooling={con_pooling1,con_pooling2,…,con_poolingn} 為源域模型的卷積池化層。卷積神經(jīng)網(wǎng)絡(luò)對(duì)上層的特征繼續(xù)進(jìn)行卷積池化操作,設(shè)n 為卷積池化層的深度,M 為提取后的特征矩陣,由此可得特征矩陣為Mn:
第二步,將源域模型中用于提取一般性句子特征結(jié)構(gòu)的卷積池化層遷移至目標(biāo)域模型,并使用目標(biāo)域的特征信息對(duì)遷移來(lái)的源域隱層進(jìn)行微調(diào)。將源域和目標(biāo)域數(shù)據(jù)集通過(guò)卷積池化層后,得到源域特征分布序列P={p1,p2,…,pn} 和目標(biāo)域Q={q1,q2,…,qn} 特征分布序列,設(shè)定數(shù)據(jù)分布相似度閾值為ρ,對(duì)于當(dāng)前卷積池化層k,通過(guò)計(jì)算源域和目標(biāo)域特征分布的JS散度來(lái)判定其提取的特征是否相似,當(dāng)特征分布相似度JS(P||Q)大于閾值ρ 時(shí),遷移得到的卷積池化層對(duì)于目標(biāo)域數(shù)據(jù)能提取到相似的特征矩陣,可以遷移到目標(biāo)域模型中,反之則不能遷移至目標(biāo)域模型中。
第三步,增加少量用于高層特征提取的隨機(jī)初始化隱藏層,完成遷移模型trCNN的構(gòu)建任務(wù)。源域與目標(biāo)域數(shù)據(jù)集由于數(shù)據(jù)量不同而存在的數(shù)據(jù)集特征分布不同的問(wèn)題,在隱藏層的遷移中可能會(huì)存在誤差,為了減少誤差,本文設(shè)計(jì)了一種調(diào)節(jié)因子φ 來(lái)對(duì)遷移的隱藏層權(quán)重矩陣進(jìn)行細(xì)粒度調(diào)節(jié)。設(shè)a 為源域模型特征矩陣數(shù)量,p′為源域模型特征期望矩陣。b 為目標(biāo)域模型特征矩陣數(shù)量,q′為目標(biāo)域模型特征期望矩陣,隱藏層卷積核權(quán)重矩陣w 計(jì)算公式如下:
當(dāng)源域與目標(biāo)域特征分布相近時(shí),φ 值較大,得到較小的遷移隱藏層權(quán)重,源域?qū)δ繕?biāo)域的特征影響較大;當(dāng)源域與目標(biāo)域特征分布差異較大時(shí),φ 值較小,得到較大的遷移隱藏層權(quán)重,源域?qū)δ繕?biāo)域的特征影響較小。通過(guò)細(xì)粒度調(diào)節(jié)因子φ 優(yōu)化源模型隱層權(quán)重?cái)M合目標(biāo)域的特征分布,得到源域模型對(duì)應(yīng)后的遷移模型參數(shù)矩陣,即完成模型遷移工作,最終通過(guò)補(bǔ)全深層特征提取的隱藏層,完成整個(gè)遷移模型的構(gòu)建。
補(bǔ)全后的trCNN 模型為了預(yù)防訓(xùn)練數(shù)據(jù)過(guò)度擬合問(wèn)題,使用Dropout 方法在訓(xùn)練時(shí)隨機(jī)選出隱藏層的神經(jīng)元將其刪除,被刪除的神經(jīng)元不再進(jìn)行信號(hào)傳遞,從而有效地避免了過(guò)擬合問(wèn)題。同時(shí)模型在不需要增加訓(xùn)練集數(shù)量的情況下,減少了訓(xùn)練迭代次數(shù),提高了泛化能力。
通過(guò)結(jié)合數(shù)據(jù)集特征降維與改進(jìn)的trCNN算法,得到了遷移卷積神經(jīng)網(wǎng)絡(luò)模型,其完整的遷移模型算法流程圖如圖1所示。
圖1 卷積神經(jīng)網(wǎng)絡(luò)模型遷移流程圖
首先,本文采用了無(wú)監(jiān)督的PCA 算法對(duì)源域數(shù)據(jù)集進(jìn)行降維,得到其主要特征,以此降低了源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)之間的差距。同時(shí)對(duì)目標(biāo)域數(shù)據(jù)集使用帶有兩個(gè)領(lǐng)域數(shù)據(jù)分布差異JS散度作為稀疏正則項(xiàng)的自編碼機(jī)模型進(jìn)行半監(jiān)督降維,在低維度下盡可能地減少由于分布不同而導(dǎo)致模型負(fù)遷移的可能性。
其次,使用源域數(shù)據(jù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,利用JS散度將能夠提取相似特征的卷積池化層進(jìn)行模型遷移,并通過(guò)公式(9)進(jìn)行細(xì)粒度調(diào)整遷移模型的隱層權(quán)重矩陣,使其更適合目標(biāo)域數(shù)據(jù)。將遷移的隱藏層結(jié)合初始化的卷積池化層來(lái)提取高層特征,形成完整的目標(biāo)域卷積模型。模型如圖2所示。
最后,將隨機(jī)初始化的隱藏層添加到遷移模型中進(jìn)行高層語(yǔ)義特征提取工作。由于層數(shù)較少,本文使用目標(biāo)域中少量的有監(jiān)督樣本對(duì)遷移模型進(jìn)行訓(xùn)練,從而完成整個(gè)模型的構(gòu)建。設(shè)定目標(biāo)域模型的SoftMax 函數(shù)為樣本屬于各個(gè)情感類別的概率分布計(jì)算公式:
圖2 trCNN模型結(jié)構(gòu)圖
當(dāng)數(shù)據(jù)量較少的時(shí)候,全樣本梯度下降算法消耗的訓(xùn)練時(shí)間較短,但能較快且穩(wěn)定地將遷移模型收斂到誤差閾值范圍內(nèi)。因此本文使用了少量的目標(biāo)域數(shù)據(jù)集對(duì)遷移模型進(jìn)行訓(xùn)練,并采用全樣本梯度下降算法完成遷移模型的訓(xùn)練的工作,以此來(lái)達(dá)到對(duì)遷移得到的隱藏層進(jìn)行微調(diào),同時(shí)能夠訓(xùn)練隨機(jī)初始化的高層特征提取隱藏層的目的。從而來(lái)完成對(duì)trCNN 模型從源域到目標(biāo)域的遷移工作。由于本文利用了本文分類數(shù)據(jù)集來(lái)構(gòu)建用于提取句子中一般性結(jié)構(gòu)信息的隱藏層,并將隱藏層遷移至目標(biāo)域模型中,因此極大地降低了卷積神經(jīng)網(wǎng)絡(luò)對(duì)于訓(xùn)練集數(shù)量的需求。同時(shí),因?yàn)檫w移的隱藏層結(jié)構(gòu)提取的是一般性句子結(jié)構(gòu)信息,因此能夠有效地放置卷積神經(jīng)網(wǎng)絡(luò)僅對(duì)于某種訓(xùn)練數(shù)據(jù)集的過(guò)度擬合,增加了模型的泛化能力。
本文采用微博API 提供的數(shù)據(jù)集與帶有標(biāo)注信息的NLPCC2013 數(shù)據(jù)集作為訓(xùn)練語(yǔ)料庫(kù),其中將NLPCC2013 數(shù)據(jù)集作為源域數(shù)據(jù)集,并用來(lái)訓(xùn)練源域的分類模型,數(shù)據(jù)集正負(fù)例樣本分布如表1所示。
表1 源域數(shù)據(jù)集
微博數(shù)據(jù)包含情感分類、文本分類、垃圾評(píng)論分類三種文本數(shù)據(jù)。同時(shí)選擇少量等比例的正反數(shù)據(jù)集進(jìn)行人工標(biāo)注,作為遷移后的訓(xùn)練數(shù)據(jù),其余數(shù)據(jù)則作為遷移模型的測(cè)試集,對(duì)模型有效性進(jìn)行驗(yàn)證,詳細(xì)設(shè)置如表2。
表2 目標(biāo)域數(shù)據(jù)集
本文在實(shí)驗(yàn)中采用多態(tài)模式的卷積核對(duì)輸入的語(yǔ)義合成向量進(jìn)行卷積操作,使用最大池化操作對(duì)特征進(jìn)行降維。設(shè)置模型特征圖數(shù)m 為32,Mini-batch梯度下降數(shù)為50,隨機(jī)失活數(shù)p 為0.2,學(xué)習(xí)率Λ 為10?3,神經(jīng)網(wǎng)絡(luò)層數(shù)L 為6層,單層神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)為128個(gè)。如表3所示。
表3 模型參數(shù)設(shè)置
實(shí)驗(yàn)1 遷移模型算法可行性分析
本文使用了NLPCC2013源域數(shù)據(jù)集訓(xùn)練一個(gè)源域模型,首先將模型中可遷移隱藏層遷移至目標(biāo)域模型中,然后使用帶標(biāo)注目標(biāo)域數(shù)據(jù)集完成目標(biāo)域模型訓(xùn)練工作。設(shè)定模型迭代周期為1 000次。數(shù)據(jù)集分別選擇表2 三種數(shù)據(jù)集中1 000 條帶標(biāo)注樣本來(lái)訓(xùn)練遷移模型,設(shè)定收斂閾值p >90%。實(shí)驗(yàn)結(jié)果如圖3。
圖3 遷移模型在不同數(shù)據(jù)集下可行性分析
由圖可知,對(duì)于已完成遷移的目標(biāo)域模型,將其放入處于初始化狀態(tài)的高層特征提取的卷積池化層,其分類正確率可達(dá)到75.2%,由此說(shuō)明遷移來(lái)的隱藏層對(duì)于目標(biāo)域數(shù)據(jù)集能夠完成底層的特征提取工作。隨著迭代次數(shù)的增加,目標(biāo)域數(shù)據(jù)集開(kāi)始訓(xùn)練遷移模型,其分類精度明顯上升,在350次迭代時(shí)模型分類精度最高達(dá)到94%左右。當(dāng)模型在迭代450次時(shí),在三個(gè)領(lǐng)域數(shù)據(jù)集上的誤差均小于閾值,可以認(rèn)為模型完成了收斂。由此可以得出,trCNN 的模型可以較好地完成遷移任務(wù),從而降低了標(biāo)注成本。
實(shí)驗(yàn)2 遷移模型消耗帶標(biāo)注樣本數(shù)量驗(yàn)證
為了更直觀地展現(xiàn)模型在降低人工標(biāo)注中的優(yōu)勢(shì),本文選用了非遷移的CNN模型作為對(duì)照組。設(shè)定實(shí)驗(yàn)迭代次數(shù)為5 000 次,數(shù)據(jù)集為表2 的微博情感分類數(shù)據(jù),通過(guò)逐漸增加帶標(biāo)注的數(shù)據(jù)來(lái)判斷其在測(cè)試集下的正確率,實(shí)驗(yàn)結(jié)果如表4。
表4 不同樣本數(shù)量下模型正確率%
由表4可知,微博情感分類數(shù)據(jù)集為500條時(shí),CNN的模型的分類正確率比trCNN的模型低了近30%,當(dāng)數(shù)據(jù)集樣本增加至900 條時(shí),trCNN 的模型正確率已經(jīng)達(dá)到了85.3%,而CNN 的模型正確率僅63.9%,此時(shí)可以認(rèn)為trCNN已經(jīng)完成了訓(xùn)練工作,并且取得了優(yōu)異的分類成績(jī)。實(shí)驗(yàn)繼續(xù)增加訓(xùn)練樣本至7 000條時(shí),CNN的模型分類才達(dá)到84.6%,相對(duì)于trCNN模型,增加了87%的訓(xùn)練樣本。此后再增加訓(xùn)練樣本,兩種模型都已經(jīng)趨近于收斂狀態(tài),可以認(rèn)為已經(jīng)完成了訓(xùn)練工作。同時(shí)由于源域數(shù)據(jù)自帶標(biāo)注信息的公共文本數(shù)據(jù)集,預(yù)訓(xùn)練得到的模型可以用于多種目標(biāo)域中。因此,改進(jìn)的trCNN模型不僅可以降低大量人工訓(xùn)練的標(biāo)注成本,還能降低訓(xùn)練的運(yùn)算成本。
使用表2 中的垃圾評(píng)論數(shù)據(jù)集作為測(cè)試集進(jìn)一步驗(yàn)證訓(xùn)練完成后的模型的分類效果,實(shí)驗(yàn)通過(guò)增加測(cè)試集數(shù)據(jù)驗(yàn)證目標(biāo)域數(shù)據(jù)量對(duì)實(shí)驗(yàn)結(jié)果的影響,設(shè)定AUC為實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo),AUC值越大,說(shuō)明模型分類效果越好。實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 trCNN模型分類精度ROC曲線
可以看出,當(dāng)測(cè)試集數(shù)據(jù)量由14 000 增至23 000時(shí),AUC 的值由0.957 增至0.974,實(shí)驗(yàn)達(dá)到一定的迭代次數(shù)后,模型分類性能能夠在保持較高準(zhǔn)確度程度下趨于平穩(wěn)。隨著測(cè)試集數(shù)量的增加,垃圾評(píng)論數(shù)據(jù)集精度損失減小。因此可以得出,遷移后的神經(jīng)網(wǎng)絡(luò)模型具有較好的分類效果。
實(shí)驗(yàn)3 目標(biāo)域特征降維對(duì)遷移性能的影響
本文使用多層自編碼機(jī)對(duì)目標(biāo)域數(shù)據(jù)集進(jìn)行降維,設(shè)定源域數(shù)據(jù)集為nlpcc2013,目標(biāo)域數(shù)據(jù)集為微博情感分類數(shù)據(jù)集,自編碼機(jī)采用5個(gè)隱藏層對(duì)輸入向量進(jìn)行編碼,由此得到5種目標(biāo)域數(shù)據(jù)集的低維度特征表現(xiàn)形式,將后一層的隱層信息看作前一層的降維結(jié)果,通過(guò)實(shí)驗(yàn),得到源域與目標(biāo)域數(shù)據(jù)分布相似度和特征維度之間的關(guān)系如圖5所示。
圖5 降維對(duì)樣本集特征分布相似度影響
由圖5可以得出,降維后的源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)相較于原始數(shù)據(jù)在數(shù)據(jù)分布上已經(jīng)取得了較高的相似度。微博情感分類數(shù)據(jù)在未降維的情況下與源域數(shù)據(jù)的JS散度為48%,在經(jīng)過(guò)5次特征降維后達(dá)到了86%。而垃圾評(píng)論數(shù)據(jù)集與文本分類數(shù)據(jù)集在無(wú)降維條件下,特征分布相似度僅為12%和19%,但經(jīng)過(guò)5次降維后最終達(dá)到了72%和70%的結(jié)果。這說(shuō)明特征降維能夠提高數(shù)據(jù)分布的相似度。同時(shí),本文設(shè)計(jì)了實(shí)驗(yàn)來(lái)驗(yàn)證數(shù)據(jù)分布相似度對(duì)遷移模型分類效果的影響,實(shí)驗(yàn)結(jié)果如表5所示。
表5 樣本集降維對(duì)遷移模型性能影響 %
由表5 可以看出,在原始維度下,遷移模型的性能普遍較低,即使在特征分布較為相似的微博分類數(shù)據(jù)集上也僅僅只有40.6%的分類準(zhǔn)確率。而隨著降維次數(shù)的增加,數(shù)據(jù)分布的相似度升高,三個(gè)數(shù)據(jù)集的分類準(zhǔn)確率也逐步提升,在經(jīng)過(guò)第5 次降維后,三個(gè)數(shù)據(jù)集分別取得91%,86.2%,88.3%分類準(zhǔn)確率。由此可見(jiàn)當(dāng)對(duì)數(shù)據(jù)進(jìn)行降維后,目標(biāo)域數(shù)據(jù)分別貼近于源域數(shù)據(jù)分布,得到的遷移模型能更好地貼近于目標(biāo)域數(shù)據(jù)集,得到更高的分類精度,證明了遷移模型的可行性。
實(shí)驗(yàn)4 調(diào)節(jié)因子對(duì)分類精度的影響
本文使用實(shí)驗(yàn)3 中降維前后的垃圾評(píng)論數(shù)據(jù)集進(jìn)行分類實(shí)驗(yàn),設(shè)計(jì)當(dāng)源域與目標(biāo)域數(shù)據(jù)集特征分布不同時(shí),通過(guò)調(diào)節(jié)因子對(duì)遷移的隱藏層權(quán)重矩陣進(jìn)行細(xì)粒度調(diào)節(jié),得到不同的分類效果,以此來(lái)驗(yàn)證調(diào)節(jié)因子對(duì)分類精度的影響。實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 調(diào)節(jié)因子φ 對(duì)分類精度的影響
由圖6 可知,當(dāng)源域與目標(biāo)域特征分布相差較大時(shí),隨著φ 值的增加,垃圾評(píng)論數(shù)據(jù)集的分類效果逐漸下降;相反,當(dāng)源域與目標(biāo)域特征分布相近時(shí),數(shù)據(jù)集的分類精度也隨著φ 值的上升而增加。由此證明了通過(guò)調(diào)節(jié)因子來(lái)對(duì)遷移的隱藏層權(quán)重矩陣進(jìn)行細(xì)粒度調(diào)節(jié),減小了源域與目標(biāo)域之間特征分布不同時(shí)的誤差,從而提高遷移模型的分類準(zhǔn)確度。
為提高訓(xùn)練集與測(cè)試集分布不同時(shí)的分類精度,本文設(shè)計(jì)實(shí)驗(yàn)對(duì)數(shù)據(jù)分布差異性進(jìn)行分析,提出了trCNN模型。該模型首先利用PCA算法對(duì)源域數(shù)據(jù)集進(jìn)行無(wú)監(jiān)督降維,同時(shí)利用自編碼機(jī)模型對(duì)目標(biāo)域數(shù)據(jù)集進(jìn)行半監(jiān)督降維,使源域數(shù)據(jù)集與目標(biāo)域數(shù)據(jù)集具有較為相似的分布狀態(tài)。其次結(jié)合卷積神經(jīng)網(wǎng)絡(luò)分布特征提取的特點(diǎn),針對(duì)底層特征提取的卷積池化層進(jìn)行遷移,并使用初始化高層特征提取器補(bǔ)全CNN 模型。最后,使用降維后的帶標(biāo)注目標(biāo)域數(shù)據(jù)集完成遷移模型的樣本訓(xùn)練任務(wù)。本文設(shè)計(jì)實(shí)驗(yàn)分別驗(yàn)證了遷移模型的可行性,標(biāo)注樣本消耗能力,trCNN 模型分類精度以及目標(biāo)域降維對(duì)特征分布相似度的影響,通過(guò)實(shí)驗(yàn)結(jié)果分析可知,本文提出的trCNN模型在訓(xùn)練集與測(cè)試集分布不同時(shí)也具有較高的分類精度,且遷移后的神經(jīng)網(wǎng)絡(luò)模型能夠在不損失較大模型精度的前提下降低標(biāo)注成本。