基于改進rcnn模型的多標(biāo)簽短文本自適應(yīng)分類

2021-11-17 08:37:26夏梓淵

計算機仿真 2021年5期

王東，夏梓淵

(重慶理工大學(xué)計算機科學(xué)與工程學(xué)院，重慶 400054；)

1 引言

電子商務(wù)以及社交網(wǎng)絡(luò)的迅猛發(fā)展，促使人們網(wǎng)絡(luò)生活的形式日益多樣化，越來越多的人們積極主動加入社交網(wǎng)絡(luò)中，在網(wǎng)絡(luò)中進行交流以及發(fā)表自己的評論[1-2]，以上行為大幅度增加了互聯(lián)網(wǎng)的數(shù)據(jù)量。現(xiàn)階段互聯(lián)網(wǎng)已經(jīng)日益滲透到人們的生活以及工作中，為了傳統(tǒng)的經(jīng)濟結(jié)構(gòu)以及商業(yè)模式帶來了全新的轉(zhuǎn)機?；ヂ?lián)網(wǎng)的開放性、匿名性等優(yōu)勢，促使越來越多的人愿意將身邊發(fā)生的事情進行分享，并且在網(wǎng)絡(luò)中查詢自己感興趣的信息[3-4]，整個社交平臺為人們的生活帶來了極大的便利，同時也有效促進了各個企業(yè)的發(fā)展。

互聯(lián)網(wǎng)技術(shù)的普及以及飛速發(fā)展，促使互聯(lián)網(wǎng)絡(luò)中的多標(biāo)簽文本分類變得越來越迫切。本文主要結(jié)合經(jīng)過改進的rcnn模型，提出一種基于改進rcnn模型的多標(biāo)簽短文本自適應(yīng)分類方法。仿真結(jié)果表明，所提方法能夠有效提升分類結(jié)果的準(zhǔn)確性，同時具有較強的實用性。

2 方法

2.1 多標(biāo)簽短文本特征提取

多標(biāo)簽短文本是一種非結(jié)構(gòu)化信息，它本身是無法使用計算機進行直接處理的，所以需要將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù)，促使計算機能夠快速、有效的進行應(yīng)用。

多標(biāo)簽短文本預(yù)處理是文本分類的開始，也是文本分類的必要階段。

在多標(biāo)簽短文本經(jīng)過預(yù)處理之后，原始的多標(biāo)簽短文本有效刪除了的噪聲信息，同時以詞匯為單位進行文本表述。但是，由于計算機只能夠接受二進制編碼，其中類似于詞匯這種非結(jié)構(gòu)化字符輸入無法被處理。所以，將非結(jié)構(gòu)化字符轉(zhuǎn)換為二進制編碼以方便計算機識別處理，整個轉(zhuǎn)化過程被稱為文本表示。文本表示是首先抽取出文本的特征詞，再使用教學(xué)方法進行數(shù)字表示的過程，它能夠轉(zhuǎn)化為無結(jié)構(gòu)信息，對多標(biāo)簽文本信息進行抽象表述。多標(biāo)簽短文本首先需要提取出人本的特征詞，然后再使用數(shù)學(xué)方法進行數(shù)字表示的過程，它能夠轉(zhuǎn)化為無結(jié)構(gòu)信息，同時對文本內(nèi)容進行抽象表述。

衡量單詞權(quán)重最為有效的一種算法就是TD-IDF算法，使用該算法通常情況下會將較為常見的詞語過濾掉，保留其中較為重要的詞語。整個算法主要是由以下兩個部分組成，分別為：

1)詞頻

2)逆向文件頻率

針對于特定文件里面的詞語ti而言，以下給出詞頻的具體計算方法

(1)

逆向文件頻率也是衡量一個詞語普遍重要性的度量[6]，具體的計算式如下所示

(2)

結(jié)合式(1)以及式(2)則能夠完成TD-IDF算法，即

tf-idfi，j=tfi，j×idfi

(3)

以下給出互信息的基本定義

(4)

針對已有多標(biāo)簽文本特征集

T={tk，k=1，2，…，m}

(5)

類別集能夠表示為以下的形式

C={cj，j=1，2，…，r}

(6)

其中特征詞tk和類別cj的互信息計算方式能夠表示為以下的形式

(7)

綜合上述分析可知，假設(shè)使用分詞以及詞頻作為特征詞和對應(yīng)的權(quán)值進行空間向量模型的文本表示。當(dāng)數(shù)據(jù)集過大時且包含詞匯過多時會出現(xiàn)維度爆炸的情況。同時，僅使用詞匯進行表示是無法描述各個詞匯之間的關(guān)系的，而且還會導(dǎo)致大部分語義信息的丟失。

為了更好地將自然語言交給rcnn模型完成處理任務(wù)，人們將詞匯轉(zhuǎn)換為數(shù)字向量形式的人本表達(dá)方式，以上方式即為詞向量表示方法。

信息熵以及信息增益是現(xiàn)階段使用最為廣泛的最優(yōu)屬性劃分方法。在整個算法應(yīng)用的過程中，文本分類任務(wù)能夠有效解決特征提取過程中的非線性問題，所以其在語言處理中占據(jù)十分重要的作用。在現(xiàn)實使用的過程中，需要設(shè)定對應(yīng)的參數(shù)。其中后驗概率計算式能夠表示為以下的形式

(8)

上式中，d代表屬性的總數(shù)；xi代表第i個屬性上的取值。

其中最小化分類錯誤率計算式能夠表示為以下的形式：

(9)

在現(xiàn)實應(yīng)用的過程中，為了更加高效的使用rcnn模型，需要結(jié)合對應(yīng)的數(shù)據(jù)集以及分類任務(wù)特點進行對應(yīng)的改進以及調(diào)整。假設(shè)任務(wù)數(shù)據(jù)更新較為頻繁，則采用懶惰學(xué)習(xí)的方式，也就是首先不進行訓(xùn)練，在收到預(yù)測請求后再對當(dāng)前的數(shù)據(jù)集進行概率估計；假設(shè)數(shù)據(jù)隨著系統(tǒng)采集不斷增加，則通常對新增樣本的屬性值以及所涉及到的概率估計值進行修正，以確保增量學(xué)習(xí)的實現(xiàn)。

其中模型聯(lián)合概率能夠表示為以下的形式：

(10)

式中，α代表文檔中主題分布信息；β代表主題中特征詞分布信息；N代表文檔中的特征詞數(shù)量；θ代表文檔所對應(yīng)的主體向量。

多標(biāo)簽短文本輸入層的任務(wù)就是講詞向量拼接為文本矩陣，同時將其傳遞給下一層，方便進行卷積操作。

多標(biāo)簽短文本處理需要考慮文本中各個詞語之間的關(guān)系[7-8]，這樣才能夠獲取一個較為完整的語義特征。

設(shè)定特征向量ai是在詞匯aixi：i+h-1中形成的，則有

ai=f(xi：i+h-1+b)

(11)

特征向量能夠表示為以下的形式

a=[a1，a2，…，an-h+1]

(12)

為了有效避免訓(xùn)練過程中出現(xiàn)擬合的情況，需要結(jié)合相關(guān)操作來禁止隱層節(jié)點參與到前項傳播過程，這些神經(jīng)元將不再參與此次更新，進一步促使權(quán)值的更新不再依賴于固定節(jié)點的作用。

在上述分析的基礎(chǔ)上，提取多標(biāo)簽短文本數(shù)據(jù)集中多標(biāo)簽短文本的不同特征，同時將其作為傳統(tǒng)機器學(xué)習(xí)模型以及深度模型的輸入。

2.2 基于改進rcnn模型的多標(biāo)簽短文本自適應(yīng)分類

在rcnn模型中，所謂的特征融合主要是指在各個角度進行多標(biāo)簽文本提取，同時結(jié)合相關(guān)理論將得到的特征放入到rcnn模型中，以有效提升模型的綜合性能。

通過模型融合的方法能夠完成詞匯特征以及語義特征的融合，在2.1小節(jié)中提取到的多標(biāo)簽短文本特征設(shè)定為輸入，然后對模型進行訓(xùn)練，同時將語義特征設(shè)定為輸入，再對模型進行訓(xùn)練，這樣就能夠獲取多個不同的多標(biāo)簽短文本分類模型，最后結(jié)合Stacking技術(shù)對rcnn模型模型進行改進，通過改進的rcnn模型對多個基分類器的分類結(jié)果進行融合處理，獲取多標(biāo)簽短文本自適應(yīng)分類的最終結(jié)果。

為了確保重要的信息能夠被保留，以下采用Sigmoid函數(shù)對上一時間階段輸出的權(quán)重進行保留，具體的計算式如下所示

ft=δ(Wf·[ht-1，xt]+bf)

(13)

結(jié)合以上函數(shù)對系統(tǒng)中的輸入信息進行更新，同時形成對應(yīng)的候選值，則有

it=δ(Wi·[ht-1，xt]+bi)

(14)

Ct=tanh(WC·[ht-1，xt]+bC)

(15)

結(jié)合文本數(shù)據(jù)的信息特征，網(wǎng)絡(luò)層利用卷積模塊設(shè)定為卷積策略，由于多標(biāo)簽短文本中的數(shù)據(jù)存在一定的差異性，這會導(dǎo)致卷積層內(nèi)形成的特征圖也存在差異。為了能夠使用循環(huán)網(wǎng)絡(luò)對特征圖進行統(tǒng)一的處理[9]，需要采用池化模塊對其進行處理，將其長度進行統(tǒng)一。

為了對傳統(tǒng)的rcnn模型進行改進，以下采用參數(shù)優(yōu)化的方式實現(xiàn)，則有

ui=tanh(Whht+bw)

(16)

以下計算中間向量和文本上下向量的相似度，具體如式(17)所示

(17)

將原始向量矩陣以及加權(quán)兩者相加，則能夠獲取經(jīng)過優(yōu)化后的特征向量，則有

(18)

在多標(biāo)簽短文本處理任務(wù)中，文本向量能夠采用詞向量進行表示。從語義的角度出發(fā)可知，字和詞兩者都能夠為人類任務(wù)提供十分有價值的信息。實際上就是，多標(biāo)簽短文本中的字和詞是進行分類的決定性因素，如果只選取其中任意一種，都會導(dǎo)致信息的丟失。

整個模型主要能夠劃分為三層，分別為：

1)編碼層；

2)特征提取層；

3)全連接層。

編碼層通過相應(yīng)的詞向量以及字向量模型，將輸入文本解析為詞向量序列以及字向量序列，則有

S=[Sw⊕Sc]

(19)

全連接層主要是由線性轉(zhuǎn)換層以及Softmax層組成，其中線性轉(zhuǎn)換層將特征向量轉(zhuǎn)換為一個維度和分類類別相當(dāng)?shù)膶嵵迪蛄縖10]，則

P=softmax(WsS+bs)

(20)

其中損失函數(shù)能夠表示為以下的形式

(21)

在上述操作的基礎(chǔ)上，結(jié)合Stacking技術(shù)對rcnn模型模型進行改進，通過改進的rcnn模型對多個基分類器的分類結(jié)果進行融合處理，以達(dá)到多標(biāo)簽短文本自適應(yīng)分類，利用圖1給出具體的操作流程圖。

圖1 多標(biāo)簽短文本自適應(yīng)分類流程圖

3 仿真研究

為了驗證所提基于改進rcnn模型的多標(biāo)簽短文本自適應(yīng)分類方法的綜合有效性，需要進行仿真測試，實驗平臺為64位Win7操作系統(tǒng)的PC機，CPU主頻3.2GHz，內(nèi)存為8G，在matlab2012b軟件平臺下使巧M語言進行軟件編程。

1)查全率/(%)

以下選取兩種傳統(tǒng)的多標(biāo)簽短文本自適應(yīng)分類方法作為對比方法，對比三種方法的查全率，對比結(jié)果如表1至表3所示。

表1 所提方法的查全率變化情況

表2 文獻[4]方法的查全率變化情況

表3 文獻[5]方法的查全率變化情況

分析表1至表4的實驗數(shù)據(jù)可知，所提方法的查全率在三種分類方法中為最高；文獻[4]方法的查全率次之；文獻[5]方法的查全率最低。以上實驗數(shù)據(jù)充分說明，所提方法具有較好的分類效果。

表4 所提方法的耗時變化情況

2)分類準(zhǔn)確率/(%)

為了更進一步驗證所提分類方法的有效性，以下需要對比三種方法的分類準(zhǔn)確率，具體的對比結(jié)果如下圖所示。

分析圖2中的實驗數(shù)據(jù)可知，隨著節(jié)點數(shù)量的持續(xù)增加，各種多標(biāo)簽短文本自適應(yīng)分類方法的準(zhǔn)確率也在不斷發(fā)生變化。其中所提方法的分類準(zhǔn)確率明顯高于其它兩種方法，這充分說明了所提方法的優(yōu)越性。

圖2 不同分類方法的分類準(zhǔn)確率對比結(jié)果

3)耗時/(min)

在上述實驗環(huán)境的基礎(chǔ)上，以下需要對比三種方法的耗時，具體的對比結(jié)果如下表所示。

表5 文獻[4]方法的耗時變化情況

分析表4至表6的實驗數(shù)據(jù)可知，相比傳統(tǒng)方法，所提方法的耗時有了較為明顯的下降趨勢。

表6 文獻[5]方法的耗時變化情況

4 結(jié)束語

針對傳統(tǒng)的多標(biāo)簽短文本自適應(yīng)分類方法存在耗時較長、查全率以及分類準(zhǔn)確率較低等問題，提出基于改進rcnn模型的多標(biāo)簽短文本自適應(yīng)分類方法。仿真結(jié)果表明，所提方法能夠有效提升查全率以及分類準(zhǔn)確率，同時有效減少耗時。