摘要:文本分類是指用計(jì)算機(jī)對(duì)文本(或其他實(shí)體)按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類標(biāo)記。伴隨著信息的爆炸式增長(zhǎng),人工標(biāo)注數(shù)據(jù)已經(jīng)變得耗時(shí)、質(zhì)量低下,且受到標(biāo)注人主觀意識(shí)的影響。因此,利用機(jī)器自動(dòng)化對(duì)文本進(jìn)行標(biāo)注具有一定的現(xiàn)實(shí)意義,將重復(fù)且枯燥的文本標(biāo)注任務(wù)交由計(jì)算機(jī)進(jìn)行處理能夠有效克服以上問題,同時(shí)所標(biāo)注的數(shù)據(jù)具有一致性、高質(zhì)量等特點(diǎn)。其應(yīng)用場(chǎng)景眾多,包括:情感分析、主題分類、意圖識(shí)別等;其分類標(biāo)簽可以是:情感分析(積極、消極、中性)、主題分類(歷史、體育、旅游、情感)等。傳統(tǒng)的文本分類早期是通過模式詞、關(guān)鍵詞等,同時(shí)結(jié)合一些規(guī)則策略進(jìn)行。此方法的缺點(diǎn)很明顯,人工成本高,且召回率比較低。此后,使用經(jīng)典傳統(tǒng)的機(jī)器學(xué)習(xí)方法做文本分類任務(wù)初顯成效,即“特征工程+淺層分類模型”,被稱為傳統(tǒng)機(jī)器學(xué)習(xí)方法。近些年,伴隨深度學(xué)習(xí)的異軍突起,基于深度學(xué)習(xí)的文本分類方法興起,本文基于LSTM文本分類,針對(duì)LSTM網(wǎng)絡(luò)結(jié)構(gòu)的缺陷,引入注意力機(jī)制Attention,優(yōu)化文本分類模型,在文本長(zhǎng)度較長(zhǎng)的情況下,效果尤為顯著。
關(guān)鍵詞:文本分類;LSTM;注意力機(jī)制;長(zhǎng)文本
1. 背景
本文主要闡述的是基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的文本分類算法,專家規(guī)則類不在討論范圍。傳統(tǒng)的機(jī)器學(xué)習(xí)算法(淺層學(xué)習(xí))做文本分類一般流程如圖1所示。
文本預(yù)處理是通用的,可以看到除去文本預(yù)處理部分,最主要的兩部分是“文本特征表示”和“分類模型”。而在基于淺層模型的文本分類任務(wù)中,由于模型往往是線性類的簡(jiǎn)單模型,表征與泛化能力較弱,并且由于模型的簡(jiǎn)單性,若想達(dá)到較好的效果,需要做很復(fù)雜的特征工程與精細(xì)化的文本處理,且強(qiáng)依賴算法工程師的工程經(jīng)驗(yàn),人工成本高。深度學(xué)習(xí)興起后,大批量的文本分類任務(wù)開始使用深度學(xué)習(xí)。相較于傳統(tǒng)的淺層學(xué)習(xí),深度學(xué)習(xí)不需要過于繁重的手動(dòng)特征工程。目前在深度學(xué)習(xí)中,主要用來做文本分類的網(wǎng)絡(luò)有兩種:遞歸神經(jīng)網(wǎng)絡(luò)(RNN)網(wǎng)絡(luò)、LSTM網(wǎng)絡(luò)。本文基于LSTM網(wǎng)絡(luò)的針對(duì)長(zhǎng)文本分類的結(jié)構(gòu)性缺陷,提出引入注意力機(jī)制網(wǎng)絡(luò)來進(jìn)行重要信息的編碼提取,顯著提升了模型效果與性能。
2. 遞歸神經(jīng)網(wǎng)絡(luò)
由于文本類型的數(shù)據(jù)往往前后是有著很強(qiáng)的聯(lián)系,故使用機(jī)器來對(duì)文本數(shù)據(jù)進(jìn)行分析時(shí),模型需要具備一定的記憶能力,由于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的天然局限性,無法做到這點(diǎn)。遞歸神經(jīng)網(wǎng)絡(luò)(以下簡(jiǎn)稱RNN)的出現(xiàn)解決了這個(gè)問題,通過在網(wǎng)絡(luò)中添加循環(huán),它能讓信息被“記憶”得更長(zhǎng)久。RNN是有循環(huán)的,簡(jiǎn)單來說就是允許信息從當(dāng)前步驟傳遞到下一個(gè)步驟。其實(shí)RNN是由一個(gè)個(gè)與全連接網(wǎng)絡(luò)相同的普通神經(jīng)單元構(gòu)成的,只不過這些神經(jīng)單元在輸出信息的同時(shí),會(huì)將這些信息進(jìn)行向后傳遞,這種網(wǎng)絡(luò)結(jié)構(gòu)天然滿足序列類型數(shù)據(jù)的前后關(guān)聯(lián)邏輯,可以說是為此類數(shù)據(jù)量身定做的特定模型結(jié)構(gòu)。
3. LSTM網(wǎng)絡(luò)
LSTM是RNN網(wǎng)絡(luò)的一個(gè)升級(jí)版,它的提出是為了緩解RNN網(wǎng)絡(luò)中存在的長(zhǎng)期依賴導(dǎo)致的梯度消失問題。
3.1 長(zhǎng)期依賴問題
RNN最具吸引力的一點(diǎn),是它能把之前的信息連接到當(dāng)前的任務(wù)上。比如我們可以用之前的詞來理解現(xiàn)在這一步的詞,如果能建立起這種潛在關(guān)聯(lián),RNN的前途將不可限量。那么,是否能真的做到?根據(jù)過往經(jīng)驗(yàn),不一定做得到,而且即便是做得到,效果大多數(shù)也會(huì)大打折扣。尤其是在較長(zhǎng)的文本中,有時(shí),相距較遠(yuǎn)的詞語之間的關(guān)聯(lián)性仍然是比較強(qiáng)的,例如,假設(shè)一段長(zhǎng)文本有N個(gè)詞(N為較大的數(shù)),在這段話中,很可能第N個(gè)詞和第一個(gè)詞也有比較強(qiáng)的相關(guān)性,此時(shí),當(dāng)我們要預(yù)測(cè)第N個(gè)詞的時(shí)候,需要用到第一個(gè)詞的信息,但由于文本很長(zhǎng),雖然RNN的特殊結(jié)構(gòu)使其具備一定的記憶性,但第一個(gè)詞與第N個(gè)詞之間距離較長(zhǎng),此時(shí)已經(jīng)超出了RNN的記憶能力范圍,心有余而力不足,即RNN無法學(xué)習(xí)到這種長(zhǎng)期的依賴性。此時(shí),LSTM出現(xiàn)了。長(zhǎng)期短期記憶網(wǎng)絡(luò),通常被稱為“LSTM”也是一種RNN變體,只不過比較特殊,通過其特殊的網(wǎng)絡(luò)結(jié)構(gòu),能緩解梯度消失問題,從而學(xué)習(xí)到長(zhǎng)期依賴性。其結(jié)構(gòu)設(shè)計(jì)的初衷完全是針對(duì)上述RNN的不足,具備序列長(zhǎng)期依賴性的學(xué)習(xí)能力。其根本原因是由于其特殊的設(shè)計(jì)結(jié)構(gòu),緩解了梯度消失問題,將該記住的記住,該遺忘的遺忘。例如人類的大腦,如果將這個(gè)世界所有的信息均強(qiáng)行記住,那么一定會(huì)導(dǎo)致關(guān)鍵信息的遺忘丟失。LSTM相比于RNN的差異性是:標(biāo)準(zhǔn)RNN中只包含單個(gè)tanh層的重復(fù)模塊。雖然LSTM也有與之相似的鏈?zhǔn)浇Y(jié)構(gòu),但不同的是它的重復(fù)模塊結(jié)構(gòu)與RNN大不相同,是4個(gè)以特殊方式進(jìn)行交互的神經(jīng)網(wǎng)絡(luò),如圖2所示。
如圖3所示,從某個(gè)節(jié)點(diǎn)的輸出到其他節(jié)點(diǎn)的輸入,每條線都傳遞一個(gè)完整的向量。粉色圓圈表示pointwise操作,如節(jié)點(diǎn)求和,而黃色框則表示用于學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)層。合并的兩條線表示連接,分開的兩條線表示信息被復(fù)制成兩個(gè)副本,并將傳遞到不同的位置。
3.2 LSTM背后的核心原理
LSTM的關(guān)鍵是神經(jīng)單元cell的狀態(tài),即貫穿圖2頂部的水平線。cell狀態(tài)有點(diǎn)像傳送帶,它只用一些次要的線性交互就能貫穿整個(gè)鏈?zhǔn)浇Y(jié)構(gòu),這其實(shí)也就是信息記憶的地方,因此信息能很容易地以不變的形式從中流過,為了增加/刪除cell中的信息,LSTM中有一些控制門(gate)[1]。它們決定了信息通過的方式,包含一個(gè)sigmoid神經(jīng)網(wǎng)絡(luò)層和一個(gè)pointwise點(diǎn)乘操作。sigmoid層輸出0到1之間的數(shù)字,點(diǎn)乘操作決定多少信息可以傳送過去,當(dāng)為0時(shí),不傳送;當(dāng)為1時(shí),全部傳送[2]。像這樣的控制門,LSTM共有3個(gè),以此保護(hù)和控制cell狀態(tài),如此,便保證了LSTM可以學(xué)習(xí)到長(zhǎng)期信息。
4. 注意力(Attention)機(jī)制
在深度學(xué)習(xí)領(lǐng)域,模型往往需要接收和處理大量的數(shù)據(jù),然而在特定的某個(gè)時(shí)刻,往往只有少部分的某些數(shù)據(jù)是重要的,這種情況就非常適合Attention機(jī)制發(fā)光發(fā)熱。舉一個(gè)簡(jiǎn)單的小例子,在機(jī)器翻譯中,例如要對(duì)“who are you”進(jìn)行中文翻譯,顯然正確的答案是“你是誰”。那么仔細(xì)想一下,這個(gè)“你是誰”一定是一個(gè)詞、一個(gè)詞翻譯出來的。繼續(xù)思考,機(jī)器在翻譯“誰”的時(shí)候,前面的“who are you”這三個(gè)詞里面哪個(gè)詞對(duì)此刻的翻譯比較重要一些,還是說應(yīng)該是同等重要,答案顯然是“who”這個(gè)詞此時(shí)比較重要,這就是注意力機(jī)制:對(duì)于不同的輸入部分,經(jīng)過注意力網(wǎng)絡(luò)算子的計(jì)算,賦予不同部分(隱藏層或者輸出層)動(dòng)態(tài)權(quán)重,從而實(shí)現(xiàn)動(dòng)態(tài)加權(quán)的效果。一般情況下,在深度學(xué)習(xí)中,注意力機(jī)制主要有兩個(gè)主要部分構(gòu)成:注意力打分函數(shù)與加權(quán)平均,后者理解起來不困難,前者比較難理解,通俗地講,打分函數(shù)就是為后面的加權(quán)平均提供權(quán)的計(jì)算,不同的注意力機(jī)制主要區(qū)別就在于注意力打分函數(shù)的不同。假設(shè)現(xiàn)在我們要對(duì)一組輸入H=[h1,h2,h3,...,hn],使用Attention機(jī)制計(jì)算重要的內(nèi)容,這里往往需要一個(gè)查詢向量query(這個(gè)向量往往和你做的任務(wù)有關(guān)) ,然后通過一個(gè)打分函數(shù)計(jì)算查詢向量query和每個(gè)輸入hi之間的相關(guān)性,得出一個(gè)分?jǐn)?shù)。接下來使用softmax函數(shù)對(duì)這些分?jǐn)?shù)進(jìn)行歸一化,歸一化后的結(jié)果便是查詢向量query在各個(gè)輸入hi上的注意力分布 a=[a1,a2,a3,...,an],其中每一項(xiàng)數(shù)值和原始的輸入 H=[h1,h2,h3,...,hn]一一對(duì)應(yīng)。以ai為例,相關(guān)計(jì)算公式如下:
這里計(jì)算出的α即為注意力權(quán)值,為后面的加權(quán)平均提供了依據(jù)。
5. 基于LSTM網(wǎng)絡(luò)結(jié)合注意力機(jī)制優(yōu)化的長(zhǎng)文本分類
上述提到,基于LSTM提取文本的語義,相較于基礎(chǔ)RNN,在學(xué)習(xí)長(zhǎng)距離依賴方面,具有明顯的優(yōu)勢(shì)。但如果文本長(zhǎng)度較長(zhǎng),LSTM網(wǎng)絡(luò)也還是會(huì)出現(xiàn)將離當(dāng)前詞距離較遠(yuǎn)的詞信息遺忘掉的情況,如果每一步驟或者大部分步驟都出現(xiàn)類似的問題,會(huì)造成對(duì)全文的理解出現(xiàn)較大的偏差,導(dǎo)致文本分類的準(zhǔn)確性大大下降[3]。
如圖4所示,假設(shè)文本長(zhǎng)度為T,則在經(jīng)過T個(gè)時(shí)間步驟后,LSTM會(huì)輸出T個(gè)能表征對(duì)應(yīng)文本信息的隱向量h,根據(jù)前述闡釋,由于LSTM輸出的每個(gè)隱向量都會(huì)送入下一個(gè)LSTM的神經(jīng)單元,故最后一個(gè)時(shí)刻的輸出hT是包含了全文信息的,可使用此hT來做分類,送入softmax函數(shù),從而輸出分類概率分布。如果我們?cè)趯?duì)長(zhǎng)文本做分類時(shí),完全按照此做的話,會(huì)出現(xiàn)前面提到的問題。經(jīng)過深入分析,原因如下:
(1)雖然LSTM有更強(qiáng)的記憶能力,能較好地保留距離自己較遠(yuǎn)的詞信息,但如果文本長(zhǎng)度較長(zhǎng),效果也是有限的,隨著文本長(zhǎng)度的增加,蘊(yùn)含的信息量也越發(fā)增大,會(huì)導(dǎo)致信息覆蓋,導(dǎo)致LSTM可能因?yàn)橐恍┎恢匾男畔?,遺忘掉了對(duì)于文本理解更重要的某些重要的詞信息。
(2)只使用最后一個(gè)時(shí)刻的輸出向量來表征全文信息,致使LSTM丟掉了前面很多對(duì)理解全文有重要提示作用的信息。綜上兩點(diǎn),不難想出對(duì)應(yīng)的解決思路:將LSTM每個(gè)時(shí)刻的輸出向量hi均用作分類任務(wù),形成一個(gè)對(duì)全文的綜合信息理解的向量h,那么這個(gè)h如何形成呢?最直接能想到的就是將所有時(shí)刻的hi做一個(gè)平均計(jì)算AVG。但有沒有更好的方式呢?深度思考一下,每個(gè)時(shí)刻的隱向量對(duì)于全文的理解貢獻(xiàn)度都是一樣的嗎?答案多半是否定的。那么如何做更好呢?結(jié)論呼之欲出,對(duì)于不同的文本,其每個(gè)位置的詞語所含信息對(duì)于理解該文本的貢獻(xiàn)度是不同的,針對(duì)此現(xiàn)象,如果我們能對(duì)這些詞語對(duì)應(yīng)的LSTM輸出隱向量做一個(gè)加權(quán)平均,做到對(duì)于不同文本,每個(gè)位置的詞對(duì)其權(quán)重不同,不僅能有效提取信息,并且解決了上述LSTM的一個(gè)大問題:能夠?qū)STM遺忘掉的信息重新輸入回來,那么根據(jù)上面的闡述,很容易聯(lián)想到注意力機(jī)制Attention。在LSTM基礎(chǔ)上引入注意力機(jī)制作為長(zhǎng)文本分類模型的優(yōu)化原理如圖5所示。
在LSTM網(wǎng)絡(luò)的輸出端加入Attention網(wǎng)絡(luò)α(ht), 用于計(jì)算每個(gè)時(shí)刻輸出隱向量的注意力權(quán)值αi, 注意力打分函數(shù)有以下幾種選?。?/p>
1)加性模型:s (h,q)=vTtanh(Wh+Uq)
2)點(diǎn)積模型:s(h,q)=hTq
3)縮放點(diǎn)積模型:s(h,q)=hTqD
4)雙線性模型:s(h,q)=hTWq
以上公式中的參數(shù)W、U和v均是可學(xué)習(xí)的參數(shù)矩陣或向量,D為輸入向量的維度。下邊我們來分析一下這些分?jǐn)?shù)計(jì)算方式的差別。本文采用第一種加性模型的方式作為注意力打分函數(shù),計(jì)算出注意力分值后,將加權(quán)平均后的h送入softmax函數(shù),輸出分類概率結(jié)果。
6. 實(shí)驗(yàn)結(jié)論
分別單獨(dú)使用LSTM與引入注意力機(jī)制Attention后的LSTM做長(zhǎng)文本分類的準(zhǔn)確度評(píng)估實(shí)驗(yàn)結(jié)論如表1所示。
可見,引入注意力機(jī)制Attention的LSTM做長(zhǎng)文本分類無論在召回率、精確率、F1方面,相比于與原始的LSTM,均有顯著的效果提升。
結(jié)語
本文通過探究從原始的遞歸神經(jīng)網(wǎng)絡(luò)RNN到LSTM的核心原理,透過原理研究其本質(zhì)特性,首先,通過分析得出RNN對(duì)于文本的長(zhǎng)距離學(xué)習(xí)依賴問題;再次,通過對(duì)LSTM核心單元結(jié)構(gòu)的剖析了解到,對(duì)于長(zhǎng)文本而言,LSTM有時(shí)在長(zhǎng)距離依賴方面的學(xué)習(xí)能力仍然是不足的,且很容易在全文理解上找不到重點(diǎn)而導(dǎo)致信息偏差。由此引出本文重點(diǎn),即注意力機(jī)制Attention。由于Attention的結(jié)構(gòu)特性,將其引入LSTM后完美地解決了上述問題。利用注意力機(jī)制的權(quán)值自動(dòng)學(xué)習(xí)及加權(quán)平均,不但加強(qiáng)了LSTM對(duì)某些重點(diǎn)序列詞語信息的記憶,更有針對(duì)性地看到了全文重點(diǎn),使模型對(duì)長(zhǎng)文本的理解更具備全局性及重點(diǎn)性,實(shí)驗(yàn)證明,引入注意力機(jī)制的LSTM在長(zhǎng)文本分類方向的各項(xiàng)指標(biāo)均顯著高于單純的LSTM,對(duì)長(zhǎng)文本分類研究發(fā)展做出了重要貢獻(xiàn)。
參考文獻(xiàn):
[1]張文靜,張惠蒙,楊麟兒,等. 基于Lattice-LSTM的多粒度中文分詞[J].中文信息學(xué)報(bào),2019,33(1):18-24.
[2]關(guān)鵬飛,李寶安,呂學(xué)強(qiáng),等.注意力增強(qiáng)的雙向LSTM情感分析[J].中文信息學(xué)報(bào).2019,33(2):105-111.
[3]胡朝舉,梁寧.基于深層注意力的LSTM的特定主題情感分析[J].計(jì)算機(jī)應(yīng)用研究,2019,36(4):1075-1079.
作者簡(jiǎn)介:于慶洋,碩士,數(shù)據(jù)算法專業(yè)經(jīng)理,研究方向:推薦系統(tǒng)、自然語言處理、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)。