基于LSTM結(jié)合注意力機(jī)制的長(zhǎng)文本分類優(yōu)化研究

2023-03-11 21:07于慶洋

互聯(lián)網(wǎng)周刊 2023年3期

摘要：文本分類是指用計(jì)算機(jī)對(duì)文本（或其他實(shí)體）按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類標(biāo)記。伴隨著信息的爆炸式增長(zhǎng)，人工標(biāo)注數(shù)據(jù)已經(jīng)變得耗時(shí)、質(zhì)量低下，且受到標(biāo)注人主觀意識(shí)的影響。因此，利用機(jī)器自動(dòng)化對(duì)文本進(jìn)行標(biāo)注具有一定的現(xiàn)實(shí)意義，將重復(fù)且枯燥的文本標(biāo)注任務(wù)交由計(jì)算機(jī)進(jìn)行處理能夠有效克服以上問題，同時(shí)所標(biāo)注的數(shù)據(jù)具有一致性、高質(zhì)量等特點(diǎn)。其應(yīng)用場(chǎng)景眾多，包括：情感分析、主題分類、意圖識(shí)別等；其分類標(biāo)簽可以是：情感分析（積極、消極、中性）、主題分類（歷史、體育、旅游、情感）等。傳統(tǒng)的文本分類早期是通過模式詞、關(guān)鍵詞等，同時(shí)結(jié)合一些規(guī)則策略進(jìn)行。此方法的缺點(diǎn)很明顯，人工成本高，且召回率比較低。此后，使用經(jīng)典傳統(tǒng)的機(jī)器學(xué)習(xí)方法做文本分類任務(wù)初顯成效，即“特征工程+淺層分類模型”，被稱為傳統(tǒng)機(jī)器學(xué)習(xí)方法。近些年，伴隨深度學(xué)習(xí)的異軍突起，基于深度學(xué)習(xí)的文本分類方法興起，本文基于LSTM文本分類，針對(duì)LSTM網(wǎng)絡(luò)結(jié)構(gòu)的缺陷，引入注意力機(jī)制Attention，優(yōu)化文本分類模型，在文本長(zhǎng)度較長(zhǎng)的情況下，效果尤為顯著。

關(guān)鍵詞：文本分類；LSTM；注意力機(jī)制；長(zhǎng)文本

1. 背景

本文主要闡述的是基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的文本分類算法，專家規(guī)則類不在討論范圍。傳統(tǒng)的機(jī)器學(xué)習(xí)算法（淺層學(xué)習(xí)）做文本分類一般流程如圖1所示。

文本預(yù)處理是通用的，可以看到除去文本預(yù)處理部分，最主要的兩部分是“文本特征表示”和“分類模型”。而在基于淺層模型的文本分類任務(wù)中，由于模型往往是線性類的簡(jiǎn)單模型，表征與泛化能力較弱，并且由于模型的簡(jiǎn)單性，若想達(dá)到較好的效果，需要做很復(fù)雜的特征工程與精細(xì)化的文本處理，且強(qiáng)依賴算法工程師的工程經(jīng)驗(yàn)，人工成本高。深度學(xué)習(xí)興起后，大批量的文本分類任務(wù)開始使用深度學(xué)習(xí)。相較于傳統(tǒng)的淺層學(xué)習(xí)，深度學(xué)習(xí)不需要過于繁重的手動(dòng)特征工程。目前在深度學(xué)習(xí)中，主要用來做文本分類的網(wǎng)絡(luò)有兩種：遞歸神經(jīng)網(wǎng)絡(luò)（RNN）網(wǎng)絡(luò)、LSTM網(wǎng)絡(luò)。本文基于LSTM網(wǎng)絡(luò)的針對(duì)長(zhǎng)文本分類的結(jié)構(gòu)性缺陷，提出引入注意力機(jī)制網(wǎng)絡(luò)來進(jìn)行重要信息的編碼提取，顯著提升了模型效果與性能。

2. 遞歸神經(jīng)網(wǎng)絡(luò)

由于文本類型的數(shù)據(jù)往往前后是有著很強(qiáng)的聯(lián)系，故使用機(jī)器來對(duì)文本數(shù)據(jù)進(jìn)行分析時(shí)，模型需要具備一定的記憶能力，由于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的天然局限性，無法做到這點(diǎn)。遞歸神經(jīng)網(wǎng)絡(luò)（以下簡(jiǎn)稱RNN）的出現(xiàn)解決了這個(gè)問題，通過在網(wǎng)絡(luò)中添加循環(huán)，它能讓信息被“記憶”得更長(zhǎng)久。RNN是有循環(huán)的，簡(jiǎn)單來說就是允許信息從當(dāng)前步驟傳遞到下一個(gè)步驟。其實(shí)RNN是由一個(gè)個(gè)與全連接網(wǎng)絡(luò)相同的普通神經(jīng)單元構(gòu)成的，只不過這些神經(jīng)單元在輸出信息的同時(shí)，會(huì)將這些信息進(jìn)行向后傳遞，這種網(wǎng)絡(luò)結(jié)構(gòu)天然滿足序列類型數(shù)據(jù)的前后關(guān)聯(lián)邏輯，可以說是為此類數(shù)據(jù)量身定做的特定模型結(jié)構(gòu)。

3. LSTM網(wǎng)絡(luò)

LSTM是RNN網(wǎng)絡(luò)的一個(gè)升級(jí)版，它的提出是為了緩解RNN網(wǎng)絡(luò)中存在的長(zhǎng)期依賴導(dǎo)致的梯度消失問題。

3.1 長(zhǎng)期依賴問題

RNN最具吸引力的一點(diǎn)，是它能把之前的信息連接到當(dāng)前的任務(wù)上。比如我們可以用之前的詞來理解現(xiàn)在這一步的詞，如果能建立起這種潛在關(guān)聯(lián)，RNN的前途將不可限量。那么，是否能真的做到？根據(jù)過往經(jīng)驗(yàn)，不一定做得到，而且即便是做得到，效果大多數(shù)也會(huì)大打折扣。尤其是在較長(zhǎng)的文本中，有時(shí)，相距較遠(yuǎn)的詞語之間的關(guān)聯(lián)性仍然是比較強(qiáng)的，例如，假設(shè)一段長(zhǎng)文本有N個(gè)詞（N為較大的數(shù)），在這段話中，很可能第N個(gè)詞和第一個(gè)詞也有比較強(qiáng)的相關(guān)性，此時(shí)，當(dāng)我們要預(yù)測(cè)第N個(gè)詞的時(shí)候，需要用到第一個(gè)詞的信息，但由于文本很長(zhǎng)，雖然RNN的特殊結(jié)構(gòu)使其具備一定的記憶性，但第一個(gè)詞與第N個(gè)詞之間距離較長(zhǎng)，此時(shí)已經(jīng)超出了RNN的記憶能力范圍，心有余而力不足，即RNN無法學(xué)習(xí)到這種長(zhǎng)期的依賴性。此時(shí)，LSTM出現(xiàn)了。長(zhǎng)期短期記憶網(wǎng)絡(luò)，通常被稱為“LSTM”也是一種RNN變體，只不過比較特殊，通過其特殊的網(wǎng)絡(luò)結(jié)構(gòu)，能緩解梯度消失問題，從而學(xué)習(xí)到長(zhǎng)期依賴性。其結(jié)構(gòu)設(shè)計(jì)的初衷完全是針對(duì)上述RNN的不足，具備序列長(zhǎng)期依賴性的學(xué)習(xí)能力。其根本原因是由于其特殊的設(shè)計(jì)結(jié)構(gòu)，緩解了梯度消失問題，將該記住的記住，該遺忘的遺忘。例如人類的大腦，如果將這個(gè)世界所有的信息均強(qiáng)行記住，那么一定會(huì)導(dǎo)致關(guān)鍵信息的遺忘丟失。LSTM相比于RNN的差異性是：標(biāo)準(zhǔn)RNN中只包含單個(gè)tanh層的重復(fù)模塊。雖然LSTM也有與之相似的鏈?zhǔn)浇Y(jié)構(gòu)，但不同的是它的重復(fù)模塊結(jié)構(gòu)與RNN大不相同，是4個(gè)以特殊方式進(jìn)行交互的神經(jīng)網(wǎng)絡(luò)，如圖2所示。

如圖3所示，從某個(gè)節(jié)點(diǎn)的輸出到其他節(jié)點(diǎn)的輸入，每條線都傳遞一個(gè)完整的向量。粉色圓圈表示pointwise操作，如節(jié)點(diǎn)求和，而黃色框則表示用于學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)層。合并的兩條線表示連接，分開的兩條線表示信息被復(fù)制成兩個(gè)副本，并將傳遞到不同的位置。

3.2 LSTM背后的核心原理

LSTM的關(guān)鍵是神經(jīng)單元cell的狀態(tài)，即貫穿圖2頂部的水平線。cell狀態(tài)有點(diǎn)像傳送帶，它只用一些次要的線性交互就能貫穿整個(gè)鏈?zhǔn)浇Y(jié)構(gòu)，這其實(shí)也就是信息記憶的地方，因此信息能很容易地以不變的形式從中流過，為了增加/刪除cell中的信息，LSTM中有一些控制門（gate）[1]。它們決定了信息通過的方式，包含一個(gè)sigmoid神經(jīng)網(wǎng)絡(luò)層和一個(gè)pointwise點(diǎn)乘操作。sigmoid層輸出0到1之間的數(shù)字，點(diǎn)乘操作決定多少信息可以傳送過去，當(dāng)為0時(shí)，不傳送；當(dāng)為1時(shí)，全部傳送[2]。像這樣的控制門，LSTM共有3個(gè)，以此保護(hù)和控制cell狀態(tài)，如此，便保證了LSTM可以學(xué)習(xí)到長(zhǎng)期信息。

4. 注意力（Attention）機(jī)制

在深度學(xué)習(xí)領(lǐng)域，模型往往需要接收和處理大量的數(shù)據(jù)，然而在特定的某個(gè)時(shí)刻，往往只有少部分的某些數(shù)據(jù)是重要的，這種情況就非常適合Attention機(jī)制發(fā)光發(fā)熱。舉一個(gè)簡(jiǎn)單的小例子，在機(jī)器翻譯中，例如要對(duì)“who are you”進(jìn)行中文翻譯，顯然正確的答案是“你是誰”。那么仔細(xì)想一下，這個(gè)“你是誰”一定是一個(gè)詞、一個(gè)詞翻譯出來的。繼續(xù)思考，機(jī)器在翻譯“誰”的時(shí)候，前面的“who are you”這三個(gè)詞里面哪個(gè)詞對(duì)此刻的翻譯比較重要一些，還是說應(yīng)該是同等重要，答案顯然是“who”這個(gè)詞此時(shí)比較重要，這就是注意力機(jī)制：對(duì)于不同的輸入部分，經(jīng)過注意力網(wǎng)絡(luò)算子的計(jì)算，賦予不同部分（隱藏層或者輸出層）動(dòng)態(tài)權(quán)重，從而實(shí)現(xiàn)動(dòng)態(tài)加權(quán)的效果。一般情況下，在深度學(xué)習(xí)中，注意力機(jī)制主要有兩個(gè)主要部分構(gòu)成：注意力打分函數(shù)與加權(quán)平均，后者理解起來不困難，前者比較難理解，通俗地講，打分函數(shù)就是為后面的加權(quán)平均提供權(quán)的計(jì)算，不同的注意力機(jī)制主要區(qū)別就在于注意力打分函數(shù)的不同。假設(shè)現(xiàn)在我們要對(duì)一組輸入H=[h1，h2，h3，...，hn]，使用Attention機(jī)制計(jì)算重要的內(nèi)容，這里往往需要一個(gè)查詢向量query（這個(gè)向量往往和你做的任務(wù)有關(guān)），然后通過一個(gè)打分函數(shù)計(jì)算查詢向量query和每個(gè)輸入hi之間的相關(guān)性，得出一個(gè)分?jǐn)?shù)。接下來使用softmax函數(shù)對(duì)這些分?jǐn)?shù)進(jìn)行歸一化，歸一化后的結(jié)果便是查詢向量query在各個(gè)輸入hi上的注意力分布 a=[a1，a2，a3，...，an]，其中每一項(xiàng)數(shù)值和原始的輸入 H=[h1，h2，h3，...，hn]一一對(duì)應(yīng)。以ai為例，相關(guān)計(jì)算公式如下：

這里計(jì)算出的α即為注意力權(quán)值，為后面的加權(quán)平均提供了依據(jù)。

5. 基于LSTM網(wǎng)絡(luò)結(jié)合注意力機(jī)制優(yōu)化的長(zhǎng)文本分類

上述提到，基于LSTM提取文本的語義，相較于基礎(chǔ)RNN，在學(xué)習(xí)長(zhǎng)距離依賴方面，具有明顯的優(yōu)勢(shì)。但如果文本長(zhǎng)度較長(zhǎng)，LSTM網(wǎng)絡(luò)也還是會(huì)出現(xiàn)將離當(dāng)前詞距離較遠(yuǎn)的詞信息遺忘掉的情況，如果每一步驟或者大部分步驟都出現(xiàn)類似的問題，會(huì)造成對(duì)全文的理解出現(xiàn)較大的偏差，導(dǎo)致文本分類的準(zhǔn)確性大大下降[3]。

如圖4所示，假設(shè)文本長(zhǎng)度為T，則在經(jīng)過T個(gè)時(shí)間步驟后，LSTM會(huì)輸出T個(gè)能表征對(duì)應(yīng)文本信息的隱向量h，根據(jù)前述闡釋，由于LSTM輸出的每個(gè)隱向量都會(huì)送入下一個(gè)LSTM的神經(jīng)單元，故最后一個(gè)時(shí)刻的輸出hT是包含了全文信息的，可使用此hT來做分類，送入softmax函數(shù)，從而輸出分類概率分布。如果我們?cè)趯?duì)長(zhǎng)文本做分類時(shí)，完全按照此做的話，會(huì)出現(xiàn)前面提到的問題。經(jīng)過深入分析，原因如下：

（1）雖然LSTM有更強(qiáng)的記憶能力，能較好地保留距離自己較遠(yuǎn)的詞信息，但如果文本長(zhǎng)度較長(zhǎng)，效果也是有限的，隨著文本長(zhǎng)度的增加，蘊(yùn)含的信息量也越發(fā)增大，會(huì)導(dǎo)致信息覆蓋，導(dǎo)致LSTM可能因?yàn)橐恍┎恢匾男畔?，遺忘掉了對(duì)于文本理解更重要的某些重要的詞信息。

（2）只使用最后一個(gè)時(shí)刻的輸出向量來表征全文信息，致使LSTM丟掉了前面很多對(duì)理解全文有重要提示作用的信息。綜上兩點(diǎn)，不難想出對(duì)應(yīng)的解決思路：將LSTM每個(gè)時(shí)刻的輸出向量hi均用作分類任務(wù)，形成一個(gè)對(duì)全文的綜合信息理解的向量h，那么這個(gè)h如何形成呢？最直接能想到的就是將所有時(shí)刻的hi做一個(gè)平均計(jì)算AVG。但有沒有更好的方式呢？深度思考一下，每個(gè)時(shí)刻的隱向量對(duì)于全文的理解貢獻(xiàn)度都是一樣的嗎？答案多半是否定的。那么如何做更好呢？結(jié)論呼之欲出，對(duì)于不同的文本，其每個(gè)位置的詞語所含信息對(duì)于理解該文本的貢獻(xiàn)度是不同的，針對(duì)此現(xiàn)象，如果我們能對(duì)這些詞語對(duì)應(yīng)的LSTM輸出隱向量做一個(gè)加權(quán)平均，做到對(duì)于不同文本，每個(gè)位置的詞對(duì)其權(quán)重不同，不僅能有效提取信息，并且解決了上述LSTM的一個(gè)大問題：能夠?qū)STM遺忘掉的信息重新輸入回來，那么根據(jù)上面的闡述，很容易聯(lián)想到注意力機(jī)制Attention。在LSTM基礎(chǔ)上引入注意力機(jī)制作為長(zhǎng)文本分類模型的優(yōu)化原理如圖5所示。

在LSTM網(wǎng)絡(luò)的輸出端加入Attention網(wǎng)絡(luò)α（ht），用于計(jì)算每個(gè)時(shí)刻輸出隱向量的注意力權(quán)值αi，注意力打分函數(shù)有以下幾種選?。?/p>

1）加性模型：s （h，q）=vTtanh（Wh+Uq）

2）點(diǎn)積模型：s（h，q）=hTq

3）縮放點(diǎn)積模型：s（h，q）=hTqD

4）雙線性模型：s（h，q）=hTWq

以上公式中的參數(shù)W、U和v均是可學(xué)習(xí)的參數(shù)矩陣或向量，D為輸入向量的維度。下邊我們來分析一下這些分?jǐn)?shù)計(jì)算方式的差別。本文采用第一種加性模型的方式作為注意力打分函數(shù)，計(jì)算出注意力分值后，將加權(quán)平均后的h送入softmax函數(shù)，輸出分類概率結(jié)果。

6. 實(shí)驗(yàn)結(jié)論

分別單獨(dú)使用LSTM與引入注意力機(jī)制Attention后的LSTM做長(zhǎng)文本分類的準(zhǔn)確度評(píng)估實(shí)驗(yàn)結(jié)論如表1所示。

可見，引入注意力機(jī)制Attention的LSTM做長(zhǎng)文本分類無論在召回率、精確率、F1方面，相比于與原始的LSTM，均有顯著的效果提升。

結(jié)語

本文通過探究從原始的遞歸神經(jīng)網(wǎng)絡(luò)RNN到LSTM的核心原理，透過原理研究其本質(zhì)特性，首先，通過分析得出RNN對(duì)于文本的長(zhǎng)距離學(xué)習(xí)依賴問題；再次，通過對(duì)LSTM核心單元結(jié)構(gòu)的剖析了解到，對(duì)于長(zhǎng)文本而言，LSTM有時(shí)在長(zhǎng)距離依賴方面的學(xué)習(xí)能力仍然是不足的，且很容易在全文理解上找不到重點(diǎn)而導(dǎo)致信息偏差。由此引出本文重點(diǎn)，即注意力機(jī)制Attention。由于Attention的結(jié)構(gòu)特性，將其引入LSTM后完美地解決了上述問題。利用注意力機(jī)制的權(quán)值自動(dòng)學(xué)習(xí)及加權(quán)平均，不但加強(qiáng)了LSTM對(duì)某些重點(diǎn)序列詞語信息的記憶，更有針對(duì)性地看到了全文重點(diǎn)，使模型對(duì)長(zhǎng)文本的理解更具備全局性及重點(diǎn)性，實(shí)驗(yàn)證明，引入注意力機(jī)制的LSTM在長(zhǎng)文本分類方向的各項(xiàng)指標(biāo)均顯著高于單純的LSTM，對(duì)長(zhǎng)文本分類研究發(fā)展做出了重要貢獻(xiàn)。

參考文獻(xiàn)：

[1]張文靜，張惠蒙，楊麟兒，等. 基于Lattice-LSTM的多粒度中文分詞[J].中文信息學(xué)報(bào)，2019，33（1）：18-24.

[2]關(guān)鵬飛，李寶安，呂學(xué)強(qiáng)，等.注意力增強(qiáng)的雙向LSTM情感分析[J].中文信息學(xué)報(bào).2019，33（2）：105-111.

[3]胡朝舉，梁寧.基于深層注意力的LSTM的特定主題情感分析[J].計(jì)算機(jī)應(yīng)用研究，2019，36（4）：1075-1079.

作者簡(jiǎn)介：于慶洋，碩士，數(shù)據(jù)算法專業(yè)經(jīng)理，研究方向：推薦系統(tǒng)、自然語言處理、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于LSTM結(jié)合注意力機(jī)制的長(zhǎng)文本分類優(yōu)化研究