韓健 郝剛
摘要:針對預訓練模型BRET所面臨的模型復雜、參數(shù)規(guī)模大帶來的訓練難度提升問題,提出一種基于 ALBERT(A Little BERT)的情感分析模型ALBERT-BiGRU-attention-CRF。在online_shopping_10_cats 網(wǎng)絡(luò)購物評論數(shù)據(jù)集上取得了93.58%的 F1 值,同傳統(tǒng)BiGRU-CRF 等情感分析模型相比均有所提升,同BERT 模型相比在P值上提升0.61%,且縮短將近一半運行速度時間。實驗結(jié)果最終表明該模型在縮減模型參數(shù)需求,增加運行效率的同時能有效保留類似 BERT 模型的模型表現(xiàn)。
關(guān)鍵詞:中文情感分析;ALBERT預訓練模型;雙向門控制循環(huán)單元網(wǎng)絡(luò)BIGRU;注意力機制Attention
中圖分類號:TP391? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)01-0012-03
文本中的情感分析作為一項自然語言處理(Natural Language Processing, NLP)中的基本任務(wù),目標是從具有強主觀性的文本中抽取出文章作者的情感。Bengio等人最早在語言模型中加入了神經(jīng)網(wǎng)絡(luò)[1]。
Bahdanau等人提出了注意力機制理論,Mnih等人在RNN模型上使用了注意力機制來進行圖像分類的成功,使注意力機制廣受關(guān)注[2]。王偉等人提出BiGRU-Attention模型進行情感分類[3]。楊東等人提出了Attention-C-GRU模型,有效提高了F值[4]。鄭雄風等人提出將雙向GRU和Attention機制與產(chǎn)品文本分類融合一起,提升了模型的訓練速度和準確率[5] 。趙勤魯?shù)热颂岢隽薒STM-Attention模型,有效地提取了文本語義結(jié)構(gòu)相關(guān)的信息[6]。朱星嘉等人提出了改進的Attention-Based LSTM特征選擇模型,強化提取了文本的重點特征信息[7]。白靜等人提出將BiLSTM、CNN、Attention機制融合的混合神經(jīng)網(wǎng)絡(luò)進行兩種特征融合的分類[8]。司念文等人提出的Attention和LSTM混合模型可以高效地對中文詞性進行標注[9]。以上機制的成功均說明了恰當引用注意力機制可以有效提高情感分析的準確率。
為了將人類語言轉(zhuǎn)換化成計算機理解的語言,需要文本向量化技術(shù)。One-hot向量可以解決此問題,但One-hot向量在處理具有順序特征的信息文本時暴露出很大的局限性,它未將詞序也作為參考條件,因此提取的特征散亂無章。基于上述問題,2018年谷歌提出了能解決一詞多義基于字符的文本向量化模型BERT模型[10]。
本文構(gòu)建了一個ALBERT-BiGRU-Attention-CRF綜合模型,相較于傳統(tǒng)的基于BiGRU模型,可以充分利用上下文信息解決一詞多義問題。經(jīng)測試在準確率和F1值方面取得了較好的分類效果。
1 相關(guān)工作
1.1 BERT預訓練語言模型
在訓練階段中主要將模型劃分為MASK LM(MLM)與“預知未來”任務(wù)。為訓練雙向表征,該模型隨機將輸入的部分Token進行遮蔽處理,對遮蔽的Token進行預測。提取15%的訓練集中的詞訓練,將有80%的概率把其中被標記的詞替換為MASK標簽,而剩下的詞中的一半將替換成隨機詞,另一半保留原始Token,讓模型判斷打上MASK單詞的意義。為獲得能夠理解句子關(guān)系的模型,在“預知未來”任務(wù)中選擇句子甲和乙為預訓練樣本:乙有可能是甲的下一句,或是存放在語料庫中的語句,判斷語句是否呈接續(xù)關(guān)系。
Input Embedding模塊將輸入詞進行處理,獲取詞向量的同時對其位置信息進行編碼化。MultiHead-attention模塊由多層自注意力層組成,可從語句中提取不同詞語的關(guān)聯(lián)。它的輸出會經(jīng)過ADD& Norm層。該層輸出將傳遞至前饋神經(jīng)網(wǎng)絡(luò)處,再次經(jīng)過ADD&Norm 層后進行輸出。
1.2 雙向門控制循環(huán)單元網(wǎng)絡(luò)
GRU網(wǎng)絡(luò)模型使每一個循環(huán)單元都具備捕獲不同尺度時間依賴性的能力且具備自適應性。單向的GRU結(jié)構(gòu)的狀態(tài)是單向傳播的,忽略了后文單詞對整體邏輯狀態(tài)的影響。而BiGRU的輸出受雙向影響,解決了單向GRU的問題,結(jié)果更加穩(wěn)定、準確。
1.3 注意力機制
早在2014年,注意力機制就在機器翻譯領(lǐng)域上因其出色的效果而備受關(guān)注。對于一個句子每個詞的重要程度不同,需提取重要的單詞的語義信息。注意力機制可以概括為由Encoder和Decoder兩部分組成。Encoder處理輸入數(shù)據(jù),Encoder得到輸出。
1.4 條件隨機場
條件隨機場(CRF)是一種綜合了隱馬爾可夫模型和最大熵模型的優(yōu)勢的概率無向圖模型。它通過觀察序列來推測對應狀態(tài)序列,將鄰近的前后標簽關(guān)系加工處理獲取最優(yōu)當前標記。
2 基于ALBERT-BiGRU的情感分析模型
本文提出了基于ALBERT-BiGRU-Attention-CRF情感分析模型。該模型主要由ALBERT向量表示層、BiGRU層、Attention層以及CRF層共同組成。通過ALBERT模型對輸入文本進行編碼操作,從而獲取其對應的詞向量,然后經(jīng)過BiGRU層雙向捕捉語義,再經(jīng)過Attention層對BiGRU層的隱含變量進行加權(quán)運算處理,獲取上下文信息,最后將處理后的信息送入CRF層進行處理得到情感分析結(jié)果。如圖1所示為本文提出的模型的結(jié)構(gòu)圖。
2.1 ALBERT向量表示層
由于BERT模型參數(shù)量過于龐大,時間需求過高等缺點,本文采用了優(yōu)化后的ALBERT模型。ALBERT模型基于BERT模型做了如下改進:
1)嵌入向量參數(shù)化的因式分解:基于模型結(jié)構(gòu)的限制,BERT模型中WordPiece embedding的大小E恒等于隱層大小H。詞嵌入僅對單詞進行學習,而隱層需要針對與上下文關(guān)系進行學習,后者需要更多的參數(shù),可以適當增大H的大小,或者滿足H>>E。但現(xiàn)實情況下詞匯表V非常大,若維持E=H,增大隱層H會使得embedding matrix(V×E)的維度變得龐大。
為了打破E、H之間的綁定,將embedding matrix分解為兩個大小為V×E和E×H矩陣對嵌入向量參數(shù)化因式分解,提升模型表現(xiàn),使embedding matrix的維度從O(V×H)縮小至O(V×E+E×H)。當H>>E時,優(yōu)化將非常明顯。
2)共享跨層參數(shù)機制:在ALBERT中默認共享全部參數(shù)。實驗表明,當加入上述機制后,基于L2距離以及余弦相似度的角度觀察該機制能使模型參數(shù)更趨于穩(wěn)定。
3)句間連貫性損失:BERT模型中,預訓練任務(wù)Next-Sentence Prediction(NSP)的正例是文章中連續(xù)的句子,而負例則各從兩個文章中選擇一個構(gòu)成。它在對兩個句子的關(guān)系給出合理化推斷時綜合考慮了句子的連貫性與不同句子的主題,降低了判斷的難度。而ALBERT提出了Sentence-Order Prediction (SOP)任務(wù),SOP任務(wù)采用別無二致的正例,但負例是來源于相同的文章,改進后兩個句子將具有同樣的主題,訓練的主要任務(wù)傾向于句子的連貫性。
4)刪除drop out機制:在BERT模型中并未出現(xiàn)任何過擬合現(xiàn)象,刪除drop out機制可以進一步提升模型表現(xiàn)。
2.2 BiGRU層
為了進一步降低時間需求,不同于其他基于BiLSTM的情感分析模型,我們采用了BiGRU模型。同LSTM模型的繁雜冗余相比,GRU模型顯得更為簡潔,其僅由更新門z和重置門r構(gòu)成,比LSTM少了一個門,所以在訓練的時候參數(shù)更少,收斂時間更快。
2.3 Attention層
在本模型中,Attention層的主要目的是衡量隱藏層向量特征的權(quán)重,通過對不同時刻的輸出根據(jù)權(quán)重計算,在此之上再進行降噪處理。在傳統(tǒng)模型中,隱藏層特征的權(quán)重相同,先輸入的內(nèi)容會被稀釋掉,語義向量不能完整覆蓋。
2.4 CRF層
在實驗中,BiGRU 模型的輸出是完全獨立的,雖然BiGRU學習到了輸入中前后信息的特征,但是不具備利用輸出標簽的能力。因此本文在 BiGRU 后新增加了一層CRF層,從而增加效果的真實性。
3 實驗與分析
3.1 數(shù)據(jù)集
實驗采用了online_shopping_10_cats 網(wǎng)絡(luò)購物評論數(shù)據(jù)集。該數(shù)據(jù)集種類繁雜且其評論覆蓋范圍極廣。本次實驗從中均勻選取數(shù)據(jù):總數(shù)為22000條,測試集17600條,驗證集2000條,測試集2400條。
3.2 實驗環(huán)境
實驗環(huán)境如表1所示。
3.3 評價指標
本文采用的評價指標為精確率(Precision,P)、召回率(Recall,R)和F1值。
其公式依次如公式(1)~(3)所示。
3.4 參數(shù)設(shè)置
在參數(shù)方面,本次實驗設(shè)置文本最大長度為128,batchsize設(shè)置為32,dropout 設(shè)置為 0.1,使用Adam優(yōu)化器,學習率初始值設(shè)為 2e-5。
3.5 對比實驗設(shè)置與結(jié)果分析
實驗設(shè)置多組對比實驗,除本文采用的網(wǎng)絡(luò)模型外,其他模型默認輸入引用word2vec訓練的詞向量,實驗在測試集上測試的Precision、Recall、F1結(jié)果如表2所示。
從表3的六組模型的對比結(jié)果可以看出,SVM模型雖然取得了較好效果,但基于深度學習的其他五組模型均優(yōu)于SVM,BERT+BIGRU+CRF模型的三項結(jié)果表現(xiàn)均高于ALBERT+BIGRU+CRF模型,大約1%~2%,這是由于在使用ALBERT模型時,大規(guī)模降低參數(shù)使用量的結(jié)果,使識別能力有小幅度下降。本文使用的ALBERT-BIGRU-Attention-CRF模型同其他模型相比,精確度的F1值高達94.06%,與其他五組模型相比均有小幅提升。說明在BIGRU后加入Attention層,實體種類增加時,注意力機制可以劃分實體邊界,提升效果,且以10個epoch為指標,基于ALBERT的模型用時約為5小時,BERT模型超過10小時,可見僅以運行速度為考量,基于ALBERT的模型也有可觀的提升。說明ALBERT 模型的優(yōu)化主要在于提升運行速度、降低訓練難度,在大幅減少訓練時間、降低資源占用的情況下能最大限度地保留 BERT 的性能。
為進一步展現(xiàn)模型的優(yōu)劣,本文在樣本總數(shù)為2400的測試集上進行了測試。實驗對TP值、TN值、FP值、FN值、TURE和FALSE六種數(shù)據(jù)進行評判。為了便于統(tǒng)計,我們將輸出結(jié)果大于0.5的值視為1,小于0.5的值視為0。測試結(jié)果如表3所示。
表3中ALBERT-BIGRU-Attention-CRF模型預測正確的次數(shù)最多,錯誤的次數(shù)最少,可見ALBERT-BiGRU-Attention-CRF模型時效果最優(yōu)。
4 結(jié)束語
本文提出了一種基于ALBERT-BIGRU-Attention-CRF模型的中文文本情感分析方法。經(jīng)過在online_shopping_10_cats 網(wǎng)絡(luò)購物評論數(shù)據(jù)集上進行訓練和測試,實驗結(jié)果表明本文模型可以在時間需求很低的前提下有效地提高文本情感分類準確率。但是對于表達相對曖昧的文本,識別置信度還需要進一步提高。為進一步提高模型性能,后續(xù)可以考慮從細化實體分類規(guī)則、擴大預料集規(guī)模、替換其他預訓練模型等方面著手進行。
參考文獻;
[1] Bengio Y.Learning deep architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.
[2] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[C]//Proceedings of the 3rd International Conference on Learning Representations.San Diego:ICLR,2015.
[3] 王偉,孫玉霞,齊慶杰,等.基于BiGRU-attention神經(jīng)網(wǎng)絡(luò)的文本情感分類模型[J].計算機應用研究,2019,36(12):3558-3564.
[4] 楊東,王移芝.基于Attention-based C-GRU神經(jīng)網(wǎng)絡(luò)的文本分類[J].計算機與現(xiàn)代化,2018(2):96-100.
[5] 鄭雄風,丁立新,萬潤澤.基于用戶和產(chǎn)品Attention機制的層次BGRU模型[J].計算機工程與應用,2018,54(11):145-152.
[6] 趙勤魯,蔡曉東,李波,等.基于LSTM-Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法[J].現(xiàn)代電子技術(shù),2018,41(8):167-170.
[7] 朱星嘉,李紅蓮,呂學強,等.一種改進的Attention-Based LSTM特征選擇模型[J].北京信息科技大學學報(自然科學版),2018,33(2):54-59.
[8] 白靜,李霏,姬東鴻.基于注意力的BiLSTM-CNN中文微博立場檢測模型[J].計算機應用與軟件,2018,35(3):266-274.
[9] 司念文,王衡軍,李偉,等.基于注意力長短時記憶網(wǎng)絡(luò)的中文詞性標注模型[J].計算機科學,2018,45(4):66-70,82.
[10] Devlin J, Chang M W,Lee K , et al. Bert: Pre-training of deep bidirectional transformers for language understanding [C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2019,1:4171-4186.
【通聯(lián)編輯:代影】
收稿日期:2021-05-26
作者簡介:韓?。?993—),男,碩士研究生,CCF會員,主要研究方向為自然語言處理;郝剛(1968—),男,通信作者,教授,CCF會員,主要研究方向為網(wǎng)絡(luò)信息安全、自然語言處理。
3778500589279