曲塔吉 安見才讓
摘要: 藏文多極情感分類方法是自然語言處理研究中識別用戶對某件事或話題的主觀情感傾向性識別的研究課題之一。文章分析了藏文多極情感分類方法的特點,對采集的藏文情感語料進(jìn)行整理校對;提取相關(guān)特征,建立情感語料庫和情感分類識別模型;再通過大量的實驗找出存在的不足,并進(jìn)行完善,以此提高藏文多極情感數(shù)據(jù)的準(zhǔn)確率。實驗表明,優(yōu)化后的藏文多極情感分類的識別準(zhǔn)確率達(dá)到84.5%。
關(guān)鍵詞: 情感分類; LSTM神經(jīng)網(wǎng)絡(luò)模型; 注意力機制; 藏文程度詞; 藏文轉(zhuǎn)折詞與否定詞
中圖分類號:TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2021)10-41-03
Research on Tibetan multi-polar sentiment classification method based on deep learning
Qu Taji, Anjian Cairang
(School of Computer, Qinghai University for Nationalities, Xining, Qinghai 810007, China)
Abstract: The Tibetan multi-polar emotion classification method is one of the research topics in the natural language processing research to identify the user's subjective sentiment orientation for a certain event or topic. This article analyzes the characteristics of the Tibetan multi-polar sentiment classification method, organize and proofread the collected Tibetan sentiment corpus, and extract features to build sentiment corpus and sentiment classification and recognition model. Identify existing problems through a lot of experiments and further refine and improve the accuracy of Tibetan multipolar sentiment data. In the experiment, the optimized and expanded Tibetan multi-polar emotion classification and recognition accuracy rate reached 84.5%.
Key words: sentiment classification; LSTM neural network model; attention mechanism; Tibetan degree words; Tibetan transition words and negative words
0 引言
情感分析[1]作為用戶行為分析的重要組成部分,是對帶有主觀性情感傾向或情緒態(tài)度的文本進(jìn)行分析處理和歸納推理的過程。其一方面可以通過對用戶評論的篩選與歸類,從中挖掘用戶對產(chǎn)品或服務(wù)的意見,并基于這些意見對用戶的行為進(jìn)行預(yù)測從而制定科學(xué)合理的運營策略;另一方面,通過對大量文本的情感分析,可以有效監(jiān)控網(wǎng)絡(luò)輿情和預(yù)測網(wǎng)絡(luò)輿論走向,并及時監(jiān)測輿情危機做出預(yù)警,維護(hù)網(wǎng)絡(luò)安全,構(gòu)建和諧網(wǎng)絡(luò)環(huán)境。在自然語言處理技術(shù)的應(yīng)用當(dāng)中,情感分析更是必不可少的。例如在自動機器翻譯中,對輸入文本進(jìn)行情感傾向判斷時,有助于精準(zhǔn)的選擇帶有正面或負(fù)面的同義詞進(jìn)行翻譯,以此提高翻譯的準(zhǔn)確率。
因此,本課題提出將藏文情感分類方法通過深度學(xué)習(xí)的相關(guān)技術(shù)進(jìn)行深入研究,首先對藏文多極情感分類方法的特點進(jìn)行分析,并對采集的藏文情感語料進(jìn)行篩選,擴充,人工標(biāo)注和分詞,去除或加工情感詞當(dāng)中的縮寫詞、重疊詞、特殊字符等,對情感數(shù)據(jù)進(jìn)行整理、校對及數(shù)據(jù)預(yù)處理,以此構(gòu)建藏文多極情感語料庫;其次對相關(guān)理論知識進(jìn)行深入學(xué)習(xí),結(jié)合相關(guān)特征進(jìn)行詞向量分析,采用基于多層正向LSTM和注意力機制的神經(jīng)網(wǎng)絡(luò)模型建立藏文多極情感傾向型分析模型。
1 相關(guān)工作
1.1 藏文多極情感分類
藏文多極情感分類屬于情感分析方法當(dāng)中文本情感分類的范疇,初期的情感分類能有效分析情感句子當(dāng)中所表達(dá)出來的正面、中立、負(fù)面情感等情感傾向,讓情感分類技術(shù)能直接從檢測后的最終情感傾向結(jié)果中傳遞出文本的主觀態(tài)度傾向。但在本文的研究中增加了情感極性的部分,對情感句子當(dāng)中表達(dá)出來的情感程度進(jìn)行分類和歸納,按照一定的分類規(guī)則進(jìn)行人工標(biāo)注和分詞并分類為六種情感極性,即滿意、一般滿意、非常滿意及不滿意、一般不滿意、非常不滿意,總共收錄相關(guān)情感數(shù)據(jù)29121條句子。
1.2 藏文程度詞與情感句子搭配
本文采集的情感數(shù)據(jù)當(dāng)中,藏文程度詞主要用于對采集的四種情感態(tài)度數(shù)據(jù)當(dāng)中兩種不同情感極性的數(shù)據(jù)進(jìn)行限定和修飾,以此達(dá)到各類情感句子的情感極性。程度詞的不同是能將同一種表達(dá)的內(nèi)容變得完全不同,又會以一致的情感傾向表達(dá)出來,即有不同之處,又有相同之處。正因如此,程度詞的修飾作用在文本數(shù)據(jù)的人工標(biāo)注上起到了加速效果,它能將每一條文本數(shù)據(jù)的分類以最準(zhǔn)確、最快的方式表達(dá)出來。如表1所示。
1.3 藏文轉(zhuǎn)折詞和否定詞應(yīng)用
情感數(shù)據(jù)當(dāng)中出現(xiàn)的轉(zhuǎn)折詞,能表示某個情感傾向的轉(zhuǎn)變或變化,主要是強調(diào)變化后的情感表達(dá)狀態(tài),是以轉(zhuǎn)折后的情感傾向為主要判斷依據(jù)產(chǎn)生的情感傾向轉(zhuǎn)換作用。轉(zhuǎn)折詞有時在識別的過程中將消極情感詞識別成積極情感詞,或?qū)⒎e極情感詞識別成消極情感詞,在一定程度上會導(dǎo)致識別率下降。主要是因為轉(zhuǎn)折前后的情感句子當(dāng)中既包含積極情感詞,又包含消極情感詞。如表2所示。
當(dāng)一個句子當(dāng)中出現(xiàn)“不”“沒有”之類的詞,我們經(jīng)常判定這類詞很有可能是句子字面意義和文章所表達(dá)的意義不一致,而在情感句子當(dāng)中否定程度的強弱及說話者的態(tài)度都直接決定著其情感傾向的轉(zhuǎn)變。在藏文句式的常規(guī)文法應(yīng)用中,使用的否定詞主要有“?????????????”四種,在本文中對這四種否定詞加以使用,在標(biāo)注時與之相關(guān)的否定情感詞有“???????? ???????????? ???????? ???????????”等等。但是,不能直接判定其否定詞就是消極情感詞,因為在情感句子當(dāng)中還存在情感句子轉(zhuǎn)折前后的一個情感傾向。如表3所示。
值得注意的是,否定詞在表達(dá)時,光從字面意義上判斷其情感傾向很容易,但放到特定的環(huán)境下和特定的語境中情感傾向改變的可能性特別大,這就需要在后期的標(biāo)注上格外注意。
2 基于深度學(xué)習(xí)的藏文多極情感分類方法的模型
本文提出一種用于藏文多極情感分類方法的多層正向LSTM[2]和注意力機制[3]模型。此模型主要是通過不同層的正向LSTM在同一個深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練。其模型將不同鄰域的情感分類數(shù)據(jù)文本通過詞向量輸入到正向LSTM模型中,再通過注意力機制從softmax模型中輸出分類的結(jié)果。如圖1所示。
此模型的整體訓(xùn)練思路是:首先將藏文情感文本進(jìn)行向量化處理組成數(shù)組,用矩陣化的方式來表示情感數(shù)據(jù)的語義信息;其次載入到生成的詞向量[4]模型,創(chuàng)建用于訓(xùn)練集的藏文情感數(shù)據(jù)矩陣和LSTM的計算單元,在構(gòu)造訓(xùn)練集索引之前,視情況確定并設(shè)置好訓(xùn)練長度;最后使用由標(biāo)簽的數(shù)據(jù)訓(xùn)練輸出層的分類器,用該分類器對藏文情感分類進(jìn)行分析識別。
3 實驗結(jié)果
本次實驗的實驗數(shù)據(jù)共有29121條情感數(shù)據(jù)文本,在整個實驗過程中,通過在訓(xùn)練中多次反復(fù)提取特征從而加強特征的記憶力,訓(xùn)練集和損失值在不斷下降的同時,其準(zhǔn)確率一直在上升并趨于平穩(wěn),最終的準(zhǔn)確率為:84.5%。后續(xù)實驗表明此模型具有良好的穩(wěn)定性,不斷增加語料后準(zhǔn)確率隨之上升。如圖2所示。
如圖2所示,基于多層正向LSTM和注意力機制的模型算法的結(jié)果在準(zhǔn)確率和損失值方面都表現(xiàn)的優(yōu)異穩(wěn)定。其最大的原因在于輸入時做了大量的加工處理,讓卷積層[5]在詞向量的部分得到了更多的序列信息,讓卷積層更容易獲得特定的特征為識別基礎(chǔ),其中也運用到的各種算法的優(yōu)勢,讓藏文多極情感分類的識別有了更高的準(zhǔn)確率,損失值也變得越來越低。其實驗結(jié)果示例表如4所示。
4 結(jié)束語
本文對基于深度學(xué)習(xí)的藏文多極情感分類識別做了較為全面的探討和研究。通過嚴(yán)格的數(shù)據(jù)預(yù)處理構(gòu)建藏文多極情感文本數(shù)據(jù)庫,在數(shù)據(jù)上通過訓(xùn)練模型實現(xiàn)藏文多極情感分類方法的識別,由于藏文的情感分類方法數(shù)據(jù)庫存在著明顯的不足,公開的數(shù)據(jù)寥寥無幾。因此,我們采用人工的方式,對數(shù)據(jù)進(jìn)行標(biāo)注、篩選、擴充,并逐一校對,為后續(xù)的實驗提供了更好的更準(zhǔn)確的數(shù)據(jù)。
后期需對藏文多極情感分類語料庫做擴充和進(jìn)一步完善。在基于各種不同情感極性和復(fù)雜的數(shù)據(jù)時,本文使用的模型分類效果也會隨之改變,對此需要進(jìn)一步思考在面對海量的復(fù)雜數(shù)據(jù)時,如何改進(jìn)和維持模型的分類效果,提高其準(zhǔn)確率以及在其他領(lǐng)域的泛化能力。
參考文獻(xiàn)(References):
[1] 段懿軒.基于神經(jīng)網(wǎng)絡(luò)的中文文本情感分類及其在輿情分析中的應(yīng)用.西安電子科技大學(xué)碩士論文,2019.
[2] 王瑞龍.基于注意力深度學(xué)習(xí)的情感分類研究[D].西北大學(xué),2019.
[3] 王明陽.句子級和段落級的語義相似度算法的設(shè)計與實現(xiàn)[D].北京郵電大學(xué)碩士論文,2019.
[4] 張鵬.基于深度學(xué)習(xí)混合模型的商品垃圾評論識別研究 [D].江蘇科技大學(xué)大學(xué),2019.
[5] 周泳東.基于卷積神經(jīng)網(wǎng)絡(luò)的商品評論情感分析的研究[D].南京郵電大學(xué),2019.
[6] 何晗.自然語言處理入門[M].人民郵電出版社,2019.