高成亮 徐華 高凱
摘 要:基于LSTM的中文文本分類方法能夠正確地識(shí)別文本所屬類別,但是其主要關(guān)注于學(xué)習(xí)與主題相關(guān)的文本片段,往往缺乏利用詞語其他方面的信息,特別是詞性之間的隱含的特征信息。為了有效地利用詞語的詞性信息以便學(xué)習(xí)大量的上下文依賴特征信息并提升文本分類效果,提出了一種結(jié)合詞性信息的中文文本分類方法,其能夠方便地從詞語及其詞性中學(xué)習(xí)隱式特征信息。利用開源數(shù)據(jù)并設(shè)計(jì)一系列對(duì)比實(shí)驗(yàn)用于驗(yàn)證方法的有效性。實(shí)驗(yàn)結(jié)果表明,結(jié)合詞性信息的基于注意力機(jī)制的雙向LSTM模型,在中文文本分類方面的分類效果優(yōu)于常見的一些算法。因此識(shí)別文本的類別不僅與詞語語義信息高度相關(guān),而且與詞語的詞性信息有很大關(guān)系。
關(guān)鍵詞:自然語言處理;中文文本分類;注意力機(jī)制;LSTM;詞性
中圖分類號(hào):TP319 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1008-1542(2018)05-0447-08
文本分類是自然語言處理和人工智能的基礎(chǔ)任務(wù),日益受到研究人員的關(guān)注。目前主流的研究方法有基于詞典的文本分類方法[1-3]、基于早期機(jī)器學(xué)習(xí)的文本分類方法[4]和基于神經(jīng)網(wǎng)絡(luò)的文本分類方法(例如,基于卷積神經(jīng)網(wǎng)絡(luò)模型的文本分類方法[5-7]和基于LSTM的文本分類方法[8-10]等)?;谠~典或基于早期機(jī)器學(xué)習(xí)的文本分類方法主要是結(jié)合先驗(yàn)知識(shí)從文本中抽取、生成、構(gòu)建特征集,然后將這些特征信息作為輸入數(shù)據(jù)用于訓(xùn)練一個(gè)分類器(例如樸素貝葉斯分類器[11]、支持向量機(jī)分類器[12])用于文本分類。雖然該方法在文本分類方面取得了較好效果,但仍存在一些問題,例如,很難從非結(jié)構(gòu)化數(shù)據(jù)語料庫中挖掘隱式特征,并且需要花費(fèi)大量的人力來構(gòu)建一個(gè)適合特定文本分類任務(wù)的特征詞庫。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的文本分類方法可利用網(wǎng)絡(luò)結(jié)構(gòu)從大量的語料庫中自動(dòng)學(xué)習(xí)任務(wù)特征。目前,研究人員設(shè)計(jì)了許多有效的基于神經(jīng)網(wǎng)絡(luò)的文本分類方法,該方法能夠?qū)⑽谋巨D(zhuǎn)換成低維度的文本,而無需人工從文本中提取特征[13-14]。其中,卷積神經(jīng)網(wǎng)絡(luò)模型[5]擅長(zhǎng)學(xué)習(xí)文本的局部特征信息。由于卷積神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)能力很大程度上取決于其卷積窗口的大小,所以它在學(xué)習(xí)遠(yuǎn)距離詞語之間相互依賴特征方面能力很差。LSTM[15]和雙向LSTM[16]是典型的序列模型,它能夠?qū)W習(xí)詞語之間的依賴信息但是不能區(qū)分不同詞語對(duì)文本分類任務(wù)的貢獻(xiàn)程度。文獻(xiàn)[8]提出了一個(gè)樹形LSTM模型。該模型需要依賴解析樹結(jié)構(gòu)以及繁瑣的段落層面的標(biāo)注工作。文獻(xiàn)[14]面向句子層面的標(biāo)注數(shù)據(jù)集上使用現(xiàn)有的語言資源(例如,情感詞典,否定詞,強(qiáng)度詞),結(jié)合LSTM模型用于情感分類。目前,注意力機(jī)制已成為一種有效的策略用于動(dòng)態(tài)學(xué)習(xí)不同特征對(duì)特定任務(wù)的貢獻(xiàn)程度,已經(jīng)在自然語言處理中獲得優(yōu)異的效果。文獻(xiàn)[17]在文本分類任務(wù)中引入注意力機(jī)制,提高了文本分類性能。
詞性通常被用作為一種輔助特征,用于特征選擇,而上述方法往往忽略了詞性之間的依賴信息。詞性是詞語信息的關(guān)鍵部分。如名詞類詞語對(duì)文本主題的識(shí)別非常有用,動(dòng)詞類、形容詞類的詞語有助于挖掘用戶在文本中的情感(或情緒)表達(dá),但大多數(shù)工作并沒有考慮每個(gè)詞性對(duì)文本分類的貢獻(xiàn)程度,
如一個(gè)經(jīng)過分詞的句子“她 是 一個(gè) 漂亮的 女孩”和它對(duì)應(yīng)的詞性序列(代詞 動(dòng)詞 量詞 形容詞 名詞)之間是有關(guān)的,形容詞和名詞之間的搭配能夠增強(qiáng)詞語“漂亮的”與“女孩”之間的相關(guān)性。分別對(duì)詞語和詞性進(jìn)行獨(dú)立建模能夠保留詞語間的依賴關(guān)系信息,還能加強(qiáng)詞性間的依賴關(guān)系。因此,以注意力機(jī)制和LSTM網(wǎng)絡(luò)模型為基礎(chǔ),設(shè)計(jì)一個(gè)基于注意力機(jī)制的LSTM網(wǎng)絡(luò)模型,將詞性信息加入到此方法中,來預(yù)測(cè)文本的類別。首先利用該模型的雙向LSTM層對(duì)基于詞語的上下文和基于詞性的上下文進(jìn)行獨(dú)立建模,分別生成對(duì)應(yīng)的隱藏層狀態(tài)特征信息;然后利用該模型的注意力機(jī)制層使用上述隱含層狀態(tài)特征來學(xué)習(xí)文本中不同位置的狀態(tài)權(quán)重;最后將經(jīng)過加權(quán)求和之后的隱含狀態(tài)表示作為文本的表示,之后將其放入模型的分類層用以預(yù)測(cè)文本類別。為了評(píng)估模型的有效性,對(duì)來自NLPCC&2014和NLPCC&2017的2個(gè)開源的中文數(shù)據(jù)集(即,包含7種情緒的數(shù)據(jù)集和包含18個(gè)類別的新聞標(biāo)題數(shù)據(jù)集)進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,將詞性信息加入到此方法中可以提高文本分類的性能,并優(yōu)于基準(zhǔn)算法。
1 結(jié)合詞性信息的基于注意力機(jī)制的雙向LSTM的文本分類方法
使用詞性信息作為詞語的一類基礎(chǔ)特征來輔助分析文本的類別,采用結(jié)合詞性信息的基于注意力機(jī)制的雙向LSTM分類模型用于中文文本分類任務(wù),過程如圖1所示。
首先,本文利用無監(jiān)督學(xué)習(xí)方式的分布式表示模型,將每個(gè)詞語和詞性標(biāo)簽映射到向量空間中,用以生成能夠表示詞語語義和詞性自身含義的向量表示。首先采用分詞工具對(duì)中文文本進(jìn)行分詞和詞性標(biāo)注以獲取詞語序列
2 實(shí)驗(yàn)結(jié)果與分析
2.1 實(shí)驗(yàn)數(shù)據(jù)集
為了驗(yàn)證方法的有效性,用其在2個(gè)基于中文的開源文本分類數(shù)據(jù)集上進(jìn)行驗(yàn)證。
數(shù)據(jù)集1是來自NLPCC&2014官網(wǎng)上的面向中文文本的情緒分類數(shù)據(jù)集,其中情緒分類是情緒分析中的一個(gè)子任務(wù)[19],是為了幫助人們自動(dòng)識(shí)別用戶在文本中流露出的情緒[20]。本文的主要工作是從句子層面和博文層面分析用戶在文本中表達(dá)的情緒類別。該數(shù)據(jù)集包含7個(gè)情感類別,即:喜歡、快樂、厭惡、憤怒、悲傷、恐懼和驚喜。值得注意的是,本文主要研究是預(yù)測(cè)最適合文本的情緒類別,所以原數(shù)據(jù)集中的所有無情緒標(biāo)簽的文本數(shù)據(jù)都刪除,這樣也避免了不同情緒類別的數(shù)據(jù)分布不均衡。各種情緒類別數(shù)據(jù)又被分為訓(xùn)練集(用于訓(xùn)練模型的數(shù)據(jù)集)和測(cè)試集(用來評(píng)估方法有效性的數(shù)據(jù)集),數(shù)據(jù)統(tǒng)計(jì)見表2。數(shù)據(jù)集2來自NLPCC&2017官網(wǎng)上的基于中文的新聞標(biāo)題分類數(shù)據(jù)集。該工作主要是評(píng)估結(jié)合詞性特征的基于注意力機(jī)制的雙向LSTM針對(duì)短文本的分類性能。該數(shù)據(jù)集包含18個(gè)新聞?lì)愵悇e的標(biāo)簽,在實(shí)驗(yàn)過程中該數(shù)據(jù)集被劃分為3個(gè)子數(shù)據(jù)集,即訓(xùn)練數(shù)據(jù)集(train),開發(fā)數(shù)據(jù)集(dev)和測(cè)試數(shù)據(jù)集(test),數(shù)據(jù)集的統(tǒng)計(jì)圖(水平軸表示文本的長(zhǎng)度,縱軸則表示對(duì)應(yīng)的數(shù)量),見圖2。
2.2 評(píng)測(cè)指標(biāo)
使用準(zhǔn)確率(Accuracy)評(píng)估基于注意力機(jī)制的LSTM的文本分類方法的性能。計(jì)算方式如式(10)所示:
2.3 實(shí)驗(yàn)結(jié)果展示與分析
首先針對(duì)數(shù)據(jù)集1進(jìn)行實(shí)驗(yàn)。從表3可以觀察到,基于LSTM的文本分類方法在句子層面的數(shù)據(jù)集1和在博文層面的數(shù)據(jù)集1分別獲得56.5%和56.7%的分類效果,該方法所獲得的分類效果是所有效果中最差的。對(duì)比基于注意力機(jī)制的LSTM的文本分類方法和基于LSTM的文本分類方法的分類效果,可以看出注意力機(jī)制能夠明顯提升中文情緒分類效果,暗示注意力機(jī)制具有學(xué)習(xí)上下文隱式特征的能力。在基于注意力機(jī)制的雙向LSTM的文本分類方法的基礎(chǔ)上增加詞性特征信息后,其在句子層面的數(shù)據(jù)集1條件下優(yōu)化了0.8%,在博文層面的數(shù)據(jù)集1條件下優(yōu)化了0.3%。從實(shí)驗(yàn)結(jié)果上看,通過增加詞性信息能夠明顯的提升中文情緒分類效果。
準(zhǔn)確率能夠評(píng)估文本分類方法在整體數(shù)據(jù)集條件下的分類效果,但是并不能詳細(xì)展示出分類方法針對(duì)每個(gè)類別的預(yù)測(cè)效果。從數(shù)據(jù)集1中的各類情緒類別出發(fā),計(jì)算文本分類方法在各類別情況下的F值。其中,圖3和圖4(水平軸表示類別標(biāo)簽,縱軸則表示對(duì)應(yīng)的F值,不同顏色深淺代表不同的文本分類方法)分別展示了文本分類方法在句子層面的數(shù)據(jù)集1環(huán)境下和在博文層面的數(shù)據(jù)集1環(huán)境下的F值分布。實(shí)驗(yàn)結(jié)果表明,結(jié)合詞性特征信息的文本分類方法能夠在恐懼、厭惡、憤怒和喜歡的情緒分類標(biāo)簽下優(yōu)于其他對(duì)比模型的效果,但是在悲傷、快樂和驚喜的情緒分類類別上的F值略低于基準(zhǔn)模型,這表明在針對(duì)句子層面的數(shù)據(jù)集中,在數(shù)據(jù)分布不平衡的類別條件下,該分類方法的性能并沒有明顯提升。通過同時(shí)分析圖3和圖4實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),結(jié)合詞性信息的基于注意力機(jī)制的雙向LSTM在句子層面和在博文層面所取得的F值基本一致,表明該分類方法對(duì)輸入文本的長(zhǎng)度并不敏感。
其次,為了評(píng)估結(jié)合詞性信息的基于注意力機(jī)制的雙向LSTM的文本分類方法在其他類型數(shù)據(jù)集上的分類性能,在由18個(gè)新聞標(biāo)題類別的短文本數(shù)據(jù)集(即數(shù)據(jù)集2)上進(jìn)行實(shí)驗(yàn)。對(duì)比基于LSTM的文本分類方法和基于注意力機(jī)制的LSTM的文本分類方法,從表4能夠看出后者的分類效果優(yōu)于前者的分類效果,表明了基于注意力機(jī)制的文本分類方法對(duì)短文本進(jìn)行分類是有效的。結(jié)合詞性信息的基于注意力機(jī)制的雙向LSTM能夠結(jié)合詞性上下文之間的依賴特征信息作為詞語上下文的一個(gè)輔助信息并有效地進(jìn)行建模。它的分類性能要略好于基于注意力機(jī)制的LSTM的文本分類方法。從圖5中能夠看出結(jié)合詞性信息的基于注意力機(jī)制的雙向LSTM的文本分類方法在大多數(shù)新聞標(biāo)簽數(shù)據(jù)集下略微提升了分類效果,而在其他新聞標(biāo)簽數(shù)據(jù)集2條件下基本一致,可能的原因是所有新聞標(biāo)簽的數(shù)據(jù)分布較為平衡。
3 結(jié) 語
利用詞語的詞性信息,提出了一個(gè)簡(jiǎn)單的文本分類方法,通過LSTM從文本中提取并學(xué)習(xí)上下文中的隱式特征信息,通過注意力機(jī)制動(dòng)態(tài)地學(xué)習(xí)不同隱式特征信息在文本分類任務(wù)中的貢獻(xiàn)程度,通過分類函數(shù)預(yù)測(cè)文本的類別標(biāo)簽。該分類方法能夠從詞性信息中學(xué)習(xí)有效的特征,并提供足夠的信息來識(shí)別文本的類別。分析在數(shù)據(jù)集1和數(shù)據(jù)集2的實(shí)驗(yàn)結(jié)果可以得出本文所提出的文本分類方法獲得了優(yōu)越的分類性能。
本文給出的基于詞性信息的文本分類算法,雖然達(dá)到了預(yù)期的目標(biāo),但是在上下文隱式特征學(xué)習(xí)方法上仍有改進(jìn)的空間,尤其是在情緒分析方面可能存在部分片面性,如未將博主的基本信息、性格特征與博文結(jié)合起來進(jìn)行分析。未來的工作中,將完善本方法,對(duì)中文情緒分類任務(wù)展開進(jìn)一步的研究,以實(shí)現(xiàn)最優(yōu)的情緒分類效果,并計(jì)算出不同的隱式特征對(duì)情緒分類的貢獻(xiàn)程度。
參考文獻(xiàn)/References:
[1] MOHAMMAD S M, TURNEY P D. Emotions evoked by common words and phrases: Using mechanical turk to create an emotion lexicon[C]//Proceedings of the NAACL HLT 2010 Workshop on Computational Approaches to Analysis and Generation of Emotion in Text. Los Angeles: Association for Computational Linguistics, 2010:26-34.
[2] LI Weiyuan, XU Hua. Text-based emotion classification using emotion cause extraction[J]. Expert Systems with Applications, 2014, 41(4): 1742-1749.
[3] GAO Kai, XU Hua, WANG Jiushuo. Emotion classification based on structured information[C]//International Conference on Multisensor Fusion and Information Integration for Intelligent Systems.Beijing: IEEE, 2014:1-6.
[4] ZHANG Dongwen, XU Hua, SU Zengcai, et al. Chinese comments sentiment classification based on word2vec and SVM perf[J]. Expert Systems with Applications, 2015, 42(4):1857-1863.
[5] KIM Y. Convolutional neural networks for sentence classification[C]// Conference on Empirical Methods in Natural Language Processing.Doha:Association for Computational Linguistics, 2014:1746-1751.
[6] KAICHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences[C]// 52nd Annual Meeting of the Association for Computational Linguistics.Baltimore: Association for Computational Linguistics, 2014:655-665.
[7] TAO Lei, BARZILAY R, JAAKKOLA T. Molding CNNs for text: Non-linear, non-consecutive convolutions[J]. Indiana University Mathematics Journal, 2015, 58(3) :1151-1186.
[8] TAI K S, SOCHER R, MANNING C D. Improved semantic representations from tree-structured long short-term memory networks[C]// 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing. Beijing:Association for Computational Linguistics, 2015: 1556-1566.
[9] WANG Yequan, HUANG Minlie, ZHU Xiaoyan, et al. Attention-based LSTM for aspect-level sentiment classification[C]//Conference on Empirical Methods in Natural Language Processing.Austin: Association for Computational Linguistics, 2016: 606-615.
[10] MA Dehong, LI Sujian, ZHANG Xiaodong, et al. Interactive attention networks for aspect-level sentiment classification[C]//Twenty-Sixth International Joint Conference on Artificial Intelligence. Melbourne: International Joint Conferences on Artificial Intelligence, 2017:4068-4074.
[11]GHORPADE T, RAGHA L. Featured based sentiment classification for hotel reviews using NLP and Bayesian classification[C]// International Conference on Communication, Information and Computing Technology. Mumbai: IEEE Computer Society, 2012:1-5.
[12]MORAES R, VALIATI J F, NETO W P G. Document-level sentiment classification: An empirical comparison between SVM and ANN[J]. Expert Systems with Applications, 2013, 40(2):621-633.
[13]ZHANG Ye, LEASE M, WALLACE B C. Active discriminative text representation learning[C]// 31st AAAI Conference on Artificial Intelligence. San Francisco:AAAI, 2017: 3386-3392.
[14]QIAN Qiao, HUANG Minlie, LEI Jinhao, et al. Linguistically regularized lstms for sentiment classification[C]// 55th Annual Meeting of the Association for Computational Linguistics. Vancouver: Association for Computational Linguistics, 2017:1679-1689.
[15]HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[16]GRAVES A, JAITLY N, MOHAMED A. Hybrid speech recognition with deep bidirectional LSTM[C]//IEEE Workshop on Automatic Speech Recognition and Understanding.Olomouc: IEEE Computer Society, 2013: 273-278.
[17]YANG Zichao, YANG Diyi, DYER C, et al. Hierarchical attention networks for document classification[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.San Diego: Association for Computational Linguistics, 2016:1480-1489.
[18]MIKOLOV T, SUTSKEVER I, CHEN Kai, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26:3111-3119.
[19]ZHANG Lei, WANG Shuai, LIU Bing. Deep learning for sentiment analysis: A survey[J]. Wiley Interdisciplinary Reviews Data Mining & Knowledge Discovery, 2018: 8(4):10.1002/widm.1253.
[20]ZHAI Zhongwu, XU Hua, KANG B, et al. Exploiting effective features for chinese sentiment classification[J]. Expert Systems with Applications, 2011, 38(8):9139-9146.