閆曉東 黃 濤
(1.中央民族大學(xué) 信息工程學(xué)院,北京 100081;2.國家語言資源監(jiān)測與研究少數(shù)民族語言中心,北京 100081)
隨著 Web 2.0 的蓬勃發(fā)展,用戶參與網(wǎng)站內(nèi)容的制造,互聯(lián)網(wǎng)上產(chǎn)生了大量的用戶參與的、對于諸如人物、事件、產(chǎn)品等有價(jià)值的評論信息。潛在的用戶就可以通過分析這些信息,挖掘人們對某一事物的觀點(diǎn)和看法,從而進(jìn)行有效的商業(yè)決策、政治決策等。處理如此海量的數(shù)據(jù),采用人工的方式是難以勝任的,如何借助計(jì)算機(jī)幫助用戶快速地對這些網(wǎng)絡(luò)文本進(jìn)行自動分析處理,提取出有用的情感信息已成為當(dāng)下許多研究人員的研究重點(diǎn)。文本情感分析就是對帶有情感色彩的詞語、句子以及文本進(jìn)行分析、處理、歸納和處置的過程[1]。目前,對中英文文本情感分類方面的研究相對成熟。但是,藏語文本的情感傾向性分析的研究相對滯后。而隨著藏文網(wǎng)頁和藏文數(shù)字圖書館等網(wǎng)絡(luò)信息的內(nèi)容日漸豐富,越來越多的藏族同胞在網(wǎng)上用藏文表達(dá)自己的觀點(diǎn)和看法,藏語文本的情感性分析已成為迫在眉睫的研究課題。在句子情感傾向分析的基礎(chǔ)上,可以很方便地進(jìn)行篇章的情感傾向分析,甚至可以得到海量信息的整體傾向性態(tài)勢,因此,句子級別的情感分類具有重要的研究價(jià)值,也是本文的研究重點(diǎn)。
情感分類是自然語言處理方向的熱點(diǎn)之一,國內(nèi)外已經(jīng)有很多關(guān)于文本情感分類的研究。總的來說,可以分為基于機(jī)器學(xué)習(xí)的方法和基于情感詞典的方法。機(jī)器學(xué)習(xí)方法的基本思想是根據(jù)已知訓(xùn)練樣本求取對系統(tǒng)輸入輸出之間依賴關(guān)系的估計(jì),使它能夠?qū)ξ粗敵鲎鞒霰M可能準(zhǔn)確的預(yù)測。2002年,Pang等人[2]使用常用的機(jī)器學(xué)習(xí)技術(shù)進(jìn)行傾向性判斷,比較支持向量機(jī)(SVM)、樸素貝葉斯(NB)、最大熵三種方法的傾向性判斷效果,實(shí)驗(yàn)表明SVM的分類效果最好。文獻(xiàn)[3]針對新聞文本的分類進(jìn)行研究,分別利用樸素貝葉斯方法和最大熵方法將新聞文本分為正面情感類和負(fù)面情感類,并采用詞頻和二值作為特征項(xiàng)權(quán)重,最終取得了較好的分類效果,最高分類準(zhǔn)確率達(dá)到90% 以上?;谇楦性~典或知識系統(tǒng)的方法,利用已有的語義詞典,通過判定句子中包含情感詞的語義傾向,加上句法結(jié)構(gòu)等信息,間接得到句子的情感傾向[4]。Riloff和Shepherd[5-8]提出了一種基于語料的方法,通過構(gòu)建情感詞典來實(shí)現(xiàn)情感分類。之后Riloff和Wiebe[9-11]運(yùn)用 Bootstrapping算法,用文本中的代名詞、動詞、形容詞、副詞等元素作為特征,還依照段落中句子位置的不同給予不同的對待,來實(shí)現(xiàn)對語料數(shù)據(jù)的主客觀分類。朱嫣嵐[12]等在文獻(xiàn)中通過人工構(gòu)建正負(fù)種子情感詞的詞集,利用HowNet計(jì)算候選詞語與種子情感詞之間的語義相似度來確定其情感極性。
藏語文本情感分類方面,國內(nèi)外的研究都尚未成熟,相關(guān)的文獻(xiàn)資料也非常有限。文獻(xiàn)[13] 采用藏語三級切分體系對藏語文本進(jìn)行分詞和詞性標(biāo)注,并借助手工建立的藏文情感分析用詞表,與已有的特征選擇方法相結(jié)合提取情感特征,用相似度分類算法進(jìn)行藏文文本的情感分類。文獻(xiàn)[14]采用基于統(tǒng)計(jì)和基于詞典相結(jié)合的方法對藏文微博進(jìn)行情感分析,發(fā)現(xiàn)該方法的準(zhǔn)確率明顯高于基于TF-IDF的藏文微博情感分析的準(zhǔn)確率。
針對藏語語料庫本身的缺乏,難以進(jìn)行復(fù)雜模型的訓(xùn)練,也無法進(jìn)行橫向?qū)Ρ?,基于藏語結(jié)構(gòu)的特殊性,本文提出了一種基于情感詞詞典的藏語文本句子情感分類的方法,首先構(gòu)造了基礎(chǔ)的藏語情感詞詞典、否定詞詞典、雙重否定詞詞典、程度副詞詞典、轉(zhuǎn)折詞詞典,然后基于這些詞典,針對藏語文本的特征,構(gòu)建了一個(gè)適合藏語文本情感分類的規(guī)則集,最后使用這個(gè)規(guī)則集對藏語文本句子進(jìn)行情感分類。
極性詞典是文本情感分析的基礎(chǔ)。利用高質(zhì)量的情感詞典,實(shí)際的應(yīng)用系統(tǒng)采用簡單快速的方法就可以得到很好的效果。由于藏文信息處理起步較晚,相關(guān)的標(biāo)注語料較為有限,另外藏語也沒有像中文(HowNet)和英文(WordNet)那樣具有揭示概念與概念之間以及概念與屬性之間的關(guān)系為基本內(nèi)容的常識知識庫,因此本文通過純手工的方法構(gòu)造研究所需的藏語情感詞典。
情感詞又稱為極性詞,在人們表達(dá)情感中起著非常重要的作用,雖然有些詞語在不同的語境里意義有一定的差異,有些甚至截然相反,如“你好厲害呀,居然每道題都做對了”和“你看你損人好厲害啊”,前者所表述的意思是對方的優(yōu)點(diǎn),即學(xué)習(xí)能力很強(qiáng),而后者想要表述的意思是對方的缺點(diǎn),即品德不好。但總的來說,大部分情感詞在表達(dá)情感的時(shí)候沒有太大的差異。因此,構(gòu)建一個(gè)基礎(chǔ)情感詞典是十分重要的。
為了能夠比較完善地?cái)U(kuò)展基礎(chǔ)情感詞典,本文從當(dāng)前比較健全的藏語大詞典中找出情感色彩較為濃厚的詞語,通過人工標(biāo)注,將情感詞分為正向情感詞和負(fù)向情感詞,并參照大連理工大學(xué)的中文極性詞典的極性強(qiáng)度標(biāo)準(zhǔn)給情感詞標(biāo)注極性強(qiáng)度,多次校對后將其加入到基礎(chǔ)情感詞典中。情感強(qiáng)度以數(shù)值1、3、5、7、9劃分為五個(gè)強(qiáng)度等級并用于情感值計(jì)算,9表示情感強(qiáng)度最大、最強(qiáng)烈,1表示情感強(qiáng)度最??;情感極性以1代表褒義正向,2代表貶義負(fù)向。經(jīng)統(tǒng)計(jì),該基礎(chǔ)情感詞典一共包含2 306個(gè)情感詞,其中正向情感詞1 136個(gè),負(fù)向情感詞1 170個(gè)。情感詞典具體格式如表1所示。
表1 情感詞典格式
否定詞(NA)和雙重否定詞(DNA)在基于規(guī)則的藏語情感判別中有著至關(guān)重要的地位,若是只考慮情感詞,在很多情況下計(jì)算出來的情感傾向會與實(shí)際的情感傾向完全相反,如“(干凈)”和“(不干凈)”。否定詞使得詞的情感極性發(fā)生改變,雙重否定詞不改變情感極性,但情感語氣有加強(qiáng)的作用。借鑒文獻(xiàn)[15],我們構(gòu)建并完善了否定詞詞典和雙重否定詞詞典,如表2所示。
表2 否定詞詞典和雙重否定詞詞典示例
其中,否定詞的總個(gè)數(shù)為26,雙重否定詞的總個(gè)數(shù)為11。
表3 程度副詞詞典和轉(zhuǎn)折詞詞典示例
其中,程度副詞的個(gè)數(shù)為71,轉(zhuǎn)折詞的個(gè)數(shù)為6。此外,不同的程度副詞具有不同的程度量,本文根據(jù)程度的大小把程度副詞分成高、中和低三類,其數(shù)量分別為40、5、26。
本文基于所構(gòu)建的情感詞詞典以及程度副詞、否定副詞等修飾詞詞典,并根據(jù)藏語文本的結(jié)構(gòu)特征,對句子中的情感短語進(jìn)行識別。在藏語中程度副詞位于被修飾詞前,而與中文及英文不同的是,藏語的否定詞可能位于被修飾詞的前面構(gòu)成否定短語,也可能位于被修飾詞的后面;或者被修飾詞前面后面同時(shí)存在,構(gòu)成雙重否定句。對于一個(gè)含有情感詞語的藏語情感文本,首先查看情感詞前面的詞語是否屬于程度副詞詞典或否定詞詞典,再查看情感詞后面的詞語是否屬于否定或雙重否定詞詞典,如果有一個(gè)匹配成功,則獲取這個(gè)詞組作為情感短語。
文獻(xiàn)[16-17]對中文副詞連用進(jìn)行了細(xì)致地研究,本文借鑒其思想并結(jié)合藏語的特點(diǎn),將極性詞與其修飾詞構(gòu)成極性短語,并給出了極性強(qiáng)度的計(jì)算公式,如表4所示。
表4 情感短語的極性計(jì)算
(1) 未識別出轉(zhuǎn)折詞
在句中未識別出轉(zhuǎn)折詞,句子的情感值按照式(1)來計(jì)算。
(1)
E(S)代表未識別出轉(zhuǎn)折詞的句子在經(jīng)過情感計(jì)算后最終的情感值。E(Gi)表示的是句子中第i個(gè)情感短語的情感權(quán)重值。
(2) 識別出轉(zhuǎn)折詞
在絕大多數(shù)含有轉(zhuǎn)折詞的句子中,轉(zhuǎn)折詞的個(gè)數(shù)只有一個(gè),因此這里討論只含有一個(gè)轉(zhuǎn)折詞的句子。如果轉(zhuǎn)折詞前、后都有情感詞,則反轉(zhuǎn)轉(zhuǎn)折詞之前的情感詞極性;如果轉(zhuǎn)折詞之前有情感詞,轉(zhuǎn)折詞之后沒有情感詞,則反轉(zhuǎn)該情感詞的極性;如果轉(zhuǎn)折詞之前沒有情感詞,之后有情感詞,則對該情感詞的情感分值倍乘一定的權(quán)值。計(jì)算如式(2)所示。
(2)
E(S)代表句中識別出轉(zhuǎn)折詞的句子在經(jīng)過情感計(jì)算后最終的情感。Sb表示句中轉(zhuǎn)折詞前面那一部分子句,Sa表示句中轉(zhuǎn)折詞后面那部分子句。
對于一個(gè)待判定的藏文句子,其情感得分的絕對值大小表示情感的強(qiáng)度,若其情感得分為負(fù)值,我們認(rèn)為其極性為消極;若其情感得分為正值,則將其判定為積極;若情感得分為零,則認(rèn)為該句子是中性的。
在少數(shù)民族語言方面尚無公開的語料,對少數(shù)民族語言評測的準(zhǔn)確率也尚無標(biāo)準(zhǔn)。而且由于少數(shù)民族語言的使用范圍小和掌握人數(shù)較少,對語料的標(biāo)注工作也有很大的困難。本文通過從各大藏語論壇,藏語微博中收集了一個(gè)用于情感分類測試的文本語料庫,經(jīng)過統(tǒng)計(jì),該語料庫的藏語句子數(shù)目一共為988句,其中包括423個(gè)正向句子、376個(gè)負(fù)向句子,以及189個(gè)中性句子。此外,在非中性句子中,包含情感短語的句子有134個(gè),轉(zhuǎn)折詞的句子有57個(gè),只包含情感詞的句子有608個(gè)。
本文所采用的評價(jià)指標(biāo)為準(zhǔn)確率P、召回率R和F值,這也是在自然語言處理中經(jīng)常采用的三個(gè)實(shí)驗(yàn)評測指標(biāo)。準(zhǔn)確率是測試得到的情感句子總數(shù)與測試得到的句子總數(shù)的比率,衡量的是檢索系統(tǒng)的查準(zhǔn)率,計(jì)算如式(3)所示。
(3)
召回率(recall rate),另名查全率,是測試得到的結(jié)果中正確情感句子數(shù)和測試語料中所有的情感句子總數(shù)的比率,衡量的是模型系統(tǒng)的查全率,如式(4)所示。
(4)
F值通過召回率R和準(zhǔn)確率P計(jì)算得到,是一項(xiàng)新的評價(jià)指標(biāo)如式(5)所示。
(5)
本文在以上所描述的情感分類算法的基礎(chǔ)上,用Java實(shí)現(xiàn)了藏語句子情感分類系統(tǒng)。為了驗(yàn)證本文所提出的情感分類算法的有效性,我們使用所有資源語料進(jìn)行情感分類測試實(shí)驗(yàn)。實(shí)驗(yàn)測試結(jié)果如表5所示。
從表5實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文提出的基于情感詞典的藏語文本句子情感分類方法在一定程度上可以對藏文句子進(jìn)行情感分類。其中,中性類別的召回率達(dá)到95.76%,但其準(zhǔn)確率只有67.53%,說明有很多帶有情感的句子沒有被系統(tǒng)識別出來,并被錯(cuò)誤判定為中性。究其原因,應(yīng)該是本文構(gòu)建的藏文情感詞典的規(guī)模不夠大,覆蓋率不夠高。
本文構(gòu)建了一個(gè)用于藏語句子情感分析的極性詞典,將修飾詞和極性詞構(gòu)成極性短語作為極性計(jì)算的基本單元,并考慮了轉(zhuǎn)折詞對藏語句子情感極性的影響,提出了一種基于詞典的情感分析方法,取得了不錯(cuò)的效果。然而本文是采用人工的方法建立情感詞詞典,這種方法在一定程度上費(fèi)時(shí)費(fèi)力,僅靠情感詞詞典匹配的方法來完成藏語句子情感分類是不夠的。因此,下一步研究工作主要有:改善現(xiàn)有的關(guān)鍵詞匹配算法,提高情感詞典的自動擴(kuò)建能力等。
[1]趙妍妍,秦兵,劉挺.文本情感分析綜述[J].軟件學(xué)報(bào),2010, 21(8):1834-1848.
[2]Pang B,Leeand L,Vaithyanathan S.Thumbsup Sentiment Classification Using Machine Learning Techniques[C]//Proceedings of EMNLP’02,2002.
[3]徐軍,丁宇新,王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動分類[J].中文信息學(xué)報(bào), 2007, 21(6):95-100.
[4]李鋼,程洋洋,寇廣增.句子情感分析及其關(guān)鍵問題 [J] .圖書情報(bào)工作, 2010, 54(11):114-117.
[5]Riloff E,Shepherd J.A corpus-based approach for building semantic lexicons[C]//Proceedings of the Second Conference on Empirical Methods in Natural Language Processing,1997:117-124.
[6]Riloff E,Shepherd J.A corpus-based bootstrapping algorithm for semi-automated semantic lexicon construction[J].Journal of Natural Language Engineering,1999,5(2):147-156.
[7]Riloff E,Wiebe J, Phillips W.Exploiting subjectivity classification to improve Information extraction[C]//Proceedings of the 20th National Conferenceon Artificial Intelligence(AAAI-05),2005.
[8]Riloff E,Patwardhan S,Wiebe J.Feature subsumption for opinion analysis[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing(EMNLP-06),2006.
[9]Riloff E,Wiebe J.Learning extraction patterns for subjective expressions[C]//Proceedings of the 2003 Conference on Emprical Methods in Natural Language Processing,2003:105-112.
[10]Wiebe J,Riloff E.Finding mutual benefit between Subjectivity analysisand information extraction[J].IEEE Transactions on Affective Computing,2011,2(4):175-191.
[11]Riloff E,Wiebe J,Wilson T.Learning subjective nouns using extraction pattern bootstrapping[C]//Proceedings of the Seventh Conference on Natural Language Learning(CoNLL-2003),2003.
[12]朱嫣嵐,閔錦,周雅倩,等.基于 HowNet 的詞匯語義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1):16-22.
[13]李海剛,于洪志.藏文文本情感分類系統(tǒng)設(shè)計(jì)[J].甘肅科技縱橫,2011,40(01):106-107.
[14]張俊,李應(yīng)興.基于情感詞典的藏文微博情感分析研究[J].科技創(chuàng)新論壇,2014,220-222.
[15]杜雪峰.藏文句子傾向性分析研究[D].北京:中央民族大學(xué)碩士學(xué)位論文,2015.
[16]尹洪波.否定詞與副詞共現(xiàn)的句法語義研究[D].北京:中國社會科學(xué)院研究生院博士學(xué)位論文, 2008.
[17]黃濤.藏文短文本情感傾向性分析研究[D].北京:中央民族大學(xué)碩士學(xué)位論文,2017.
閆曉東(1973—),博士,副教授,主要研究領(lǐng)域?yàn)樯贁?shù)民族語言信息化處理、自然語言處理。E-mail:yanxd3244@sina.com
黃濤(1992—),碩士研究生,主要研究領(lǐng)域?yàn)樯贁?shù)民族語言信息化處理。E-mail:274185218@qq.com