李雪紅 郭 暉 閆泓濤
(1.海軍大連艦艇學(xué)院訓(xùn)練部 大連 116000)(2.海軍工程大學(xué)電子工程學(xué)院 武漢 430033)
基于改進(jìn)依存句法的微博情感分析研究*
李雪紅1郭 暉2閆泓濤2
(1.海軍大連艦艇學(xué)院訓(xùn)練部 大連 116000)(2.海軍工程大學(xué)電子工程學(xué)院 武漢 430033)
分析微博情感傾向分析重要意義,針對微博文本特點,提出一種改進(jìn)依存句法分析算法進(jìn)行情感傾向分析。改進(jìn)算法通過引入表情、標(biāo)點等符號詞的感情極性分析,采用基于中心情感詞的語法距離分析詞語情感極性,通過實例研究發(fā)現(xiàn)改進(jìn)算法在微博情感傾向分析中效果明顯。
情感傾向分析; 依存句法分析; 中心情感詞; 微博
Class Number TP309.7
微博(Micro Blog)是一種通過Web、WAP及其他客戶端,基于用戶關(guān)系的信息分享、信息傳播和信息獲取的一種集成化、開放化社交服務(wù)平臺[1]。用戶通過簡短的文字、圖片、鏈接等發(fā)布發(fā)表自己的心情、狀態(tài)以及各類話題,由于微博便利快捷的特點,微博用戶及其發(fā)布量急速增長。微博國外最早代表是2006年開設(shè)的Twitter網(wǎng)站,全球已擁有5.17億注冊用戶,其中1.4億活躍用戶。中國在2009年開設(shè)了新浪微博,目前用戶達(dá)到5.03億,活躍用戶4600萬。2010年中國互聯(lián)網(wǎng)輿情報告指出,微博成為網(wǎng)絡(luò)輿論主要載體[2]。
大量微博用戶發(fā)布的文本信息包含了用戶的情緒情感。研究微博中情感傾向分析在商業(yè)產(chǎn)品評論、垃圾郵件過濾等領(lǐng)域有著廣泛應(yīng)用,特別是有助于輿情監(jiān)控、輿情發(fā)現(xiàn)、輿論引導(dǎo)等工作實現(xiàn)[3],從而有效進(jìn)行社會情緒疏導(dǎo),及時避免盲目群體事件發(fā)生和惡化,具有很強(qiáng)的社會意義。
情感傾向分析是按照文本表達(dá)的情感傾向性對文本進(jìn)行分析[4]。本文在研究微博文本特點基礎(chǔ)上,分析當(dāng)前文本情感傾向分析基本方法,提出了一種改進(jìn)的依存句法算法對微博進(jìn)行情感分析,通過語句的依存句法結(jié)構(gòu)確定中心情感詞,再根據(jù)依存關(guān)系和語法結(jié)構(gòu)距離研究微博中包括句子結(jié)構(gòu)詞、表情和標(biāo)點符號在內(nèi)情感特征詞的情感傾向值,最后確定整個文本句子的情感傾向。
2.1 微博文本特點
微博作為一種新興的互聯(lián)網(wǎng)信息交互平臺,用戶以140字左右的文字更新消息,并實現(xiàn)即時分享,同時與手機(jī)短信、社交網(wǎng)站和博客等多種互聯(lián)網(wǎng)交互平臺和方式互通聯(lián)系。這里主要研究以文本為主體信息的微博,微博文本信息主要包括以下幾個特點:
1) 文本長度短,結(jié)構(gòu)不規(guī)范。微博文本長度一般限制在140字左右,且句子結(jié)構(gòu)隨意性大。
2) 表述方式內(nèi)容不規(guī)范。微博大量采用網(wǎng)絡(luò)語言,表情符號等,且對于標(biāo)點符號、成語等沒有規(guī)范使用。
3) 話題交互性強(qiáng)。微博很多都是針對某話題或主題的評論,要結(jié)合上下文進(jìn)行系統(tǒng)分析。
2.2 文本情感分析基本方法
文本情感分析主要任務(wù)就是根據(jù)文本來判斷作者的情感傾向,主要利用底層情感信息抽取的結(jié)果將情感文本單元分為若干類別,如分為褒貶,喜悲等對立兩類或更為細(xì)致的感情類別(如喜怒哀樂等),并進(jìn)行分析歸納。文獻(xiàn)[5]最早給出了情感分析的概念,文獻(xiàn)[6]針對中文的文本情感分析的任務(wù)、內(nèi)容和主要技術(shù)進(jìn)行描述。
文本情感分析可分為三個研究層次,即情感信息的抽取、情感信息的分類以及情感信息的檢索與歸納。情感信息抽取是抽取情感文本中有價值的情感信息,是情感分析的基礎(chǔ)任務(wù),為后續(xù)文本情感分析提供數(shù)據(jù)基礎(chǔ);情感信息分類主要包括主客觀信息的二元分類和主觀信息的情感分類,同時還包括觀點分類;情感信息的檢索和歸納是用戶交互任務(wù),前者是為用戶檢索出主題相關(guān)且包含情感信息的文檔,后者是針對大量主題相關(guān)的情感文檔,自動分析和歸納整理出情感分析結(jié)果。
文本情感分析按照處理文本的粒度不同可以分為詞語級,語句級和篇章級;按照不同分析目的,可以分為主客觀分析和主觀分析,前者主要研究作者對客觀事物的褒貶評價,后者則主要研究作者自身的喜怒感受;按照分析內(nèi)容的不同,可分為對新聞事件的情感分析和對商品評價的情感分析;按照技術(shù)處理手段可分為基于詞典的情感分析和基于機(jī)器學(xué)習(xí)的情感分析,前者主要是利用基礎(chǔ)情感詞典對文本中詞語進(jìn)行情感分析,后者則是利用SVM方法、神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯等分類器進(jìn)行文本情感分析;按照有無人工參與可分為無監(jiān)督分類方法和有監(jiān)督分類方法,主要區(qū)別在于是否需要人工詞語情感標(biāo)注。
結(jié)合微博文本的長度較短,結(jié)構(gòu)不規(guī)范,中文語法結(jié)構(gòu)復(fù)雜等特點,針對現(xiàn)行文本情感分析方法在微博文本情感分析上的不足和欠缺,針對性提出了改進(jìn)依存句法分析算法,采用語句級基于詞典的改進(jìn)依存句法分析(Improved Chinese Dependency Parsing,ICDP),算法主要改進(jìn)在于圍繞中心情感詞分析進(jìn)行依存句法分析情感傾向。
本文提出一種基于改進(jìn)中文依存句法算法來進(jìn)行微博文本情感分析,基于情感詞典給出情感值,分析句法結(jié)構(gòu)確定中心情感詞,從句法結(jié)構(gòu)和與中心詞距離研究句中各類詞、表情及標(biāo)點符號的情感值,最后對微博文本進(jìn)行情感傾向歸一化求平均得到文本情感傾向。
3.1 依存句法分析算法
句法分析是根據(jù)給定的語法體系,自動推導(dǎo)出句子的句法結(jié)構(gòu),分析句子包含的句法單元及其之間關(guān)系,并轉(zhuǎn)化為結(jié)構(gòu)化的句法分析樹[7]。中文文本的句法分析是基于漢語這一表意型語系的,其書寫形式和句子結(jié)構(gòu)相對英語更加復(fù)雜,要先進(jìn)行句子分詞和詞性判定。文獻(xiàn)[8~9]分別對中文自動分詞技術(shù)和無監(jiān)督詞性標(biāo)注技術(shù)進(jìn)行了研究。
依存句法分析是一種基于規(guī)則的句法分析方法?;谝?guī)則句法分析是由人工組織語法規(guī)則,建立語法知識庫,通過條件約束和檢查來實現(xiàn)句法結(jié)構(gòu)建立,完成分析樹。分為三種基本類型:自頂向下,自底向上和兩者結(jié)合的方法。文獻(xiàn)[10]指出兩者結(jié)合的算法在理論上最接近人實現(xiàn)句法分析的過程,最具有心理語言學(xué)的價值。
依存句法分析使用的語法體系包括短語結(jié)構(gòu)語法和依存語法,其中依存語法是用詞與詞之間的依存關(guān)系來描述語言結(jié)構(gòu),也叫從屬關(guān)系語法,該方法是法國語言學(xué)家Tesniere于1959年提出,認(rèn)為結(jié)構(gòu)語法可概括為關(guān)聯(lián)、組合和轉(zhuǎn)位三大核心,從而建立起支配詞和從屬詞聯(lián)結(jié)而成的從屬關(guān)系。
采用哈爾濱工業(yè)大學(xué)研究的LTP平臺依存句法分析器確立的24種依存關(guān)系[11],如表1所示。
在依存語法理論中,依存是指詞與詞之間的支配與被支配關(guān)系,這種關(guān)系是不對等,有方向的,處于支配地位的為支配詞,被支配地位的為從屬詞,依存關(guān)系用有向弧表示為依存弧,方向由支配詞指向從屬詞,依存弧上標(biāo)記依存關(guān)系符號。例如對語句“武漢是座很美麗的城市!”的結(jié)構(gòu)分類如圖1所示。
表1 依存關(guān)系符號表
圖1 依存句法分析實例圖
目前國內(nèi)針對中文文本的依存句法分析算法一般采用兩類方法,一是中心情感詞分析,通過情感強(qiáng)度來確定中心情感詞,分析該詞情感極性得到句子情感傾向;二是句法分析,通過對句子中帶情感的形容詞、名詞等進(jìn)行情感分析,根據(jù)對其進(jìn)行修飾詞的文本距離等進(jìn)行情感強(qiáng)化或弱化修飾。這些方法主要存在以下問題:一是中心情感詞選擇按照情感強(qiáng)度進(jìn)行,沒有對文中所有帶情感詞及句子的句法結(jié)構(gòu)進(jìn)行分析;二是簡單的將修飾詞對中心詞的情感修飾強(qiáng)度用文本長度衡量,忽略了文本結(jié)構(gòu)長度;三是對文本中新興的帶有網(wǎng)絡(luò)特點的標(biāo)點、符號等的情感研究重視不夠。
3.2 改進(jìn)的依存句法分析
由于微博文本的語言結(jié)構(gòu)不規(guī)范和標(biāo)點、表情等符號語言廣泛使用,一般分析方法不能滿足高標(biāo)準(zhǔn)情感傾向分析要求。針對微博文本特性和當(dāng)前分析方法的不足,本文研究一種改進(jìn)的依存句法分析,該算法步驟和采用的主要技術(shù)為
1) 句子分詞和詞性判定。將分析對象劃分為若干詞語并對詞語性質(zhì)如名詞、動詞、形容詞等進(jìn)行判定。
2) 詞語極性計算。主要基于情感詞典,如HowNet詞典對詞語進(jìn)行情感極性判定,確定句中支配詞的正負(fù)、褒貶信息。
3) 分析語句句法結(jié)構(gòu)。采用依存句法分析得到語句的結(jié)構(gòu)分析樹。
4) 計算修飾詞極性。對句中形容詞、副詞等從屬詞通過結(jié)構(gòu)分析樹計算其情感極性。
5) 計算語句情感傾向。對文本中各語句進(jìn)行分析,按照句間關(guān)系詞通過歸一化平均處理等方法確定文本情感傾向。
改進(jìn)算法針對現(xiàn)有依存句法分析算法在三個方面進(jìn)行改進(jìn):
1) 增加了對標(biāo)點、表情等符號詞語的情感極性分析。
2) 由常規(guī)的對各詞的情感極性計算改進(jìn)為確定中心情感詞,結(jié)合句法分析結(jié)構(gòu)設(shè)計的所有情感詞進(jìn)行計算。
3) 增加結(jié)合情感修飾詞與中心情感詞的語法結(jié)構(gòu)距離分析其情感極性。
3.2.1 符號詞的極性分析
本文中提及的符號詞主要包括表情符號和標(biāo)點符號,表情符號大部分是由標(biāo)點符號與字母組合而成的,如“:D”表示笑臉等。對于表情符號,通過分析不同微博應(yīng)用平臺中表情符號的含義,通過機(jī)器學(xué)習(xí)等方法得到表情符號感情極性值Ee,并將這些值記錄在新建的情感詞典中;對于標(biāo)點符號,通過分析不同語態(tài),如感嘆句,疑問句,反問句等對感嘆號,問號等分析其對語句情感的影響作用λi。
假設(shè)文本初始情感極性值或傾向值為Ei,表情符號感情極性值Ee,標(biāo)點符號對語句情感的影響作用λi,那么考慮符號詞后的句子情感傾向值Ef為
Ef=(Ei+Ee)·λi
3.2.2 分析結(jié)構(gòu)確定中心情感詞
在文本句子分析中通過分析句子結(jié)構(gòu),特別是對長句的句間結(jié)構(gòu)分析,得到句子的中心情感詞,即表達(dá)句子情感的核心詞。核心詞根據(jù)依存句法中依存弧確定,當(dāng)一個詞不是句子中任何詞的從屬詞時,即該詞的依存弧入度為零時,即認(rèn)為該詞為句子的核心詞HED。
根據(jù)句子核心詞HED確定中心情感詞的一般步驟為
1) 根據(jù)句子核心詞HED,尋找HED下一個依存關(guān)系詞。
2) 判斷依存關(guān)系詞是否為形容詞或名詞,否則繼續(xù)步驟1)。
3) 根據(jù)情感詞典判定是否為情感詞,否則繼續(xù)步驟1),直到尋找到情感詞Wm。
4) 當(dāng)依存關(guān)系為獨立分句IC或依存分句DC時,將依存關(guān)系IC、DC的從屬詞作為分句的核心詞繼續(xù)步驟1),確定分句的情感詞Wh。
5) 根據(jù)分句間關(guān)系結(jié)構(gòu)詞確定主從句關(guān)系,根據(jù)主從句首連詞確定主從句的從屬關(guān)系,進(jìn)而確定從句相對主句的情感相對傾向度比重λh。
那么考慮主從句關(guān)系,整個句子的情感極性值Eh為
Eh=E(W1)+E(W2)·λ2h+…+E(Wi)·λih
E(W1)、E(Wi)分別為以主句和第i個從句以W1和Wi為中心情感詞計算的情感傾向值,λh為主從句情感傾向比重,中文語系中主從句的8種基本關(guān)系[12]的情感相對比重,按照平鋪陳述句的情感比重為1,依據(jù)層次分析法按主從關(guān)系的相對情感比較,從而得到8種基本關(guān)系情感比重如表2所示。
表2 主從句關(guān)系及其情感比重
3.2.3 詞語語法距離的情感分析
詞語的語法距離主要研究在依存句法分析背景下,這種距離是區(qū)別于常規(guī)的詞語間字?jǐn)?shù)長度距離的,主要考慮樹中兩個詞先后檢索到達(dá)的順序差絕對值。這里重點研究副詞針對中心情感詞的語法距離,對于不同類型的依存結(jié)構(gòu)關(guān)系賦予不同的語法距離,例如對于“的”字結(jié)構(gòu)DE關(guān)系,由于“的”字在ADV結(jié)構(gòu)中可忽略,其語法距離為0,獨立分句IC關(guān)系其分句中詞語情感主要基于分句中心情感詞分析,其距離為無窮大。通過對不同依存關(guān)系分析,關(guān)系對應(yīng)的語法距離如表3所示。
表3 依存關(guān)系的語法距離
根據(jù)依存關(guān)系分析樹結(jié)構(gòu),句中兩個詞有且僅有一條可達(dá)路徑,那么計算句子中某個詞與中心情感詞的語法距離方法為
其中,n為可達(dá)路徑中依存弧(關(guān)系)的個數(shù),di為第i個依存關(guān)系對應(yīng)的語法距離。那么假設(shè)原句情感極性值為E0,考慮影響情感權(quán)重λi的程度副詞的語法距離,否定副詞在ADV關(guān)系對象前取負(fù),語法距離越遠(yuǎn)對中心情感詞的影響越小,可以分析得到句子情感極性值Ed為
按照上述方法對句子S1“他很不友好”和句子S2“他不很友好”兩個句子進(jìn)行分析對比如表4所示。
表4 分析對比表
假設(shè)否定詞“不”為情感極性值取負(fù),程度副詞“很”為情感極性值乘1.25,中心情感詞“友好”的情感極性值為1,那么得到兩個句子的情感極性值為
可以看出:分析結(jié)果符合實際句意表達(dá),S1較S2的負(fù)向情感更加重,可以發(fā)現(xiàn)考慮語法距離的句子情感極性值計算方法是科學(xué)有效的。
4.1 實驗數(shù)據(jù)及指標(biāo)
為了測試本文改進(jìn)算法的情感分析效果及其改進(jìn)程度,本文采用新浪微博中隨機(jī)抽取的1000篇微博,大部分通過網(wǎng)絡(luò)爬蟲獲取,部分通過手動獲取。情感詞典采用Hownet,并在結(jié)構(gòu)分析中提取標(biāo)點符號和結(jié)構(gòu)連詞,采用準(zhǔn)確率(Precision)、召回率(Recall)和微F測度(F-Score)作為評價指標(biāo),準(zhǔn)確率用于評價信息檢索、分類算法等的效果,召回率反應(yīng)算法的查全率,微F測度反應(yīng)了算法的綜合效果。
對于三個不同指標(biāo),還考慮對于正面和負(fù)面兩種類型情感極性值文本及其平均值。如果微博文本的情感傾向性值大于0,則該短文本為正文本;如果短文本的情感傾向性值小于0,則該短文本為負(fù)文本;如果短文本的情感傾向性值等于0,則該短文本為中性文本。設(shè)數(shù)據(jù)集中的正文本個數(shù)為NP,負(fù)文本個數(shù)為NN,分類中的正文本正確個數(shù)為nP,負(fù)文本正確個數(shù)為nN則準(zhǔn)確率計算如下:負(fù)文本準(zhǔn)確率:PN=nN/NN,正文本準(zhǔn)確率:PP=nP/NP,平均準(zhǔn)確率:PA=nP+nN/(NP+NN)。同樣可得到召回率的正負(fù)文本值和平均值。那么微F測度計算公式為:F=2*P*R/(P+R)。
4.2 實驗結(jié)果
采用本文改進(jìn)依存句法分析算法A2對1000篇微博進(jìn)行情感分析,對比文獻(xiàn)[13]的一般依存句法分析算法A1,針對不同篇幅微博采用兩種方法進(jìn)行情感分析對比,篇長70字以下的結(jié)果如表5所示。
表5 短篇微博情感分析試驗對比
對于篇長70字到140字的中長篇幅微博文本進(jìn)行情感分析結(jié)果如表6所示。
表6 長篇微博情感分析試驗對比
通過不同篇幅文本微博的兩種情感分析方法對比,可以得到以下結(jié)論: 1) 改進(jìn)依存句法分析算法在準(zhǔn)確率、召回率和微F測度上較一般算法均有所改進(jìn); 2) 對于字?jǐn)?shù)少于70字的短篇微博,改進(jìn)算法A2具有更好情感分析效果。
微博已經(jīng)逐漸成為社會輿情重要關(guān)注對象,研究微博情感傾向具有重要意義,但由于微博文本的語法結(jié)構(gòu)不規(guī)范和表達(dá)方式多樣化特點,全面有效的微博文本情感分析難度較大。本文為了分析微博情感,針對當(dāng)前依存句法分析缺陷,對依存句法分析算法進(jìn)行改進(jìn),引入表情標(biāo)點等符號詞的感情極性分析,采用基于中心情感詞的語法距離分析詞語情感極性方法,通過實例發(fā)現(xiàn)較一般依存句法分析效果提高,特別對短篇微博改進(jìn)效果更加明顯。
[1] 平亮,宗利永.基于社會網(wǎng)絡(luò)中心性分析的微博信息傳播研究[J].圖書情報知識,2010(6):92-97. PING Liang, ZONG Liyong. Based on the analysis of the social network centricity weibo information dissemination study[J]. Journal of book intelligence knowledge,2010(6):92-97.
[2] 中國互聯(lián)網(wǎng)信息中心.第二十五次中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計報告[R].中國互聯(lián)網(wǎng)統(tǒng)計報告,2010(1):1-10. China Internet network information center. 25 times China Internet development statistics report[R]. China’s Internet statistics report,2010(1):1-10.
[3] 賈焰,劉江寧,周斌.微博的輿情特點及其謠言治理[J].行政管理改革,2012(6):37-41. JIA Yan, LIU Jiangning, ZHOU Bin. Microblogging public opinion characteristics and rumors governance[J]. Journal of administrative reform,2012(6):37-41.
[4] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報,2010,21(8):1834-1848. ZHAO Yanyan, QIN Bing, LIU Ting. Text sentiment analysis[J]. Journal of software,2010,21(8):1834-1848.
[5] Bo Pang, Lillian lee. Thumbs up: Sentiment Classification Using Machine Learning Techniques. EMNLP’02, July 6-7, Philadelphia, USA,2002:22-240.
[6] 魏韡,向陽,陳千.中文文本情感分析綜述[J].計算機(jī)應(yīng)用,2011,31(12):3321-3323. WEI Wei, XIANG Yang, CHEN Qian. Chinese text sentiment analysis review[J]. Journal of computer applications,2011,31(12):3321-3323.
[7] 宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學(xué)出版社,2008:125-126. ZONG Chengqing. Statistical natural language processing[M]. Beijing: Tsinghua university press,2008:125-126.
[8] 鄭曉剛,韓立新,白書奎,等.一種組合型中文分詞方法[J].計算機(jī)應(yīng)用與軟件,2012(7):26-29. ZHENG Xiaogang, HAN Lixin, BAI Shukui, et al. A combination of Chinese word segmentation method[J]. Journal of computer applications and software,2012(7):26-29.
[9] 孫靜,李軍輝,周國棟.基于條件隨機(jī)場的無監(jiān)督中文詞性標(biāo)注[J].計算機(jī)應(yīng)用與軟件,2011(4):21-24. SUN Jing, LI Junhui, ZHOU Guodong. Unsupervised Chinese part-of-speech tagging based on conditional random field[J]. Journal of computer applications and software,2011(4):21-24.
[10] 王文然.基于依存句法分析的互聯(lián)網(wǎng)細(xì)粒度觀點挖掘研究[D].大連:東北財經(jīng)大學(xué),2011:43-44. WANG Wenran. Based on dependent fine-grained syntactic analysis of Internet opinion mining research[D]. Dalian: Northeast university of finance and economics,2011:43-44.
[11] 馬金山.基于統(tǒng)計方法的漢語依存句法分析研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2007:52-55. MA Jinshan. Chinese dependency based on statistical method of syntax analysis[D]. Harbin: Harbin institute of technology library,2007:52-55.
[12] 宋京生.漢英從屬連詞比較[J].四川外語學(xué)院學(xué)報,2001(5):63-66. SONG Jingsheng. Chinese-english subordinate conjunction comparison[J]. Journal of sichuan foreign language institute,2001(5):63-66.
[13] 馮時,付永陳,陽鋒,等.基于依存句法的博文情感傾向分析研究[J].計算機(jī)研究與發(fā)展,2012(11):2395-2406. FENG Shi, FU Yongchen, YANG Feng, et al. Based on the analysis of interdependence syntactic post emotional tendency study[J]. Journal of computer research and development,2012(11):2395-2406.
Micro-blog Sentiment Analysis Based on Improved Dependency Parsing
LI Xuehong1GUO Hui2YAN Hongtao2
(1. Military Training Division. Dalian Naval Academy, Dalian 116000) (2. College of Electronics Engineering, Naval University of Engineering, Wuhan 430033)
Micro-blog sentiment orientation analysis’s important signification is analyzed firstly. Then a new improved dependency parsing is proposed to analyze micro-blog sentiment orientation on the base of analyzing the peculiarity of micro-blog texts. This improved algorithm includes the sentiment orientation analysis of emoticons and punctuation, and analyze sentiment orientation based on the distance to the kernel emotional words in syntax structure. Experimentations show the algorithm has good applicability and robustness.
sentiment orientation analysis, dependency parsing, kernel emotional words, Micro-blog
2016年9月3日,
2016年10月28日
李雪紅,女,碩士,副教授,研究方向:計算機(jī)應(yīng)用技術(shù)。郭暉,女,碩士,講師,研究方向:軟件工程,計算機(jī)應(yīng)用技術(shù)。閆泓濤,女,研究方向:計算機(jī)技術(shù),通信技術(shù)。
TP309.7
10.3969/j.issn.1672-9722.2017.03.021