王彬菁
摘要:隨著移動互聯(lián)技術(shù)的發(fā)展,微博作為一種新媒體形式日益成為國內(nèi)主流的移動社交媒體平臺。微博包含海量的信息數(shù)據(jù)且數(shù)據(jù)種類多樣,即有文檔文本數(shù)據(jù),也有圖片、表情符號、視頻動畫等非結(jié)構(gòu)化的數(shù)據(jù)。因此,對各政府部門和企業(yè)單位的網(wǎng)絡(luò)輿情監(jiān)管提出了艱巨的挑戰(zhàn),有關(guān)中文微博文本的情感分析的研究也成為近幾年數(shù)據(jù)挖掘領(lǐng)域的關(guān)注方向之一,情感分析研究主要圍繞著信息的抽取和情感傾向的判定,均離不開對微博文本的分詞工作。本文提出了一種基于依存句法樹的情感分析方法。根據(jù)不同的詞匯間的依存關(guān)系,制定了相應(yīng)的情感短語削減規(guī)則。通過分析不同程度詞和否定詞對情感詞的修飾和組合關(guān)系,制定了不同的匯聚規(guī)則。使用LTP-Cloud(語言技術(shù)平臺云)進(jìn)行句法分析,構(gòu)建依存句法樹,通過對句法樹的后序遍歷逐步匯聚情感向量。使用了為情感值取絕對值的情感判別方法,得到最終的情感類別。
關(guān)鍵詞:微博文本;依存句法樹方法;情感分析;LTP-Cloud(語言技術(shù)平臺云)
中圖分類號:G642? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)24-0013-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
近些年,隨著移動互聯(lián)技術(shù)的迅猛發(fā)展和日益成熟,移動互聯(lián)技術(shù)已然進(jìn)入社會大眾的生活,并且逐漸改變著我們的消費(fèi)方式、溝通交往方式;其中,微博作為一種成熟的新媒體形式已經(jīng)成為國內(nèi)最大的移動社交媒體平臺。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)最新發(fā)布的第41次《中國互聯(lián)網(wǎng)發(fā)展情況統(tǒng)計報告》顯示,截至2017年12月底,中國網(wǎng)民規(guī)模已經(jīng)達(dá)到7.72億,這其中手機(jī)用戶的占比為97.5%,手機(jī)成為網(wǎng)民上網(wǎng)的主要終端設(shè)備[1]。這些網(wǎng)民獲得信息的方式又主要通過微博,微信,各類手機(jī)APP,移動社會化的傳播格局逐步形成,微博作為承載信息發(fā)布,互動交流功能的社交媒體平臺已經(jīng)被社會大眾所熟知和使用。據(jù)《2017年微博用戶發(fā)展報告》顯示,截至2017年9月,微博月活躍人數(shù)共計3.97億,日活躍1.65億,[1]用戶的使用習(xí)慣趨向移動化,微博討論方式碎片化,強(qiáng)調(diào)高社交粘性的互動方式,這些特性吸引著年輕群體,他們在微博上表達(dá)帶有個人喜好的觀點(diǎn)和看法,對網(wǎng)絡(luò)輿論的傳播具有重大影響。所以,微博應(yīng)該成為各級政府機(jī)構(gòu)和企業(yè)關(guān)注的輿論陣地,積極引導(dǎo)正面輿論,及時監(jiān)控不良的輿論導(dǎo)向。
微博文本主要使用文本形式傳播信息,其中也包含其他非結(jié)構(gòu)化的數(shù)據(jù),比如種類繁多的網(wǎng)絡(luò)表情符號、各式各樣的圖片、視頻、音頻。這些都為文本詞匯信息的提取增加了難度。微博平臺提供的API可以方便微博語料的獲取。另外,谷歌公司開發(fā)的Word2vec也可以將微博文本快速轉(zhuǎn)化為計算機(jī)可以識別的數(shù)據(jù),作為一種機(jī)器學(xué)習(xí)方法,他可以在深度學(xué)習(xí)算法應(yīng)用以前對語料進(jìn)行預(yù)處理,將語料自動加載到模型中,通過設(shè)定相關(guān)參數(shù),模型算法會將其訓(xùn)練成對應(yīng)的詞向量,通常使用在文本詞性分析、聚類和查找同義詞等方面,為微博文本的情感分析提供了便捷的處理手段。[2]通過查閱文獻(xiàn)可知,關(guān)于微博文本的情感分析的研究已經(jīng)成為近幾年數(shù)據(jù)挖掘領(lǐng)域的主要研究方向。目前,情感分析研究主要圍繞著信息的抽取和情感傾向的判定,完成這兩項工作必須對微博文本中的數(shù)據(jù)信息進(jìn)行預(yù)處理,包括分詞處理;網(wǎng)絡(luò)表情符號識;詞匯的情感分類匯聚以及情感判定。
1 LTP-Cloud(語言技術(shù)平臺云)
數(shù)據(jù)挖掘算法雖然在情感判定方面提供了一些方法,但其應(yīng)用語境依然以英文語境為主,有關(guān)于中文語境環(huán)境下的研究較少,因為中文微博文本所處的中文語言結(jié)構(gòu)復(fù)雜,語義表達(dá)多樣,且微博用戶趨于年輕化,文本包含的網(wǎng)絡(luò)用語居多,所以中文微博文本的情感詞的分類和判定方法帶有自身的特點(diǎn)與難點(diǎn)。另外,目前針對中文微博的情感分析的研究集中在情感傾向性分析領(lǐng)域,在細(xì)致情感分類方面尚處于起步階段。因其具有一定的學(xué)術(shù)研究價值和網(wǎng)絡(luò)應(yīng)用價值,也吸引了國內(nèi)外專家、學(xué)者的關(guān)注。針對中文微博文本“短”的特點(diǎn),本文提出了構(gòu)建依存句法樹的方法,對文本的情感類別進(jìn)一步地細(xì)致分類。哈工大訊飛語言云是由哈工大和科大訊飛聯(lián)合研發(fā)的中文自然語言處理云服務(wù)平臺。LTP-Cloud可以實(shí)現(xiàn)分詞、詞性標(biāo)注、命名實(shí)體識別、依存句法分析和語義角色標(biāo)注五項功能。下面詳細(xì)介紹本文用到的分詞、詞性標(biāo)注和依存句法分析三項功能。依存語法(Dependency Parsing,DP)立足于詞性標(biāo)注,通過分析不同詞性組合,制定相應(yīng)規(guī)則,將句子從線性詞串變?yōu)榫哂袑哟谓Y(jié)構(gòu)的樹。針對不同的詞性組合,可以綜合得到不同的依存句法類別,而依存句法在語義角色分析時有著很重要的作用。如劉俊使用依存句法分析了漢語復(fù)句內(nèi)各個分句的相似度,取得了很好的效果。[3]例如句子“我愛北京天安門?!钡囊来婢浞ǚ治鼋Y(jié)果如圖1所示:
分析結(jié)果顯示,句子的核心是謂語“愛”,“愛”和“我”是主謂關(guān)系,即“我”是“愛”的主語,“愛”和“天安門”是動賓關(guān)系?!疤彀查T”是“愛”的賓語?!疤彀查T”和“北京”是定中關(guān)系,“北京”用來修飾限定“天安門”。從分析結(jié)果可知,依存句法分析能夠揭示句子中不同詞語之間的依存關(guān)系,更好地理解語義。例如,雖然“北京”緊鄰“愛”之后,但是“愛”的賓語不是“北京”而是“天安門”。
2 依存句法匯聚規(guī)則
根據(jù)哈工大LTP定義,依存句法的標(biāo)注有14種,考慮在匯聚時修飾詞和情感詞之間,或者修飾詞和修飾詞之間的匯聚規(guī)則,其中修飾詞包含了程度詞和否定詞。本文針對修飾短語提出了以下匯聚規(guī)則。
(1)否定詞修飾情感詞
否定詞修飾情感詞會改變情感傾向,如“不喜歡”這個短語中,“不”作為否定詞修飾“喜歡”。在此類關(guān)系匯聚時,因為否定詞的出現(xiàn)僅僅是修飾情感詞,自身不攜帶情感,因此不存在層級和削減的問題。本文針對此類情況,將否定詞的否定修飾附加到被修飾的情感詞傾向上,即改變情感詞的傾向,比如由“喜歡”改為“厭惡”。
(2)程度詞修飾情感詞
程度詞修飾情感詞會改變情感強(qiáng)度,如“非常喜歡”這個短語中,“非常”作為程度詞修飾“喜歡”。在此類關(guān)系匯聚時,因為程度詞的出現(xiàn)僅僅是修飾情感詞,自身不攜帶情感,因此不存在層級和削減的問題。本文針對此類情況,將程度詞的強(qiáng)度修飾附加到被修飾的情感詞傾向上,即改變情感詞的強(qiáng)度,比如由等級為1的“喜歡”改為等級為2的“喜歡”。
(3)否定詞修飾否定詞
否定詞修飾否定詞即為雙重否定,一般情況下不影響原來的情感傾向,對于情感程度的影響需要具體分析依存關(guān)系。如“不是不喜歡”中,第一個“不”作為否定詞修飾了“是”,后面的“不喜歡”和“是”是動賓關(guān)系。在這個樣例中,“不喜歡”自身是一個“厭惡”的情感短語,在動賓關(guān)系向上匯聚時會有一定的削減,而第一個“不”是對“是”的直接修飾,是在削減之后的否定修飾。最終,由于否定不會削減,而程度在匯聚時被削減,那么“不是不喜歡”最終的情感類別仍然是“喜歡”,但強(qiáng)度相比于“喜歡”有所降低。此處的例子其實(shí)不是嚴(yán)格的否定修飾否定的例子,而是否定修飾情感詞作為情感短語削減后再次被否定詞修飾的例子。
(4)否定詞修飾程度詞
否定詞修飾程度詞相當(dāng)于對程度的否定,而非情感的否定,因此否定詞修飾后,最終情感傾向未變,但是程度有所降低。如“不很喜歡”中,“不”修飾了“很”,然后才是“很”修飾“喜歡”?!昂堋弊鳛槌潭仍~表現(xiàn)了一種情感等級的加強(qiáng),但是“不”作為否定詞對“很”這個程度詞的否定使得最終的強(qiáng)度有一定的削減?!安缓芟矚g”這個情感短語仍然表現(xiàn)了“喜歡”這種情感類別,但是在強(qiáng)度上強(qiáng)于“喜歡”這個情感詞,弱于“很喜歡”這個情感短語。因為漢語表達(dá)的復(fù)雜性,對于這種修飾的疊加需要根據(jù)不同的依存句法不同分析。如“不是很喜歡”這個短語和“不很喜歡”就不一樣?!安皇呛芟矚g”和上面“不是不喜歡”是同類型的結(jié)構(gòu)。“不是很喜歡”這個短語相當(dāng)于程度詞修飾情感詞作為情感短語削減后被否定詞修飾,在情感類別上是“厭惡”,其強(qiáng)度和“不喜歡”相比孰高孰低取決于“很”這個程度詞對“喜歡”在程度上的加強(qiáng)和動賓關(guān)系在匯聚時對程度上的削弱孰重孰輕。
(5)程度詞修飾否定詞
程度詞修飾否定詞相當(dāng)于給否定加個強(qiáng)度,因為否定本身無強(qiáng)度可言,最終的強(qiáng)度會隨否定詞一起攜帶到情感詞上。如“很不喜歡”中,“很”修飾“不”,然后才是“不”修飾“喜歡”。在漢語表達(dá)習(xí)慣中,“很”對于“不”的修飾通常被附加到情感詞“喜歡”上。因此,“很不喜歡”在情感類別上是“厭惡”,在強(qiáng)度上比“不喜歡”更強(qiáng),和“很喜歡”強(qiáng)度一致。
(6)程度詞修飾程度詞
程度詞修飾程度相當(dāng)于程度的疊加。通常情況下,人們不使用這種不太合乎語法規(guī)則的表達(dá)方式。在微博語料中,此類表達(dá)方式多用于表現(xiàn)強(qiáng)烈情感。如“非常極其喜歡”中,“非?!毙揎棥皹O其”,然后是“極其”修飾“喜歡”。對于此類的表述,其情感強(qiáng)度相比于“非常喜歡”和“極其喜歡”都要強(qiáng)一些,甚至比兩個情感短語的并列相加的情感還要強(qiáng)。因此,在處理中,此類表述不僅僅是“非常喜歡”和“極其喜歡”強(qiáng)度的相加,更傾向于相乘之類的疊加處理。在具體問題中,要綜合考慮程度詞強(qiáng)度標(biāo)注值與匯聚削減程度兩個系數(shù)綜合決定。
3 微博文本情感詞分類過程
針對每條微博樣例,首先要構(gòu)建LTP-Cloud所需的字段,發(fā)起請求,得到依存句法關(guān)系。下面舉例說明。使用“我今天很不高興?!边@個簡單的例子進(jìn)行分析。將這句文本作為待分析內(nèi)容,向LTP-Cloud發(fā)送請求后得到結(jié)果如圖2所示的。
觀察圖2可知,經(jīng)過LTP-Cloud分析,“我今天很不高興”這句話被分詞,標(biāo)注了詞性,而且標(biāo)注了不同詞之間的依存句法關(guān)系。整個圖顯示為一種樹狀結(jié)構(gòu)。虛擬節(jié)點(diǎn)“Root”作為樹的根,其孩子節(jié)點(diǎn)為“高興”,它們之間的修飾關(guān)系是核心關(guān)系?!案吲d”有四個孩子節(jié)點(diǎn),分別是“我”“今天”“不”和“。”,它們之間的修飾關(guān)系分別是主謂關(guān)系,狀中關(guān)系,狀中關(guān)系和標(biāo)點(diǎn)符號。在這四個孩子節(jié)點(diǎn)中,除“不”以外,其他都是葉子節(jié)點(diǎn)?!安弧庇幸粋€孩子節(jié)點(diǎn)“很”,它們之間的修飾關(guān)系是狀中關(guān)系。“很”是葉子節(jié)點(diǎn),整個樹分析結(jié)束。
LTP-Cloud提供如上所示的樹狀分析結(jié)果的同時,也提供了xml形式的分析結(jié)果。xml分析結(jié)果如下所示:
<?xml version="1.0" encoding="utf-8" ?>
在xml形式的分析結(jié)果中,給出了和樹狀圖一樣的信息,只是形式不同而已。其中,每一個“word”節(jié)點(diǎn)均給出了當(dāng)前詞的序號,內(nèi)容,詞性,父節(jié)點(diǎn),與父節(jié)點(diǎn)關(guān)系。如第一個“word”節(jié)點(diǎn)中,當(dāng)前詞id為“0”,內(nèi)容為“我”,詞性為“r”表示代詞,父節(jié)點(diǎn)為“4”,即id為“4”的節(jié)點(diǎn)“高興”,與父節(jié)點(diǎn)關(guān)系為“SBV”,即主謂關(guān)系。xml分析結(jié)果中的三個“arg”節(jié)點(diǎn)是語義角色標(biāo)注的內(nèi)容,與本文分析無關(guān),不予考慮。
4 構(gòu)建依存句法樹
LTP-Cloud在提供界面演示樣例的同時,也提供了通過API調(diào)用的形式。本節(jié)使用API調(diào)用,選擇返回格式為PLAIN,構(gòu)建句法樹用于進(jìn)行自下而上的情感匯聚。
API調(diào)用LTP-Cloud后,返回的PLAIN格式的分析結(jié)果為:
我_0 高興_4 SBV
今天_1 高興_4 ADV
很_2 不_3 ADV
不_3 高興_4 ADV
高興_4 -1 HED
。_5 高興_4 WP
這6組數(shù)據(jù)代表了文本“我今天很不高興?!敝械乃幸来骊P(guān)系及其相關(guān)詞語和序號。本文構(gòu)建如圖3所示的數(shù)據(jù)結(jié)構(gòu)完成以樹狀結(jié)構(gòu)存儲上述信息的任務(wù)。
在圖3中,整體的數(shù)據(jù)結(jié)構(gòu)是一個哈希表。在對依存關(guān)系依次讀取時,逐步完成哈希表的構(gòu)建。下面舉例說明依存關(guān)系句法樹構(gòu)建過程。
5 結(jié)束語
微博文本的情感分析作為數(shù)據(jù)挖掘的研究熱門領(lǐng)域,隨著微博使用人數(shù)的增長,和網(wǎng)絡(luò)輿論監(jiān)管力度不斷加深,目前針對中文微博的情感分析的研究主要集中于傾向性分析領(lǐng)域,在細(xì)致情感分類方面尚處于起步階段。因其具有一定的學(xué)術(shù)研究價值和網(wǎng)絡(luò)應(yīng)用價值,也吸引了國內(nèi)外專家、學(xué)者的關(guān)注。針對中文微博文本“短”的特點(diǎn),本文提出了構(gòu)建依存句法樹的方法,對文本的情感類別進(jìn)行了近一步地細(xì)致分類。
參考文獻(xiàn):
[1]http://www.xinhuanet.com/newmedia.
[2]袁婷婷,楊文忠,仲麗君,等.一種基于性格的微博情感分析模型PLSTM[J/OL].計算機(jī)應(yīng)用研究:1-6[2019-01-04].
[3]來火堯,劉功申 . 基于主題相關(guān)性分析的文本傾向性研究[J]. 信息安全與通信保密, 2009(3):77-78.
[4]李小龍.基于統(tǒng)計的分詞系統(tǒng)字典模型研究[J].湖北工業(yè)大學(xué)學(xué)報,2010,25(05):71-73+79.
[5]劉鋼. 基于文本情感分析的企業(yè)輿情監(jiān)測方法研究[D].大連海事大學(xué),2018.
[6] Yu Hong. Towards answering opinion questions: separating facts from opinions and identifying the polarity of opinion sentences [J]. Pediatrics, 2003, 116(3):58-59.
【通聯(lián)編輯:王力】