国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感分布的微博熱點事件發(fā)現(xiàn)

2012-10-15 01:51林鴻飛
中文信息學(xué)報 2012年1期
關(guān)鍵詞:語料時段熱點

楊 亮,林 原,林鴻飛

(大連理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,遼寧 大連116024)

1 引言

隨著Web2.0的發(fā)展,人的參與性不斷提高,網(wǎng)絡(luò)的使用方式發(fā)生了改變,人們不再是被動的從網(wǎng)絡(luò)獲取知識,而是通過網(wǎng)絡(luò)主動地表達自己的觀點或?qū)ζ渌嘶蚴录膽B(tài)度,微博通過簡短的140字更新信息,并實現(xiàn)多工具即時分享,使其成為互聯(lián)網(wǎng)上一種新的重要媒體。微博的出現(xiàn),使信息在微博中呈現(xiàn)出碎片化、即時化和移動化的特性,而不再是具有完整的上下文信息,通過微博自由、便捷、即時地抒發(fā)自己的情感,已成為互聯(lián)網(wǎng)上的時尚,同時也使得其成為熱點事件產(chǎn)生和談?wù)摰闹匾獔鏊?,其中熱點事件指某一時間內(nèi)被廣泛關(guān)注、爭論、議論的事件、話題或者信息,因此對微博平臺中熱點事件的發(fā)現(xiàn)、監(jiān)控及管理等方面的研究工作也就越發(fā)顯得重要了。

目前國內(nèi)微博的研究正處于起步階段,不少研究問題在該領(lǐng)域中亟待解決?,F(xiàn)今,熱點事件的發(fā)現(xiàn)、監(jiān)控及管理正成為微博宏大信息流中的重要研究領(lǐng)域,當(dāng)某一熱點事件在微博平臺中出現(xiàn)時,人們通過微博來表達自身對該熱點事件的觀點或態(tài)度,用戶群體的情感分布發(fā)生變化,從微博內(nèi)容方面表現(xiàn)為情感詞出現(xiàn)的幾率上升,這種現(xiàn)象為本文的研究工作提供了重要的依據(jù)。近年來,基于語言模型的地理信息檢索[1],也在逐步引起許多研究人士的注意,本文依據(jù)情感詞分布情況構(gòu)建語言模型,對平臺中用戶群體情感變化進行了分析,首次提出了情感分布語言模型(Emotion Distribution Language Model,以下簡稱ELM),用于微博平臺中發(fā)現(xiàn)熱點事件。

根據(jù)文獻[2],當(dāng)熱點事件出現(xiàn)時微博中情感詞數(shù)量增多。具體表現(xiàn)為微博用戶群體的情感波動,因此當(dāng)相鄰時段的情感分布存在差異時,往往伴有熱點事件的出現(xiàn)。本文利用以上結(jié)論,通過分析相鄰時段情感分布語言模型ELM間的差異,實現(xiàn)對熱點事件的發(fā)現(xiàn)。

本文的組織結(jié)構(gòu)如下:第1節(jié)介紹論文的研究背景和意義;第2節(jié)介紹一些相關(guān)工作;第3節(jié)介紹情感詞匯本體構(gòu)建技術(shù)和情感分布語言模型ELM;第4節(jié)是實驗流程的介紹及實驗結(jié)果分析;最后,在第5節(jié)中對研究工作進行總結(jié),同時提出了下一步的研究方向。

2 相關(guān)工作

2.1 微博領(lǐng)域的研究及趨勢

目前國外研究方面,H.Kwak等[3]對 Twitter是一種社會網(wǎng)絡(luò)還是新媒體進行了分析。J.Weng等[4]提出了一種TwitterRank思想,在有影響力的Twitter發(fā)布者中尋找敏感話題。A.D.Sarma[5]對類似Twitter的論壇在其排序機制方面進行了研究。現(xiàn)今國外對微博的研究重點在Ranking方面,從時空角度對微博平臺中談?wù)摰氖录l(fā)現(xiàn)、跟蹤和還原正成為微博研究的又一個聚焦點。國內(nèi)的研究主要有沈陽等[6-7]對微博的宏大信息流及其蘊含的情感進行分析。

2.1 話題跟蹤檢測

話題跟蹤檢測[8]的技術(shù)被廣泛運用到熱點事件發(fā)現(xiàn)中,話題跟蹤檢測與信息檢索、文本挖掘、信息抽取等交叉學(xué)科相比更側(cè)重對新信息的發(fā)現(xiàn),其關(guān)注某一特定話題而不是廣泛的各類主題信息[9]。

在傳統(tǒng)的話題跟蹤檢測中,主要從事實中檢測和追蹤事件,多是依據(jù)不同的事件做聚類,很少將情感分析用于話題跟蹤檢測中;而微博中的信息多呈現(xiàn)出碎片化、即時性、移動性等特性,且微博內(nèi)容大多為用戶對自身情感的抒發(fā),微博中情感詞所占比重相比于傳統(tǒng)文本信息要大,故傳統(tǒng)的話題跟蹤檢測技術(shù)不適用于在微博中發(fā)現(xiàn)熱點事件。

時達明、林鴻飛[10]提出了一種基于評論與話題相關(guān)度的方法,通過對評論內(nèi)容進行情感分析來發(fā)現(xiàn)Blog中的熱點話題。L.Ku等[11]提出了一種方法用于反映大眾觀點在某時刻的變化。該方法通過獲取觀點信息反映社會群體在總統(tǒng)選舉過程中對各候選人的情感變化。Cuneyt Gurcan Akcora等[2]提出了一種通過Emotion Centroid(EC)及Set Space Model(SSM)的方法來發(fā)現(xiàn)Twitter中的輿情。以上研究從不同領(lǐng)域?qū)κ录蜉浨檫M行發(fā)現(xiàn),為本文結(jié)合微博特點提出情感分布語言模型ELM從微博平臺中發(fā)現(xiàn)熱點事件做出了重要貢獻。

2.3 情感分析

目前情感分析在許多領(lǐng)域被廣泛的應(yīng)用,企業(yè)可以從網(wǎng)絡(luò)上的信息獲取用戶建議和反饋意見,網(wǎng)絡(luò)信息安全和垃圾過濾也已得到了國內(nèi)外的廣泛關(guān)注。目前文本傾向性的主要工作是基于人工標(biāo)注語料庫,利用相關(guān)機器學(xué)習(xí)算法,分析詞語、句子、篇章的傾向性[11]。由于微博簡短的特點,每條微博類似文章中的句子,故句子級的情感傾向性分析為本文研究提供了一定的基礎(chǔ)。Pang[13-14]等利用人工標(biāo)注訓(xùn)練語料,采用貝葉斯、最大熵等方法分析電影評論傾向性。Liu[15]等從用戶評價中挖掘用戶的觀點。這些都為本文對微博的情感波動分析提供了重要依據(jù)。

3 關(guān)鍵技術(shù)

本文主要是通過分析微博平臺中微博所含的情感詞,對微博中的文本信息進行研究。主要工作分為以下三步:

第一步:識別微博中情感詞,并構(gòu)建情感詞匯本體庫。微博中情感詞的發(fā)現(xiàn)是建立情感分布語言模型的基礎(chǔ),對于微博中的情感詞,通常分為兩類,一類是通常情況下的情感詞,如喜歡、心疼等,另一類為在微博等網(wǎng)絡(luò)平臺中被用于情感詞的詞語,如稀飯(喜歡)、走召弓雖(超強)、果醬(過獎)等。本文通過大連理工大學(xué)情感詞匯本體(以下簡稱DUTIR情感詞匯本體)結(jié)合網(wǎng)絡(luò)平臺中常用的情感詞實現(xiàn)對微博中情感詞匯的獲取。

第二步:情感分布語言模型的提出及建立。當(dāng)熱點事件出現(xiàn)時,情感出現(xiàn)波動是微博用戶的直接反映,在微博中表現(xiàn)為情感詞增多,造成情感詞的分布發(fā)生變化。本文從情感詞的分布角度出發(fā),將每個時段全部微博對應(yīng)為語言模型中的文章d,每條微博對應(yīng)為文章d中的一個句子s,通過微博中情感詞的概率分布變化反映情感波動。通過對各個時段建立情感分布語言模型ELM,對比相鄰時段間ELM的差異來發(fā)現(xiàn)熱點事件。

第三步:對Cuneyt Gurcan Akcora等[2]提出的Emotion Centroid(EC)、Set Space Model(SSM)等方法進行重現(xiàn),實現(xiàn)在微博平臺中發(fā)現(xiàn)熱點事件。

3.1 情感詞匯本體構(gòu)建技術(shù)

本文使用的外部資源由大連理工大學(xué)信息檢索實驗室情感詞匯本體[16]結(jié)合網(wǎng)絡(luò)平臺中常用的網(wǎng)絡(luò)情感詞匯,如稀飯(喜歡)、辣雞(垃圾)等構(gòu)成,以下簡稱為DUTIR情感本體庫,該情感本體庫將情感分為6大類。

對于通用情感詞的獲取,本文首先采用通過計算詞匯w與DUTIR情感詞匯本體中的標(biāo)準(zhǔn)詞匯的互信息方法進行獲取,計算公式如下:

其中Sui表示第u類情感的第i個詞,P(w)表示詞w出現(xiàn)的概率,P(Sui)表示第u類第i個情感詞出現(xiàn)的概率,P(w,Sui)表示詞w與第u類情感的第i個標(biāo)準(zhǔn)詞一起出現(xiàn)的概率。

然后結(jié)合情感詞匯的規(guī)律,如詞性規(guī)律、否定詞與程度副詞搭配規(guī)律、共現(xiàn)規(guī)律、上下文規(guī)律等,通過機器學(xué)習(xí)的方法進行自動獲取,再將兩步結(jié)果結(jié)合,實現(xiàn)DUTIR情感詞匯本體的擴充。本文考慮到微博短文本的特性,應(yīng)盡量利用其上下文信息并避免標(biāo)記偏見,故采用條件隨機域(Conditional Random Field,簡稱CRF)的方法進行自動獲?。?7]。

對于網(wǎng)絡(luò)平臺(主要包括天涯論壇、新浪博客等網(wǎng)絡(luò)平臺)中常用情感詞匯的獲取,本文通過網(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)下載并整理第二屆中文傾向性分析評測(COAE2009)任務(wù)語料得到18G網(wǎng)絡(luò)文本資源,經(jīng)分詞及去停用詞處理等預(yù)處理得到總詞表。首先利用DUTIR情感詞匯本體去除總詞表中通用情感詞,DUTIR情感詞匯本體格式如下:

情感詞匯本體通過一個三元組來描述:

Lexicon=(B,R,E)

其中B:表示詞匯的基本信息,主要包括編號、詞條、對應(yīng)英文、詞性、錄入者和版本信息。R代表詞匯之間的同義關(guān)系,即表示該詞匯與哪些詞匯有同義的關(guān)系。E代表詞匯的情感信息,包括情感類別、情感強度、情感極性,是情感詞匯描述框架中比較重要的一部分。

再利用大連理工大學(xué)情感常識庫[18](以下簡稱情感常識庫),對余下詞語中含常識、隱喻等情感信息的部分進行抽取并結(jié)合部分網(wǎng)絡(luò)常用情感詞匯,最終得到DUTIR情感本體庫,情感常識庫的格式如下:

(“emotion”“subject”“passive,attention”“conditions”)

emotion表示該條常識的情感,通常用大連理工大學(xué)情感詞匯本體定義的20個小類的情感代碼[16]表示或者賦值為“-1、1”,其中“1”表示積極情感類,“-1”表示消極情感類。subject表示情感持有者。passive表示被動標(biāo)志,取值包括“0、1”,其中“0”表示主動,“1”表示被動。attention表示常識部分,包括常識詞匯或短語。conditions表示條件說明,包括時間、方位等條件。

DUTIR情感本體庫基本知識主要來源于現(xiàn)有的一些詞典、語義網(wǎng)絡(luò)和常用網(wǎng)絡(luò)用語。其中詞典包括《現(xiàn)代漢語分類詞典》、《漢語褒貶義詞語用法詞典》、《漢語形容詞用法詞典》、《中華成語大詞典》、《漢語熟語詞典》、《新世紀漢語新詞詞典》。語義知識網(wǎng)絡(luò)有知網(wǎng)和WordNet。另外還加入了《漢語情感系統(tǒng)中情感劃分的研究》中的部分詞匯及大量網(wǎng)絡(luò)常用語中的網(wǎng)絡(luò)常用情感詞。因此,DUTIR情感本體庫不僅適用于微博的情感分析,而且還可用類似微博的網(wǎng)絡(luò)平臺,如Blog、論壇等的情感分析,有較強的適用范圍。

目前,DUTIR情感本體庫收錄情感詞匯共17 243個,為本文研究微博平臺中情感波動(即情感詞數(shù)量變化)提供了詞匯基礎(chǔ)和分析的依據(jù)。

3.2 情感分布語言模型

統(tǒng)計語言模型[19]產(chǎn)生于基于統(tǒng)計方法的自然語言處理系統(tǒng)研究中,統(tǒng)計語言模型就是表示語言的基本單位(詞、詞組、句子等)的分布函數(shù),它描述了該語言基于統(tǒng)計的生成規(guī)則。在語言模型中,文檔在文檔集中的排列通常取決于其與查詢的相關(guān)度,對于給定文檔D和查詢Q,我們通過計算查詢Q中詞在文檔D中的概率來實現(xiàn)文檔排序:

其中V為文檔集詞集合,qw為詞w 在查詢Q中出現(xiàn)的次數(shù)。

相對熵(亦稱KL距離)是評價語言模型性能的一項直觀指標(biāo),相對熵的差異表示所學(xué)習(xí)的模型與真實模型間的差異,當(dāng)兩個模型一致時,相對熵值為0,相對熵值差異越大表明,兩個模型間的差異越大,在測試集(即實驗語料)上的相對熵函數(shù)公式為:

其中P(w|Q)為詞出現(xiàn)在查詢Q中的概率,P(w|C)為詞w在整個文檔集中出現(xiàn)的概率。

在信息檢索中,根據(jù)“Bag of Words”的思想,對于文本集D中的每一個詞都是獨立的,不依賴于其他詞是否出現(xiàn),并且滿足某種分布,因此情感詞匯在微博平臺中也應(yīng)滿足某種分布。根據(jù)語言模型的思想,結(jié)合微博碎片性的特點,本文對測試集(實驗語料)中的微博做如下映射:每日收集的全部微博映射為語言模型中的文章d,故全部語料為文檔集D;每條微博映射為語言模型中的句子S,故微博中的每個詞即可視為語言模型中的詞w。通過某時段微博中情感詞概率變化可反映該時段微博集合d的情感波動?;谝陨纤枷耄疚奶岢銮楦蟹植颊Z言模型的方法,通過比較相鄰時段情感分布語言模型差異的方法來發(fā)現(xiàn)熱點事件。我們可以定義Tn時段的情感分布語言模型如下:

其中E為DUTIR情感本體庫,DTn為Tn時段的全部微博,P(t|C)為情感詞t在整個文檔集中出現(xiàn)的概率,qt為情感詞t在Tn時段中出現(xiàn)的次數(shù)。

考慮到微博簡短的特性,在一定程度上會造成情感詞的稀疏,故需要對實驗語料進行平滑處理。本文選用的平滑方法為Dirichlet平滑,其平滑公式如下:

其中Pμ(w|d)為詞w 平滑后的概率,c(w;d)為詞在文檔d中出現(xiàn)的次數(shù),p(w|C)為詞w在整個文檔集C中的概率。

相對熵是統(tǒng)計語言模型的一個重要的評價指標(biāo),因此我們通過計算相鄰時段Tn和Tn-1情感分布語言模型的相對熵來度量兩個模型間的差異,相對熵的差值越大,表明相鄰時段間情感分布語言模型的差異越大,這為發(fā)現(xiàn)潛在的熱點事件時段提供了重要的依據(jù)。具體的計算公式如下:

其中E為DUTIR情感本體庫,w為E中的一個情感詞,DTn為Tn時間間隔內(nèi)的微博客博文集合,P(t|DTn)情感詞w出現(xiàn)在Tn時刻的微博客博文中的概率。

根據(jù)文獻[2]的觀察結(jié)論,當(dāng)一個熱點事件出現(xiàn)時,該時段所發(fā)的微博含有情感詞數(shù)量增多,由于下時段該事件熱度降低,但仍可能被談?wù)?,故所用詞可能會存在部分重復(fù),因此對于Tn時段若其DKL滿足如下條件時,則認為該時段為潛在熱點事件發(fā)生時段。具體判斷條件如下:

對實驗語料采用Dirichlet方法平滑,μ取值分別為50,100,500,1 000,2 000進行實驗,當(dāng)取值為2 000時,實驗結(jié)果較好,故μ取值為2 000。隨后計算實驗語料中各個相鄰時段間的相對熵,并結(jié)合判別條件(7)、(8),對所有潛在熱點事件發(fā)生時段進行檢驗,從而發(fā)現(xiàn)該時段的熱點事件。

3.3 Emotion Centroid(EC)and Set Space Model(SSM)

3.3.1 Emotion Centroid(EC)

對于每一條微博客博文,利用DUTIR情感本體庫,將情感分為六大類,E=(喜,怒,哀,懼,惡,驚),每一類情感代表空間模型中的一維,我們在每一條微博客博文中查找情感詞,如果存在則該維為1,否則為0。

對于每個固定時間間隔T的所有微博客博文,計算并獲得所有相應(yīng)情感向量的EC[2],將EC看作是此時間段微博客博文的情感反映,包含N條微博,V=(v1,v2,…,vn)表示該時段所有情感向量集合,則T時間間隔的EC定義為:

其中Vk為K 時段的Emotion Centroid,N為該時間間隔內(nèi)所含的微博數(shù)量。

T1、T2兩個相鄰間隔EC相關(guān)度為二者的cosine相似度,此相關(guān)度越小,表明相鄰時段間內(nèi)的用戶所發(fā)的微博博文話題差異越大,則熱點事件出現(xiàn)的幾率越大。

3.3.2 Set Space Model(SSM)

在潛在熱點事件時段,SSM方法如下,實驗語料經(jīng)過預(yù)處理和去除停用詞,收集各個時間間隔的所有詞,再通過T1和T2的Jaccard相似性來定義相鄰時間間隔的相關(guān)度,計算公式為:

當(dāng)熱點事件出現(xiàn)時,所發(fā)微博與前一時段微博的Jaccard相似性降低,由于該話題可能仍被討論,則下一階段Jaccard相似性提高,則該時段應(yīng)為一個潛在的熱點事件發(fā)生時段,將符合條件的時間段記錄并統(tǒng)計。

4 實驗結(jié)果與分析

4.1 語料來源、相關(guān)實驗及實驗流程

4.1.1 語料來源

本文的實驗語料來自新浪微博廣場(http://t.sina.com.cn/pub/),從微博廣場中進行語料收集是為了能更好地反映多個不同的微博用戶可能同時在談?wù)摶驘嶙h一個或幾個話題。語料時間為2010年6月7日至2010年6月13日,每日8點到22點,每小時手工下載500條新浪微博,共52 500條微博,并統(tǒng)一格式保存,一條微博的存儲及定義格式如下:

其中<name>表示微博用戶名,<text>表示微博客內(nèi)容,<rt>表示其他用戶對該條微博的回復(fù),<time>表示所發(fā)微博的時間信息。

經(jīng)預(yù)處理及人工事件標(biāo)注,發(fā)現(xiàn)該語料所在時間內(nèi)共發(fā)生熱點事件23例。具體事件分布見表1。

表1 熱點事件分布表

4.1.2 實驗流程

本文實驗流程如下:

(1)從網(wǎng)絡(luò)獲取實驗語料,通過人工標(biāo)注發(fā)現(xiàn)并統(tǒng)計熱點事件。

(2)將網(wǎng)絡(luò)常用情感詞匯與DUTIR情感詞匯本體結(jié)合得到DUTIR情感詞匯本體庫.

(3)微博客博文的預(yù)處理。

(4)通過計算相鄰時段情感分布語言模型間的差異發(fā)現(xiàn)熱點事件,統(tǒng)計每日發(fā)現(xiàn)的熱點事件數(shù)。

(5)構(gòu)建各時段的EC和SSM,分別進行實驗,計算相鄰時段Cosine相似度差異和Jaccard相似度差異,發(fā)現(xiàn)并統(tǒng)計熱點事件。

(6)進行對比實驗,并分析結(jié)果的正確率和召回率。

4.2 對比實驗及實驗結(jié)果分析

Cuneyt Gurcan Akcora等[2]研究發(fā)現(xiàn),微博客用戶群在熱點事件出現(xiàn)時會產(chǎn)生情感波動,主要表現(xiàn)為以下兩點:熱點事件時段所發(fā)微博客博文的情感詞數(shù)量上升,使得微博平臺內(nèi)的情感詞分布發(fā)生變化;當(dāng)某一熱點事件出現(xiàn)時,微博客用戶群體的微博所采用的詞的形式會不同于之前階段,如果在下個時段該話題仍在被討論,則相同的詞模式會重復(fù)出現(xiàn)。若時間間隔長度小于1小時,則微博數(shù)量較少,不足以反映熱點事件;而當(dāng)時間間隔大于1小時時,則可能多個熱點事件在同一時間段內(nèi)發(fā)生,不利于多個熱點事件的發(fā)現(xiàn)。因此,本文提出情感分布語言模型方法在相同實驗語料并選取相同時間間隔(本文選取時間間隔為1小時)的基礎(chǔ)上與Cuneyt Gurcan Akcora等人在Twitter平臺中發(fā)現(xiàn)熱點事件的方法進行比較。在實驗中,為了實現(xiàn)與Cuneyt Gurcan Akcora方法情感空間一致,本文將情感空間維數(shù)統(tǒng)一定義為六維(即主要考慮DUTIR情感本體庫的六大類情感)。表1中的時間表示發(fā)生熱點事件的時段。

本文選取一周的實驗語料中熱點事件,對其進行發(fā)現(xiàn)。實驗中,采取相同實驗語料,選取一小時為時間間隔進行實驗,發(fā)現(xiàn)并統(tǒng)計每種方法每日發(fā)現(xiàn)熱點事件數(shù)量,首先采用Cuneyt Gurcan Akcora的EC方法,然后采用Cuneyt Gurcan Akcora的SSM方法,將之前兩種方法結(jié)合為EC&SSM,最后采用情感分布語言模型ELM方法。通過四種方法進行實驗,統(tǒng)計結(jié)果并對不同方法的實驗結(jié)果進行對比。從實驗結(jié)果看,ELM的實驗結(jié)果在準(zhǔn)確率和F1值方面為四種方法中最高的,實驗結(jié)果也表明本文方法的有效性。具體實驗結(jié)果數(shù)據(jù)見表2,在表2中出現(xiàn)的數(shù)字:括號外的數(shù)字為方法發(fā)現(xiàn)的正確熱點事件數(shù),括號中為方法發(fā)現(xiàn)的錯誤熱點事件數(shù),準(zhǔn)確率、召回率、F1值等具體數(shù)值對比見圖1。

表2 事件發(fā)現(xiàn)數(shù)表

由表2和圖1可知,四種方法均能有效地從實驗語料中發(fā)現(xiàn)熱點事件,Emotion Centroid(EC)方法在獲得最高召回率的同時準(zhǔn)確率卻最低,問題在于對于不同的熱點事件,當(dāng)相鄰時段含有較少情感詞時,EC可能被錯誤改變,因此當(dāng)Cosine相似度閾值設(shè)置較低時,在發(fā)現(xiàn)正確結(jié)果的同時錯誤率也相應(yīng)提高了。

而相比于EC,在Set Space Model(SSM)方法中,不少熱點事件的發(fā)生并未對應(yīng)明顯的全局詞匯變化,而只是引起情感詞的變化,而SSM方法只能對前者進行識別,在一定程度上影響了SSM方法的結(jié)果,因此其的召回率較低。

EC&SSM方法(即在EC方法召回的結(jié)果集上進行SSM方法)綜合考慮了EC方法和SSM方法的優(yōu)缺點后,首先進行Cosine相似度分析發(fā)現(xiàn)潛在的熱點事件,在通過分析Jaccard相似度進行驗證,在保證一定召回率的基礎(chǔ)上,使準(zhǔn)確率得到一定的提高,表明EC&SSM方法可有效地用于熱點事件發(fā)現(xiàn),且相比于EC、SSM兩種單獨方法準(zhǔn)確率和F1值都有明顯提高。

圖1 實驗結(jié)果數(shù)值圖

情感分布語言模型ELM相比于Cuneyt Gurcan Akcora提出的EC方法,盡管損失了一定的召回率,但在準(zhǔn)確率和F1值上都有大幅度的提高,可見ELM方法比EC方法更能準(zhǔn)確地從微博平臺中發(fā)現(xiàn)熱點事件;對于Cuneyt Gurcan Akcora提出的SSM方法,ELM方法在各項指標(biāo)都有較大提高,盡管熱點事件出現(xiàn)可用微博中詞集合的變化來反映,但ELM方法表現(xiàn)的更準(zhǔn)確且全面;而在同Cuneyt Gurcan Akcora提出的EC&SSM綜合方法對比之后發(fā)現(xiàn),ELM同樣在各項指標(biāo)上都有所提高,且在四種方法中有最高的準(zhǔn)確率和F1值。

圖2 6月13日相鄰兩時段情感詞的相對熵

結(jié)果表明在微博平臺中熱點事件出現(xiàn)時,ELM方法通過情感詞的概率分布變化結(jié)合語言模型相比于Cuneyt Gurcan Akcora提出的前三種方法能更好更準(zhǔn)確地反映微博用戶群體的情感波動,而用戶的情感變化方面又是發(fā)現(xiàn)熱點事件的重要依據(jù),因此在相比于EC&SSM方法召回率提高的同時,又使準(zhǔn)確率有了一定的提高。例如:6月13日相鄰兩時段情感詞相對熵值見圖2(其中如8&9表示8時和9時的情感詞相對熵值)。根據(jù)圖2中數(shù)據(jù)并結(jié)合判斷條件(7)、(8),可知9時、13時、20時三個時段滿足判斷條件(7)、(8),且其都是當(dāng)日熱點事件發(fā)生的時段,可見本文提出的ELM方法實現(xiàn)了對當(dāng)日微博平臺中熱點事件的發(fā)現(xiàn)。

分析原因可知,ELM方法中引入的語言模型與語言客觀事實之間的關(guān)系是取得預(yù)期實驗結(jié)果的關(guān)鍵,客觀語言經(jīng)過語言模型的描述更適合自然語言處理,而在語言模型基礎(chǔ)上的情感分布語言模型也就近似地反映了實驗語料的客觀事實,即近似地反映了實驗語料中的情感波動,因此在熱點事件的發(fā)現(xiàn)過程中ELM方法的各項指標(biāo)相對于EC&SSM方法都有了一定的提高。當(dāng)然ELM方法中也存在著一定不足,ELM隱含著情感詞間的相互獨立關(guān)系,沒有考慮情感詞相互間的影響,且當(dāng)情感詞所占比重較低時,即微博多為記敘類微博時,也會在一定程度上影響ELM的結(jié)果,以上所述都需要本文在未來做進一步的分析和處理。

5 結(jié)束語

本文通過對微博特點進行分析,發(fā)現(xiàn)當(dāng)熱點事件出現(xiàn)時,微博用戶情感產(chǎn)生波動,所發(fā)微博中情感詞的數(shù)量增多,在此基礎(chǔ)上,提出了情感分布語言模型ELM,用于對微博平臺中的熱點事件發(fā)現(xiàn)。實驗中與Cuneyt Gurcan Akcora提出的三種方法進行對比,實驗表明本文提出的方法可有效地從微博平臺中發(fā)現(xiàn)熱點事件,有助于對微博中熱點事件的管理和監(jiān)控。

Web2.0時代,人的參與性不斷提高,微博平臺已成為輿情產(chǎn)生和傳播的重要場所。簡短、即時的微博,讓用戶快速實時地表達自己的觀點和對其他人或事進行評論,對熱點事件發(fā)現(xiàn)是將事件由時空等不同角度還原的前提,這也是未來的研究目標(biāo)之一。當(dāng)然目前對于微博方面研究的語料還很有限,語料的擴充及規(guī)范化也是亟待解決的工作之一;同時DUTIR情感本體庫和情感常識庫也都需進一步完善;情感詞之間的相互影響也應(yīng)做進一步的分析,以上所述都有待通過未來詳盡研究工作來完成。

[1]黎志升,王煦法.基于Language Model的地理信息檢索模型[J].中國科學(xué)技術(shù)大學(xué)學(xué)報,2010,40(2):203-209.

[2]C Akcora,M Bayir,M Demirbas,H Ferhaosmanoglu.Identifying Breakpoints in Public Opinion[C]//Proceedings of KDD Workshop on Social Media Analytics.Washington,July 2010.

[3]H.Kwak,C.Lee,H.Park,and S.B.Moon.What is twitter,a social network or a news media?[C]//Proceedings of WWW,Raleigh North Carolina,USA,2010,591-600.

[4]J.Weng,E.P.Lim,J.Jiang,Q.He.TwitterRank:Finding Topic sensitive Influential Twitterers[C]//Proceedings of WSDM.New York,USA,F(xiàn)ebruary 2010.

[5]A.D.Sarma.Ranking Mechanisms in Twitter-like Forums[C]//Proceedings of WSDM.New York,USA,F(xiàn)ebruary 2010.

[6]沈陽,田晨耕,李舒晨,劉世超.閑言碎語中的宏大信息流:微博客研究[C]//第六屆全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會,大連,2009.

[7]Yang Shen,Shuchen Li,Xiaodong Ren,Xiaolong Cheng.Emotion Mining Research on Micro-blog[C]//Proceedings of 1st IEEE Symposium on Web Society.Lan Zhou,China,2009.

[8]Allen J,Larenko V,Connell M E.A month to Topic Detection and Tracking in Hindi.ACM Transactions on Asian Language Processing[J],2003,2(2):85-100.

[9]李保利,俞士汶.計算機識別與跟蹤研究[J].計算機應(yīng)用,2003,39(17):7-10.

[10]時達明.Blog熱點話題發(fā)現(xiàn)及其作者聲譽度研究[D],大連:大連理工大學(xué),2007.

[11]L Ku,Y Liang,and H Chen.Opinion extraction,summarization and tracking in news and blog corpora[C]//Proceedings of AAAI-2006Spring Symposium on Computational Approaches to Analyzing Weblogs.California,USA.2006,100-107.

[12]劉康,趙軍.基于層疊CRFs模型的句子褒貶度分析研究[J].中文信息學(xué)報,2008,22(1):123-128.

[13]Pang B,Lee L,Vaithyanathan S.Thumbs up?sentiment classification using machine learning techniques[C]//Proceedings of EMNLP'2002,University of Pennsylvania Philadelphia,USA,2002,79-86.

[14]Pang B,Lee L.A Sentimental education:sentiment analysis using subjective summarization based on minimum cuts[C]//Proceedings of the 42ndAnnual Meeting on Association for computational Lingusitics,Barcelona Spain.2004,271-278.

[15]M Hu,B Liu.Mining and summarizing customer reviews[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery &Data Mining,Seattle,Washington,USA.2007.

[16]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報學(xué)報,2008,27(2):180-185.

[17]陳建美,林鴻飛,楊志豪.基于語法的情感詞匯自動獲?。跩].智能系統(tǒng)學(xué)報,2009,4(2):100-106.

[18]陳建美,林鴻飛.中文情感常識知識庫的構(gòu)建[J].情報學(xué)報,2009,28(4):492-498.

[19]邢永康,馬少平.統(tǒng)計語言模型綜述[J].計算機科學(xué),2003,30(9):22-26.

猜你喜歡
語料時段熱點
熱點
基于歸一化點向互信息的低資源平行語料過濾方法*
熱點
四個養(yǎng)生黃金時段,你抓住了嗎
瀕危語言與漢語平行語料庫動態(tài)構(gòu)建技術(shù)研究
第70屆黃金時段艾美獎主要獎項提名
結(jié)合熱點做演講
對外漢語教學(xué)領(lǐng)域可比語料庫的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語義標(biāo)注及應(yīng)用研究為例
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
熱點
辽阳县| 永清县| 利川市| 汉寿县| 建瓯市| 萝北县| 安泽县| 镇安县| 灵宝市| 曲松县| 枞阳县| 商南县| 东光县| 富顺县| 图木舒克市| 兰州市| 肇源县| 万载县| 商丘市| 吴川市| 迭部县| 竹北市| 赤城县| 霍林郭勒市| 沭阳县| 晋州市| 云浮市| 静安区| 杂多县| 宣恩县| 通河县| 永仁县| 保康县| 财经| 丰都县| 建宁县| 宁南县| 鄯善县| 大港区| 女性| 保山市|