高永兵 陳 超 熊振華 王 宇 馬占飛
(內(nèi)蒙古科技大學(xué)信息工程學(xué)院 內(nèi)蒙古 包頭 014010)
?
基于個(gè)人微博特征的事件提取研究
高永兵陳超熊振華王宇馬占飛
(內(nèi)蒙古科技大學(xué)信息工程學(xué)院內(nèi)蒙古 包頭 014010)
摘要個(gè)人微博在事件提取上大多都是運(yùn)用文本進(jìn)行相似度計(jì)算最終達(dá)到聚類結(jié)果,而沒有充分的考慮到微博特征。針對(duì)微博標(biāo)簽、URL、時(shí)間等特征,提出一種基于微博特征的事件提取算法。該算法針對(duì)微博的特征進(jìn)行TF-IDF的改進(jìn),并加入標(biāo)簽相似度,URL相似度,進(jìn)行綜合相似度計(jì)算,最后按時(shí)間先分段后合并的改進(jìn)K-means聚類方法得出事件提取結(jié)果。實(shí)驗(yàn)結(jié)果表明,基于微博特征的事件提取算法對(duì)微博關(guān)鍵字提取和事件提取的精確度有明顯的提高。
關(guān)鍵詞微博特點(diǎn)事件提取綜合相似度
0引言
在這個(gè)信息飛速發(fā)展的年代,我們渴望了解我們感興趣的人和事。企業(yè)想了解自己的競(jìng)爭(zhēng)對(duì)手,公司員工想了解老板的信息,追星族想了解自己喜歡的明星,個(gè)人想了解自己的親戚朋友的近況。微博由此承載著我們個(gè)人的想法而誕生。
微博作為一種新型的社交網(wǎng)絡(luò)工具發(fā)展急速,用戶可以通過Web、移動(dòng)客戶端等途徑將自己日常生活的點(diǎn)點(diǎn)滴滴發(fā)布并和大家分享。個(gè)人發(fā)表的微博以140(本文以新浪微博為主)為字?jǐn)?shù)上限,并加入標(biāo)題、表情、URL、圖片等豐富的信息。因?yàn)槲⒉┻@種開放性的特點(diǎn),使得它的用戶劇增。
隨著微博的快速發(fā)展,微博的歷史信息量也越來越大,加上微博獨(dú)特的特征,這使得我們?cè)谙肓私馕覀兏信d趣的人和事情的時(shí)候困難加劇。所以本文根據(jù)微博的特征,進(jìn)行事件提取研究,實(shí)驗(yàn)也充分證明了本文算法的有效性。
1相關(guān)工作
針對(duì)微博事件提取的問題,國(guó)內(nèi)外學(xué)者做了大量的研究。1) 改進(jìn)的TF-IDF方法。Phuvipadawat等[1]首先用 TF-IDF方法將文本轉(zhuǎn)換到向量空間模型中,并提出了一種基于命名實(shí)體加權(quán)的改進(jìn)TF-IDF方法;周炎濤等[2]引入了信息熵與信息增益的概念,用以解決詞語在類別間的分布不均;張保富等[3]考慮到特征項(xiàng)在類間和類內(nèi)的分布情況的不足,提出一種結(jié)合信息熵的 TF-IDF改進(jìn)方法。2) 微博分段的方法。Li等[4]提出了基于分段的Tweets事件檢測(cè)算法。3) 基于索引的方法。姚俊杰等[5]提出了基于索引結(jié)構(gòu)的方法。4) 主題模型的方法。Li等[6]提出了基于時(shí)間線的LDA綜合模型方法。5) 基于微博摘要的算法。童薇等[7]提出了基于EDM的事件提取和摘要算法,Sharifi[8]提出一種微博自動(dòng)分類算法。6) 主題模型的聚類算法。王春龍等[9]提出了主題模型的K-means算法?;谏鲜龇椒]有充分考慮到微博的特征的問題,本文把微博特征進(jìn)行細(xì)化,把微博的部分特征加入到TF-IDF的改進(jìn)中。通過改進(jìn)的TF-IDF提取出關(guān)鍵詞,再把提取的關(guān)鍵詞根據(jù)微博的部分特征進(jìn)行詳細(xì)化,然后把微博細(xì)化的特征逐個(gè)進(jìn)行相似度計(jì)算得到綜合相似度,最后以綜合相似度為基礎(chǔ),運(yùn)用改進(jìn)的聚類算法得出事件提取結(jié)果。
2個(gè)人微博特征的事件提取算法
個(gè)人微博特征的事件提取算法流程如圖1所示。
圖1 個(gè)人微博特征的事件提取算法流程圖
個(gè)人微博特征的事件提取算法分為以下幾部分:
(1) 對(duì)微博數(shù)據(jù)進(jìn)行預(yù)處理,提取出微博特征。
(2) 針對(duì)微博特征和關(guān)鍵詞的定義,對(duì)預(yù)處理的數(shù)據(jù)進(jìn)行改進(jìn)的TF-IDF計(jì)算,主要運(yùn)用了標(biāo)簽(Hashtag)、URL對(duì)應(yīng)的標(biāo)題、詞長(zhǎng)、轉(zhuǎn)發(fā)、評(píng)論、贊以及詞在每條微博中的分布熵。
(3) 提取關(guān)鍵詞,主要提取標(biāo)簽關(guān)鍵詞、URL對(duì)應(yīng)的標(biāo)題關(guān)鍵詞和普通文本關(guān)鍵詞。
(4) 根據(jù)微博特征對(duì)微博進(jìn)行綜合相似度計(jì)算,主要包括:標(biāo)簽相似度、URL對(duì)應(yīng)標(biāo)題相似度、文本相似度。
(5) 改進(jìn)的聚類方法提取事件。
基于個(gè)人微博特征的事件提取算法主要是以上述五個(gè)部分作為技術(shù)手段,把一個(gè)人發(fā)的多條微博進(jìn)行整理,提取出個(gè)人微博中博主發(fā)表的主要事件。以李開復(fù)微博為例,把李開復(fù)所發(fā)表的微博內(nèi)容按照事件類型進(jìn)行分類,并把所說相同事件的微博聚集在一起。比如李開復(fù)在不同的時(shí)間發(fā)表了關(guān)于“大學(xué)生大學(xué)規(guī)劃”的事件,現(xiàn)通過技術(shù)手段把這些零散的微博聚集在一起,使得關(guān)注李開復(fù)的粉絲能快速地瀏覽關(guān)于“大學(xué)生大學(xué)規(guī)劃”的事件。
2.1預(yù)處理
(1) 去除個(gè)人微博中相同的微博。
(2) 提取出微博中的標(biāo)簽(微博標(biāo)簽一般在博文的開頭,兩個(gè)#號(hào)之間或者【】之間的詞語或者句子)。
(3) 提取出微博中含有URL鏈接所對(duì)應(yīng)的標(biāo)題(因?yàn)槲⒉┮?40為字?jǐn)?shù)上限,所以URL鏈接所對(duì)應(yīng)的標(biāo)題很大程度上能突出微博的主題)。
(4) 提取每一條微博的評(píng)論、轉(zhuǎn)發(fā)、贊的次數(shù)(評(píng)論、轉(zhuǎn)發(fā)、贊越多,那這條微博關(guān)注的人數(shù)就越多。說明這條微博很重要,應(yīng)給微博中的每個(gè)詞給予更大的權(quán)重)。
(5) 分詞采用中科院漢語詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)分詞。
(6) 去除微博中的停用詞、表情、特殊符號(hào)(停用詞、表情、特殊符號(hào)對(duì)于整條微博的價(jià)值是很低的,去除這些詞,同時(shí)也降低了噪聲)。
2.2改進(jìn)的TF-IDF算法
2.2.1傳統(tǒng)TF-IDF缺點(diǎn)
傳統(tǒng)的TF-IDF應(yīng)用在微博當(dāng)中有以下缺點(diǎn):
(1) 傳統(tǒng)的TF-IDF是針對(duì)長(zhǎng)文本而不是針對(duì)微博的,所以沒有考慮到微博的特征。
(2) 詞的長(zhǎng)度越長(zhǎng),那么詞含有的信息量就越大,就越有可能成為主題詞,即這個(gè)詞的TF-IDF權(quán)重應(yīng)越高。
(3) 傳統(tǒng)的TF-IDF沒有考慮微博的影響力度,微博有評(píng)論、轉(zhuǎn)發(fā)、贊等特征,直接影響微博的重要性。
(4) 如果一個(gè)詞只出現(xiàn)在一條微博當(dāng)中,那么這個(gè)詞的IDF會(huì)很高,傳統(tǒng)的TF-IDF會(huì)把這個(gè)詞當(dāng)作權(quán)重高的主題詞。但在微博中,一個(gè)詞只出現(xiàn)在一條微博當(dāng)中,我們可能不會(huì)把它當(dāng)成關(guān)鍵詞,而是把一些分布在各個(gè)微博當(dāng)中的詞當(dāng)成主題詞來提取,所以我們引入信息熵的概念。
2.2.2改進(jìn)的TF-IDF
(1) 針對(duì)傳統(tǒng)TF-IDF應(yīng)用在微博中的第一個(gè)缺點(diǎn),在微博的TF的改進(jìn)當(dāng)中加入了微博的特征(HashTag、URL對(duì)應(yīng)的標(biāo)題)。
① Hashtag
HashTag俗稱標(biāo)簽,就是在發(fā)微博的時(shí)候,兩個(gè)#號(hào)之間或者【】之間的文字,一般代表主題,預(yù)處理時(shí)我們把微博數(shù)據(jù)當(dāng)中的Hashtag提取出來。然后判斷普通文本中每個(gè)詞(去除Hashtag和URL微博數(shù)據(jù))在標(biāo)簽中是否出現(xiàn),一般一條微博當(dāng)中的一個(gè)詞在Hashtag中出現(xiàn),這個(gè)詞應(yīng)給予很高的權(quán)重,因?yàn)槲⒉┲械倪@個(gè)詞有可能代表著本條微博的主題。
② URL對(duì)應(yīng)的標(biāo)題
微博因?yàn)橛?40的字?jǐn)?shù)限制,使得URL比較流行。在實(shí)際中,可以提取出URL所對(duì)應(yīng)的標(biāo)題,判斷普通文本(去除Hashtag和URL微博數(shù)據(jù))中每個(gè)詞在URL對(duì)應(yīng)的主題中是否出現(xiàn)。如果一條微博中的一個(gè)詞在URL對(duì)應(yīng)的標(biāo)題中出現(xiàn),那這個(gè)詞應(yīng)該被給予更高的權(quán)重。
綜上兩個(gè)特征對(duì)TF進(jìn)行改進(jìn),改進(jìn)的TF如下:
(1)
TF = α×w_hashtagi,j+β×w_urli,j+w_posi,j
(2)
其中每個(gè)個(gè)人微博中包含n條微博(d1,d2,…,dn),而每條微博d中包含k個(gè)預(yù)處理后的詞(w1,w2,…,wk)。式(1)中TF(wi,dj) 表示詞wi在微博dj中的詞頻 ,其中分子表示詞wi在微博dj中出現(xiàn)的次數(shù);分母表示微博dj中所有詞出現(xiàn)的次數(shù)和;式(2)中w_hashtagi,j表示分詞后詞wi在微博標(biāo)簽中出現(xiàn)的次數(shù),w_urli,j表示分詞后詞wi在微博dj中的URL所對(duì)應(yīng)的標(biāo)題中出現(xiàn)的次數(shù),w_posi,j表示分詞后的詞wi在微博除標(biāo)簽和URL對(duì)應(yīng)標(biāo)題外的文本中出現(xiàn)的次數(shù),α、β分別為詞在標(biāo)簽中和詞在URL鏈接對(duì)應(yīng)的標(biāo)題中出現(xiàn)詞匯wi的加權(quán)值,通過實(shí)驗(yàn)α=2、β=1.5最佳。
(2) 詞長(zhǎng)對(duì)TF-IDF的影響
針對(duì)傳統(tǒng)TF-IDF應(yīng)用在微博中第二個(gè)缺點(diǎn),加入了詞長(zhǎng)對(duì)TF-IDF的影響,通常一個(gè)詞的長(zhǎng)度不同包含信息量也不同,詞越長(zhǎng)包含的信息量就越大,詞越短包含的信息量就越小。詞長(zhǎng)權(quán)重公式如下:
f(len(wi))=(lglen(wi)-0.1)+1
(3)
其中l(wèi)en(wi)表示詞的長(zhǎng)度,f(len(wi))表示詞長(zhǎng)的權(quán)重,減0.1是為了平衡詞長(zhǎng)因子的影響度大小,加1主要是為避免出現(xiàn)負(fù)數(shù)或0。
(3) 微博的影響力度
針對(duì)傳統(tǒng)TF-IDF應(yīng)用在微博中第三個(gè)缺點(diǎn),引入了微博的“影響力度”的概念。一條微博的影響力度主要通過轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)和贊數(shù)來評(píng)定。如果一條微博的轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)和贊數(shù)都很高,那么這條微博的權(quán)重也應(yīng)很高,當(dāng)然這條微博中的每個(gè)詞的權(quán)重也應(yīng)很高。
微博影響力度公式如下:
(4)
其中,fas(wi,dj)表示微博dj中詞wi的影響力度,com表示微博dj被評(píng)論的數(shù)量,max(com)表示一個(gè)人發(fā)的所有微博中評(píng)論數(shù)的最大值,α1是一個(gè)加權(quán)值,par表示微博dj被贊的數(shù)量,max(pra)表示一個(gè)人發(fā)的所有微博中贊數(shù)最大值,β1是一個(gè)加權(quán)值,rep表示微博dj被轉(zhuǎn)發(fā)的數(shù)量,max(rep)表示一個(gè)人發(fā)的所有微博中轉(zhuǎn)發(fā)數(shù)的最大值,γ1是一個(gè)加權(quán)值。α1+β1+γ1=1,實(shí)驗(yàn)設(shè)定α1=0.35、β1=0.35、γ1=0.3。
(4) IDF的改進(jìn)
IDF的公式如下:
(5)
其中N表示個(gè)人微博的總微博數(shù),n表示個(gè)人微博中包含字wi的微博數(shù)。
針對(duì)傳統(tǒng)TF-IDF應(yīng)用在微博中第三個(gè)缺點(diǎn):如果一個(gè)詞只出現(xiàn)在一條微博當(dāng)中,那么這個(gè)詞的IDF會(huì)很高。傳統(tǒng)的TF-IDF會(huì)把這個(gè)詞當(dāng)作權(quán)重高的主題詞,但是在微博中一個(gè)詞只出現(xiàn)在一條微博中,那么我們很可能不會(huì)把它當(dāng)成關(guān)鍵詞而是把一個(gè)出現(xiàn)在各個(gè)微博中的詞當(dāng)成主題詞來提取,因?yàn)檫@樣的詞更具有關(guān)鍵詞的特點(diǎn),所以我們引入信息熵的概念。
定義1給定概率分布為P=(p1,p2,…,pn),則由該分布傳遞的信息量成為P的熵,即:
(6)
定義2若一個(gè)個(gè)人用戶發(fā)了n條微博(d1,d2,…,dn),每條微博當(dāng)中包含詞wi的概率分布為p(m1/M,m2/M,…,mn/M)。其中M表示詞wi在所有微博中出現(xiàn)的次數(shù),mi表示詞wi在每條微博中出現(xiàn)的次數(shù)。我們把H(p)作為詞wi在整個(gè)微博中的分布熵。
H(p)越大則表示詞wi在每個(gè)微博當(dāng)中分布越均勻,那么這個(gè)詞成為關(guān)鍵詞的概率就越大。相反,H(p)越小那么詞wi在不同微博分布中出現(xiàn)的次數(shù)不均勻,那么成為關(guān)鍵詞的概率就越小。
綜合改進(jìn)的TF-IDF公式如下:
TF-IDF(wi,dj)=TF(wi,dj)×IDF×f(len(wi))×
H(p)×fas(wi,dj)
(7)
綜合上述公式可知,改進(jìn)后的TF-IDF算法更加適應(yīng)關(guān)鍵詞概念的定義,為下一步的提取關(guān)鍵詞包括相似度的計(jì)算提高了精確度。
2.3提取關(guān)鍵詞
提取關(guān)鍵詞時(shí),根據(jù)每個(gè)詞的TF-IDF進(jìn)行關(guān)鍵詞提取,我們運(yùn)用了三種不同關(guān)鍵詞定義,定義如下:
定義3標(biāo)簽關(guān)鍵詞:表示每條微博中的標(biāo)簽經(jīng)過預(yù)處理后的所有詞(因?yàn)闃?biāo)簽一般都很短,所以把標(biāo)簽進(jìn)行預(yù)處理后對(duì)應(yīng)的所有詞作為標(biāo)簽關(guān)鍵詞)。
定義4URL關(guān)鍵詞:表示每條微博中的URL所對(duì)應(yīng)標(biāo)題經(jīng)過預(yù)處理后的所有詞(因?yàn)閁RL所對(duì)應(yīng)標(biāo)題一般都很短,所以把URL所對(duì)應(yīng)標(biāo)題經(jīng)過預(yù)處理后對(duì)應(yīng)的所有詞作為URL關(guān)鍵詞)。
定義5普通文本關(guān)鍵詞:表示每條微博中普通文本分詞后詞的TF-IDF權(quán)重大于這條微博中所有詞的平均TF-IDF值(普通文本表示微博文本中去除標(biāo)簽和URL后的文本)。
2.4綜合相似度計(jì)算
關(guān)鍵詞提取完成后,我們要對(duì)提取的關(guān)鍵詞進(jìn)行綜合相似度計(jì)算,其中綜合相似度分為三個(gè)部分。
2.4.1標(biāo)簽相似度
對(duì)個(gè)人微博中的每條微博的標(biāo)簽按定義3提取出來的標(biāo)簽關(guān)鍵詞進(jìn)行相似度計(jì)算,計(jì)算公式如下:
(8)
其中hashtag(di)∩hashtag(dj)表示微博di中的標(biāo)簽和微博dj中的標(biāo)簽有相同詞的個(gè)數(shù),hashtag(di)∪hashtag(dj)表示微博di中的標(biāo)簽和微博dj中標(biāo)簽中詞的總數(shù)和。如果兩條微博當(dāng)中都沒有hashtag或者兩條微博中只有一條微博含有hashtag,那么我們把標(biāo)簽相似度設(shè)為0。
2.4.2URL對(duì)應(yīng)的標(biāo)題相似度
對(duì)個(gè)人微博中每條微博的URL對(duì)應(yīng)的標(biāo)題按定義4提取出的URL關(guān)鍵詞進(jìn)行相似度計(jì)算,計(jì)算公式如下:
(9)
其中url(di)∩url(dj)表示微博di中url所對(duì)應(yīng)的標(biāo)題和微博dj中URL所對(duì)應(yīng)的標(biāo)題所含共同詞的個(gè)數(shù),url(di)∪url(dj)表示微博di中URL所對(duì)應(yīng)的標(biāo)題和微博dj中URL所對(duì)應(yīng)的標(biāo)題所含詞的總數(shù)和(相同詞只加一次)。如果兩條微博都不含URL或者兩條微博中有一條微博不含URL,那么我們把URL對(duì)應(yīng)的標(biāo)題相似度設(shè)為0。
2.4.3文本相似度
對(duì)個(gè)人微博中的每條微博的普通文本按定義5提取出的普通文本關(guān)鍵字進(jìn)行余弦相似度計(jì)算,計(jì)算公式如下:
(10)
其中,TF-IDF(w,di)和TF-IDF(w,dj)分別表示詞w在微博di和dj中的TF-IDF值。
2.4.4綜合相似度
兩條微博的綜合相似度對(duì)以上的兩個(gè)個(gè)特點(diǎn)進(jìn)行加權(quán)得到公式如下:
sim(di,dj)=αsimhashtag(di,dj)+βsimurl(di,dj)+γsimpos(di,dj)
(11)
其中α、β、γ為三個(gè)加權(quán)參數(shù),α+β+γ=1,通過對(duì)實(shí)驗(yàn)數(shù)據(jù)的測(cè)試,α=0.4,β=0.3,γ=0.3,對(duì)最終事件提取效果最佳。
2.5聚類提取事件
根據(jù)綜合相似度的計(jì)算,進(jìn)行改進(jìn)的K-means聚類。
2.5.1在聚類中K-means算法對(duì)于微博聚類缺點(diǎn)
(1) 聚類算法的中心點(diǎn)選擇對(duì)聚類的結(jié)果會(huì)產(chǎn)生很大的影響。
(2) 常規(guī)的聚類算法沒有考慮到微博時(shí)間的特征,因?yàn)閮蓷l微博時(shí)間跨度越大,那么這兩條微博成為一個(gè)事件的概率就越小?;贙-means算法聚類的缺點(diǎn),我們把K-means算法做如下改動(dòng)。改進(jìn)K-means聚類流程如圖2所示。
圖2 改進(jìn)的K-means聚類流程圖
2.5.2改進(jìn)K-means聚類算法的詳細(xì)過程
(1) 把一個(gè)人的所有微博按照發(fā)表時(shí)間的順序進(jìn)行分組,分為(T1,T2,…,Tn)。
(2) 對(duì)每個(gè)組按中心點(diǎn)選擇原則進(jìn)行各自選擇中心點(diǎn),運(yùn)用綜合相似度式(11)進(jìn)行K-means聚類。
(3) 每個(gè)組聚類完成后進(jìn)行逐漸合并,并且在合并的同時(shí)加入時(shí)間的因素判斷,當(dāng)兩條微博的發(fā)表時(shí)間差大于一個(gè)閾值時(shí),不把這兩條微博合并成一個(gè)類簇,當(dāng)兩條微博的發(fā)表時(shí)間在一個(gè)閾值范圍內(nèi),執(zhí)行K-means聚類算法。
(4) 直到合并所有分組完成得出聚類結(jié)果。
2.5.3K-means聚類中心點(diǎn)選擇原則
(1) 統(tǒng)計(jì)微博在每個(gè)時(shí)間組內(nèi)所有關(guān)鍵詞的詞頻。
(2) 在每個(gè)時(shí)間組內(nèi),包含更多的關(guān)鍵詞詞頻高的微博作為首要的中心點(diǎn)選擇。
2.5.4K-means聚類過程
Step1選取聚類中心點(diǎn),合并前,在每組中按中心點(diǎn)選擇原則選擇初始中心聚類點(diǎn),合并后,聚類中心點(diǎn)為合并后的兩個(gè)或者多個(gè)組的共同中心點(diǎn)。
Step2根據(jù)相似度式(11)把個(gè)人所有的微博進(jìn)行歸類到每個(gè)中心點(diǎn)集合中。
Step3選取每個(gè)集合中與其他微博相關(guān)度最為密切的一條微博作為新的聚類中心,重復(fù)執(zhí)行步驟Step2直到聚類中心的位置不再發(fā)生變化停止運(yùn)行。
3實(shí)驗(yàn)
本文數(shù)據(jù)集通過新浪微博第三方軟件爬蟲的數(shù)據(jù):其中包括李開復(fù)1621、楊毅1532、馮小剛1376的微博一共4529條數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
實(shí)驗(yàn)環(huán)境:CPU Inter(R)Core(TM)2 (2.93 GHz),操作系統(tǒng)為64位Win 7旗艦版,實(shí)驗(yàn)工具為Visual Studio 2010,數(shù)據(jù)庫為MYSQL Server 5.1。
3.1TF-IDF改進(jìn)前后實(shí)驗(yàn)比對(duì)
提取李開復(fù)、楊毅、馮小剛的微博中關(guān)鍵詞個(gè)數(shù)實(shí)驗(yàn)對(duì)比。如果提取的關(guān)鍵詞越準(zhǔn)確,那么對(duì)于相似度計(jì)算和聚類提取事件也會(huì)更加精確,對(duì)比如表1所示。
表1 改進(jìn)TF-IDF前后提取關(guān)鍵詞個(gè)數(shù)與人工比對(duì)
從表1中的數(shù)據(jù)可以看出,改進(jìn)后TF-IDF提取關(guān)鍵詞與人工標(biāo)注的關(guān)鍵詞個(gè)數(shù)更接近,也充分的說明了改進(jìn)TF-IDF算法的準(zhǔn)確性。
改進(jìn)前TF-IDF和改進(jìn)后的TF-IDF算法對(duì)提取關(guān)鍵字和人工標(biāo)注的比對(duì)的查全率和查準(zhǔn)率。
改進(jìn)前TF-IDF和改進(jìn)后的TF-IDF算法對(duì)提取關(guān)鍵字和人工標(biāo)注的比對(duì)的查全率和查準(zhǔn)率。
查全率=改進(jìn)前或后TF-IDF提取關(guān)鍵詞與人工標(biāo)注關(guān)鍵詞相同的個(gè)數(shù)/人工標(biāo)注的總個(gè)數(shù)
查準(zhǔn)率=改進(jìn)前或后TF-IDF提取關(guān)鍵詞與人工標(biāo)注關(guān)鍵詞相同的個(gè)數(shù)/改進(jìn)前或后TF-IDF提取關(guān)鍵詞的個(gè)數(shù)
對(duì)三個(gè)實(shí)驗(yàn)人員數(shù)據(jù)進(jìn)行人工的關(guān)鍵詞標(biāo)注,讓傳統(tǒng)的TF-IDF和改進(jìn)的TF-IDF提取的關(guān)鍵詞和人工標(biāo)注的關(guān)鍵詞進(jìn)行比對(duì),來實(shí)現(xiàn)查全率和查準(zhǔn)率對(duì)比,對(duì)比如圖3和圖4所示。
圖3 TF-IDF改進(jìn)前后查全率對(duì)比圖
圖4 TF-IDF改進(jìn)前后查準(zhǔn)率對(duì)比圖
從圖3和圖4中可以看出,改進(jìn)后的TF-IDF提取關(guān)鍵字的準(zhǔn)確度遠(yuǎn)遠(yuǎn)高于改進(jìn)前的TF-IDF,同時(shí)也會(huì)提高微博事件提取的精確度。
3.2K-means算法改進(jìn)前后實(shí)驗(yàn)對(duì)比
把三個(gè)實(shí)驗(yàn)人員的微博進(jìn)行了人工事件提取的標(biāo)注,讓傳統(tǒng)的K-means算法和改進(jìn)后的K-means算法聚類出的事件和人工的事件進(jìn)行對(duì)比,如圖5所示。
圖5 K-means算法改進(jìn)前后事件查全率對(duì)比
查全率=傳統(tǒng)K-means聚類算法或改進(jìn)K-means算法查出事件與人工標(biāo)注事件相同的個(gè)數(shù)/人工標(biāo)注事件的個(gè)數(shù)
從圖5中可以看出,改進(jìn)后的K-means算法提高了事件提取的準(zhǔn)確度,同時(shí)也提高了微博事件提取的精確度。
3.3執(zhí)行改進(jìn)K-means算法得出事件提取結(jié)果
現(xiàn)以李開復(fù)的微博作為實(shí)例來分析聚類后事件提取結(jié)果,結(jié)果如圖6所示。聚類結(jié)果把李開復(fù)的1621條微博分為了63個(gè)事件, 這63個(gè)事件代表了李開復(fù)所發(fā)1621條微博所說的主要的事件。
圖6 事件提取部分結(jié)果
如圖6所示左側(cè)表示個(gè)人微博數(shù)據(jù),中間表示提取的事件,右側(cè)表示聚類結(jié)果即事件提取結(jié)果,其中每個(gè)事件都包含多條微博,但多條微博所表述的意思基本相同或相關(guān)。
4結(jié)語
本文針對(duì)微博的特征,提出了基于個(gè)人微博特征的事件提取算法。首先該算法中的TF-IDF改進(jìn)加入了信息熵的概念,提高了關(guān)鍵詞的提取精度;其次相似度計(jì)算的算法加入了微博的四種特征進(jìn)行相似度計(jì)算,使得微博在相似度計(jì)算的同時(shí)更加細(xì)化;最后基于分段合并的K-means算法加入微博時(shí)序性的特點(diǎn),使得事件提取結(jié)果更加準(zhǔn)確。
在個(gè)人微博的事件提取中,我們還面臨著眾多的挑戰(zhàn),其中,如何進(jìn)一步發(fā)現(xiàn)微博更多的特征運(yùn)用到事件提取中;如何提高事件提取的精確度;如何利用提取的事件產(chǎn)生自動(dòng)摘要,是我們未來的工作中需要研究的重點(diǎn)問題。
參考文獻(xiàn)
[1] Phuvipadawat S,Murata T.Breaking news detection and tracking in twitter[C]//Web Intelligence and Intelligent Agent Technology (WI-IAT),2010 IEEE/WIC/ACM International Conference on.IEEE,2010,3:120-123.
[2] 周炎濤,唐劍波,王家琴.基于信息熵的改進(jìn)TFIDF特征選擇算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,43(35):156-158.
[3] 張保富,施化吉,馬素琴.基于TFIDF文本特征加權(quán)方法的改進(jìn)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(2):17-20.
[4] Li C,Sun A,Datta A.Twevent: segment-based event detection from tweets[C]//Proceedings of the 21st ACM international conference on Information and knowledge management.ACM,2012:155-164.
[5] Yao J,Cui B,Xue Z,et al.Provenance-based indexing support in micro-blog platforms[C]//Data Engineering (ICDE),2012 IEEE 28th International Conference on.IEEE,2012:558-569.
[6] Li J,Cardie C.Timeline generation:tracking individuals on twitter[C]//Proceedings of the 23rd international conference on World wide web.International World Wide Web Conferences Steering Committee,2014:643-652.
[7] 童薇,陳威,孟小峰.EDM:高效的微博事件檢測(cè)算法[J].計(jì)算機(jī)科學(xué)與探索,2012,6(12):1076-1086.
[8] Sharifi B,Hutton M A,Kalita J.Summarizing microblogs automatically[C]//Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.Association for Computational Linguistics,2010:685-688.
[9] 王春龍,張敬旭.基于LDA的改進(jìn)K-means算法在文本聚類中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2014,34(1):249-254.
收稿日期:2015-01-16。國(guó)家自然科學(xué)基金項(xiàng)目(61163025)。高永兵,副教授,主研領(lǐng)域:數(shù)據(jù)管理,信息檢索。陳超,碩士生。熊振華,碩士生。王宇,碩士生。馬占飛,教授。
中圖分類號(hào)TP399
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.07.011
ON EVENTS EXTRACTION BASED ON MICROBLOGGING CHARACTERISTICS
Gao YongbingChen ChaoXiong ZhenhuaWang YuMa Zhanfei
(SchoolofInformationEngineering,InnerMongoliaUniversityofScienceandTechnology,Baotou014010,InnerMongolia,China)
AbstractIndividual microblogs, in regard to events extraction, mostly use their texts to calculate the similarity to finally achieve the clustering results, but the microblogging features are not fully taken into consideration. Aiming at the characteristics of microblogging hashtag, URL and time, this paper puts forward a microblogging characteristic-based events extraction algorithm. The algorithm makes the TF-IDF improvement against microblogging characteristics, and adds hashtag similarity and URL similarity to carry out the comprehensive similarity calculation. Finally, it uses the improved K-means clustering method, that segments first and merges afterwards according to the time, to get the events extraction results. Experimental results show that the microblogging characteristics-based events extraction algorithm achieves obvious improvement in accuracy of microblogging keywords extraction and events extraction.
KeywordsMicroblogging characteristicEvents extractionComprehensive similarity