国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞向量的微博話題發(fā)現(xiàn)方法

2018-01-03 01:54李帥彬李亞星馮旭鵬劉利軍黃青松
關(guān)鍵詞:文檔語(yǔ)義聚類

李帥彬 李亞星 馮旭鵬 劉利軍 黃青松,2

1(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院 云南 昆明 650500) 2(云南省計(jì)算機(jī)應(yīng)用重點(diǎn)實(shí)驗(yàn)室 云南 昆明 650500)

基于詞向量的微博話題發(fā)現(xiàn)方法

李帥彬1李亞星1馮旭鵬1劉利軍1黃青松1,2

1(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院 云南 昆明 650500)2(云南省計(jì)算機(jī)應(yīng)用重點(diǎn)實(shí)驗(yàn)室 云南 昆明 650500)

針對(duì)微博的短文本、口語(yǔ)化和大數(shù)據(jù)等特性,提出基于詞向量的微博話題發(fā)現(xiàn)方法。爬取實(shí)驗(yàn)數(shù)據(jù)結(jié)合中文語(yǔ)料庫(kù)訓(xùn)練得到詞的向量表示,再通過(guò)定義的文本詞向量模型得到文本的詞向量表示,相較于傳統(tǒng)的向量空間表示模型,詞向量表示模型能夠解決微博短文本特征稀疏、高維度問(wèn)題,同時(shí),能夠解決文本語(yǔ)義信息丟失問(wèn)題;采用改進(jìn)的Canopy算法對(duì)文本進(jìn)行模糊聚類;對(duì)相同Canopy內(nèi)的數(shù)據(jù)用K-means算法做精確聚類。實(shí)驗(yàn)結(jié)果表明,該方法與經(jīng)典Single-Pass聚類算法相比,話題發(fā)現(xiàn)綜合指標(biāo)提高4%,證明了所提方法的有效性和準(zhǔn)確性。

話題發(fā)現(xiàn) 詞向量 短文本 Canopy聚類

0 引 言

2015年中國(guó)社交應(yīng)用用戶行為研究報(bào)告指出:綜合社交媒體中新浪微博的使用率高達(dá)43.5%[1]。微博的短文本性、即時(shí)性和交互性等優(yōu)點(diǎn)獲得了大批忠實(shí)粉絲,但微博提供信息傳播途徑的同時(shí),也為不良信息、謠言甚至惡意攻擊話題提供了傳播渠道。因此及時(shí)發(fā)現(xiàn)微博熱點(diǎn)話題并監(jiān)管,對(duì)政府部門輿情引導(dǎo)具有重要意義[2-3],同時(shí),還可以服務(wù)于企業(yè)戰(zhàn)略決策和廣告精準(zhǔn)營(yíng)銷。但微博短文本、口語(yǔ)化、大數(shù)據(jù)量等特性給話題發(fā)現(xiàn)帶來(lái)極大的困難。

話題發(fā)現(xiàn)研究主要集中于基于文本的聚類算法和基于概率的話題模型。傳統(tǒng)聚類算法中文本多采用向量空間模型表示[4]。向量空間模型表示的文本存在稀疏性和高維度缺點(diǎn),且高維度的向量不利于計(jì)算;另一個(gè)缺點(diǎn)是忽略詞之間的語(yǔ)義關(guān)系。例如,文獻(xiàn)[5-6]采用向量空間模型結(jié)合Single-Pass聚類算法來(lái)對(duì)短文本進(jìn)行會(huì)話抽取和話題檢測(cè)。Single-Pass算法思想為按順序讀取數(shù)據(jù),每次處理一個(gè)數(shù)據(jù),根據(jù)新數(shù)據(jù)與已有類的相似度,將該數(shù)據(jù)判斷為已有類或者單獨(dú)成為新的類,這樣可以實(shí)現(xiàn)數(shù)據(jù)的增量聚類,但該算法依賴數(shù)據(jù)的次序,且用于短文本聚類時(shí)特征稀疏。針對(duì)特征稀疏性,文獻(xiàn)[7]用維基百科來(lái)擴(kuò)充特征,還有的文獻(xiàn)用搜索引擎來(lái)輔助特征的選擇。第一種方法對(duì)知識(shí)庫(kù)完備性要求比較高。第二種方法依賴于搜索引擎的結(jié)果并且搜索海量的特征需要消耗大量的時(shí)間。LDA模型是基于概率的話題模型的代表。文獻(xiàn)[8-9]用LDA模型發(fā)現(xiàn)話題和追蹤話題,朱雪梅等[10]指出LDA可以一定程度解決語(yǔ)義丟失問(wèn)題。但單斌等[11]LDA話題模型綜述中指出LDA模型雖能夠自動(dòng)獲取海量文本信息的主題或話題,但大多數(shù)基于LDA的話題演化方法都假定話題數(shù)目是固定的。陳福等[12]指出新浪微博這樣的短文本在線網(wǎng)絡(luò),直接用LDA進(jìn)行語(yǔ)義獲取具有一定的局限性,同時(shí)指出對(duì)微博這樣的在線短文本,基于內(nèi)容的比較和關(guān)鍵詞語(yǔ)義識(shí)別非常重要。駱衛(wèi)華等[13]提出了分治多層聚類話題發(fā)現(xiàn)算法,基于分治策略解決大規(guī)模數(shù)據(jù)集問(wèn)題。缺點(diǎn)是采用傳統(tǒng)的向量空間模型表示文本,詞語(yǔ)語(yǔ)義相似性考慮不足。路榮等[14]通過(guò)挖掘短文本的隱主題解決稀疏性問(wèn)題,然后用一種兩層的K均值和層次聚類混合聚類方法解決大規(guī)模數(shù)據(jù)問(wèn)題,但具體幾篇微博能將一個(gè)新聞事件完整表示出來(lái)有待驗(yàn)證。McCallun A[15]等提出兩層聚類方法,解決高維度大數(shù)據(jù)量問(wèn)題。但方法中劃分Canopy時(shí),每次隨機(jī)選擇一個(gè)種子文檔,導(dǎo)致兩個(gè)問(wèn)題:劃分容易先形成規(guī)模大的Canopy,影響后面話題精確聚類的效率;初始種子選擇不當(dāng),導(dǎo)致迭代次數(shù)和冗余度增加。陳強(qiáng)等[16]基于Canopy算法基礎(chǔ)上提出K-Canopy算法。但其采用傳統(tǒng)的信息檢索技術(shù)將文本轉(zhuǎn)換為一組加權(quán)的特征值構(gòu)成的向量,導(dǎo)致高維度向量,增加空間消耗,不利于計(jì)算;劃分簇時(shí)采用漢明距離比較文本相似度,雖然能夠提高效率,但精度難以保證。

Hinton等[17]首先提出詞向量的概念,詞向量的基本思想是利用詞的上下文信息,用固定維數(shù)的實(shí)數(shù)來(lái)表示詞,通過(guò)詞間相似性表示詞間的語(yǔ)義信息。詞向量自提出受到各國(guó)學(xué)者關(guān)注,2003年Bengio提出三層神經(jīng)網(wǎng)絡(luò)構(gòu)建語(yǔ)言模型,根據(jù)上下文信息預(yù)測(cè)下一個(gè)詞,2013年Mikolov提出并開(kāi)源了Word2Vec[18]模型。詞向量已經(jīng)用于微博的情感分析[19]、微博采集和個(gè)性化推薦[20]。文獻(xiàn)[21]中用詞向量來(lái)對(duì)搜索詞進(jìn)行主題分類、聚類來(lái)挖掘搜索意圖和興趣。已有文獻(xiàn)充分表明詞向量能夠解決維度災(zāi)難和特征稀疏性問(wèn)題,并且能夠結(jié)合上下信息,防止語(yǔ)義信息丟失。

綜上所述:本文提出一種基于詞向量的微博話題發(fā)現(xiàn)方法VCK(Vector Canopy&K-means),方法有效解決短文本、口語(yǔ)化等特性造成的維度災(zāi)難、特征稀疏和語(yǔ)義鴻溝問(wèn)題。該方法定義微博的詞向量表示模型,然后利用改進(jìn)的Canopy算法對(duì)數(shù)據(jù)做初始簇聚類,獲得聚類中心個(gè)數(shù)和中心向量。最后利用K-means算法做精確聚類。

1 基于詞向量的話題發(fā)現(xiàn)方法

本文方法主要工作包括微博文本的詞向量表示、Canopy算法初始簇聚類。任務(wù)的流程如圖1所示。首先模擬登錄新浪微博爬取數(shù)據(jù),數(shù)據(jù)除了包括微博內(nèi)容,還包括發(fā)微博的微博賬號(hào)等級(jí)、粉絲數(shù)、所發(fā)微博的轉(zhuǎn)發(fā)數(shù)和評(píng)論數(shù);然后,對(duì)文本做預(yù)處理、計(jì)算微博的權(quán)重和微博的詞向量表示;其次,利用改進(jìn)的Canopy算法對(duì)詞向量表示的微博文本進(jìn)行模糊簇聚類;最后,根據(jù)Canopy算法得到的簇個(gè)數(shù)和簇的中心初始化K-means算法的聚類數(shù)目和初始中心,進(jìn)而做精確聚類。

圖1 VCK流程圖

因?yàn)镃anopy算法粗聚類之后造成各簇之間有數(shù)據(jù)重疊,所以利用K-means算法在同一個(gè)Canopy簇中再做精確聚類,同時(shí),Canopy算法得到的簇中心和簇?cái)?shù)目有效地解決了K-means算法依賴初始中心和聚類數(shù)目選擇的問(wèn)題。

1.1 微博的詞向量表示

爬取的微博語(yǔ)料內(nèi)容含有很多無(wú)意義詞語(yǔ)和符號(hào),為了提高實(shí)驗(yàn)的效率和精度需要做一些預(yù)處理工作,具體在實(shí)驗(yàn)環(huán)節(jié)介紹。為了方便理解,先給出文中用到的一些定義。

定義1(詞的向量表示)W={d1,d2,…,dn}:其中n表示詞的向量維度,每個(gè)詞的維度相同,di表示詞對(duì)應(yīng)i維上的值。

定義2(微博的詞集合表示)S={w1,w2,…,wm}:其中m表示文本中詞的個(gè)數(shù),不同文本含有的詞的個(gè)數(shù)不一定相同,wi表示文中第i個(gè)詞。

Mikolov等[18]在文中指出,詞向量的學(xué)習(xí)不僅僅能夠?qū)W習(xí)到其語(yǔ)法特征,還能夠利用向量加減的方式進(jìn)行語(yǔ)義上面的計(jì)算。根據(jù)此得出如下定義。

定義3(微博的詞向量表示)D={x1,x2,…,xn}:其中n和定義1中詞的維度相同,表示文本的詞向量的維度,xi表示文本向量第i為上的值。xi由如下公式計(jì)算得到:

(1)

式中:m和定義2中文本含有詞的個(gè)數(shù)相同,表示文本中詞的數(shù)量,Wmi表示文本中第m個(gè)詞對(duì)應(yīng)的詞向量中第i維的值。

定義4(簇Canopy的中心向量)Center={y1,y2,…,yn} 其中n表示中心向量的維度,大小與定義3和定義1中的維度相同,yi表示向量第i維上對(duì)應(yīng)的實(shí)數(shù)值。yi由如下公式計(jì)算得到:

(2)

式中:t表示Canopy算法得到的每個(gè)初始簇聚類中文本的數(shù)目,Dti表示Canopy中第t個(gè)文本的向量中第i維值。

1.2 微博的權(quán)重計(jì)算

不同的微博對(duì)話題的影響力和傳播力不同,本文用微博的權(quán)重衡量微博的話題影響力。微博D的權(quán)重Q計(jì)算方法如下:

Q=Weight×(TRi+LRi+CRi)

(3)

式中:Weight是根據(jù)微博用戶特征定義的權(quán)值,微博用戶分為加V認(rèn)證用戶和非認(rèn)證用戶。王國(guó)華等[22]指出熱門微博發(fā)布主體中加V用戶比例高達(dá)72.3%,同時(shí)指出加V認(rèn)證或粉絲數(shù)較多的用戶在微博的話題傳播過(guò)程中起到巨大的推動(dòng)作用。

(4)

其中:P為認(rèn)證用戶取值,Q為非認(rèn)證用戶取值。

(5)

(6)

(7)

其中:NTR、NLR、NCR分別表示每條微博的轉(zhuǎn)發(fā)數(shù)、點(diǎn)贊數(shù)和評(píng)論數(shù),Sum(NTR)、Sum(NLR) 、Sum(NCR)分別表示所有微博的轉(zhuǎn)發(fā)數(shù)之和、點(diǎn)贊數(shù)之和和評(píng)論數(shù)之和。

1.3 基于改進(jìn)的Canopy算法的粗聚類

1.3.1 Canopy算法簡(jiǎn)介

MaCallum A等[15]提出了一種適用高維度和大數(shù)據(jù)量的聚類算法。算法把數(shù)據(jù)劃分成相互重疊的簇,最后利用傳統(tǒng)聚類(Kmean、EM)算法對(duì)同一簇的文檔做精確聚類。劃分簇時(shí)定義兩個(gè)閾值T1和T2(T2

圖2 Canopy算法劃分結(jié)果

1.3.2 改進(jìn)的Canopy算法

劃分簇過(guò)程中文本相似度的計(jì)算是關(guān)鍵,相似度計(jì)算越精確,劃分得到的簇越符合實(shí)際生活中話題文本的真實(shí)聚集情況。計(jì)算精度高低同時(shí)決定算法的迭代次數(shù)。本文試圖提高算法的計(jì)算精度來(lái)提高劃分的精度,進(jìn)而計(jì)算出更符合實(shí)際情況聚類,有利于提高話題發(fā)現(xiàn)的準(zhǔn)確率和速度。

本文主要從以下方面來(lái)提高計(jì)算精度:1) 微博文本向量用定義3表示。文本的詞向量表示充分考慮了上下文語(yǔ)義相似性,使文本相似性計(jì)算隱射到語(yǔ)義層面,用以解決向量空間模型中特征詞孤立和語(yǔ)義鴻溝問(wèn)題,同時(shí),詞向量的低維度特性能夠減少計(jì)算量,降低空間消耗,提高計(jì)算速度等。2) 根據(jù)式(3)微博權(quán)重Q選取種子文檔。高權(quán)重的微博文本話題完整,內(nèi)容真實(shí)客觀,影響力大,用以解決隨機(jī)選擇種子文檔帶來(lái)的迭代次數(shù)和冗余度增加問(wèn)題。3) 余弦距離公式計(jì)算相似度。余弦距離計(jì)算兩個(gè)向量的夾角余弦,傾向于對(duì)向量?jī)?nèi)容的比較,而對(duì)絕對(duì)的數(shù)值不敏感,修正了可能存在的度量標(biāo)準(zhǔn)不統(tǒng)一問(wèn)題,優(yōu)于漢明距離公式。本文從上述方面來(lái)提高了文本間相似性計(jì)算的精確度,使得話題相似文檔更容易落入T2子集中,降低了數(shù)據(jù)冗余度,減少了迭代次數(shù),提高了計(jì)算效率和準(zhǔn)確率。改進(jìn)的算法流程如下:

算法1改進(jìn)的Canopy算法

輸入:剩余文檔集L,閾值T1、T2。

輸出:Canopy簇集合,各Canopy的中心向量。

1.Cluster_Canopy(L ,T2,T1){

2.SL=Sort(L)//權(quán)重排序微博隊(duì)列L,SL排序后的微博

//文本列表

3.While(SL!=NULL){

//循環(huán)直至SL為空

5.Dseed =SL.get();//根據(jù)權(quán)重獲得種子文檔

6.Cluster.add(Dseed);//將種子文檔作為新的Canopy簇

//中心,Cluster表示聚類簇

7.從剩余文檔集隊(duì)列SL中刪除文檔Dseed

8.for(C: SL){

9. dist=cos(Dseed,C);

10. if(dist

11. 文檔C加入Dseed所在Canopy的簇中。

12. if(dist

13. 從剩余文檔隊(duì)列SL中刪除C文檔,C不能作為種子文檔,即C不能作為新Canopy簇中心

14.} }}//for end

15.得到簇Cluster加入Canopy簇集合隊(duì)列CanopyClusters中

16.}//while end

17. for(Cluster : CanopyClusters){

18. 利用定義4獲得Canopy簇的中心向量

19. 將中心向量加入中心向量隊(duì)列centerClusters中}

//for end

20. k=CanopyClusters.size()//獲得中心向量的個(gè)數(shù)}

算法中文本間距離采用余弦距離公式,通過(guò)上節(jié)文檔的詞向量表示,得到文本的詞向量表示,如文本D1{x1,x2,…,xn},D2{x1,x2,…,xn},則距離計(jì)算公式如下:

(8)

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)語(yǔ)料和預(yù)處理

微博話題發(fā)現(xiàn)沒(méi)有標(biāo)準(zhǔn)的測(cè)試集,本實(shí)驗(yàn)采用的語(yǔ)料是從新浪微博2016年7月到2016年8月間采集的熱點(diǎn)話題微博,通過(guò)人工標(biāo)注得到10個(gè)話題,具體語(yǔ)料如表1所示。

表1 實(shí)驗(yàn)數(shù)據(jù)

預(yù)處理包括:去除特殊符號(hào)、去除停用詞、分詞。爬取的微博內(nèi)容含有很多對(duì)內(nèi)容沒(méi)有意義的符號(hào)和詞,如特殊符號(hào)#、@、表情符號(hào)、鏈接、“的”、“了”等停用詞。分詞后少于3個(gè)詞的文本對(duì)話題信息表達(dá)不完善,故刪除此類文本。最后,獲得干凈的、具有意義和信息完善的語(yǔ)料。

本文用Word2Vec工具的CBOW模型得到定義1定義的詞向量。然后,用定義3得到文本的詞向量表示。

2.2 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

對(duì)于簇聚類的評(píng)價(jià)標(biāo)準(zhǔn)采用文獻(xiàn)[16]中聚類準(zhǔn)確度、類內(nèi)凝聚度、類間分離度來(lái)衡量切分準(zhǔn)確度和質(zhì)量,具體定義如下:

(9)

(10)

式中:CorrectNum表示該Canopy中包含最多文檔類別的文檔數(shù),TotalDocs表示該Canopy包含的文檔數(shù)。式(9)表征Canopy的純度。

(11)

(12)

式(11)計(jì)算的是類內(nèi)凝聚度,num是Canopy的數(shù)量,size是第i個(gè)Canopy所包含的文檔數(shù)量,center是定義4中Canopy的中心向量,Dist是計(jì)算文檔Doc和center之間的距離,類內(nèi)凝聚度越高說(shuō)明切分質(zhì)量越好;式(12)計(jì)算類間分離度,該值越小,說(shuō)明切分質(zhì)量越好。

對(duì)于話題發(fā)現(xiàn)采用準(zhǔn)確率(P)、召回率(R)和F-Measure值作為評(píng)價(jià)標(biāo)準(zhǔn)。

準(zhǔn)確率:

(13)

召回率:

(14)

F-Measure:

(15)

式中:A表示已檢測(cè)到與話題相關(guān)的微博數(shù),B表示已檢測(cè)到與話題不想關(guān)的微博數(shù),C表示未檢測(cè)到與話題相關(guān)的微博數(shù)。

2.3 實(shí)驗(yàn)結(jié)果及分析

2.3.1 傳統(tǒng)Canopy算法、K-Canopy算法與VectorCanopy算法的對(duì)比實(shí)驗(yàn)

為了說(shuō)明VectorCanopy(V-Canopy)算法的有效性,通過(guò)比較相同參數(shù)條件下算法的各項(xiàng)指標(biāo)來(lái)說(shuō)明。算法參數(shù)中,當(dāng)T2較大時(shí),Canopy個(gè)數(shù)比較少;相反T2較小時(shí),Canopy個(gè)數(shù)較多。當(dāng)T1較小時(shí),Canopy的大小相對(duì)較小;相反T1較大時(shí),Canopy的大小相對(duì)較大,數(shù)據(jù)冗余度較嚴(yán)重。本文更關(guān)注數(shù)據(jù)切分的準(zhǔn)確性和切分的質(zhì)量,但對(duì)于數(shù)據(jù)切分的速度允許一定的損失,因?yàn)閿?shù)據(jù)切分的質(zhì)量決定后期話題發(fā)現(xiàn)的準(zhǔn)確度和速度,從而影響話題發(fā)現(xiàn)相關(guān)商業(yè)活動(dòng)的有效性和投資回報(bào)率等。如微博廣告精準(zhǔn)投放對(duì)話題的質(zhì)量要求越高越好。實(shí)驗(yàn)采用文獻(xiàn)[16]參數(shù)指標(biāo)作為實(shí)驗(yàn)中參數(shù)的值,即T1=0.05,T2=0.03。實(shí)驗(yàn)結(jié)果見(jiàn)表2。

表2 Canopy、K-Canopy和V-Canopy算法數(shù)據(jù)劃分實(shí)驗(yàn)結(jié)果對(duì)比

通過(guò)對(duì)比實(shí)驗(yàn)可以發(fā)現(xiàn),在相同的參數(shù)的情況下,K-Canopy比傳統(tǒng)的Canopy算法的準(zhǔn)確度提高了約5%,類內(nèi)凝聚度提高了約11%,類間分離度減低了約13%。V-Canopy 與K-Canopy相比,精確度提高了約4%,類內(nèi)凝聚度和類間分離度也較好。但是實(shí)驗(yàn)發(fā)現(xiàn),K-Canopy算法的速度優(yōu)于V-Canopy算法,因?yàn)閂-Canopy算法采用相似余弦距離公式,精度提高了,但效率降低。

為了說(shuō)明文本的詞向量表示和余弦距離公式的有效性,通過(guò)比較V-Canopy算法下分別采用傳統(tǒng)向量空間表示文本、傳統(tǒng)快速距離公式即詞的共現(xiàn)占比和采用詞向量空間模型和余弦距離公式的各項(xiàng)指標(biāo)來(lái)說(shuō)明。實(shí)驗(yàn)中的參數(shù)同上。實(shí)驗(yàn)結(jié)果見(jiàn)表3所示。

表3 Canopy、VeCanopy、CosCanopy和V-Canopy算法劃分?jǐn)?shù)據(jù)實(shí)驗(yàn)結(jié)果對(duì)比

通過(guò)對(duì)比實(shí)驗(yàn)可以發(fā)現(xiàn),VeCanopy算法的精確度、類內(nèi)凝聚度和類間分離度指標(biāo)優(yōu)于傳統(tǒng)的向量空間表示文本,因?yàn)樵~向量考慮了上下文語(yǔ)義的相似性,提高了文相似度。CosCanopy算法的精確度、類內(nèi)凝聚度和類間分離度指標(biāo)優(yōu)于Canopy算法,但相對(duì)于VeCanopy略顯不足,因?yàn)橄蛄靠臻g模型的缺點(diǎn)降低了余弦距離公式相似度比較的精度。V-Canopy算法的各項(xiàng)指標(biāo)都優(yōu)于單獨(dú)采用詞向量表示或余弦距離公式算法。

2.3.2 話題發(fā)現(xiàn)上實(shí)驗(yàn)結(jié)果對(duì)比

為了比較本文話題發(fā)現(xiàn)的可行性和優(yōu)良性,VCK算法得到的結(jié)果與K-Canopy&Kmeans算法、Single-Pass算法和LDA算法比較,LDA和single-pass采用傳統(tǒng)的向量空間模型和余弦距離,K-Canopy采用傳統(tǒng)的向量空間模型,VCK采用詞向量模型和余弦距離模型。實(shí)驗(yàn)結(jié)果見(jiàn)圖3。

圖3 四種方法的比較

實(shí)驗(yàn)結(jié)果表明, VCK算法的綜合指標(biāo)比K-Canopy高約3%,比Single-Pass高約4%,比LDA高約2%。充分說(shuō)明了采用詞向量表示模型和余弦距離能夠提高話題發(fā)現(xiàn)的精度,說(shuō)明了詞向量能夠結(jié)合語(yǔ)義提高文本間語(yǔ)義相似度,從而提高聚類的準(zhǔn)確性。

在以上實(shí)驗(yàn)基礎(chǔ)上,隨機(jī)抓取3萬(wàn)條微博做測(cè)試,V-Canopy的準(zhǔn)確率達(dá)到58%,VCK算法準(zhǔn)確率達(dá)到80%,驗(yàn)證了方法的有效性和合理性。

3 結(jié) 語(yǔ)

本文提出了基于詞向量的微博話題發(fā)現(xiàn)方法,針對(duì)微博文本短、特征稀疏、數(shù)據(jù)量大的特點(diǎn),用詞向量表示文本。與傳統(tǒng)方法相比,有效地解決了文本向量高維度、稀疏性問(wèn)題。同時(shí),詞向量模型是通過(guò)一個(gè)詞所在上下文的詞來(lái)推測(cè)這個(gè)詞向量中的維度值,所以相對(duì)于傳統(tǒng)方法能夠很好地解決語(yǔ)義信息丟失的問(wèn)題。然后,采用改進(jìn)的Canopy算法對(duì)文本做模糊簇聚類。最后,Canopy的個(gè)數(shù)作為Kmeans初始中心個(gè)數(shù),對(duì)相同的Canopy內(nèi)的數(shù)據(jù)做精確聚類。實(shí)驗(yàn)結(jié)果表明,該方法的精確度優(yōu)于K-Canopy&Kmeans方法。

本文的方法中Canopy簇聚類采用余弦距離,與K-Canopy方法中的漢明距離相比,計(jì)算效率降低,后續(xù)工作考慮采用Hadoop[23]平臺(tái)增加計(jì)算并發(fā)性來(lái)提高效率。

[1] 中國(guó)互聯(lián)網(wǎng)信息中心(CNNIC).2015年中國(guó)社交應(yīng)用用戶行為研究報(bào)告[R].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/sqbg/201604/t20160408_53518/P0201607225514 29454480.pdf.

[2] 蒙祖強(qiáng),黃柏雄.一種新的網(wǎng)絡(luò)熱點(diǎn)話題提取方法[J].小型微型計(jì)算機(jī)系統(tǒng),2013,34(4):743-748.

[3] 何躍,帥馬戀,馮韻.中文微博熱點(diǎn)話題挖掘研究[J].統(tǒng)計(jì)與信息論壇,2014(6):86-90.

[4] Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.

[5] 黃九鳴,吳泉源,劉春陽(yáng),等.短文本信息流的無(wú)監(jiān)督會(huì)話抽取技術(shù)[J].軟件學(xué)報(bào),2012,23(4):735-747.

[6] Yang Y,Pierce T,Carbonell J.A study of retrospective and on-line event detection[C]//Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval.ACM,1998:28-36.

[7] 葉成緒,楊萍,劉少鵬.基于主題詞的微博熱點(diǎn)話題發(fā)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(2):46-50.

[8] 張曉艷,王挺,梁曉波.LDA模型在話題追蹤中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2011,38(10A):136-139.

[9] 張晨逸,孫建伶,丁軼群.基于MB-LDA模型的微博主題挖掘[J].計(jì)算機(jī)研究與發(fā)展,2011,48(10):1795-1802.

[10] 朱雪梅.基于Word2Vec主題提取的微博推薦[D].北京理工大學(xué),2014.

[11] 單斌,李芳.基于LDA話題演化研究方法綜述[J].中文信息學(xué)報(bào),2010,24(6):43-49.

[12] 陳福,林闖,薛超,等.短句語(yǔ)義向量計(jì)算方法[J].通信學(xué)報(bào),2016,37(2):11-19.

[13] 駱衛(wèi)華,于滿泉,許洪波,等.基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究[J].中文信息學(xué)報(bào),2006,20(1):29-36.

[14] 路榮,項(xiàng)亮,劉明榮,等.基于隱主題分析和文本聚類的微博客新聞話題發(fā)現(xiàn)研究[C]//全國(guó)信息檢索學(xué)術(shù)會(huì)議,2010.

[15] McCallum A,Nigam K,Ungar L H.Efficient clustering of high-dimensional data sets with application to reference matching[C]//Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2000:169-178.

[16] 陳強(qiáng),杜攀,陳海強(qiáng),等.K-Canopy:一種面向話題發(fā)現(xiàn)的快速數(shù)據(jù)切分算法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2016,51(9):106-112.

[17] Hinton G E.Learning distributed representations of concepts[C]//Proceedings of the eighth annual conference of the cognitive science society,1986:1-12.

[18] Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013.

[19] Socher R,Perelygin A,Wu J Y,et al.Recursive deep models for semantic compositionality over a sentiment treebank[C]//Deep Models for Semantic Compositionality Over a Sentiment Treebank.Conference on Empirical Methods in Natural Language Processing (EMNLP 2013),2013.

[20] 俞忻峰.新浪微博的數(shù)據(jù)采集和推薦方案研究[D].南京理工大學(xué),2015.

[21] 楊河彬.基于詞向量的搜索詞分類、聚類研究[D].華東師范大學(xué),2015.

[22] 王國(guó)華,鄭全海,王雅蕾,等.新浪熱門微博的特征及用戶轉(zhuǎn)發(fā)規(guī)律研究[J].情報(bào)雜志,2014(4):117-121.

[23] 趙慶.基于Hadoop平臺(tái)下的Canopy-Kmeans高效算法[J].電子科技,2014,27(2):29-31.

MICROBLOGGINGTOPICDETECTIONBASEDONTHEWORDDISTRIBUTEDREPRESENTATION

Li Shuaibin1Li Yaxing1Feng Xupeng1Liu Lijun1Huang Qingsong1,2

1(FacultyofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)2(YunnanKeyLaboratoryofComputerTechnologyApplications,Kunming650500,Yunnan,China)

Aiming at the characteristics of microblogging short text, colloquialization and big data, a new method based on the distributed representation is proposed. We crawled the experimental data combined with the Chinese corpus training to get the vector representation of the word.Then we got the word vector representation of the text by defining the text word vector model.Compared with the traditional vector space representation model,the word vector representation model can solve the sparse and high dimensional problem of microblog short text,and can solve the problem of text semantic information loss.We used the improved Canopy algorithm to fuzzy text clustering,and the data in the same Canopy were clustered by the K-means algorithm. Experiments showed that the comprehensive index of the proposed method’s increased 4% compared with the Single-Pass algorithm. The experimental results proved the validity and accuracy of the proposed method.

Topic detection Word distributed representation Short text Canopy cluster

2017-02-01。國(guó)家自然科學(xué)基金項(xiàng)目(81360230,81560296)。李帥彬,碩士生,主研領(lǐng)域:機(jī)器學(xué)習(xí),自然語(yǔ)言處理。李亞星,碩士生。馮旭鵬,碩士。劉利軍,講師。黃青松,教授。

TP3

A

10.3969/j.issn.1000-386x.2017.12.009

猜你喜歡
文檔語(yǔ)義聚類
真實(shí)場(chǎng)景水下語(yǔ)義分割方法及數(shù)據(jù)集
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個(gè)文檔
數(shù)種基于SPSS統(tǒng)計(jì)工具的聚類算法效率對(duì)比
面向WSN的聚類頭選舉與維護(hù)協(xié)議的研究綜述
改進(jìn)K均值聚類算法
Word文檔 高效分合有高招
基于Spark平臺(tái)的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
“吃+NP”的語(yǔ)義生成機(jī)制研究
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
西林县| 凌海市| 金寨县| 永兴县| 沂源县| 隆尧县| 安丘市| 康马县| 云霄县| 绵阳市| 华池县| 乌兰察布市| 大化| 开鲁县| 如东县| 安义县| 建始县| 招远市| 原阳县| 中方县| 拉孜县| 西畴县| 石渠县| 安宁市| 广丰县| 乌拉特前旗| 奇台县| 宜良县| 新巴尔虎左旗| 马公市| 湛江市| 尉犁县| 诸城市| 甘孜| 武宁县| 梧州市| 江城| 大化| 泾源县| 屏东县| 历史|