王雅琳,陸向艷,鐘 誠(chéng)
(廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,廣西 南寧530004)
基于純文本的熱點(diǎn)話題發(fā)現(xiàn)方法未考慮網(wǎng)頁(yè)文本的特殊性,獲得的結(jié)果準(zhǔn)確度不高[1-3],為此,研究者開始關(guān)注網(wǎng)頁(yè)特征,在文本挖掘的基礎(chǔ)上加入鏈接分析。文獻(xiàn) [4]在內(nèi)容計(jì)算網(wǎng)頁(yè)相似度的基礎(chǔ)之上,引入鏈接分析,提高了話題相關(guān)性度量的準(zhǔn)確度;文獻(xiàn) [5]通過(guò)頁(yè)面鏈接來(lái)估計(jì)信息的傳播性質(zhì),并對(duì)信息的熱度進(jìn)行度量;文獻(xiàn) [6]運(yùn)用復(fù)雜網(wǎng)絡(luò)理論構(gòu)建文本的加權(quán)復(fù)雜網(wǎng)絡(luò)模型,從而形成更準(zhǔn)確的文本特征值。文獻(xiàn) [4-6]在基于文本挖掘的基礎(chǔ)上與鏈接分析相結(jié)合,一定程度上提高了話題發(fā)現(xiàn)的準(zhǔn)確度,但未能避免文本向量化及特征提取等耗時(shí)的文本處理,因此計(jì)算復(fù)雜度較高。為處理大規(guī)模Web數(shù)據(jù)挖掘以實(shí)時(shí)發(fā)現(xiàn)輿情熱點(diǎn),基于鏈接分析的熱點(diǎn)發(fā)現(xiàn)方法被提出。HITS算法[7]以及PageRank算法[8]利用鏈接分析的方法來(lái)獲得網(wǎng)頁(yè)排名。這些方法僅以網(wǎng)頁(yè)之間的鏈接為研究對(duì)象,通過(guò)分析鏈接關(guān)系找到熱點(diǎn)話題。文獻(xiàn) [9]將HITS算法和PageRank算法相結(jié)合,給出一種基于鏈接分析的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)方法,該方法計(jì)算復(fù)雜度較低,但該方法的頁(yè)面權(quán)重完全依賴與之有鏈接關(guān)系的頁(yè)面的質(zhì)量,而頁(yè)面的質(zhì)量?jī)H靠鏈入鏈出數(shù)量來(lái)決定,這種頁(yè)面權(quán)重計(jì)量方法易受作弊鏈接的影響,即為了提高的網(wǎng)頁(yè)排名,作弊者自行加入許多指向權(quán)威頁(yè)面的鏈接,且其未考慮頁(yè)面的時(shí)效性,相對(duì)發(fā)布時(shí)間較早的網(wǎng)頁(yè)易獲得更高的網(wǎng)頁(yè)權(quán)重,其對(duì)鏈接未加以選擇,且對(duì)所有的鏈接均賦予相同的權(quán)重。因此,該方法仍然未能解決HITS算法和PageRank算法存在的抵抗作弊鏈接能力較弱的缺陷以及主題漂移問(wèn)題。
本文的主要貢獻(xiàn)是:利用復(fù)雜網(wǎng)絡(luò)簇結(jié)構(gòu)高度主題相關(guān)的特點(diǎn),以頁(yè)面為節(jié)點(diǎn),將清洗后的鏈接作為邊,并考慮了時(shí)間因素對(duì)頁(yè)面權(quán)重的影響,頁(yè)面權(quán)重由博文及博主的相關(guān)屬性綜合評(píng)定,從而建立博客話題模型;采用螢火蟲算法對(duì)形成的無(wú)向有權(quán)圖進(jìn)行聚類獲得聚類中心,將聚類中心按頁(yè)面權(quán)重從大到小排序,最終形成熱點(diǎn)的話題熱度排行;設(shè)計(jì)實(shí)現(xiàn)一種有效避免作弊鏈接不良影響、克服主題漂移現(xiàn)象、可挖掘出精度更高且數(shù)量更多的博客熱點(diǎn)話題算法。
文獻(xiàn) [10]闡述了因特網(wǎng)屬于復(fù)雜網(wǎng)絡(luò),網(wǎng)絡(luò)簇結(jié)構(gòu)具有同簇節(jié)點(diǎn)連接密集、異簇節(jié)點(diǎn)連接稀疏的自組織特點(diǎn),并且證實(shí)了自組織方式形成的Web 簇具有高度主題相關(guān)性。相較于因特網(wǎng)上的其它信息,博客領(lǐng)域的話題更加分散且觀點(diǎn)呈現(xiàn)個(gè)性化特征,表述也更規(guī)范,并且通常代表一種相對(duì)單一的觀點(diǎn)。
為了從博主所發(fā)的博文中高效準(zhǔn)確地挖掘出熱點(diǎn)話題,本文在文獻(xiàn) [11]給出的網(wǎng)絡(luò)社區(qū)話題結(jié)構(gòu)的基礎(chǔ)上設(shè)計(jì)了一個(gè)博客話題模型,該模型由博文層、事件層和話題層組成,如圖1所示。最底層是博文層,即原始網(wǎng)絡(luò),主要是由博主發(fā)出的博文以及相關(guān)鏈接組成。中間層為事件層,該層是將博文層中不同博主發(fā)出的關(guān)于某一事件的博文聚在一起,形成對(duì)該事件較為全面的描述。頂層是話題層,它將事件層中的同類事件聚合在一起,形成一個(gè)話題。該話題的核心即是影響力最大的博文,博文的博主即為該話題的精神領(lǐng)袖。在博文層,博文由博文熱度、鏈接以及鏈接權(quán)重組成,第m 個(gè)博文的表示方式為Articlem= {Articlehotnessm,Linkm,Linkweightm};事件層的事件由博文組成,Eventp表示博文集中的第p 個(gè)事件,Eventp= {Article1,…,Articles};話題層中的話題由事件組成,Topicq表示博文集中的第q 個(gè)話題,Topicq= {Event1,…,Eventr}。
圖1 博客話題模型的三層結(jié)構(gòu)
在博客領(lǐng)域,博主被關(guān)注的人數(shù)越多,所發(fā)出的博文被評(píng)閱以及收藏轉(zhuǎn)發(fā)的可能性就越大;博文的閱讀量越大,表明該博文受到的關(guān)注度越高;評(píng)論數(shù)及收藏量越大,表明該博文獲得的認(rèn)可度越高博文被轉(zhuǎn)發(fā)的可能性就越大;博文的轉(zhuǎn)發(fā)量表明該博文獲得的推薦度。因此,博主的感召力以 “關(guān)注人氣”的人數(shù)來(lái)體現(xiàn),博文熱度則以博文的“閱讀量”、 “收藏量”、 “評(píng)論數(shù)”以及 “轉(zhuǎn)發(fā)量”來(lái)綜合體現(xiàn)。
為充分體現(xiàn)博文的熱度,本文綜合考慮了博主及博文兩類屬性。為消除因發(fā)布時(shí)間不同而造成博文熱度存在的差異,本文提取博文 “發(fā)布時(shí)間”作為平衡熱度的因子。博文頁(yè)面Xm的熱度計(jì)算公式為
式中:Δt(Xm)——博文Xm發(fā)布時(shí)間與當(dāng)前時(shí)間之間的時(shí)間間隔,k——衰減系數(shù),依據(jù)關(guān)注人氣a(Xm)取值,k初值為0,a(Xm)每增加5000則k增加0.1[12],c(Xm)為博文Xm的閱讀量,z(Xm)為博文Xm的收藏量,f(Xm)為博文Xm的評(píng)論數(shù),r(Xm)為博文Xm的轉(zhuǎn)載量,m=1,2,…,n,n為博文頁(yè)面數(shù),χ、ε、φ和η分別為相關(guān)系數(shù),χ調(diào)節(jié)數(shù)量級(jí),ε、φ和η滿足ε+φ+η=1。
已有的基于鏈接分析的熱點(diǎn)發(fā)現(xiàn)方法對(duì)鏈接未加以選擇,且對(duì)所有的鏈接均賦予相同的權(quán)重,經(jīng)多輪迭代后,將會(huì)使密集鏈接區(qū)域中主題不相關(guān)但鏈接數(shù)很多的頁(yè)面具有過(guò)高的權(quán)重,即形成了主題漂移現(xiàn)象。為克服此現(xiàn)象,本文通過(guò)鏈接清洗來(lái)摒棄主題無(wú)關(guān)的鏈接,且通過(guò)博主以及博文的相關(guān)屬性來(lái)直接評(píng)價(jià)博文熱度,從而避免了因只依賴鏈接而賦予頁(yè)面權(quán)重引起的網(wǎng)頁(yè)排名不準(zhǔn)確的問(wèn)題。
博文頁(yè)面鏈接主要有兩種:一是博文到博主的鏈接,博主每閱讀、評(píng)論、收藏一篇博文,均在該頁(yè)面形成一條指向該博主的博客鏈接,這種鏈接表達(dá)了博主之間的關(guān)系;二是博文到博文的鏈接,包括博文的轉(zhuǎn)發(fā)鏈接、相似博文的鏈接以及博主的其它博文鏈接。為了最大限度地減少作弊鏈接對(duì)計(jì)算頁(yè)面熱度的影響,本文方法對(duì)相關(guān)鏈接進(jìn)行清洗后,僅抽取轉(zhuǎn)發(fā)鏈接以及相似博文鏈接來(lái)進(jìn)行鏈接分析。這兩種鏈接關(guān)系能夠?qū)⑾嗨浦黝}聯(lián)系起來(lái),經(jīng)聚類后形成同一話題。
利用已抽取的鏈接關(guān)系建立博文的鄰接矩陣E
其中,eij取0或1,eij=1表示頁(yè)面i與頁(yè)面j 之間有直接鏈接,eij=0表示頁(yè)面i與頁(yè)面j 之間沒(méi)有直接鏈接。
為了獲得權(quán)威的博客頁(yè)面,要進(jìn)行相似主題聚類。螢火蟲算法具有自動(dòng)識(shí)別簇、不依賴初始值且不預(yù)設(shè)聚類中心的特點(diǎn),優(yōu)于其它群智能優(yōu)化算法[12,13]。因此,本文運(yùn)用螢火蟲算法[14]對(duì)博文聚類。
在運(yùn)用螢火蟲算法對(duì)博文進(jìn)行聚類時(shí),前期適當(dāng)擴(kuò)大搜索空間,將能有效地避免陷入局部最優(yōu),后期適當(dāng)縮小搜索空間,將能快速確定最優(yōu)值。本文利用混沌理論[15]控制搜索范圍的參數(shù)α 在既定范圍內(nèi)獲得較大的隨機(jī)性,以使算法的聚類精度達(dá)到最優(yōu)。
螢火蟲算法中的參數(shù)與博客話題模型中的參數(shù)存在一一映射關(guān)系。螢火蟲種群規(guī)模n映射博文頁(yè)面集規(guī)模n,螢火蟲個(gè)體m 映射博文頁(yè)面Xm,螢火蟲的最大吸引度β0 映射頁(yè)面鏈接的權(quán)重eij,i,j=1,2,…,n。
螢火蟲的最大熒光亮度I0映射博文頁(yè)面Xm的熱度Hotness(Xm)
螢火蟲的相對(duì)熒光亮度I 映射個(gè)體m 的適應(yīng)度向量F(Xm)
式中:rij——螢火蟲Xi與Xj之間的空間距離,γ——光強(qiáng)吸收系數(shù)。為了均衡I0與rij對(duì)相對(duì)熒光亮度I的調(diào)節(jié)力度,本文將個(gè)體m 的適應(yīng)度向量F(Xm)的計(jì)算公式改進(jìn)為
式中:δ——調(diào)節(jié)系數(shù)。
若F(Xi)<F(Xj),則螢火蟲Xi被吸引向螢火蟲Xj移動(dòng),其位置更新公式為
式中:t——種群的代數(shù),其初值為1,Xti、Xtj為螢火蟲個(gè)體Xi和Xj所處的空間位置,random()為 [0,1]上服從均勻分布的隨機(jī)因子;擾動(dòng)項(xiàng)為αti(random()-1/2)。
螢火蟲個(gè)體m (博文頁(yè)面Xm)在第t輪迭代計(jì)算更新個(gè)體m 的位置 (更新頁(yè)面鏈接權(quán)值)時(shí),取值范圍為 [0,1]的混沌參數(shù)為
式中:Dtm——個(gè)體m 在第t 輪迭代時(shí)的混沌變量。采用Logistic映射獲得混沌序列[15]
融合運(yùn)用鏈接分析與螢火蟲算法聚類博文的熱點(diǎn)話題發(fā)現(xiàn)方法如圖2所示。具體步驟是:①解析域名,與目標(biāo)網(wǎng)絡(luò)建立TCP連接。②利用URL 模板來(lái)匹配獲取的URL地址,若相符,則存入本地文檔,否則丟棄。③根據(jù)頁(yè)面模板抽取的相關(guān)屬性值計(jì)算博文熱度值,利用抽取的相關(guān)鏈接形成鄰接矩陣。運(yùn)用螢火蟲算法對(duì)博文進(jìn)行聚類后,提取各個(gè)話題簇的權(quán)威頁(yè)面形成熱點(diǎn),然后將博文標(biāo)題按照博文熱度值排序,形成熱點(diǎn)的話題熱度排行。
圖2 融合運(yùn)用鏈接分析與螢火蟲算法聚類博文的熱點(diǎn)話題發(fā)現(xiàn)方法
本文將博文頁(yè)面映射成螢火蟲個(gè)體,將尋找簇結(jié)構(gòu)(相似博文聚成的話題)即聚類過(guò)程映射成螢火蟲個(gè)體間的相互吸引和位置移動(dòng)過(guò)程,并利用歸一化開銷控制螢火蟲種群的迭代輪數(shù)。獲得簇結(jié)構(gòu)后,選取各簇亮度最大的螢火蟲 (權(quán)威頁(yè)面)作為聚類中心,螢火蟲個(gè)體代表的博文頁(yè)面即為博客熱點(diǎn)話題。融合運(yùn)用鏈接分析和螢火蟲算法聚類博文的熱點(diǎn)話題發(fā)現(xiàn)算法 (簡(jiǎn)記為Blog-IPO 算法)描述如下:
算法1:Blog-IPO 算法
輸入:博文頁(yè)面集
輸出:熱點(diǎn)排行
Begin
(1)對(duì)參數(shù)χ、ε、φ、η、γ、β0、α、δ、μ初始化;
(2)抽取博文頁(yè)面Xm的相關(guān)屬性,按式 (1)計(jì)算博文Xm的熱度Hotness(Xm),m=1,2,…,n;
(3)抽取Xm的轉(zhuǎn)發(fā)鏈接及相似博文鏈接;
(4)形成鄰接矩陣E;
(5)t=1;
(6)for i=1to ndo
(7)for j=1to ndo
1)若eij=1則按式 (4)計(jì)算螢火蟲個(gè)體Xi、Xj的適應(yīng)度向量F(Xi)、F(Xj);
2)若F(Xi)<F(Xj)則按式 (5)更新Xi的Xt+1i;
3)按式 (7)和式 (8)計(jì)算αt+1i;
(8)按后述的式 (11)計(jì)算歸一化開銷 (CDet)Norm,將第t輪迭代計(jì)算所得的歸一化開銷 (記為)與第(t-1)輪迭代計(jì)算所得的歸一化開銷進(jìn)行比較,若<則令t=t+1,轉(zhuǎn)歩驟 (6),否則轉(zhuǎn)歩驟 (9);
(9)依據(jù)Xt+1i形成聚類中心Xcenter,center=1,2,…,h,h為聚類中心數(shù)目;
(10)將Xcenter的標(biāo)題按照Hotness(Xcenter)從大到小排序;
(11)輸出熱點(diǎn)話題排行Topic1,Topic2,…,Topich;
End
Blog-IPO算法利用復(fù)雜網(wǎng)絡(luò)的簇結(jié)構(gòu)高度主題相關(guān)的特性建立博客話題模型,同時(shí)運(yùn)用博文以及博主的相關(guān)屬性來(lái)衡量頁(yè)面權(quán)重,并提取博文的發(fā)布時(shí)間作為平衡熱度的因子以消除因發(fā)布時(shí)間不同造成的熱度差異,選取與博文內(nèi)容相同或相關(guān)的鏈接形成鄰接矩陣,并運(yùn)用螢火蟲算法對(duì)博文進(jìn)行聚類形成聚類中心 (熱點(diǎn)話題),克服了基于鏈接分析的輿情發(fā)現(xiàn)方法存在的主題漂移現(xiàn)象,并消除了作弊鏈接對(duì)頁(yè)面排名的影響,提高了熱點(diǎn)話題發(fā)現(xiàn)的準(zhǔn)確度。
實(shí)驗(yàn)數(shù)據(jù)來(lái)源于新浪博客,利用開源工具HTML Parser解析目標(biāo)博客網(wǎng)站的頁(yè)面,然后利用模板匹配抽取相關(guān)信息。新浪博客抽取信息及屬性見(jiàn)表1。
本文的實(shí)驗(yàn)硬件環(huán)境為主頻2.90GHz、4GB 內(nèi)存、500G 硬盤的Intel奔騰雙核G2020 計(jì)算機(jī),操作系統(tǒng)為Windows XP,編程開發(fā)工具為VC++6.0。
本文實(shí)驗(yàn)采用的參數(shù)χ=0.001、δ=0.1、ε=0.3、φ=0.2、η=0.5由文獻(xiàn) [16]獲得,μ=4由文獻(xiàn) [15]獲得,控制聚類效果的參數(shù)α、γ由實(shí)驗(yàn)獲得。文獻(xiàn) [17]的研究表明當(dāng)α∈ [0,1]、γ∈ [0,10]時(shí)算法性能較好,本文令α以間隔0.1、γ以間隔1的幅度變化構(gòu)造55 對(duì)組合參數(shù),用歸一化開銷作為聚類質(zhì)量的評(píng)測(cè)標(biāo)準(zhǔn)對(duì)本文數(shù)據(jù)集進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明當(dāng)α=0.2、γ=1時(shí),歸一化開銷達(dá)到最低,即聚類質(zhì)量最佳。
表1 抽取的信息及屬性
對(duì)博客而言,博文能夠越多地被聚類到正確的話題簇中,并且能夠識(shí)別出越多的話題,則說(shuō)明該熱點(diǎn)話題發(fā)現(xiàn)方法的性能越好。因此,本文從聚類博文精度以及發(fā)現(xiàn)話題的個(gè)數(shù)兩個(gè)方面進(jìn)行實(shí)驗(yàn)測(cè)試,并與文獻(xiàn) [9]的方法(記為HITS-PageRank)對(duì)比結(jié)果。
4.4.1 博文聚類精度對(duì)比
實(shí)驗(yàn)抽取新浪博客專題模塊中如下10個(gè)專題作為測(cè)試數(shù)據(jù):韓國(guó)歲月號(hào)沉船事件、蘭州自來(lái)水苯含量超標(biāo)、文章出軌、中國(guó)大媽盧浮宮跳廣場(chǎng)舞、內(nèi)地小孩在港隨地小便、房?jī)r(jià)下調(diào)、中紀(jì)委嚴(yán)懲貪污腐敗、黑龍江火車脫軌案、城管被打、馬來(lái)西亞人質(zhì)。
依據(jù)TDT 評(píng)測(cè)標(biāo)準(zhǔn),采用漏檢率Pmiss、錯(cuò)檢率Pfault以及歸一化開銷 (CDet)Norm來(lái)評(píng)價(jià)網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)方法的博文聚類精度
其中:Cmiss是Pmiss的代價(jià)常量,Cfault是Pfault的代價(jià)常量,Ptarget表示一個(gè)文本屬于某個(gè)話題的先驗(yàn)概率,Ptarget=1-Ptarget。根據(jù)TDT 評(píng)測(cè)標(biāo)準(zhǔn),通常取Cmiss=1、Cfault=0.1和Ptarget=0.02。
Blog-IPO 方法與HITS-PageRank方法對(duì)不同專題的漏檢率、錯(cuò)檢率結(jié)果如圖3、圖4所示。
由圖3、圖4可以看出,對(duì)于各個(gè)話題專題,Blog-IPO方法的漏檢率均低于HITS-PageRank方法,Blog-IPO 方法的漏檢率比 HITS-PageRank 方法的漏檢率平均降低24.53%。這是因?yàn)楸疚奶岢龅腂log-IPO 方法使用的鏈接均是話題的有效鏈接,大大提高了話題中相似博文的聚合力,聚類后的話題相關(guān)博文數(shù)量增多,從而降低了漏檢率。除了Blog-IPO 方法對(duì)專題1 與專題4 的錯(cuò)檢率略高于HITS-PageRank方法的錯(cuò)檢率以外,Blog-IPO 方法對(duì)其余專題的錯(cuò)檢率均明顯低于HITS-PageRank 方法的錯(cuò)檢率。這是因?yàn)锽log-IPO 方法對(duì)頁(yè)面權(quán)重評(píng)判以及鏈接清洗,避免了話題漂移現(xiàn)象,有效地提高了話題聚類的準(zhǔn)確率,從而使得Blog-IPO 方法整體上降低了錯(cuò)檢率。
圖3 Blog-IPO 方法和HITS-PageRank方法對(duì)不同話題專題的漏檢率
圖4 Blog-IPO 方法和HITS-PageRank方法對(duì)不同話題專題的錯(cuò)檢率
Blog-IPO 方法與HITS-PageRank方法對(duì)不同話題專題的歸一化開銷如圖5所示。
圖5 Blog-IPO 方法和HITS-PageRank方法對(duì)不同話題專題的歸一化開銷
圖5的結(jié)果表明,對(duì)于不同話題專題的歸一化開銷,Blog-IPO方法均低于HITS-PageRank方法,平均降低了27.81%。這是因?yàn)橄噍^于錯(cuò)檢率,漏檢率在歸一化開銷中占據(jù)的比重較大,而本文的Blog-IPO 方法的漏檢率明顯低于HITS-PageRank方法的漏檢率。
綜合以上實(shí)驗(yàn)結(jié)果分析可知,本文給出的融合運(yùn)用鏈接分析和螢火蟲算法聚類博文的熱點(diǎn)話題發(fā)現(xiàn)方法能夠有效地挖掘出精度更高的博客熱點(diǎn)話題。
4.4.2 熱點(diǎn)話題挖掘結(jié)果
實(shí)驗(yàn)抽取了從2014年4月1日8時(shí)至4月30日18時(shí)新浪博客發(fā)表的4236個(gè)博文頁(yè)面及62341條鏈接作為測(cè)試數(shù)據(jù)。HITS-PageRank方法與Blog-IPO 方法發(fā)現(xiàn)的熱點(diǎn)話題結(jié)果分別見(jiàn)表2、表3。
表2 HITS-PageRank方法發(fā)現(xiàn)的熱點(diǎn)話題結(jié)果
表3 Blog-IPO 方法發(fā)現(xiàn)的熱點(diǎn)話題結(jié)果
對(duì)比表2、表3可知,Blog-IPO方法發(fā)現(xiàn)了15個(gè)熱點(diǎn)話題,HITS-PageRank方法發(fā)現(xiàn)了10個(gè)熱點(diǎn)話題,兩種方法發(fā)現(xiàn)的話題均為2014年4月的熱點(diǎn)信息,但是Blog-IPO 方法發(fā)現(xiàn)的話題數(shù)量更多。HITS-PageRank方法發(fā)現(xiàn)的話題數(shù)量少于本文提出的Blog-IPO 方法發(fā)現(xiàn)的話題數(shù)量,是因?yàn)镠ITS-PageRank方法存在話題漂移現(xiàn)象,將主題詞相似但實(shí)質(zhì)表述不同事件(例如表3中的以“火車”為關(guān)鍵詞的話題9與11、以“住房”為關(guān)鍵詞的話題6與13)的博文歸為一類。此外,HITS-PageRank方法受到非相關(guān)鏈接的影響,未能識(shí)別出相對(duì)規(guī)模較小的表3中的熱點(diǎn)話題12、14以及15。
本文給出的利用復(fù)雜網(wǎng)絡(luò)簇結(jié)構(gòu)高度主題相關(guān)的特性、基于三層博客話題模型、融合運(yùn)用鏈接分析和螢火蟲算法聚類博文的熱點(diǎn)話題發(fā)現(xiàn)方法,克服已有的基于鏈接分析的輿情熱點(diǎn)發(fā)現(xiàn)方法抵抗作弊鏈接能力較弱、存在主題漂移現(xiàn)象的問(wèn)題,能夠發(fā)現(xiàn)精度更高、數(shù)量更多的博客熱點(diǎn)話題。本文的博客熱點(diǎn)話題發(fā)現(xiàn)方法依據(jù)復(fù)雜網(wǎng)絡(luò)簇結(jié)構(gòu)進(jìn)行建模,對(duì)于社區(qū)結(jié)構(gòu)明顯的論壇熱點(diǎn)話題發(fā)現(xiàn)研究有參考價(jià)值。為適應(yīng)大數(shù)據(jù)時(shí)代Web信息挖掘的需求,下一步工作將研究適合大規(guī)模博文頁(yè)面熱點(diǎn)話題發(fā)現(xiàn)的方法。
[1]ZHENG Kui,SHU Xueming,YUAN Hongyong.Hot spot information auto-detection method of network public opinion[J].Computer Engineering,2010,36 (3):4-6 (in Chinese).[鄭魁,疏學(xué)明,袁宏永.網(wǎng)絡(luò)輿情熱點(diǎn)信息自動(dòng)發(fā)現(xiàn)方法 [J].計(jì)算機(jī)工程,2010,36 (3):4-6.]
[2]WANG Tietao,WANG Guoying,CHEN Yue,et al.Study of network public opinion situation based on semantic pattern and word sentiment orientation [J].Computer Engineering and Design,2012,33 (1):74-77 (in Chinese). [王鐵套,王國(guó)營(yíng),陳越,等.基于語(yǔ)義模式與詞匯情感傾向的輿情態(tài)勢(shì)研究 [J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33 (1):74-77.]
[3]LONG Zhiyi,CHENG Wei.Kind of hot topic detection algorithm based on clustering keywords [J].Computer Engineering and Design,2011,32 (6):2214-2216 (in Chinese).[龍志禕,程葳.基于詞聚類的熱點(diǎn)話題檢測(cè)算法 [J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32 (6):2214-2216.]
[4]ZHU Hengmin,SU Xinning,ZHANG Xiangbin.A topic tracking method of Internet public opinion based on link network diagram[J].Journal of the China Society for Scientific and Technical Information,2012,30 (12):1235-1241(in Chinese).[朱恒民,蘇新寧,張相斌.基于鏈接網(wǎng)絡(luò)圖的互聯(lián)網(wǎng)輿情話題跟蹤方法[J].情報(bào)學(xué)報(bào),2012,30 (12):1235-1241.]
[5]LI Dongfang,YU Nenghai,YIN Huagang.Mining hot topics on Internet under Web 2.0 [J].Journal of Electronics &Information Technology,2010,32 (5):1141-1145(in Chinese).[李東方,俞能海,尹華罡.一種Web 2.0 環(huán)境下互聯(lián)網(wǎng)熱點(diǎn)挖掘算法[J].電子與信息學(xué)報(bào),2010,32 (5):1141-1145.]
[6]XIE Fenghong,ZHANG Dawei,HUANG Dan,et al.Keywords extraction based on weighted complex network [J].Journal of Systems Science and Mathematical Sciences,2010(11):1592-1596 (in Chinese). [謝鳳宏,張大為,黃丹,等.基于加權(quán)復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取 [J].系統(tǒng)科學(xué)與數(shù)學(xué),2010 (11):1592-1596.]
[7]Nonaka H,Kubo D,Kimura T H,et al.Correlation analysis between financial data and patent score based on HITS algorithm [C]//IEEE International Technology Management Conference,2014:1-4.
[8]Ji-Lin Z,Yong-jian R,Wei Z,et al.Webs ranking model based on pagerank algorithm [C]//2nd International Conference on Information Science and Engineering.IEEE,2010:4811-4814.
[9]HUANG Min,HU Xuegang.Internet public opinion hot spot mining base on complex network theory [J].Computer Simulation,2011,28 (9):114-117 (in Chinese). [黃敏,胡學(xué)鋼.基于復(fù)雜網(wǎng)絡(luò)方法的輿情熱點(diǎn)挖掘 [J].計(jì)算機(jī)仿真,2011,28 (9):114-117.]
[10]YANG Bo,LIU Dayou,LIU J,et al.complex network clustering algorithms [J].Journal of Software,2009,20(1):54-66 (in Chinese).[楊博,劉大有,Liu J,等.復(fù)雜網(wǎng)絡(luò)聚類方法 [J].軟件學(xué)報(bào),2009,20 (1):54-66.]
[11]HE Jianmin,ZHANG Yi.Research on identifying method for the hot topics based on class entropy distance measurement[J].Information Science,2012,30 (8):1147-1150 (in Chinese).[何建民,張義.基于類熵距離測(cè)量的熱點(diǎn)話題識(shí)別方法研究 [J].情報(bào)科學(xué),2012,30 (8):1147-1150.]
[12]Senthilnath J,Omkar S N,Mani V.Clustering using firefly algorithm:performance study [J].Swarm and Evolutionary Computation,2011,1 (3):164-171.
[13]Banati H,Bajaj M.Performance analysis of firefly algorithm for data clustering [J].International Journal of Swarm Intelligence,2013 (1):19-35.
[14]Yang X S.Nature-inspired metaheuristic algorithms [M].Bristal,UK:Luniver Press,2008:83-96.
[15]Amiri B,Hossain L,Crawford J W,et al.Community detection in complex networks:Multi-objective Enhanced Firefly Algorithm[J].Knowledge-Based Systems,2013,46 (1):1-11.
[16]ZHOU Erzhong.Blog hot topic detection and its analysis on public opinion [D].Beijing:Beijing University of Technology,2013 (in Chinese).[周而重.博客輿情熱點(diǎn)發(fā)現(xiàn)與分析[D].北京:北京工業(yè)大學(xué),2013.]
[17]Yang X S.Multiobjective firefly algorithm for continuous optimization[J].Engineering with Computers,2013,29(2):175-184.