中文微博熱點(diǎn)話題挖掘研究

2014-05-12 10:22:54帥馬戀

統(tǒng)計(jì)與信息論壇 2014年6期

關(guān)鍵詞：熱點(diǎn)話題分詞影響力

何躍，帥馬戀，馮韻

（四川大學(xué) 商學(xué)院，四川成都 610064）

中文微博熱點(diǎn)話題挖掘研究

何躍，帥馬戀，馮韻

（四川大學(xué) 商學(xué)院，四川成都 610064）

微博熱點(diǎn)話題代表公眾對現(xiàn)實(shí)生活問題的態(tài)度，對微博熱點(diǎn)話題的識(shí)別有益于網(wǎng)絡(luò)輿情監(jiān)控。基于話題檢測與跟蹤技術(shù)設(shè)計(jì)出中文微博熱點(diǎn)話題識(shí)別流程。首先通過K-means文本聚類歸納出話題，然后進(jìn)行話題影響力計(jì)算和分析，最后通過話題影響力大小識(shí)別熱點(diǎn)話題。實(shí)證結(jié)果表明，熱點(diǎn)話題的“召回率”較高，影響力較大。話題影響力的構(gòu)建為相關(guān)企業(yè)或政府針對話題熱度大小采取不同的輿情監(jiān)測策略提供了理論依據(jù)。

微博；話題影響力；話題檢測與跟蹤

一、引言

微博已經(jīng)成為公眾信息傳播的主要網(wǎng)絡(luò)平臺(tái)之一，微博上的熱點(diǎn)話題也代表了眾多網(wǎng)民關(guān)注的熱點(diǎn)。掌握微博熱點(diǎn)話題，對政府輿情監(jiān)測與引導(dǎo)和企業(yè)制定營銷策略都具有十分重要的意義。

微博起源于國外，作為近年來最熱門的互聯(lián)網(wǎng)應(yīng)用，相關(guān)研究逐步增加。從目前相關(guān)研究文獻(xiàn)來看，與微博相關(guān)的基礎(chǔ)性研究較為普遍，如微博（特別是twitter）的內(nèi)容特點(diǎn)、技術(shù)特點(diǎn)、使用微博的原因或社會(huì)目的等，同時(shí)，網(wǎng)絡(luò)信息爆炸式增長和網(wǎng)絡(luò)輿情分析的需求也使網(wǎng)絡(luò)熱點(diǎn)話題研究在國外受到廣泛關(guān)注。目前具有針對性地利用網(wǎng)絡(luò)信息進(jìn)行的研究主要包括兩類：一類是Web數(shù)據(jù)挖掘研究，另一類是利用話題檢測與跟蹤（Topic Detection and Tracking，TDT）技術(shù)進(jìn)行熱點(diǎn)話題識(shí)別與跟蹤研究［1－2］。TDT技術(shù)已逐漸成為當(dāng)前信息處理領(lǐng)域的研究熱點(diǎn)。該項(xiàng)技術(shù)中涉及許多算法與模型的運(yùn)用，因此相關(guān)算法及模型的優(yōu)化也成為研究熱點(diǎn)，如Changki Lee等針對TDT技術(shù)中unigram和bigram語言模型的弱點(diǎn)，提出了結(jié)構(gòu)依賴語言模型［3］。

隨著國內(nèi)學(xué)術(shù)界對大量網(wǎng)絡(luò)信息利用價(jià)值認(rèn)識(shí)的逐步加深，關(guān)于網(wǎng)絡(luò)熱點(diǎn)話題識(shí)別與發(fā)現(xiàn)的研究也逐漸豐富，如從BBS挖掘熱點(diǎn)話題、從Blog上發(fā)現(xiàn)熱點(diǎn)話題、網(wǎng)頁輿情觀點(diǎn)挖掘等，但基于微博平臺(tái)的熱點(diǎn)話題研究比較少。孫勝平結(jié)合現(xiàn)有的普通網(wǎng)頁的TDT技術(shù)，重點(diǎn)研究了適用于中文微博的網(wǎng)頁采集、信息抽取、熱點(diǎn)話題檢測以及話題跟蹤技術(shù)，側(cè)重研究了相關(guān)技術(shù)與算法，并對每一種技術(shù)通過實(shí)驗(yàn)進(jìn)行測評(píng)，但對熱點(diǎn)話題的識(shí)別缺少系統(tǒng)研究［4］。楊冠超結(jié)合微博平臺(tái)上的時(shí)間序列和文本特點(diǎn)提出話題熱度預(yù)測模型TopicRank，通過劃分時(shí)間片，結(jié)合話題的關(guān)鍵詞集對話題在連續(xù)時(shí)間段內(nèi)的影響力進(jìn)行計(jì)算，從而預(yù)測話題在未來一段時(shí)間內(nèi)的影響力變化趨勢，但該研究是在定性的基礎(chǔ)上先判斷出熱點(diǎn)話題后再去跟蹤，并對話題的未來熱度進(jìn)行預(yù)測，略顯不夠嚴(yán)謹(jǐn)［5］。趙前東等也通過構(gòu)建話題活性模型以尋找熱點(diǎn)話題，后期也通過TDT進(jìn)行效果驗(yàn)證，但是在數(shù)據(jù)預(yù)處理中采用正則表達(dá)式，略顯客觀性不足，且不能自動(dòng)化處理［6］?？梢姡琓DT技術(shù)被引入到微博研究中已成趨勢，但現(xiàn)有研究主要針對某些相關(guān)技術(shù)進(jìn)行研究或改進(jìn)，是在熱點(diǎn)話題已出現(xiàn)的基礎(chǔ)上再利用TDT技術(shù)對熱點(diǎn)話題進(jìn)行熱度分析。本文試圖通過TDT技術(shù)對微博話題進(jìn)行熱度分析，挖掘出潛在的熱點(diǎn)話題。

本文借鑒TDT技術(shù)，結(jié)合中文微博的特點(diǎn)，設(shè)計(jì)出一種較為簡易的熱點(diǎn)話題發(fā)現(xiàn)與分析流程。首先通過文本聚類找出話題，再結(jié)合用戶行為對微博熱度的影響提出衡量話題熱度的熱點(diǎn)話題影響力，最后通過TDT技術(shù)中的效果檢驗(yàn)標(biāo)準(zhǔn)來衡量話題影響力對話題熱度衡量的有效性。這不僅為熱點(diǎn)話題的識(shí)別提供了科學(xué)依據(jù)，還為后續(xù)熱點(diǎn)話題的深度分析與趨勢預(yù)測提供了支撐。

二、相關(guān)理論

（一）話題檢測與跟蹤技術(shù)

TDT作為一種主題檢索技術(shù)，其特點(diǎn)主要在于關(guān)注與特定事件主題相關(guān)的數(shù)據(jù)。傳統(tǒng)的檢索技術(shù)是從內(nèi)容來檢索、確定文檔的分類，而TDT技術(shù)是基于事件，利用分析文檔與事件主題聯(lián)系來獲取特定主題信息，它從來源數(shù)據(jù)流中自動(dòng)發(fā)現(xiàn)主題并把與主題相關(guān)的內(nèi)容聯(lián)系在一起。TDT的研究任務(wù)主要包括五部分：對新聞廣播等報(bào)道進(jìn)行切分（報(bào)道切分），檢測未知話題（話題檢測），跟蹤已知話題（話題跟蹤），檢測未知話題首次相關(guān)報(bào)道（首次報(bào)道檢測）以及檢測報(bào)道間相關(guān)性（報(bào)道關(guān)聯(lián)性檢測）［7］。

（二）中文分詞及詞性標(biāo)注

中文分詞就是將漢字序列切分成有意義的詞，以字為單位，句和段則通過標(biāo)點(diǎn)等分隔符來劃界。目前主流的中文分詞算法分為四類：基于字符串匹配的分詞，基于理解的分詞，基于統(tǒng)計(jì)和基于語義的分詞［8］。

詞性標(biāo)注是根據(jù)句子上下文環(huán)境給句中的每個(gè)詞標(biāo)記一個(gè)正確的詞性，主要是機(jī)器針對多標(biāo)記詞（即有多種詞性的詞）和未登錄詞（即在訓(xùn)練語料中未出現(xiàn)的詞）標(biāo)記詞性。詞性標(biāo)注技術(shù)與分詞技術(shù)一樣，在自然語言處理、機(jī)器翻譯、文本自動(dòng)檢索及分類、文字識(shí)別、語音識(shí)別等實(shí)際應(yīng)用中占有重要地位［5］。目前比較典型的標(biāo)注算法歸納起來有：基于規(guī)則的方法，基于統(tǒng)計(jì)的方法，規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。本文選用的是規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。

（三）向量空間模型

向量空間模型（Vector Space Model，VSM）是一個(gè)應(yīng)用于信息過濾、信息擷取、索引評(píng)估相關(guān)性的代數(shù)模型，文本分析對象通常是以詞為單位的VSM數(shù)據(jù)［9］。運(yùn)用這個(gè)模型把文本表示為向量，就可以將文本處理簡化為向量空間中的向量運(yùn)算。當(dāng)文檔轉(zhuǎn)化為向量時(shí)，文檔中每個(gè)詞對應(yīng)向量的每個(gè)特征項(xiàng)維度，所有文檔中的詞所對應(yīng)的維度構(gòu)成了整個(gè)空間，而特征權(quán)重則是每個(gè)詞對應(yīng)每一維的取值，于是，一個(gè)文檔Dj轉(zhuǎn)化為特征向量可表示為：

其中tij是特征項(xiàng)，wij是特征權(quán)重，M是文本tij中的特征項(xiàng)總數(shù)。另外，文本中作為特征項(xiàng)的詞不能重復(fù)，即各特征項(xiàng)tij互異，且文本的內(nèi)部結(jié)構(gòu)不需要考慮，因此特征項(xiàng)tij無先后順序。

（三）K-means文本聚類

K-means算法以歐式距離作為相似性的評(píng)價(jià)指標(biāo)，即認(rèn)為兩個(gè)對象的距離越近，其相似度就越大，得到緊湊且獨(dú)立的簇是聚類的最終目標(biāo)。K-means算法中距離的計(jì)算公式如下：

第一步，從數(shù)據(jù)對象中任意選擇K個(gè)對象（K值需要預(yù)先設(shè)定）作為初始聚類中心。第二步，計(jì)算剩下的對象與這些聚類中心的相似度（距離），并分別將它們分配給最相似的（聚類中心所代表的）類。第三步，重新計(jì)算每個(gè)新類的聚類中心（該聚類中所有對象的均值）。第四步，不斷重復(fù)第二、三步，直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止，一般采用均方差作為標(biāo)準(zhǔn)測度函數(shù)。

該算法在處理大數(shù)據(jù)集時(shí)是相對高效和可伸縮的，計(jì)算的復(fù)雜度為O （Nkt），其中N是數(shù)據(jù)對象的數(shù)目，t是迭代的次數(shù)（一般K≤N，t≤N，同時(shí)算法對順序不太敏感，因此較適合對VSM表示的文本集進(jìn)行聚類。本文聚類效果的驗(yàn)證采用類平均相似度，公式為：

其中AVGT（SIM）表示類T的平均相似度；CT表示類T所包含的微博條數(shù)；ft（avg（si m ））表示類T中單條微博文t的個(gè)體平均相似度，即t與類T中其余微博文的相似程度之和取平均值。將類中所有微博文的個(gè)體平均相似度之和取一次平均值，從而得到類的平均相似度。

三、研究設(shè)計(jì)

（一）識(shí)別流程

本文基于TDT技術(shù)設(shè)計(jì)出中文微博熱點(diǎn)話題識(shí)別流程，主要環(huán)節(jié)如圖1所示。

圖1 中文微博熱點(diǎn)話題識(shí)別流程圖

首先通過微博爬蟲系統(tǒng)獲取所需的數(shù)據(jù)，如微博內(nèi)容、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)、受眾數(shù)等；接著從獲取數(shù)據(jù)中提取話題識(shí)別的數(shù)據(jù)源，利用中文分詞處理過濾數(shù)據(jù)；對預(yù)處理后的微博內(nèi)容中的每個(gè)特征詞，利用特征詞權(quán)值計(jì)算方法TF-IDF（Term Frequency–Inverse Document Frequency）計(jì)算特征權(quán)重并建立向量空間模型，再利用K-means文本聚類來歸納出多個(gè)話題；最后對多個(gè)話題的影響力進(jìn)行計(jì)算并分析，通過效果驗(yàn)證識(shí)別出熱點(diǎn)話題。

（二）熱點(diǎn)判定——話題影響力設(shè)計(jì)

本文基于微博特點(diǎn)和話題本身，提出熱度的判定因素——話題影響力。微博熱點(diǎn)話題影響力為該話題中單條相關(guān)微博內(nèi)容的影響力總和，單條微博內(nèi)容的影響力又分為直接影響力和間接影響力。由于用戶發(fā)表的微博文直接呈現(xiàn)給關(guān)注該用戶的受眾，因此單條微博的直接影響力與該條微博發(fā)布用戶的關(guān)注人數(shù)（受眾數(shù)）相關(guān)［10］。本文此處只考慮微博評(píng)論數(shù)與第一層的轉(zhuǎn)發(fā)數(shù)。定義話題影響力相關(guān)計(jì)算公式如下：

其中Inf（）T為話題T的影響力；n為該類中與話題相關(guān)的微博條數(shù)；Inf（）t為單條相關(guān)微博內(nèi)容t的影響力。一個(gè)話題的影響力為話題中所包含的所有相關(guān)微博內(nèi)容影響力之和。

其中InfD（）t為單條相關(guān)微博內(nèi)容t的直接影響力；InfI（）t為單條相關(guān)微博內(nèi)容t的間接影響力。單條微博的影響力為直接影響力與間接影響力之和。話題T的影響力為：

其中comments為微博t的評(píng)論條數(shù)，retweets為微博t的直接轉(zhuǎn)發(fā)次數(shù)，系數(shù)α＞0，β＞0，α＋β＝1。微博被評(píng)論一次僅表明該條微博對評(píng)論者有所影響，而轉(zhuǎn)發(fā)一次后，該條微博的影響將會(huì)擴(kuò)散，轉(zhuǎn)發(fā)對微博影響力有放大效應(yīng)，因此一般情況下β＞α，具體參數(shù)值可運(yùn)用經(jīng)驗(yàn)或?qū)＜掖蚍值仁侄蝸泶_定。

四、實(shí)證分析

本文實(shí)驗(yàn)數(shù)據(jù)隨機(jī)選取了2011年12月8日到2011年12月14日這7天內(nèi)的微博數(shù)據(jù)，通過新浪微博API接口共爬取微博內(nèi)容2 103條。根據(jù)研究設(shè)計(jì)的熱點(diǎn)話題挖掘流程，對該周內(nèi)新浪微博熱點(diǎn)話題挖掘進(jìn)行實(shí)證研究。

（一）數(shù)據(jù)預(yù)處理

首先對微博內(nèi)容進(jìn)行文本預(yù)處理，即進(jìn)行去重、分詞、無效信息過濾、降維等操作。實(shí)驗(yàn)中使用C＃版本的中科院ICTCLAS中文分詞系統(tǒng)對微博文本進(jìn)行分詞處理，同時(shí)標(biāo)注詞性，并過濾微博內(nèi)容，保留名詞及名詞性詞語，然后將所有的單字過濾，再去除所有的英文字符、數(shù)字和一系列數(shù)學(xué)符號(hào)等非中文詞，只留下有意義的中文詞語。圖2為關(guān)于“2012年倫敦奧運(yùn)會(huì)期間英國女王出租宮殿套間”話題文本示例。

圖2 詞性過濾后的文本圖

（二）話題識(shí)別

文本預(yù)處理后，針對每條微博內(nèi)容，利用特征詞權(quán)值計(jì)算方法TF-IDF計(jì)算各個(gè)單詞權(quán)重，以構(gòu)成一個(gè)向量空間模型用于聚類。實(shí)驗(yàn)中，K值在最大值范圍內(nèi)通過多次實(shí)驗(yàn)結(jié)果驗(yàn)證來選取。經(jīng)過多次試驗(yàn)，最終將該周的微博內(nèi)容聚為10類，并對各類進(jìn)行類關(guān)鍵詞提取，結(jié)果如表1所示。

表1 類關(guān)鍵詞提取結(jié)果表

以上10類中，所提取的關(guān)鍵詞具有較強(qiáng)實(shí)時(shí)性的有6個(gè)，關(guān)鍵詞所包含信息較為日常的類有4個(gè)。此時(shí)若設(shè)置類平均相似度閾值為0．01，則恰好包含較強(qiáng)實(shí)時(shí)信息的6個(gè)類別。將類平均相似度高于閾值且包含較強(qiáng)實(shí)時(shí)信息的類定義為一個(gè)話題，則從微博內(nèi)容中發(fā)現(xiàn)話題數(shù)目為6個(gè)，分別為類3、4、6、7、8、10。

（三）話題影響力排序

大多關(guān)于熱點(diǎn)發(fā)現(xiàn)的算法認(rèn)為，在聚類后出現(xiàn)的熱點(diǎn)詞頻率較高，則該話題即為熱點(diǎn)話題。這種原理是基于熱點(diǎn)詞與話題的附屬關(guān)系，但卻忽略了當(dāng)話題較分散的情況下聚類也能進(jìn)行，同時(shí)在聚類結(jié)果中，可能有些話題只是局部較熱的小話題，整體來講算不上熱度很高［11］，因此可以設(shè)置一個(gè)閾值來區(qū)分話題冷熱，話題熱度（本文中以話題影響力來衡量）高于閾值則表示聚類出來的話題為“熱點(diǎn)話題”，低于閾值則視為“非熱點(diǎn)話題”。熱點(diǎn)與非熱點(diǎn)的概念是相對的，因此也可以根據(jù)話題影響力公式計(jì)算出每個(gè)話題的熱度，然后按照熱度分?jǐn)?shù)排序，分?jǐn)?shù)越高表示話題影響力越大，熱度越高。

實(shí)驗(yàn)中，挖掘熱點(diǎn)話題的數(shù)據(jù)來源時(shí)間段Δh為2011年12月8日至2011年12月14日。由于實(shí)驗(yàn)中發(fā)現(xiàn)話題的總數(shù)較少，故本實(shí)驗(yàn)不以預(yù)先設(shè)定話題影響力閾值來劃分“熱點(diǎn)”與“非熱點(diǎn)”，只將話題按影響力大小排序，即設(shè)定所發(fā)現(xiàn)話題均為熱度不同的熱點(diǎn)話題。

根據(jù)話題影響力相關(guān)計(jì)算公式（4）～（8），計(jì)算得到實(shí)驗(yàn)中所提取的6個(gè)話題在當(dāng)前時(shí)段的影響力評(píng)分及排名，如表2所示?？紤]到微博轉(zhuǎn)發(fā)會(huì)使微博的影響擴(kuò)散，相對于評(píng)論其影響力更大，因此公式（8）中α取值為0．4，β取值為0．6。

表2 話題影響力及排位表

從以上分析結(jié)果可以看出，在實(shí)驗(yàn)識(shí)別出的2011年12月8日到2011年12月14日的6個(gè)話題中，影響力從大到小依次是江蘇豐縣校車事故、南京大屠殺紀(jì)念日、韓國海警被刺事件、電影《金陵十三釵》即將上映、廣東陸豐烏坎村群體事件、雙子座流星雨爆發(fā)。

（四）效果驗(yàn)證

話題識(shí)別與跟蹤的效果一般使用準(zhǔn)確率和召回率兩個(gè)參數(shù)來衡量，公式如下：

其中A表示已提取出的與話題相關(guān)內(nèi)容，B表示已提取出的與話題不相關(guān)內(nèi)容，C表示未提取出的與話題相關(guān)內(nèi)容。在全部文本數(shù)據(jù)中，與話題相關(guān)的數(shù)目為A＋C，而被判定與話題相關(guān)的數(shù)目為A＋B。

召回率和精度是不可能兩全其美。當(dāng)召回率較高時(shí)，精度反而降低；反之精度高時(shí)，召回率就會(huì)有所降低。因此，本文用這兩個(gè)度量值融合而成的一個(gè)度量值F來衡量這個(gè)效果。F值公式如下：

實(shí)驗(yàn)以“召回率”、“準(zhǔn)確率”驗(yàn)證熱點(diǎn)話題發(fā)現(xiàn)效果，根據(jù)公式（9）、（10）、（11）計(jì)算出每個(gè)話題的召回率與準(zhǔn)確率，如表3所示。

從表3可以看出，6個(gè)熱點(diǎn)話題召回率從高到低依次為：韓國海警被刺事件，江蘇豐縣校車事故，南京大屠殺周年紀(jì)念，雙子座流星雨，陸豐烏坎村群體事件，電影《金陵十三釵》話題，各類話題召回率均較高。相反，各類話題準(zhǔn)確率均較低，最高為雙子座流星雨，僅為0．769，最低為廣東陸豐群體事件，僅為0．641。聚類準(zhǔn)確率低與微博內(nèi)容零散、談?wù)撛掝}范圍極其廣泛有關(guān)，即話題聚類時(shí)噪聲數(shù)據(jù)太多，導(dǎo)致β值較大。實(shí)驗(yàn)表明微博熱點(diǎn)話題發(fā)現(xiàn)的“召回率”較高而準(zhǔn)確率較低，這與微博內(nèi)容的不規(guī)范性、隨意性等特點(diǎn)有關(guān)。從綜合衡量召回率和準(zhǔn)確率的F值來看，熱點(diǎn)識(shí)別取得了良好的效果。盡管微博內(nèi)容存在一定的不規(guī)范和隨意性，但從實(shí)證分析中可以看到，聚類所選取出的6類熱點(diǎn)話題F值均保持在0．75以上。

表3 熱點(diǎn)話題識(shí)別效果驗(yàn)證表

五、結(jié)論

本文借鑒TDT技術(shù)，設(shè)計(jì)了一套中文微博熱點(diǎn)話題挖掘流程，并利用一段時(shí)間內(nèi)的少量新浪微博數(shù)據(jù)進(jìn)行熱點(diǎn)發(fā)掘?qū)嵶C研究。該流程可以使微博站點(diǎn)外部用戶利用少量微博數(shù)據(jù)便能挖掘微博熱點(diǎn)，以滿足其監(jiān)控輿情或發(fā)現(xiàn)商機(jī)的需要。本文主要的創(chuàng)新工作有以下兩點(diǎn)：

第一，將識(shí)別熱點(diǎn)話題的主流技術(shù)TDT運(yùn)用于中文微博平臺(tái)，同時(shí)還在流程設(shè)計(jì)中結(jié)合了中文微博的特性。

第二，微博平臺(tái)往往以單一的微博數(shù)量指標(biāo)來衡量話題熱度，而本文則提出了以話題影響力的大小來評(píng)判話題熱度。

由于新浪爬蟲程序爬取的數(shù)據(jù)有限，因而本文僅限于對能收集到的數(shù)據(jù)進(jìn)行研究，實(shí)證結(jié)果難免有一定的局限。另外，微博內(nèi)容較雜亂，噪聲信息較多，話題聚類效果也有待提高，因此相關(guān)聚類算法的改進(jìn)也是未來研究的方向。話題影響力驗(yàn)證方法還需完善，后期可以對熱點(diǎn)話題進(jìn)行動(dòng)態(tài)跟蹤，以發(fā)現(xiàn)熱點(diǎn)話題的整體趨勢變化。

［1］ Kuo-Jui Wu，Meng-Chang Chen，Yeali Sun．Automatic Topics Discovery From Hyperlinked Documents［J］．Information Processing and Management，2004，40（2）．

［2］ Aurora Pons-Porrata，Rafael Berlanga-Llavori，Jose Ruiz-Shulcloper．Topic Discovery Based on Text Mining Techniques［J］．Information Processing and Management，2007，43（3）．

［3］ Changki Lee，Gary Geunbae Lee，Myunggil Jang．Dependency Structure Language Model for Topic Detection and Tracking［J］．Information Processing and Management，2007，43（5）．

［4］孫勝平．中文微博客熱點(diǎn)話題檢測與跟蹤技術(shù)研究［D］．北京：北京交通大學(xué)碩士學(xué)位論文，2011．

［5］楊冠超．微博熱點(diǎn)話題發(fā)現(xiàn)策略研究［D］．杭州：浙江大學(xué)碩士學(xué)位論文，2011．

［6］趙前東，葉猛．微博熱點(diǎn)話題檢測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)［J］．電視技術(shù)，2013，37（3）．

［7］洪宇，張宇，劉挺，李生．話題檢測與跟蹤的測評(píng)及研究綜述［J］．中文信息學(xué)報(bào)，2007，21（6）．

［8］張啟宇，朱玲，張雅萍．中文分詞算法研究綜述［J］．情報(bào)探索，2008（11）．

［9］薛薇，陳歡歌．文本聚類中罰多項(xiàng)混合模型的特征選擇及其在互聯(lián)網(wǎng)輿情分析中的應(yīng)用［J］．統(tǒng)計(jì)與信息論壇，2012，27（1）．

［10］Gaonkar S，Choudhury R R．Micro-blog：Map-casting from Mobile Phones to Virtual Sensor Maps ［Z］．Sydney，Australia，2007．

［11］程軍軍，劉云．基于新聞評(píng)論的熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)研究［J］．網(wǎng)際網(wǎng)路技術(shù)學(xué)，2008，9（5）．

Research on Chinese Micro-Blogging Hot Topic Mining

HE Yue，SHUAI Ma-lian，F(xiàn)ENG Yun
（Business School，Sichuan University，Chengdu 610064，China）

Micro-blogging hot topic represents the public attitude to the problems of real life，and the recognition of the micro-blogging hot topic is beneficial to monitor of network public sentiment．The paper based on Topic Detection and Tracking（Topic Detection and Tracking，TDT）designs the recognition path of Chinese micro-blogging hot topic，which analysis extracted micro-blogging hot topic by impact of topic to identify the hot topic．The result shows that according to the size of the impact of hot topics of the experimental period，the ranking list is confirmed well by the evaluation of TDT．The topic influence building provides a theoretical basis for relevant enterprises or government to take a different control strategy of public opinion for the topic of heat size．

micro-blogging，impact of topic，TDT

G203

1007－3116（2014）06－0086－05

2013－11－18

何躍，男，重慶人，教授，管理科學(xué)與工程博士，研究方向：宏觀經(jīng)濟(jì)，數(shù)據(jù)挖掘，信息管理與決策；

帥馬戀，女，湖南醴陵人，碩士生，研究方向：數(shù)據(jù)挖掘，信息管理與信息系統(tǒng)；

馮韻，女，四川巴中人，碩士生，研究方向：數(shù)據(jù)挖掘，信息管理與信息系統(tǒng)。

（責(zé)任編輯：杜一哲）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

中文微博熱點(diǎn)話題挖掘研究

一、引 言

二、相關(guān)理論

（一）話題檢測與跟蹤技術(shù)

（二）中文分詞及詞性標(biāo)注

（三）向量空間模型

（三）K-means文本聚類

三、研究設(shè)計(jì)

（一）識(shí)別流程

（二）熱點(diǎn)判定——話題影響力設(shè)計(jì)

四、實(shí)證分析

（一）數(shù)據(jù)預(yù)處理

（二）話題識(shí)別

（三）話題影響力排序

（四）效果驗(yàn)證

五、結(jié)論

一、引言

二、相關(guān)理論

三、研究設(shè)計(jì)

四、實(shí)證分析

五、結(jié)論