王文帥,杜然,程耀東,陳剛
1.中國(guó)科學(xué)院高能物理研究所計(jì)算中心,北京 100049
2.中國(guó)科學(xué)院大學(xué),北京 100049
一種面向大規(guī)模微博數(shù)據(jù)的話題挖掘方法
王文帥1,2,杜然1,2,程耀東1,陳剛1
1.中國(guó)科學(xué)院高能物理研究所計(jì)算中心,北京 100049
2.中國(guó)科學(xué)院大學(xué),北京 100049
近年來社交網(wǎng)站在國(guó)內(nèi)外得到迅猛發(fā)展,微博逐漸融入人們的日常生活,微博作為信息發(fā)布和傳播的平臺(tái),得到越來越多機(jī)構(gòu)的關(guān)注。與傳統(tǒng)新聞媒體相比,微博的信息提供者更廣泛,更新速度和傳播速度更快,內(nèi)容涵蓋主題更加寬泛。微博話題發(fā)現(xiàn)對(duì)行業(yè)調(diào)研、輿情監(jiān)管都有十分重要的作用,這使得微博話題的挖掘成為當(dāng)前的一個(gè)研究熱點(diǎn)。
據(jù)新浪公開數(shù)據(jù),截至2012年底,新浪微博注冊(cè)用戶數(shù)就已達(dá)到5億以上,2013年第四季度微博日均活躍用戶為6 140萬。在龐大的微博用戶中存在一定數(shù)量的“網(wǎng)絡(luò)水軍”使微博數(shù)據(jù)充斥著一些重復(fù)的垃圾數(shù)據(jù),從海量的微博信息中挖掘出有效的話題信息顯得尤為重要。
2.1 傳統(tǒng)的話題挖掘模型
早期的話題挖掘方法使用的是向量空間模型(Vector Space Model,VSM)由Salton[1]等人在20世紀(jì)70年代提出。VSM模型廣泛應(yīng)用于新聞文檔的話題挖掘領(lǐng)域,文本表示成高維的向量,通過構(gòu)造詞語(yǔ)-文本特征矩陣來挖掘話題。而微博文本內(nèi)容簡(jiǎn)短,同一個(gè)詞出現(xiàn)在不同文本中的概率遠(yuǎn)小于普通的新聞文檔。這就會(huì)導(dǎo)致特征矩陣高度稀疏,使結(jié)果難以令人滿意。
Deerwester等人引入語(yǔ)義維度提出潛在語(yǔ)義分析(Latent Semantic Analysis,LSA)模型[2]對(duì)文本進(jìn)行挖掘,其主要思想是將文檔和詞匯映射到與語(yǔ)義相關(guān)聯(lián)的一個(gè)低維的向量空間,本質(zhì)上是考慮詞與詞在文檔中的共現(xiàn)情況。LSA通過對(duì)高維的TF-IDF矩陣進(jìn)行奇異值分解,是一種線性代數(shù)的分析方法,算法復(fù)雜度較高。
1999年,Hofmann在LSA的基礎(chǔ)上提出基于概率統(tǒng)計(jì)的生成模型pLSA[3],pLSA通過概率模型來模擬文檔中詞語(yǔ)的生成過程,然而在pLSA中對(duì)文本-主題的分布和主題-詞語(yǔ)的分布只看作是參數(shù),而非隨機(jī)變量。
2003年Blei等人[4]在pLSA的基礎(chǔ)上引入Dirichlet先驗(yàn)分布,提出了LDA(Latent Dirichlet Allocation)模型。LDA模型是一個(gè)“文本-主題-詞語(yǔ)”的三層貝葉斯產(chǎn)生式模型。假定文本集D中有M個(gè)文本D={d1,d2,…,dm},每個(gè)文本有N個(gè)詞語(yǔ)W={w1,w2,…,wn},文本集有T個(gè)主題。每個(gè)文本可以表示為一系列潛主題的隨機(jī)混合分布p(z),每個(gè)主題都是文本集中全部詞語(yǔ)的概率分布p(w|z),這樣每一個(gè)文本中每個(gè)詞語(yǔ)wi的概率分布可以表示為:
圖1所示為L(zhǎng)DA的概率圖模型。LDA模型生成文本的過程為:
(1)選擇主題與詞語(yǔ)的關(guān)系?,?~Dirichlet(β)。
(2)對(duì)每個(gè)文本d:
①選擇文本與主題的關(guān)系θd,θd~Dirichlet(α);
②按如下方法選擇N個(gè)詞語(yǔ)的每個(gè)詞語(yǔ):
(a)選擇主題zdn,zdn~Multinomial(θd);
(b)選出詞語(yǔ)wdn,wdn~Multinomial(φzdn)。
圖1 LDA的概率圖模型
LDA模型通過將T個(gè)主題的概率權(quán)重看為Dirichlet分布的T維隨機(jī)變量,克服了pLSA的參數(shù)過多的缺點(diǎn),并且避免pLSA中參數(shù)數(shù)目隨文本數(shù)增加而增加的缺點(diǎn),從而避免了過度擬合問題。在LDA模型的基礎(chǔ)上也衍生出了許多基于LDA的其他主題模型。
2.2 微博話題挖掘
微博數(shù)據(jù)中豐富的轉(zhuǎn)發(fā)、評(píng)論關(guān)系信息為話題挖掘提供了更豐富的數(shù)據(jù)基礎(chǔ),而傳統(tǒng)的話題挖掘模型不能很好地利用這些信息。近年來,在微博話題挖掘方面,國(guó)內(nèi)外研究人員多以Twitter為研究對(duì)象,基于LDA提出了一些主題分析方法。路榮等使用LDA模型挖掘短文本的隱主題信息,以此度量短文本間的相似度,對(duì)短文本進(jìn)行聚類分析[5]。有學(xué)者提出改進(jìn)的LDA模型,如Twitter-LDA[6]、MB-LDA[7]等。Twitter-LDA先將相同作者的文本聚合成一個(gè)大的“用戶文檔”,然后引入背景主題,取得了不錯(cuò)的效果,但沒有根據(jù)背景主題對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步處理,挖掘出的不同主題中仍然會(huì)包含比較多的背景詞,影響主題的獨(dú)立性。MB-LDA認(rèn)為與同一聯(lián)系人存在關(guān)聯(lián)的文本主題往往也相關(guān),引入聯(lián)系人與主題的分布,并根據(jù)轉(zhuǎn)發(fā)標(biāo)識(shí)關(guān)聯(lián)轉(zhuǎn)發(fā)文本和原文本的關(guān)系。由于中英文表達(dá)和結(jié)構(gòu)的差異,以及Twitter和國(guó)內(nèi)微博數(shù)據(jù)結(jié)構(gòu)的不同,針對(duì)Twitter的研究不能適應(yīng)微博分析的需求。中文微博的研究多以新浪微博為研究對(duì)象,謝昊等人基于提出一種RT-LDA模型[8]引入作者的主題分布和對(duì)轉(zhuǎn)發(fā)微博的處理。馬雯雯等人引入話題熱度概念,提出一種基于LSA的兩階段聚類話題發(fā)現(xiàn)方法[9]。
3.1 數(shù)據(jù)采集
為了能對(duì)新浪微博數(shù)據(jù)進(jìn)行話題挖掘首先要進(jìn)行微博采集工作。新浪提供了開放API接口,利用API可以獲得豐富的微博數(shù)據(jù)。新浪對(duì)API的調(diào)用設(shè)置了較多的限制,為提高數(shù)據(jù)采集效率,本文利用中科院高能物理研究所計(jì)算中心的微博大數(shù)據(jù)爬蟲開放平臺(tái)[10]進(jìn)行數(shù)據(jù)的采集工作。實(shí)驗(yàn)從新浪微博抓取了914 036個(gè)用戶共1 452 565條與2014年兩會(huì)相關(guān)的微博。對(duì)大規(guī)模的數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析發(fā)現(xiàn),每個(gè)用戶平均發(fā)布1.6條微博,發(fā)布10條以上微博的用戶僅占總用戶數(shù)的1.02%,在這樣大規(guī)模的數(shù)據(jù)集上使用基于作者(用戶)主題分布的模型或算法復(fù)雜度較高的LSA模型都不太合適。
3.2 方法的基本流程
針對(duì)大規(guī)模微博數(shù)據(jù)的特點(diǎn),本文提出的方法是,首先使用Bloom Filter算法[11]對(duì)重復(fù)信息進(jìn)行刪除,減少不必要的存儲(chǔ)成本和分析的復(fù)雜度;然后提取出微博間的轉(zhuǎn)發(fā)、評(píng)論關(guān)聯(lián)關(guān)系,以備后續(xù)分析使用;使用正則表達(dá)式去除微博中的干擾信息,對(duì)微博進(jìn)行分詞、去停止詞處理;最后使用改進(jìn)的LDA模型SNLDA模型進(jìn)行主題挖掘得到微博話題及其分布情況。方法的整體框架如圖2所示。
圖2 整體框架圖
3.3 數(shù)據(jù)預(yù)處理
3.3.1 Bloom Filter算法去重
經(jīng)過對(duì)新浪微博數(shù)據(jù)的分析發(fā)現(xiàn),在數(shù)據(jù)中存在比較多的重復(fù)信息,主要是“網(wǎng)絡(luò)水軍”通過多個(gè)微博帳號(hào)發(fā)布同樣的內(nèi)容對(duì)某件事或某產(chǎn)品進(jìn)行炒作。為了減少數(shù)據(jù)存儲(chǔ)并順利挖掘出有效話題,需要去除這些重復(fù)數(shù)據(jù)進(jìn)行。判斷一條微博是否和已有微博重復(fù),最基本的方法是查找這條微博是否已屬于已有微博的集合,用普通的順序查找方法,效率很低,不能很好地滿足需求。
布隆過濾器(Bloom Filter)是由Howard Bloom在1970年提出的。他僅使用了一系列的bit位來保存數(shù)據(jù),就可以檢測(cè)一個(gè)元素是否已經(jīng)存在于集合內(nèi),因此這種算法有著很好的空間利用率。但是為了節(jié)約空間,這種算法也存在著問題,它會(huì)對(duì)元素產(chǎn)生錯(cuò)判:把一個(gè)不屬于該集合的元素誤判為屬于該集合。但是這種誤判率非常低,對(duì)于大規(guī)模的微博話題挖掘來說,個(gè)別微博這種錯(cuò)誤是可以容忍的,因此,布隆過濾器仍是一個(gè)比較合適的算法。
使用Bloom Filter算法進(jìn)行微博文本去重時(shí),為微博設(shè)置一個(gè)bool屬性,記錄微博是否重復(fù),把每條微博的內(nèi)容看作一個(gè)元素,先初始化一個(gè)空的布隆過濾器,每讀入一條微博,就判斷布隆過濾器是否包含該元素,若不包含,就把該元素加入布隆過濾器,微博的bool屬性設(shè)置為false,這樣完成對(duì)微博內(nèi)容的去重處理。偽代碼如下:
3.3.2 提取關(guān)聯(lián)關(guān)系
新浪微博存在大量的轉(zhuǎn)發(fā)、評(píng)論等社交網(wǎng)絡(luò)特有的關(guān)聯(lián)關(guān)系信息,對(duì)話題的挖掘有幫助,特別是用戶轉(zhuǎn)發(fā)時(shí)沒有追加新內(nèi)容或用戶評(píng)論內(nèi)容極短時(shí)關(guān)聯(lián)起原微博信息才能明確用戶參與的話題,提取出這些關(guān)聯(lián)信息很有必要。對(duì)新浪微博進(jìn)行分析發(fā)現(xiàn)三種情況:(1)用戶B單純轉(zhuǎn)發(fā)用戶A一條微博,在用戶B的頁(yè)面上會(huì)顯示“轉(zhuǎn)發(fā)微博”并在下面以特定格式顯示用戶A的原始微博;(2)用戶B轉(zhuǎn)發(fā)并評(píng)論用戶A一條微博,在用戶B的頁(yè)面上會(huì)顯示評(píng)論內(nèi)容并在下面以特定格式顯示用戶A的原始微博;(3)用戶C對(duì)用戶A的微博進(jìn)行了評(píng)論,用戶B又對(duì)用戶C的評(píng)論進(jìn)行評(píng)論并轉(zhuǎn)發(fā),在用戶B的頁(yè)面上會(huì)顯示以“回復(fù)@用戶C:”開頭的用戶B評(píng)論內(nèi)容,后面是以“//@用戶C:”開頭的用戶C評(píng)論的內(nèi)容,并在下面以特定格式顯示用戶A的原始微博。微博數(shù)據(jù)抓取平臺(tái)得到的社交網(wǎng)絡(luò)數(shù)據(jù)信息包括用戶ID、微博ID、微博URL、微博內(nèi)容、轉(zhuǎn)發(fā)/評(píng)論源ID等屬性。其中微博內(nèi)容不包含并以特定格式顯示的原始微博。如果某條微博是對(duì)其他微博的轉(zhuǎn)發(fā)評(píng)論,轉(zhuǎn)發(fā)/評(píng)論源ID屬性即為被轉(zhuǎn)發(fā)/評(píng)論原始微博的ID,如果是原創(chuàng)微博,該屬性為0。通過該屬性可以把原始微博內(nèi)容與轉(zhuǎn)發(fā)/評(píng)論部分的內(nèi)容相關(guān)聯(lián),使文本特征得到擴(kuò)展。
3.3.3 過濾干擾信息
微博中還存在大量的對(duì)話題挖掘意義不大的特征信息,如“//@人民日?qǐng)?bào):我想說環(huán)境治理刻不容緩,不能再以犧牲環(huán)境來?yè)Q取經(jīng)濟(jì)的發(fā)展了,我們不要霧霾!我們要藍(lán)天白云^&**&^我在:玉泉路”這條信息中,“//@人民日?qǐng)?bào):”、“我在:玉泉路”這些信息本身對(duì)話題挖掘意義不大,反而容易造成干擾,需要去除掉;“^&**&^”這種特殊字符則是噪聲詞也需要去除掉。
通過對(duì)微博文本特征進(jìn)行分析,發(fā)現(xiàn)以下干擾信息需要過濾掉:(1)URL鏈接;(2)以“@”開頭部分字符串;(3)以“我在:”或“我在這里:”開頭的部分字符串(微博結(jié)尾部分的位置信息);(4)特殊字符。通過配置相應(yīng)的正則表達(dá)式可以很好的過濾掉這些干擾信息。
對(duì)文本進(jìn)行分詞處理后,還需要去除掉助詞、副詞等停止詞,實(shí)驗(yàn)使用加載停止詞典的方法去除停止詞。
3.4 SNLDA模型
因?yàn)榇罅哭D(zhuǎn)發(fā)、評(píng)論類微博文本較短,使用標(biāo)準(zhǔn)的LDA模型對(duì)微博進(jìn)行挖掘會(huì)存在數(shù)據(jù)高維稀疏的問題。利用從社交網(wǎng)絡(luò)提取的微博關(guān)聯(lián)信息可以擴(kuò)展文本特征,轉(zhuǎn)發(fā)、評(píng)論類微博關(guān)聯(lián)上原始微博可以很好地確定主題。相比新聞?lì)愇恼露?,微博?nèi)容短小,可以認(rèn)為一條微博只涉及一個(gè)主題。在微博中去除噪聲后仍有一些背景詞大量出現(xiàn),以兩會(huì)相關(guān)的微博為例,“兩會(huì)”、“中國(guó)”等詞語(yǔ)就多次出現(xiàn)在大量微博中,這些詞是數(shù)據(jù)集的背景詞,不具備挖掘意義。
圖3所示為SNLDA的圖模型,模型中各參數(shù)符號(hào)說明如表1所示。SNLDA引入反饋機(jī)制,設(shè)置背景詞典,文本中的背景詞不再參與主題挖掘,保證各主題的獨(dú)立性和可辨識(shí)性。模型分為兩個(gè)階段,虛線上方為第一階段,推導(dǎo)得出背景詞典,根據(jù)背景詞典對(duì)數(shù)據(jù)集進(jìn)行裁剪處理,再進(jìn)行虛線下方的第二階段推導(dǎo)。
圖3 SNLDA圖模型
表1 SNLDA模型參數(shù)符號(hào)說明
第一階段微博文本的生成過程如圖4所示:首先用參數(shù)γ生成伯努利分布λ,λ服從Dirichlet分布,即λ~Dir(γ),用參數(shù)βb生成φb,φb~Dir(βb)。對(duì)每一個(gè)主題,用參數(shù)β生成φ,?~Dir(β)。對(duì)每條微博,根據(jù)微博關(guān)系判斷是否為轉(zhuǎn)發(fā)評(píng)論類微博,如果是,則關(guān)聯(lián)原微博用參數(shù)αo生成θd,θd~Dir(αo);如果不是,則用參數(shù)α生成θd,θd~Dir(α)。根據(jù)θd抽取微博主題zd,zd~Multinomial(θd)。主題確定后從參數(shù)為λ的伯努利分布中抽取y,確定是從背景詞中抽取詞語(yǔ)還是從主題zd中抽取詞語(yǔ),如果y=0,從背景詞中抽??;如果y=1,從參數(shù)為φzd的多項(xiàng)分布中抽取詞語(yǔ)。
圖4 微博生成過程
第一階段可以得到y(tǒng)的分布情況,從而確定背景詞的分布,與去停用詞類似,在詞匯表中對(duì)背景詞進(jìn)行裁剪處理。之后進(jìn)行第二階段推導(dǎo),得出相對(duì)獨(dú)立的主題分布。
如SNLDA模型第一階段微博生成過程所述,每條微博d的主題的后驗(yàn)分布θd的概率可表示為:
式中xd=0表示原創(chuàng)微博,xd=1表示轉(zhuǎn)發(fā)評(píng)論微博。
由于每條微博d只有一個(gè)主題,主題的概率可表示為:
3.5 模型推導(dǎo)
LDA主題模型求解常用的有三種非精確推導(dǎo)方法:吉布斯采樣法,變分法和基于期望推進(jìn)的方法。實(shí)驗(yàn)采用簡(jiǎn)單快速的吉布斯采樣法[12]。
吉布斯采樣法采樣一條微博屬于某個(gè)主題的條件概率可表示為:
其中zd=j表示微博d當(dāng)前主題是j,z-d表示除去微博d之外其他微博的主題,N為微博d中詞語(yǔ)的數(shù)量,yi表示詞語(yǔ)wi是否選自主題詞,n(wi)j表示微博d中詞語(yǔ)wi分配到主題j的數(shù)量,n(*)j表示分配到主題j的詞語(yǔ)的總數(shù),mj表示分配到主題j的微博數(shù)量,m(*)表示微博的總數(shù)量。
決定微博中每個(gè)詞語(yǔ)是否主題詞的y分布的概率表示為
在吉布斯采樣過程中,通過對(duì)上述公式反復(fù)迭代使抽樣結(jié)果達(dá)到穩(wěn)定狀態(tài),獲得參數(shù)結(jié)果:
4.1 數(shù)據(jù)預(yù)處理結(jié)果
實(shí)驗(yàn)對(duì)1 452 565條數(shù)據(jù)進(jìn)行去重,去重后剩余714 950條數(shù)據(jù),節(jié)省了50.78%的存儲(chǔ)空間,也大大降低了之后話題挖掘階段的計(jì)算量。
4.2 參數(shù)設(shè)置
根據(jù)參考文獻(xiàn)中對(duì)主題模型參數(shù)設(shè)置的研究,本實(shí)驗(yàn)參數(shù)設(shè)置為經(jīng)驗(yàn)值[13]:α=αo=50/T,β=βb=0.01,γ=0.5,話題數(shù)T設(shè)為50,吉布斯采樣迭代次數(shù)設(shè)置為300次。
4.3 實(shí)驗(yàn)結(jié)果
4.3.1 高概率主題詞效果
分別使用SNLDA模型和LDA模型進(jìn)行微博話題挖掘。在每個(gè)主題內(nèi)部根據(jù)詞語(yǔ)概率高低進(jìn)行主題詞排序,可以選擇具有最高概率的6個(gè)詞語(yǔ)評(píng)估話題挖掘效果[14]。表2所示是取了SNLDA模型結(jié)果中的前10個(gè)話題及其關(guān)鍵詞,表3所示是取了LDA模型結(jié)果中的前10個(gè)話題及其關(guān)鍵詞。
表2 SNLDA模型微博話題挖掘結(jié)果
表2中話題1關(guān)注的是司法改革,話題2關(guān)注的是房地產(chǎn)調(diào)控,話題3關(guān)注的是兩會(huì)礦泉水實(shí)名制,話題4關(guān)注的是昆明火車站暴力事件,話題5關(guān)注的是城鎮(zhèn)化改革,話題6關(guān)注的是霧霾治理問題,話題7關(guān)注的是烏克蘭局勢(shì),話題8關(guān)注的是教育公平問題,話題9關(guān)注的是轉(zhuǎn)基因食品安全問題,話題10關(guān)注的是醫(yī)改問題。話題挖掘結(jié)果具有很好的可讀性,而且與現(xiàn)實(shí)中的事件相吻合。
表3 LDA模型微博話題挖掘結(jié)果
表3中話題關(guān)鍵詞交叉現(xiàn)象比較多,話題可辨識(shí)性較差。使用SNLDA模型得到的結(jié)果要優(yōu)于LDA模型。
4.3.2 Perplexity指標(biāo)評(píng)估效果
實(shí)驗(yàn)使用Perplexity指標(biāo)對(duì)模型進(jìn)行量化評(píng)估。Perplexity常用來衡量語(yǔ)言模型對(duì)語(yǔ)料建模時(shí)性能的好壞,一般來說,Perplexity取值越小表示模型性能越好[15]。該指標(biāo)計(jì)算公式如下:
其中D為數(shù)據(jù)集,wd為微博d中的詞語(yǔ),Nd為微博d的詞語(yǔ)數(shù)。
在相同參數(shù)下,取主題數(shù)T為50,計(jì)算LDA模型與SNLDA模型的Perplexity值,結(jié)果如圖5所示。從結(jié)果可以發(fā)現(xiàn),相同條件下SNLDA模型的Perplexity取值更小,說明SNLDA模型對(duì)語(yǔ)料建模的性能要更好。
圖5 模型Perplexity值比較
本文提出了一種針對(duì)大規(guī)模短文本的話題挖掘方法。首先對(duì)大規(guī)模文本進(jìn)行去重處理,再針對(duì)微博特有的結(jié)構(gòu)進(jìn)行數(shù)據(jù)過濾處理,綜合考慮轉(zhuǎn)發(fā)、評(píng)論等關(guān)聯(lián)關(guān)系和背景詞語(yǔ)影響等因素提出一個(gè)兩階段微博主題挖掘模型SNLDA。實(shí)驗(yàn)表明模型能較好地挖掘出微博的主題。今后的研究工作中將繼續(xù)優(yōu)化模型,一方面探索使用云計(jì)算平臺(tái)對(duì)微博數(shù)據(jù)進(jìn)行主題挖掘,另一方面探索高效的增量式主題挖掘模型。
[1]Salton G,Wong A,Yang C S.A vector space model for automaticindexing[J].CommunicationsoftheACM,1975,18(11):613-620.
[2]Deerwesster S,Dumais S T,F(xiàn)uvnas G W.Indexing by latent semanticanalysis[J].JournaloftheAmericanSociety for Information Sciens,1990,41(6):391-407.
[3]Hofmann T.Unsupervised Learning by Probabilistic Latent SemanticAnalysis[J].MachineLearning,2001,42(1):177-196.
[4]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003(3):993-1022.
[5]路榮,項(xiàng)亮,劉明榮,等.基于隱主題分析和文本聚類的微博客新聞話題發(fā)現(xiàn)研究[C]//第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集,2010.
[6]Zhao Wayne Xin,Jing Jiang,Weng Jianshu,et al.Comparing twitter and traditional media using topic models[C]//Proceedings of 33rd European Conference on Information Retrieval(ECIR’11).Berlin,Heidelberg:Springer-Verlag,2011:338-349.
[7]張晨逸,孫建伶,丁逸群.基于MB-LDA模型的微博主題挖掘[J].計(jì)算機(jī)研究與發(fā)展,2011,48(10):1795-1802.
[8]謝昊,江紅.一種面向微博主題挖掘的改進(jìn)LDA模型[J].華東師范大學(xué)學(xué)報(bào):自然科學(xué)版,2013,11(6):93-100.
[9]馬雯雯,魏文晗,鄧一貴.基于隱含語(yǔ)義分析的微博話題發(fā)現(xiàn)方法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(1):96-99.
[10]中科院高能物理所Bigdata微博爬蟲開放平臺(tái)[EB/OL]. [2014-02-03].http://bigdataopc.ihep.ac.cn.
[11]Bloom B H.Space/time trade-offs in hash coding with allowable errors[J].Communications of the ACM,1970,13(7):422-426.
[12]Griffiths T.Gibbs sampling in the generative model of LatentDirichletAllocation[EB/OL].[2014-02-03].http:// people.cs.umass.edu/~wallach/courses/s11/cmpsci791ss/ readings/griffiths02gibbs.pdf.
[13]Griffiths T L,Steyvers M.Finding scientific topics[J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(Suppl 1):5228-5235.
[14]Chang J,Boyd-Graber J.Reading tea leaves:how humans interpret topic models[M]//Bengio Y,Schuurmans D,Lafferty J,et al.Advances in neural information processing systems.Cambridge,MA:The MIT Press,2009:288-296.
[15]Gruber A,Weiss Y,Rosen-Zvi M.Hidden Topic Markov Models[C]//Proceedings of the Conference on Artificial Intelligence and Statistics,2007.
WANG Wenshuai1,2,DU Ran1,2,CHENG Yaodong1,CHEN Gang1
1.Computing Center,Institute of High Energy Physics,Chinese Academy of Sciences,Beijing 100049,China
2.University of Chinese Academy of Sciences,Beijing 100049,China
With the daily popularity of microblog,Sina Weibo has become one of the important public access to and dissemination of information platform,microblog topic mining has become a current research focuses.This paper proposes a topic mining method on massive Social Network data.This paper analyzes the large-scale microblog data,uses Bloom Filter algorithm to eliminate the duplicate data.In view of the special structure of microblog,filter the text.SNLDA,an improved LDA topic model is proposed in this paper,Gibbs sampling is chosen to deduce the model,which can mine the microblog topics.The experimental results show that the method can effectively excavate the topics from the large-scale microblog data.
microblog;Bloom Filter;Social Network LDA(SNLDA);topic mining
隨著微博的日趨流行,新浪微博已成為公眾獲取和傳播信息的重要平臺(tái)之一,針對(duì)微博數(shù)據(jù)的話題挖掘也成為當(dāng)前的研究熱點(diǎn)。提出一個(gè)面向大規(guī)模微博數(shù)據(jù)的話題挖掘方法。首先對(duì)大規(guī)模微博數(shù)據(jù)進(jìn)行分析,基于Bloom Filter算法對(duì)數(shù)據(jù)進(jìn)行去重處理,針對(duì)微博的特有結(jié)構(gòu),對(duì)文本進(jìn)行預(yù)處理,提出改進(jìn)的LDA主題模型Social Network LDA(SNLDA),采用吉布斯采樣法進(jìn)行模型推導(dǎo),挖掘出微博話題。實(shí)驗(yàn)結(jié)果表明,方法能有效地從大規(guī)模微博數(shù)據(jù)中挖掘出話題信息。
微博;Bloom Filter;社會(huì)網(wǎng)絡(luò)主題模型分析(SNLDA);話題挖掘
A
TP393
10.3778/j.issn.1002-8331.1404-0042
WANG Wenshuai,DU Ran,CHENG Yaodong,et al.Topic mining method on massive microblog data.Computer Engineering and Applications,2014,50(22):32-37.
國(guó)家自然科學(xué)基金(No.11205179,No.11305196);國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863)(No.2014AA015205)。
王文帥(1982—),男,博士研究生,工程師,研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,數(shù)據(jù)庫(kù)技術(shù);杜然,女,博士研究生;程耀東,男,博士,副研究員;陳剛(1961—),男,博士,研究員,博士生導(dǎo)師。E-mail:wangws@ihep.ac.cn
2014-04-03
2014-05-21
1002-8331(2014)22-0032-06
CNKI網(wǎng)絡(luò)優(yōu)先出版:2014-06-26,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1404-0042.html