史慶偉,劉雨詩(shī),張豐田
(遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島 125105)
基于微博文本的詞對(duì)主題演化模型
史慶偉,劉雨詩(shī)*,張豐田
(遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島 125105)
(*通信作者電子郵箱shishi.mail@foxmail.com)
針對(duì)傳統(tǒng)主題模型忽略了微博短文本和文本動(dòng)態(tài)演化的問(wèn)題,提出了基于微博文本的詞對(duì)主題演化(BToT)模型,并根據(jù)所提模型對(duì)數(shù)據(jù)集進(jìn)行主題演化分析。BToT模型在文本生成過(guò)程中引入連續(xù)的時(shí)間變量具體描述時(shí)間維度上的主題動(dòng)態(tài)演化,同時(shí)在文檔中構(gòu)成主題共享的“詞對(duì)”結(jié)構(gòu),擴(kuò)充了短文本特征。采用Gibbs采樣方法對(duì)BToT參數(shù)進(jìn)行估計(jì),根據(jù)獲得的主題-時(shí)間分布參數(shù)對(duì)主題進(jìn)行演化分析。在真實(shí)微博數(shù)據(jù)集上進(jìn)行驗(yàn)證,結(jié)果表明,BToT模型可以描述微博數(shù)據(jù)集中潛在的主題演化規(guī)律,獲得的困惑度評(píng)價(jià)系數(shù)低于潛在狄利克雷分配(LDA)、詞對(duì)主題模型(BTM)和主題演化模型(ToT)。
特征值稀疏;主題演化模型;動(dòng)態(tài)演化;Gibbs采樣;微博
當(dāng)前微博作為一種新的傳播載體,允許任何人用電腦、手機(jī)等方式在任意時(shí)間發(fā)布任何言論,且這些言論能迅速傳播給互聯(lián)網(wǎng)所能觸及的任何人[1]。微博數(shù)據(jù)實(shí)時(shí)且傳播廣泛的特點(diǎn),使其數(shù)據(jù)蘊(yùn)含了巨大的應(yīng)用價(jià)值。近年來(lái),在用戶推薦,輿情監(jiān)控和話題追蹤等研究方向上往往使用微博數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集。因此,如何更好地挖掘微博數(shù)據(jù)、理解微博文本語(yǔ)義成為研究熱點(diǎn)。
不同于普通文本的語(yǔ)義理解,主題模型在微博上的應(yīng)用應(yīng)同時(shí)考慮微博文本的兩個(gè)主要特點(diǎn):特點(diǎn)一,微博文本帶有時(shí)間標(biāo)記,文本語(yǔ)義在時(shí)間維度上動(dòng)態(tài)演化,具有實(shí)時(shí)性;特點(diǎn)二,微博發(fā)布的信息為140字以下的短文本,而短文本的特征矩陣特別稀疏且上下文相關(guān)性極強(qiáng)。目前,主題模型解決微博文本特征值稀疏的方法大致可歸納為兩類:背景語(yǔ)料訓(xùn)練和特征值擴(kuò)充。其中,背景語(yǔ)料訓(xùn)練的方法建立在一種假設(shè)上,即作為背景語(yǔ)料集的長(zhǎng)文本集合與短文本集的潛在語(yǔ)義分布相同,這樣的假設(shè)對(duì)數(shù)據(jù)集質(zhì)量要求較高,不適用于內(nèi)容分散的微博文本;而特征擴(kuò)展方法更廣泛地應(yīng)用于微博語(yǔ)義分析的過(guò)程,方法使用外部特征或文本本身對(duì)短文本特征進(jìn)行合理擴(kuò)充,對(duì)潛在語(yǔ)義在語(yǔ)料集上的分布影響較小,應(yīng)用于微博文本較為合適。然而,這些主題模型的應(yīng)用還不能很好地展示微博主題在連續(xù)時(shí)間上的演化過(guò)程。下面舉例加以說(shuō)明:
1)雙十一電商都在打折,可以好好購(gòu)物。
—2015-11-01
2)五一假期去哪里玩呢?農(nóng)家樂(lè)怎么樣。
—2015-04-27
針對(duì)這樣的兩條微博,擴(kuò)充特征的主題模型雖能得到主題A1(購(gòu)物)、主題A2(節(jié)假),但是無(wú)法確定分析出主題出現(xiàn)的時(shí)間,更無(wú)法探知A1、A2主題隨時(shí)間的變化趨勢(shì)。這是由于缺少時(shí)間因素造成的,模型默認(rèn)A1、A2兩個(gè)主題出現(xiàn)在同一時(shí)間點(diǎn),但是顯然主題A1在現(xiàn)實(shí)中出現(xiàn)在2015-11-11前后的概率更大,而主題A2應(yīng)更可能出現(xiàn)在2015-05-01左右。所以無(wú)時(shí)間因素的主題模型中會(huì)忽略了微博文本的動(dòng)態(tài)屬性,導(dǎo)致模型在應(yīng)用過(guò)程中無(wú)法得到受時(shí)間因素影響的主題分布。這使得在基于微博的輿情監(jiān)測(cè)和熱點(diǎn)追蹤等問(wèn)題的研究上只能使用單一時(shí)間點(diǎn)或離散時(shí)間點(diǎn)的主題分布進(jìn)行研究,并不符合微博數(shù)據(jù)在連續(xù)時(shí)間上分布的事實(shí)。而引入時(shí)間因素的主題演化模型是基于長(zhǎng)文本集提出的,在微博短文本上的應(yīng)用效果不佳?,F(xiàn)假設(shè)一種極端情況進(jìn)行說(shuō)明,若文檔集中的文檔只包含一個(gè)詞,則該文檔下的主題只有一個(gè),在統(tǒng)計(jì)過(guò)程中過(guò)少的樣本將無(wú)法保證文檔-主題分布符合實(shí)際情況。
從上訴分析可知,現(xiàn)有的解決特征稀疏的主題模型沒(méi)有考慮時(shí)間維度,不能表示主題在時(shí)間上的演化過(guò)程,而考慮時(shí)間因素的主題演化模型直接作用在特征值稀疏的短文本上效果不佳,不適用于微博短文本。這兩類主題模型對(duì)微博進(jìn)行語(yǔ)義分析都可能無(wú)法有效地獲得微博文本中的潛在語(yǔ)義演化趨勢(shì)。
因此,為契合微博文本的兩個(gè)主要特點(diǎn),本文嘗試提出一種針對(duì)短文本的主題演化模型。模型通過(guò)不依賴于外部文本的擴(kuò)充文檔特征的方法,解決短文本在主題模型上因特征稀疏照成的效果不佳的問(wèn)題,同時(shí)模型引入時(shí)間變量,在文本生成過(guò)程中增加時(shí)間因素的影響,使該主題模型適用于微博文本。
相比呂超鎮(zhèn)等[2]提出的背景語(yǔ)料訓(xùn)練的方法,特征擴(kuò)充的方法更適用于主題模型在微博短文本上的應(yīng)用。張晨逸等[3]提出的微博文本潛在狄利克雷語(yǔ)義分析(MicroBlog-Latent Dirichlet Semantic Analysis, MB-LDA),綜合考慮了微博的聯(lián)系人關(guān)聯(lián)關(guān)系和文本關(guān)聯(lián)關(guān)系,來(lái)輔助進(jìn)行微博的主題挖掘。唐曉波等[4]提出的基于潛在狄利克雷分配 (Latent Dirichlet Allocation,LDA)模型和微博熱度的熱點(diǎn)挖掘方法,將熱點(diǎn)話題作為背景信息進(jìn)行輔助。上訴擴(kuò)充方法的實(shí)現(xiàn)是基于文本結(jié)構(gòu)化的擴(kuò)充方法,利用了微博文本的不同類型而區(qū)別處理,是針對(duì)特定的應(yīng)用方向結(jié)合特定的外部特征輔助進(jìn)行的微博文本挖掘。Xu等[5]通過(guò)使用維基百科作為數(shù)據(jù)源,對(duì)文本特征進(jìn)行擴(kuò)展以提高主題模型的性能。該方法雖不依賴與特定的文本結(jié)構(gòu),但是也增加了噪聲的可能性。Yan等[6]提出的詞對(duì)主題模型(Biterm Topic Model, BTM)根據(jù)位置相近的詞具有相近的隱含語(yǔ)義,將語(yǔ)料集中的距離相近的兩詞組構(gòu)成詞對(duì),降低文檔的特征稀疏性,且不依賴于外部文本。BTM與其他模型相比更好地解決了特征值稀疏問(wèn)題,但其忽略文檔層的主題混合的同時(shí)并不能揭示主題在時(shí)間維度上的動(dòng)態(tài)演化,對(duì)微博文本進(jìn)行潛在語(yǔ)義分析可能存在偏差。
主題演化模型將時(shí)間因素考慮到LDA模型相關(guān)體系, Blei等[7]在LDA模型的基礎(chǔ)上提出了動(dòng)態(tài)主題模型 (Dynamic Topic Model,DTM)。由于實(shí)際應(yīng)用中DTM的效果對(duì)不同大小劃分的時(shí)間粒度比較敏感,因此,Wang等[8]在DTM的基礎(chǔ)上,引入文本的時(shí)間戳標(biāo)記到模型中,構(gòu)建了連續(xù)時(shí)間版本的連續(xù)動(dòng)態(tài)主題模型(continuous time Dynamic Topic Model, cDTM)。大量研究[9-11]表明,主題的演化過(guò)程呈現(xiàn)跳躍性,也就是說(shuō)主題動(dòng)態(tài)演化有可能不服從一階馬爾可夫假設(shè)。Wang等[12]提出了與馬爾可夫假設(shè)無(wú)關(guān)的主題演化模型ToT(Topic over Time),假設(shè)時(shí)間服從Beta分布[13],更好地?cái)M合了主題動(dòng)態(tài)演化過(guò)程; 但是主題演化模型對(duì)主題-詞分布和文檔-主題分布進(jìn)行估計(jì),短文本的特征值極度稀疏,導(dǎo)致采樣過(guò)程中文檔-主題分布不具有統(tǒng)計(jì)意義,所以主題演化模型不能直接應(yīng)用于微博短文本。
根據(jù)上述的研究結(jié)果,本文基于微博文本的兩個(gè)主要特點(diǎn),提出一種詞對(duì)和時(shí)間因素聯(lián)合建模的主題模型——詞對(duì)主題演化模型(Biterm Topic over Time, BToT)。首先該模型建模時(shí)將一篇文檔內(nèi)的詞改寫(xiě)成“詞對(duì)”集合,重新構(gòu)建語(yǔ)料集結(jié)構(gòu),解決短文本的特征值稀疏的問(wèn)題,且模型保留了文檔層的主題混合,為后續(xù)輿情監(jiān)測(cè)和熱點(diǎn)追蹤等問(wèn)題的研究提供了易于使用的語(yǔ)料集特征。同時(shí),模型將文本的時(shí)間戳信息引入到參數(shù)演化過(guò)程中,假設(shè)時(shí)間為連續(xù)變量且服從Beta分布,使模型更好地?cái)M合實(shí)時(shí)性文檔的生成過(guò)程,適用于微博文本的語(yǔ)義理解。最后通過(guò)Gibbs采樣[14-15]對(duì)微博語(yǔ)料集的3個(gè)分布(文檔-主題、主題-詞和主題-時(shí)間)進(jìn)行參數(shù)估計(jì)。
首先介紹BToT模型中使用的基本符號(hào)[16]。
w表示構(gòu)成文檔的基本單位:詞。文檔集內(nèi)含有的所有詞的構(gòu)成詞表集合V={1,2,3,…,V},w=v表示w是V內(nèi)第v個(gè)詞。
b表示同一文檔內(nèi)任意兩詞構(gòu)成的無(wú)序詞對(duì),b={wm,i,wm, j},每個(gè)詞對(duì)中的詞屬于同一主題。
d表示為一篇包含N個(gè)詞對(duì)的文檔,Nm表示第m篇文檔的詞對(duì)總數(shù)文檔,dm={bm,1,bm,2,…,bm,n},bm,n表示第m篇文檔中第n個(gè)詞對(duì)。
D表示由m篇文檔構(gòu)成的文檔集,文檔集D={d1,d2, …,dm},dm為文檔集中第m篇文檔。
Z表示為潛在主題集合,Z={1,2,…,K},z=k表示z為主題集合中第k個(gè)主題。
t表示為時(shí)間戳,時(shí)間戳集合T={t1,t2,…,tm},tm表示為第m篇文檔的時(shí)間戳。
主題模型假設(shè)文檔為詞袋模式,即一篇文檔由若干個(gè)無(wú)序詞組成,在文檔-詞間存在潛在主題,使文章-主題和主題-詞服從一定的概率分布。即文本生成過(guò)程由文檔-主題概率分布和主題-詞概率分布聯(lián)合產(chǎn)生。假設(shè),每個(gè)主題上的詞分布服從多項(xiàng)分布,矩陣φ∈RK*V表示每個(gè)主題上的詞分布概率,其中φk表示第k個(gè)主題之上每個(gè)詞的概率分布。每篇文檔上的主題分布同樣服從于多項(xiàng)分布,矩陣θ∈RM*K表示每篇文檔上的主題分布概率,其中θm表示第m篇文檔上每個(gè)主題的分布概率。
由于多項(xiàng)分布的共軛先驗(yàn)概率函數(shù)是狄利克雷(Dirichlet)分布[15]通過(guò)狄利克雷先驗(yàn)分布可以推斷多項(xiàng)分布參數(shù)φ和θ。引入超參數(shù)α∈RK與β∈RV,即先驗(yàn)概率函數(shù)狄利克雷分布的參數(shù),使得θm~ Dirichlet(α),φk~ Dirichlet(β)。
BToT模型是在傳統(tǒng)主題模型上對(duì)詞對(duì)、時(shí)間因素聯(lián)合建模。模型假設(shè)存在連續(xù)的時(shí)間變量,主題的分布與時(shí)間存在緊密聯(lián)系,所以時(shí)間因素影響主題分布。在文檔的生成過(guò)程中,假設(shè)主題-時(shí)間戳分布為Beta分布,其密度函數(shù)的形狀比高斯分布更豐富。文檔生成過(guò)程中加入第k個(gè)主題上隨時(shí)間變化的Beta 分布中生成單詞時(shí)間戳部分,在Beta分布中引入?yún)?shù)集Ψ,其中ψk為第k個(gè)主題上的時(shí)間分布參數(shù)。BToT模型假設(shè)語(yǔ)料集內(nèi)相近的詞具有同一主題,將每篇文檔中的任意兩詞組成無(wú)序詞對(duì),對(duì)間相互獨(dú)立,無(wú)序排列。若一篇文章有n(n>2)個(gè)詞,組成詞對(duì)后則含有n*(n-1)/2個(gè)詞對(duì),擴(kuò)大了文本特征,且不依賴于外部文檔,同時(shí)BToT模型在一篇文章內(nèi)組成詞對(duì)的方式保留了文檔間的界限。需要注意在文檔生成過(guò)程中,詞對(duì)中的詞屬于同一主題,主題-詞分布依舊為多項(xiàng)分布φ,其參數(shù)的先驗(yàn)分布依舊為Dirichlet分布。
BToT模型在語(yǔ)料集中對(duì)文檔的產(chǎn)生過(guò)程描述如下:
1)對(duì)于每個(gè)主題k∈[1,K]:
從Dirichlet先驗(yàn)β中抽取多項(xiàng)分布φk~Dirichlet(β);
2)對(duì)于每篇文檔m∈[1,M] :
從Dirichlet 先驗(yàn)α中抽取多項(xiàng)分布θm~Dirichlet(α);
3)對(duì)于每篇文檔m∈[1,M]中的每一個(gè)詞對(duì)b∈[1,N],其中b={wm,i,wm, j}:
①?gòu)摩戎谐槿∫粋€(gè)主題zm,n,滿足
zm,n~Multinomial(θm);
②在主題中抽取兩個(gè)單詞wm,i、wm, j,滿足
wm,i,wm, j~Multinomial(φk);
③在參數(shù)為ψk的Beta函數(shù)上抽取一個(gè)時(shí)間戳,滿足tm,n~Beta(ψk)。
模型生成過(guò)程中主題數(shù)K已知不變,詞表維度V與文檔數(shù)M根據(jù)語(yǔ)料集的具體情況確定,生成過(guò)程中已知不變。
BToT模型的概率生成如圖1 所示。
圖1 BToT模型概率圖Fig. 1 Probability graph of BTOT model
在圖1中環(huán)形為觀察值,圓形表示變量,箭頭表示各變量之間存在的依賴關(guān)系,矩形表示迭代重復(fù)的次數(shù)[16]。根據(jù)上述描述,wm,i、wm, j是可以直接觀測(cè)到的已知變量。α與β作為Dirichlet先驗(yàn)分布的參數(shù),α反映語(yǔ)料集中主題間的相對(duì)強(qiáng)弱關(guān)系,β則反映主題自身的概率分布情況。剩余的變量zm,n、φk、θm是未知的隱含變量,需根據(jù)已知的觀察值進(jìn)行估計(jì)的變量,其中zm,n由α與θm聯(lián)合生成,在生成zm,n后,φk與β生成bm,n中的兩詞wm,i、wm, j,一個(gè)詞對(duì)中的兩詞屬于同一主題。
BToT模型的目標(biāo)是找出每篇文檔的潛在主題和主題演化過(guò)程,需要計(jì)算后驗(yàn)概率如下所示:
(1)
式(1)的分母,即整個(gè)語(yǔ)料集的所有單詞概率如下所示:
其中:n是所有詞對(duì)的總數(shù),分母要計(jì)算kn項(xiàng),離散空間過(guò)大無(wú)法進(jìn)行運(yùn)算,需要其他方法對(duì)參數(shù)進(jìn)行估計(jì)。比較常用的參數(shù)估計(jì)方法[19]包括期望傳播[20]、期望最大化[21]和Gibbs采樣等,其中Gibbs采樣是MCMC(Markov-Chain Monte Carlo)[22]的特例,Gibbs采樣作為一個(gè)在高維模型近似推斷上相對(duì)簡(jiǎn)單的方法被廣泛使用,所以本文對(duì)BToT模型的3個(gè)隱含變量,φ、θ、Ψ進(jìn)行采用Gibbs采樣估計(jì),通過(guò)全概率公式對(duì)后驗(yàn)概率公式進(jìn)行模擬。
進(jìn)行Gibbs采樣首先要寫(xiě)出文檔集在BToT模型中的聯(lián)合概率分布。根據(jù)圖1中的BToT模型的概率圖寫(xiě)出dm,φ,θ,t,zm聯(lián)合概率分布如下所示:
p(dm,zm,θm,φk,t|α,β,ψk)=
p(dm,zm|θm,φk)p(θm|α)p(φk|β)p(t|ψk)=
p(θm|α)p(φk|β)*p(t|ψk)
(3)
其中,對(duì)于每篇文檔的詞對(duì)集dm每一個(gè)詞對(duì)bm,n={wm,i,wm, j}的概率如下所示:
p(bm,n=wm,i,wm, j|θm)=
(4)
給定主題情況下詞對(duì)的多項(xiàng)分布的似然函數(shù),如下所示:
p(bm,n=wm,i,wm, j|zm,φk)=
(5)
p(b|zm,β)=∫p(b|zm,φ)*p(φ|β)dφ=
(6)
同理可得:
(7)
p(z|α)=∫p(z|θ) *p(θ|α)dθ=
(8)
所以聯(lián)合概率分布最終如下所示:
p(dm,zm,θm,φk,t|α,β,ψk)=
(9)
根據(jù)聯(lián)合概率分布和全條件概率公式得到全條件概率如下所示:
Beta(ψk)=
(10)
采用上述公式,對(duì)語(yǔ)料集的每篇文檔下的每個(gè)單詞分配一個(gè)主題。當(dāng)所有詞都分配主題后,完成一次迭代。在進(jìn)行若干次迭代后,使馬爾可夫鏈條采樣出一系列的狀態(tài)點(diǎn),直到達(dá)到平穩(wěn)分布狀態(tài),即為聯(lián)合概率分布,完成主題采樣。
當(dāng)主題采樣結(jié)束后,根據(jù)期望公式求得φ、θ兩個(gè)重要矩陣。
(11)
(12)
詞對(duì)時(shí)間戳與文檔時(shí)間戳相同,服從于不同主題下的Beta分布。Beta分布參數(shù)ψk采用矩估計(jì),如下所示:
ψk,1=tk*[tk(1-tk)/sk-1]
(13)
(14)
本文在主題模型的基本框架上,引入時(shí)間因素和詞對(duì)模式提出了BToT模型。算法需要實(shí)現(xiàn)語(yǔ)料集結(jié)構(gòu)改變,對(duì)于語(yǔ)料集中的一篇文檔須將文檔中的詞向量改為詞對(duì)向量dm,其中每個(gè)詞對(duì)表示兩個(gè)詞組成的結(jié)構(gòu)b={wm,i,wm, j}。在主題演化過(guò)程中,需對(duì)文檔集的時(shí)間戳遍歷,矩估計(jì)時(shí)間分布參數(shù)。
為方便敘述,ITERATION為參數(shù)收斂時(shí)的迭代次數(shù),M為語(yǔ)料集中文檔數(shù),B設(shè)為一篇文檔中的詞對(duì)個(gè)數(shù)。BToT模型算法描述如下:
輸入 文檔集合D;
輸出 分布參數(shù)φ,θ,Ψ。
1)
//建立由詞對(duì)組成的文本集 Setdvariables composed of biterms for ever doc
2)
//初始化模型 Zero all count variablesnk,w,nm,k,nk,nmSample topic indexzm,nIncrement count and sumsnk,w,nm,k,nk,nm
3)
//初始化時(shí)間戳分布參數(shù)ΨComputeΨfor every doc’s time
4)
//進(jìn)行迭代 for 1 toITERATIONdo
5)
for all documentm∈[1,M] do
6)
for all bitermsb∈[1,B] do
7)
//除去b所屬兩詞wi,wj的主題 Decrement count and sumsnk,wi-=1,nk,wj-=1,nm,k-=2,nk-=2 8) //隨機(jī)生成的新主題 Sample topic indexk~p(z|b)
9)
//添加b所屬兩詞wi,wj的主題 Add count and sumsnk,wi+=1,nk,wj+=1,nm,k+=2,nk+=2 10) End for
11)
End for
12)
End for
13)
//計(jì)算分布參數(shù)φ,θ,ΨCompute parameter setφ,θ,Ψ
5.1 實(shí)驗(yàn)數(shù)據(jù)及實(shí)驗(yàn)環(huán)境
為驗(yàn)證BToT模型的有效性,選取2011年1月1日至2012年12月30日的真實(shí)微博數(shù)據(jù)作為語(yǔ)料集。通過(guò)對(duì)新聞、娛樂(lè)、體育、養(yǎng)生等13個(gè)熱門(mén)話題下的微博進(jìn)行數(shù)據(jù)爬取,獲得包含帶有時(shí)間標(biāo)記的微博正文81 209條的語(yǔ)料集。使用ICTCLAS 分詞系統(tǒng)對(duì)文博正文進(jìn)行分詞,去停用詞。對(duì)語(yǔ)料集進(jìn)行時(shí)間歸一化和排除無(wú)意義微博后得到可應(yīng)用于實(shí)驗(yàn)的微博正文70 496條,詞表大小為32 079。
5.2 性能評(píng)估方法
通常有3種方法對(duì)主題模型進(jìn)行評(píng)估和最優(yōu)主題數(shù)確定。有貝葉斯統(tǒng)計(jì)標(biāo)準(zhǔn)方法[23]、困惑度(perplexity)方法[24]、主題之間的平均相似度方法[25]。本文通過(guò)對(duì)訓(xùn)練結(jié)束后的模型進(jìn)行困惑度計(jì)算來(lái)對(duì)模型評(píng)估。
困惑度公式:
(15)
其中:b通常設(shè)置為2或e,H(q)是公式中q概率分布的熵。當(dāng)概率q的困惑度平均分布時(shí),將概率代入困惑度公式得到概率q的perplexity值,對(duì)于未知的概率分布q,perplexity的值越小,說(shuō)明模型越好。xi為測(cè)試文本,即語(yǔ)料集中的詞表,N是語(yǔ)料集大小。將語(yǔ)料集數(shù)值代入困惑度公式,經(jīng)推導(dǎo)主題模型困惑度計(jì)算公式如下所示:
(16)
5.3 參數(shù)設(shè)置
BToT模型主要需對(duì)超參數(shù)α、β,主題數(shù)K,迭代次數(shù)進(jìn)行設(shè)置。其中α=50/K,β=0.01,超參數(shù)α,β作為偽計(jì)數(shù),對(duì)模型效果影響很小,但α值過(guò)大時(shí),文檔屬于同一主題概率增加。主題數(shù)K的取值依次為20~200間隔20的數(shù),通過(guò)對(duì)不同主題數(shù)下生成的模型進(jìn)行困惑度計(jì)算,對(duì)比不同模型間的效果,同時(shí)獲取最佳主題數(shù)。Gibbs采樣的迭代次數(shù)為1 000結(jié)果可以達(dá)到收斂。
5.4 實(shí)驗(yàn)結(jié)果和分析
1)模型性能評(píng)估。本文針對(duì)LDA主題模型、BTM主題模型、ToT主題模型及BToT主題模型進(jìn)行對(duì)比實(shí)驗(yàn)。通過(guò)在相同語(yǔ)料集上,用同一的性能評(píng)估方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果即各個(gè)模型在主題數(shù)取值范圍內(nèi)的困惑度值如圖2所示。由圖2可知,BToT模型的困惑度值明顯小于LDA模型、BTM和ToT模型。說(shuō)明在相同語(yǔ)料集和實(shí)驗(yàn)環(huán)境下,BToT模型對(duì)時(shí)間標(biāo)注的短文本集合有更好的效果。
2)主題演化分析。主題演化分析是對(duì)某一確定主題和時(shí)間變化關(guān)系的描述,即主題-時(shí)間的概率分布。在BToT模型中主題-時(shí)間分布為Beta分布,通過(guò)采樣對(duì)Beta分布的參數(shù)ψk進(jìn)行估計(jì),由估計(jì)所的參數(shù)ψk求得各個(gè)主題隨時(shí)間的變化規(guī)律,公式如下所示:
p(t|z)=Beta(ψk)=
(17)
由圖2可知困惑度隨主題數(shù)的增加而降低,當(dāng)主題數(shù)為200時(shí),BToT模型的困惑度最低。選取主題數(shù)為200時(shí)的主題2、主題95、主題196為例說(shuō)明主題演化規(guī)律。
圖2 LDA、BTM、ToT和BToT模型困惑度對(duì)比Fig. 2 Perplexity comparison of LDA, BTM, ToT, BToT表1 BToT模型主題2、95、196前20個(gè)詞的概率值Tab. 1 Top 20 word probability of BToT in topic 2,95,196
主題2詞概率主題95詞概率主題196詞概率臺(tái)灣0.0420820中國(guó)0.0863234地球0.0399425兩岸0.0316476南海0.0239655人0.0291664命運(yùn)0.0300980日本0.0210495環(huán)保0.0235496命0.0229007漁民0.0189841生命0.0225510馬英九0.0227974導(dǎo)彈0.0177691人類0.0224262中國(guó)0.0210756海軍0.0166757綠色0.0188065人0.0184928美國(guó)0.0166149基地0.0172670領(lǐng)導(dǎo)人0.0181485越南0.0149140小時(shí)0.0163933話筒0.0160478印度0.0140939項(xiàng)目0.0145210人民0.0134651菲律賓0.0135168生態(tài)0.0133977地區(qū)0.0120187漁船0.0123626組織0.0093618規(guī)律0.0119499級(jí)0.0114817神0.0091954理學(xué)0.0113989船0.0108135志愿者0.0087377大陸0.0093671帕0.0105097公益0.0084049蔡英文0.0085062艦0.0101756獎(jiǎng)0.0081969主席0.0084373釣魚(yú)島0.0095074環(huán)境0.0071567朝鮮0.0083340島0.0092340動(dòng)物0.0067406信息0.0081274戰(zhàn)機(jī)0.0092340中國(guó)0.0064494理論0.0080241俄羅斯0.0092037母親0.0064078和平0.0078864課程0.0091125淡水0.0062830
圖3分別為3個(gè)主題的演化規(guī)律,圖中Beta函數(shù)曲線描述主題在連續(xù)時(shí)間上出現(xiàn)的概率,是對(duì)該主題在不同時(shí)間點(diǎn)受到關(guān)注強(qiáng)度的體現(xiàn)。在演化規(guī)律圖中Beta函數(shù)曲線為峰值時(shí)某主題的概率最大,表示該主題在此對(duì)應(yīng)時(shí)間點(diǎn)的關(guān)注度最大,也可以說(shuō)此時(shí)該主題的熱度最高。與臺(tái)灣問(wèn)題相關(guān)的主題2自2011年1月逐步升高,在2012年5月所受關(guān)注度最高,而過(guò)后有逐步下降。主題95是與南海問(wèn)題相關(guān)的主題,其在2012年6月所受關(guān)注度最高, 而2012年6月發(fā)生中菲南海爭(zhēng)端事件,民眾關(guān)注度與模型演化結(jié)果存在一致性。而與環(huán)保有關(guān)的主題196在2012年1月份后關(guān)注度持續(xù)上升。通過(guò)對(duì)主題演化模型的分析幫助用戶快速發(fā)現(xiàn)社會(huì)熱點(diǎn)即民眾關(guān)注度,從而對(duì)熱點(diǎn)變化作出較為準(zhǔn)確的判斷,可以用于進(jìn)一步的輿論監(jiān)控、熱點(diǎn)預(yù)測(cè)等工作。
本文針對(duì)微博文本提出BToT模型,通過(guò)構(gòu)建詞對(duì)模式和添加時(shí)間因素,改善了主題模型因短文本特征值稀疏造成的效果不佳,同時(shí)對(duì)明顯受時(shí)間因素影響的微博短文本語(yǔ)料集進(jìn)行演化分析,可以得到微博對(duì)于主題的關(guān)注度變化。BToT模型參數(shù)估計(jì)采用Gibbs采樣方法實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,在相同實(shí)驗(yàn)參數(shù)下,BToT模型效果較LDA模型、BTM和ToT模型更優(yōu)。
圖3 主題演化規(guī)律Fig. 3 Evolution of topics
通過(guò)以上的實(shí)驗(yàn)測(cè)試與分析,BToT模型還有些不盡如人意,BToT模型在采樣過(guò)程中對(duì)文檔中的詞對(duì)進(jìn)行遍歷,語(yǔ)料集中的詞對(duì)數(shù)遠(yuǎn)大于詞數(shù),因而相同實(shí)驗(yàn)環(huán)境下,BToT模型的運(yùn)行時(shí)間多于與LDA模型和ToT模型,略小于BTM,所以以后的工作將專注于通過(guò)并行化等方法提高模型的運(yùn)算能力,使其適應(yīng)于當(dāng)前網(wǎng)絡(luò)環(huán)境下的海量數(shù)據(jù)處理。
References)
[1] 張劍鋒,夏云慶,姚建民.微博文本處理研究綜述[J].中文信息學(xué)報(bào),2012,26(4):21-27.(ZHANG J F, XIA Y Q, YAO J M. A review towards microtext processing[J]. Journal of Chinese Information Processing, 2012,26(4):21-27.)
[2] 呂超鎮(zhèn),姬東鴻,吳飛飛. 基于LDA特征擴(kuò)展的短文本分類[J].計(jì)算機(jī)工程與應(yīng)用, 2015, 51(4):123-127.(LYU C Z, JI D H, WU F F. Short text classification based on expanding feature of LDA[J]. Computer Engineering and Applications, 2015, 51(4):123-127.)
[3] 張晨逸,孫建伶,丁軼群. 基于MB-LDA模型的微博主題挖掘[J].計(jì)算機(jī)研究與發(fā)展, 2011, 48(10):1795-1802. (ZHANG C Y, SUN J L, DING Y Q . Topic mining for microblog based on MB-LDA model[J]. Journal of Computer Research and Development, 2011, 48(10):1795-1802.)
[4] 唐曉波,向坤. 基于LDA模型和微博熱度的熱點(diǎn)挖掘[J].圖書(shū)情報(bào)工作, 2014, 58(5):58-63.(TANG X B,XIANG K. Hotspot mining based on LDA model and microblog heat[J]. Library and Information Service, 2014, 58(5):58-63.)
[5] XU T,OARD D W. Wikipedia-based topic clustering for microblogs[J].Proceedings of the American Society for Information Science and Technology,2011,48(1): 1-10.
[6] YAN X, GUO J, LAN Y, et al. A biterm topic model for short texts[C]// Proceedings of the 22nd International Conference on World Wide Web. New York: ACM, 2013:1445-1456.
[7] BLEI D, LAFFERTY J. Dynamic topic model[C]// Proceedings of the 23rd ICML International Conference on Machine Learning, New York: ACM, 2006: 113-120.
[8] WANG C, BLEI D, HECKERMAN D. Continuous time dynamic topic models[C]// Proceedings of the 24th Conference on Uncertainty in Artificial Intelligence. Corvallis: AUAI Press, 2008: 579-586.
[9] 劉曉鳴. 社區(qū)問(wèn)答系統(tǒng)中的專家發(fā)現(xiàn)方法研究[D].大連:大連理工大學(xué),2013.(LIU X P. Finding experts in community question answering[D]. Dalian: Dalian University of Technology, 2013.)
[10] 馬海平. 基于概率生成模型的相似度建模技術(shù)研究及應(yīng)用[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2013.(MA H P. A study of probability generation model based similarity modeling techniques and its applications [D]. Hefei: University of Science and Technology of China, 2013.)
[11] 羅遠(yuǎn)勝. 跨語(yǔ)言信息檢索中雙語(yǔ)主題模型及算法研究[D].南昌:江西財(cái)經(jīng)大學(xué),2013.(LUO Y S. Research on bilingual topic model and its algorithm in cross-language information retrieval [D]. Nanchang: Jiangxi University of Finance and Economics, 2013.)
[12] WANG X, MCCALLUM A. Topics over time: a non-Markov continuous-time model of topical trends[C]// Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2006: 424-433.
[13] OWEN C B. Parameter estimation for the beta distribution[D]. Provo: Brigham Young University, 2008.
[14] 劉書(shū)奎,吳子燕,張玉兵.基于Gibbs抽樣的馬爾科夫蒙特卡羅方法在結(jié)構(gòu)物理參數(shù)識(shí)別及損傷定位中的研究[J]. 振動(dòng)與沖擊, 2011, 30(10): 203-207.(LIU S K, WU Z Y, ZHANG Y B. Identification of physical parameters and damage locating with Markov chain Monte Carlo method based on Gibbs sampling[J]. Journal of Vibration and Shock, 2011, 30(10): 203-207.)
[15] 馬躍淵,徐勇勇.Gibbs抽樣算法及軟件設(shè)計(jì)的初步研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2005, 22(2):124-126.(MA Y Y, XU Y Y. An initial study on the algorithm and the software of Gibbs sampling[J]. Computer Applications and Software, 2005, 22(2):124-126.)
[16] 張小平,周雪忠,黃厚寬,等.一種改進(jìn)的LDA主題模型[J]. 北京交通大學(xué)學(xué)報(bào), 2010, 34(2):111-114.(ZHANG X P, ZHOU X Z, HUANG H K, et al. An improved LDA topic model[J]. Journal of Beijing Jiaotong University, 2010, 34(2):111-114.)
[17] 荀靜, 劉培玉, 楊玉珍,等. 基于潛在狄利克雷分布模型的多文檔情感摘要[J]. 計(jì)算機(jī)應(yīng)用, 2014, 34(6):1636-1640.(XUN J, LIU P Y, YANG Y Z, et al. Multi-document sentiment summarization based on latent Dirichlet allocation model[J]. Joutnal of Computers Applications,2014,34(6):1636-1364.)
[18] 徐戈,王厚峰.自然語(yǔ)言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào),2011, 34(8):1423-1436.(XU G, WANG H F. The development of topic models in natural language processing[J]. Chinese Journal of Computers, 2014, 34(6):1636-1364.)
[19] HAN X, STIBOR T. Efficient collapsed Gibbs sampling for latent Dirichlet allocation[J].Journal of Machine Learning Research, 2010, 13: 63-78.
[20] HOFFMAN M D, BLEI D M,WANG C, et al. Stochastic variational inference[J]. Journal of Machine Learning Research, 2013, 14(1):1303-1347.
[21] HEINRICH G. Parameter estimation for text analysis[EB/OL]. [2013-04-25].http://www.Arbylon.net/publications/textest2.pdf.
[22] 汲劍銳.馬爾科夫鏈應(yīng)用的一些探討[D].武漢: 華中師范大學(xué), 2012.(JI J R. The discussion about the applications of Markov chains[D]. Wuhan: Central China Normal University, 2012.)
[23] 石晶,范猛,李萬(wàn)龍.基于LDA模型的主題分析[J].自動(dòng)化學(xué)報(bào),2009,35(12):1586-1593.(SHI J, FAN M, LI W L. Text segmentation based on model LDA[J]. Acta Automatica Sinica, 2009,35(12): 1586-1593.)
[24] 史慶偉, 李艷妮, 郭朋亮.科技文獻(xiàn)中作者研究興趣動(dòng)態(tài)發(fā)現(xiàn)[J].計(jì)算機(jī)應(yīng)用, 2013, 33(11):3080-3083.(SHI Q W, LI Y N, GUO P L. Dynamic finding of authors’ research interests in scientific literature [J]. Journal of Computer Applications, 2013, 33(11): 3080-3083.)
[25] 曹娟,張勇東,李錦濤,等.一種基于密度的自適應(yīng)最優(yōu)LDA 模型選擇方法[J]. 計(jì)算機(jī)學(xué)報(bào), 2008,31(10):1780-1787.(CAO J, ZHANG Y D, LI J T, et al. A method of adaptively selecting best LDA model based on density[J]. Chinese Journal of Computers, 2008, 31(10): 1780-1787.)
SHI Qingwei, born in 1973, Ph. D., associate professor. His research interests include intelligent information processing.
LIU Yushi, born in 1993, M. S. candidate. Her research interests include intelligent information processing.
ZHANG Fengtian, born in 1991, M. S. candidate. His research interests include big data, cloud computing.
Biterm topic evolution model of microblog
SHI Qingwei, LIU Yushi*, ZHANG Fengtian
(SchoolofSoftware,LiaoningTechnicalUniversity,HuludaoLiaoning125105,China)
Aiming at the problem that the traditional topic model ignore short text and dynamic evolution of microblog, a Biterm Topic over Time (BToT) model based on microblog text was proposed, and the subject evolution analysis was carried out by the proposed model. A continuous time variable was introduced to describe the dynamic evolution of the topic in the time dimension during the process of text generation in the BToT model, and the "Biterm" structure of the topic sharing in the document was formed to extend short text feature. The Gibbs sampling method was used to estimate the parameters of BToT, and the topic evaluation was analyzed by topic-time distributed parameters. The experimental results on real microblog datasets show that BToT can characterize the latent topic evolution and has lower perplexity than Latent Dirichlet Allocation (LDA), Biterm Topic Model (BTM) and Topic over Time (ToT).
feature sparsity; theme evolution model; dynamic evolution; Gibbs sampling; microblog
2016-10-12;
2016-12-31。
史慶偉(1973—),男,遼寧阜新人,副教授,博士,主要研究方向:智能數(shù)據(jù)處理; 劉雨詩(shī)(1993—),女,遼寧鐵嶺人,碩士研究生,主要研究方向:智能數(shù)據(jù)處理; 張豐田(1991—),男,河北石家莊人,碩士研究生,主要研究方向:大數(shù)據(jù)、云計(jì)算。
1001-9081(2017)05-1407-06
10.11772/j.issn.1001-9081.2017.05.1407
TP391.1
A