楊春明,張 暉,石大文
(西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 綿陽 621010)
電子公告欄(Bulletin Board System,BBS)的開放性與互動(dòng)性使其成為了新聞、觀點(diǎn)、民生的集散地,在BBS上圍繞某一話題的報(bào)道、言論、觀點(diǎn)能在互聯(lián)網(wǎng)上迅速傳播,在短時(shí)間、大范圍內(nèi)形成強(qiáng)大的影響力。話題是指事件相關(guān)報(bào)道的集合[1],話題演化則表示了話題隨時(shí)間推移表現(xiàn)出的動(dòng)態(tài)性、發(fā)展性和差異性。研究BBS中話題的發(fā)現(xiàn)與演化是網(wǎng)絡(luò)輿情[2]分析的重要內(nèi)容之一,有助于全面把握公眾對(duì)社會(huì)突發(fā)事件所表達(dá)出的具有較強(qiáng)影響力、帶有傾向性的言論和觀點(diǎn),了解事件變化規(guī)律及發(fā)展趨勢(shì),便于提前采取相應(yīng)的應(yīng)對(duì)措施。
話題演化主要研究在時(shí)間維度上話題的變化情況,表現(xiàn)為話題在內(nèi)容上的延續(xù)性和強(qiáng)度的變化。近年來對(duì)新聞話題演化的研究較多[3],而對(duì)BBS話題演化研究較少,主要集中在熱點(diǎn)話題的檢測(cè)與預(yù)警上。BBS中的信息具有特征稀疏性、奇異性和動(dòng)態(tài)性等特點(diǎn),與新聞話題區(qū)別較大。特征稀疏性是指發(fā)表在BBS上的信息長(zhǎng)短不一,存在大量的短文本,信息量少,以詞為維度的向量空間模型呈現(xiàn)出高維稀疏的特點(diǎn);奇異性是指這些信息中廣泛存在用詞不規(guī)范、諧音詞、簡(jiǎn)寫詞等;動(dòng)態(tài)性表現(xiàn)在隨著時(shí)間的推移,文本信息流的數(shù)量在變化,會(huì)產(chǎn)生新話題,消亡舊話題,同時(shí)還需要實(shí)時(shí)處理新增文本流。
針對(duì)BBS信息的以上特點(diǎn),本文提出針對(duì)BBS內(nèi)容的自適應(yīng)在線話題演化模型。以歷史時(shí)間窗口中話題、詞分布的后驗(yàn)作為當(dāng)前時(shí)間窗口中話題、詞分布的先驗(yàn),利用在線新話題檢測(cè)和消亡話題檢測(cè)方法自動(dòng)適應(yīng)數(shù)據(jù)流中的話題數(shù)量。
話題演化是話題檢測(cè)與跟蹤(Topic Detection and Tracking,TDT)的一項(xiàng)重要研究任務(wù),目的是研究話題在時(shí)間維度上的變化情況[4]。早期的TDT沒有充分利用語料的時(shí)間信息研究話題隨時(shí)間的演化,近年來,隨著統(tǒng)計(jì)話題模型潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)的興起,在模型中引入語料的時(shí)間信息研究話題在時(shí)間維度上的演化,成為機(jī)器學(xué)習(xí)和文本挖掘領(lǐng)域的研究熱點(diǎn)。
LDA模型是一種具有文本話題表示能力的非監(jiān)督學(xué)習(xí)模型,通過潛在的話題變量將文檔與詞關(guān)聯(lián)起來,文檔在主題上的分布和主題在詞上的分布式都是條件獨(dú)立同分布。LDA將每篇文檔看成是所有話題的一個(gè)多項(xiàng)式分布,而文檔中的每個(gè)詞則先由文檔-話題多項(xiàng)式分布生成一個(gè)話題,再由話題-詞多項(xiàng)式分布生成[5]。該模型可以很好地模擬文本的生成過程,對(duì)文本的預(yù)測(cè)也有很好的效果。很多研究人員通過引入時(shí)間信息對(duì)LDA模型進(jìn)行了擴(kuò)展來研究話題演化,根據(jù)模型是否具有在線的處理能力,可以分為線下模型和在線模型2類。
線下的話題演化模型主要對(duì)特定的語料進(jìn)行建模分析,不能在線處理新到的文本,其主要方法有2種:
(1)TOT(Topic Over Time)模型[6],將時(shí)間作為一個(gè)可觀測(cè)的連續(xù)變量來指導(dǎo)語料集合上的話題分布,話題的演化反映在時(shí)間上的分布強(qiáng)度。
(2)后離散分析方法[7],該方法把時(shí)間看作一個(gè)離散的變量,首先不考慮時(shí)間的影響,在文本集上運(yùn)行LDA模型,獲得模型的參數(shù),然后按照時(shí)間把文檔分配到對(duì)應(yīng)的時(shí)間窗口中,對(duì)于某個(gè)話題考慮它在每個(gè)時(shí)間窗口中的強(qiáng)度,從而發(fā)現(xiàn)熱話題和冷話題。
類似的模型還有DTM(Dynamic Topic Model)模型、CTDTM(Continuous Time Dynamic Topic Model)模型、MTTM(Multi-Scale Topic Tomography)模型等。
在線的話題演化模型需要實(shí)時(shí)分析新到文本,ILDA(Incremental Latent Dirichlet Allocation)模型根據(jù)文本到達(dá)時(shí)間進(jìn)行增量建模,以每個(gè)時(shí)間窗口上話題個(gè)數(shù)的變化情況研究話題內(nèi)容的演化[8]。OLDA(Online Latent Dirichlet Allocation)模型利用歷史的數(shù)據(jù)作為模型的先驗(yàn)分布,對(duì)時(shí)間間隔內(nèi)到達(dá)的數(shù)據(jù)流采用LDA模型,展現(xiàn)話題在內(nèi)容和強(qiáng)度上的演化[9]。文獻(xiàn)[10]提出一種基于LDA的在線話題演化挖掘模型,研究了不同時(shí)間窗口話題所含關(guān)鍵詞的聯(lián)系,以發(fā)現(xiàn)話題演化中的話題遺傳和話題變異。文獻(xiàn)[11]針對(duì)網(wǎng)絡(luò)輿情的特點(diǎn),提出一種基于OLDA的話題演化方法,在BBS數(shù)據(jù)集上分析了不同時(shí)間窗口之間話題的關(guān)聯(lián)。
上述研究多基于行文規(guī)范的新聞報(bào)道,BBS上的文本信息主要由轉(zhuǎn)載其他新聞網(wǎng)站的報(bào)道、網(wǎng)民原創(chuàng)內(nèi)容以及回復(fù)構(gòu)成,其表達(dá)上具有口語化、寫作不規(guī)范的特點(diǎn)。由于BBS的強(qiáng)交互性,使得同一帖子表達(dá)的話題具有外延性,可能涉及多個(gè)話題,如“我爸是李剛”事件中,很多帖子的內(nèi)容是描述李剛有幾套房、開什么檔次的汽車、岳父是副省長(zhǎng)等。上述特點(diǎn)使得BBS中每一時(shí)刻都有新話題的產(chǎn)生與舊話題的消亡,話題的數(shù)量在不同時(shí)間窗口內(nèi)不一樣。而在LDA模型中,評(píng)估參數(shù)時(shí)都需要假設(shè)話題數(shù)量是固定的;在文獻(xiàn)[9]的OLDA模型中通過保留每一個(gè)時(shí)刻的話題分布來發(fā)現(xiàn)新的話題和評(píng)估話題的演化,只考慮到相鄰時(shí)刻的話題相似性,沒有考慮話題數(shù)量的變化。文獻(xiàn)[11]針對(duì)輿情信息的特點(diǎn),主要分析了不同時(shí)間片話題間的關(guān)聯(lián),且話題的粒度較大。
本文在上述2種方法的基礎(chǔ)上,利用時(shí)間片間話題的相似度監(jiān)測(cè)新話題的產(chǎn)生及舊話題的消亡,細(xì)化話題粒度,提出針對(duì)BBS上網(wǎng)絡(luò)輿情的自適應(yīng)在線話題演化模型,以解決不同時(shí)刻話題數(shù)量變化的問題。
話題的演化表達(dá)了話題隨著時(shí)間推移的變化過程,如BBS中一個(gè)帖子產(chǎn)生后,會(huì)引起很多為圍繞這一帖子的討論,隨著時(shí)間的推移,討論的熱度會(huì)降低,或者會(huì)起波動(dòng),最后直到淡化。這個(gè)演化過程可分為形成、高漲、波動(dòng)、消亡等階段,反映了話題在內(nèi)容上的延續(xù)性和強(qiáng)度。
在線的話題演化需要實(shí)時(shí)處理到達(dá)的文本數(shù)據(jù)流,根據(jù)話題演化分析的實(shí)際要求,將按時(shí)間序列到達(dá)的文本以一定的時(shí)間粒度劃分,時(shí)間窗口t內(nèi)到達(dá)的文本集為Dt={d1,d2,…,dn},di為其中的一個(gè)文本。話題是文本集在語義空間中的表現(xiàn),在LDA模型中,由一組關(guān)鍵詞的分布來表示一個(gè)話題,每個(gè)文本視為一組話題的混合分布。則時(shí)間窗口內(nèi)話題的分布可由文本di中詞w對(duì)于話題z的后驗(yàn)概率表示,如下式所示:
其中,z是一組話題向量,第k維即表示話題k。
延續(xù)性表達(dá)了相鄰時(shí)間窗口間文本內(nèi)容的關(guān)聯(lián),強(qiáng)度表達(dá)的是某一時(shí)間窗口內(nèi)某個(gè)話題討論的熱度。歷史時(shí)間窗口中話題以及所含詞語的分布為當(dāng)前時(shí)間窗口的話題演化分析提供了先驗(yàn)知識(shí)。不同時(shí)間窗口內(nèi)話題的分布體現(xiàn)了內(nèi)容的延續(xù)性,而強(qiáng)度則表現(xiàn)為話題所含詞語的分布,因此,可由時(shí)間窗口內(nèi)文本表達(dá)話題的相關(guān)性來表示,相關(guān)性越大,該話題的強(qiáng)度越大,反之越小??紤]話題k在時(shí)間窗口t中每個(gè)文檔所占的比重之和為該話題的強(qiáng)度,公式如下所示:
其中,TS(K)t為時(shí)間窗口t中話題k的強(qiáng)度;|Dt|為時(shí)間窗口t中文檔的數(shù)量;為話題k在文檔d中的概率。
假設(shè)每個(gè)時(shí)間窗口中文本集涉及的話題數(shù)為K,令t時(shí)刻文本d上的話題分布服從參數(shù)為θ(d)的多項(xiàng)分布,話題在詞匯集合上服從參數(shù)為φk的多項(xiàng)分布,同時(shí)令話題分布和詞分布的先驗(yàn)服從Dirichlet分布,分別為θ:Dirichlet(α)和φ:Dirichlet(β)。
使用Gibbs[12]抽樣方法估計(jì)當(dāng)前時(shí)間窗口中的參數(shù)θ(d)和φk,考慮到不同的歷史數(shù)據(jù)對(duì)當(dāng)前時(shí)間窗口話題分布的影響,以t–1時(shí)間窗口中話題分布和詞分布的后驗(yàn)作為時(shí)間窗口t中話題分布和詞分布的先驗(yàn)。時(shí)間窗口t上,參數(shù)θ(d)對(duì)應(yīng)話題k以及參數(shù)φk對(duì)應(yīng)詞w的估計(jì)公式如式(3)、式(4)所示:
其中,λ為權(quán)重因子,離當(dāng)前時(shí)間窗口越近,影響越大,權(quán)重越大。
上述模型中需要確定時(shí)間窗口中的話題數(shù)K,在強(qiáng)交互的BBS數(shù)據(jù)流中,話題的數(shù)量時(shí)刻發(fā)生變化,一個(gè)話題可以演化為多個(gè)話題。因此,需要考慮在每一個(gè)時(shí)刻話題數(shù)量的變化,既有新產(chǎn)生的話題,又有消亡的話題。新話題的產(chǎn)生是檢測(cè)上一時(shí)刻話題分布的評(píng)估值,利用話題檢測(cè)算法生成;話題消亡則通過考慮在ρ個(gè)時(shí)間間隔內(nèi)該話題的強(qiáng)度小于給定的閾值ε,即認(rèn)為該話題已經(jīng)消亡。通過上述調(diào)整自動(dòng)更新時(shí)間窗口內(nèi)話題的數(shù)量,形成一個(gè)話題在時(shí)間和內(nèi)容上的演化矩陣。
時(shí)間窗口內(nèi)新話題的出現(xiàn)表現(xiàn)為當(dāng)前數(shù)據(jù)流中的一個(gè)異常值,該異常值由相鄰時(shí)間窗口中話題的相似性來衡量,如果相似性到一定閾值NTVt,則表明有新話題產(chǎn)生。話題間的相似性用KL(Kullback-Leibler)散度衡量,記作KLS(p||q)。KLS是KL散度的變形,是一個(gè)對(duì)稱的KL散度測(cè)度,定義為KL(p||q)和KL(q||p)的平均值,表達(dá)了2個(gè)話題p和q之間的相似性,計(jì)算公式如下:
定義Kt維距離向量DV,其中DV(k)表示話題k在t–1時(shí)刻和t時(shí)刻的相似性。引入新話題發(fā)現(xiàn)自信水平測(cè)量(NTCL,t時(shí)刻話題達(dá)到自信水平的百分比)來確定NTVt,使小于NTVt值的距離占所有距離的百分比正好是NTCL。則t時(shí)刻的新話題檢測(cè)算法(NTDetect)如下:
舊話題的消亡表現(xiàn)為話題的強(qiáng)度明顯地不同于數(shù)據(jù)流中的其他話題,但在t時(shí)刻話題的強(qiáng)弱不僅與時(shí)間窗口的大小有關(guān)而且與話題本身的發(fā)展有關(guān),如由其他突發(fā)事件而暫時(shí)降低了該話題的關(guān)注度。因此,考慮在連續(xù)σ個(gè)時(shí)間窗口內(nèi)話題強(qiáng)度都被標(biāo)記為消亡話題,則該話題標(biāo)記為真正消亡話題,并刪除該話題,話題的數(shù)量也相應(yīng)減少,否則取消消亡話題標(biāo)記。
實(shí)驗(yàn)中利用網(wǎng)絡(luò)爬蟲采集了天涯虛擬社區(qū)上2011年3月-4月發(fā)布的正文大于20個(gè)字符且回復(fù)數(shù)小于20000的帖子,共計(jì)25495條,保留了URL、發(fā)表時(shí)間、發(fā)表作者、標(biāo)題、正文內(nèi)容、回復(fù)等信息。實(shí)驗(yàn)前對(duì)數(shù)據(jù)集進(jìn)行了分詞、去停用詞和向量化等預(yù)處理,分詞時(shí)使用ICTCLA分詞器,添加20000用戶詞典,主要來源搜狗輸入法詞庫;去除了副詞、助動(dòng)詞以及BBS上的無意義詞,如:“回復(fù)”、“發(fā)表時(shí)間”、“轉(zhuǎn)載”、“頂一下”等;向量化帖子內(nèi)容的詞頻,使每一個(gè)詞都對(duì)應(yīng)詞表中的一個(gè)維度。
實(shí)驗(yàn)時(shí)以周為單位,將數(shù)據(jù)集劃分為8個(gè)時(shí)間窗口,設(shè)置話題參數(shù)K=30,α=0.3,β=0.01,λ=0.4,σ=2,NTCL=90%,OTCL=95%,迭代500次,抽取出的話題涉及大學(xué)教育、自然災(zāi)害、食品安全、工資收入、醫(yī)療問題、土地拆遷、房?jī)r(jià)等。從時(shí)間窗口2開始,有新話題的產(chǎn)生,從第3個(gè)時(shí)間窗口開始有消亡話題,其數(shù)量在動(dòng)態(tài)變化。話題數(shù)量由初始的30動(dòng)態(tài)變化為最終的34,驗(yàn)證了模型中每個(gè)時(shí)間窗口中話題數(shù)量動(dòng)態(tài)變化的假設(shè),如圖1所示。
圖1 時(shí)間窗口中的話題數(shù)量變化
進(jìn)一步分析話題在內(nèi)容上的演化趨勢(shì),選擇一個(gè)已有話題21和新產(chǎn)生話題32在不同時(shí)間窗口中出現(xiàn)概率最大的10個(gè)詞語展示,如表1所示,令ω為時(shí)間窗口。從每個(gè)時(shí)間窗口占主導(dǎo)地位的關(guān)鍵詞變化情況可以看出,話題21由食品安全開始演化為雙匯的瘦肉精事件,在第2個(gè)時(shí)間窗口產(chǎn)生了關(guān)于日本地震的新話題,并由開始的地震報(bào)道演化為救援,反映了該時(shí)間段中發(fā)生的一些重大突發(fā)事件。
表1 話題內(nèi)容在時(shí)間窗口中的關(guān)鍵詞
話題演化的趨勢(shì)也表現(xiàn)為話題在每個(gè)時(shí)間窗口的強(qiáng)度上,如圖2所示。話題21和32在8個(gè)時(shí)間窗口上的強(qiáng)度變化趨勢(shì)與其在內(nèi)容上的演化一致。隨著時(shí)間的推移,強(qiáng)度逐漸減弱,其中話題21在消亡,有新的話題將要產(chǎn)生。實(shí)驗(yàn)進(jìn)一步采用OLDA模型,使用相同的參數(shù)在數(shù)據(jù)集上與本文的模型進(jìn)行對(duì)比分析,由于OLDA模型的話題數(shù)固定,只能對(duì)比話題在時(shí)間窗口上的關(guān)鍵詞。同樣以食品安全和日本地震的話題為例,OLDA模型在8個(gè)時(shí)間窗口上的關(guān)鍵詞如表2所示。
圖2 話題在強(qiáng)度上的演化
表2 OLDA模型話題演化關(guān)鍵詞
OLDA模型僅考慮了時(shí)間窗口上話題內(nèi)部關(guān)鍵詞間的關(guān)聯(lián),但時(shí)間窗口間的話題關(guān)聯(lián)不強(qiáng),具有一定跳躍性,話題在時(shí)間上的演化過程不明顯。根據(jù)計(jì)算的KL散度,也驗(yàn)證了上述情況,如圖3所示。其中,1#2表示時(shí)間窗口1與時(shí)間窗口2;2#3表示時(shí)間窗口2與時(shí)間窗口3;以此類推。
圖3 話題21時(shí)間窗口間KL散度比較
以上實(shí)驗(yàn)表明,本文模型能直觀地表達(dá)出話題在時(shí)間維度上內(nèi)容和強(qiáng)度的演化,且能檢測(cè)新產(chǎn)生的話題和消亡的話題,對(duì)話題數(shù)量進(jìn)行動(dòng)態(tài)更新,最終趨向一個(gè)真實(shí)值,彌補(bǔ)了OLDA模型的不足。同時(shí)也表明模型能夠較好地捕獲正在發(fā)生的熱點(diǎn)事件,分析它們?cè)跁r(shí)間和內(nèi)容上的演化,表明該方法在真實(shí)的網(wǎng)絡(luò)數(shù)據(jù)上也能夠獲得較好的結(jié)果。
BBS的強(qiáng)交互性使得話題數(shù)量在演化過程中動(dòng)態(tài)變化,對(duì)傳統(tǒng)話題演化模型要事先確定話題數(shù)量的問題。為此,本文提出了自適應(yīng)的在線話題演化模型。模型將按時(shí)間序列到達(dá)文本以一定時(shí)間粒度劃分為多個(gè)時(shí)間窗口,在每個(gè)時(shí)間窗口內(nèi)應(yīng)用LDA模型獲取話題分布,歷史時(shí)間窗口中話題以及所含詞語的分布為當(dāng)前時(shí)間窗口的話題演化分析提供了先驗(yàn)知識(shí)。不同時(shí)間窗口內(nèi)的話題強(qiáng)度表現(xiàn)為詞的分布,以此提出了在線新話題檢測(cè)和消亡話題檢測(cè)方法來自動(dòng)適應(yīng)數(shù)據(jù)流中的話題數(shù)量。在天涯社區(qū)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型能較好地反映出不同時(shí)間窗口內(nèi)話題數(shù)量的變化,并能分析在時(shí)間和內(nèi)容上的演化,及時(shí)發(fā)現(xiàn)一些正在發(fā)生的熱點(diǎn)事件,在一定程度上彌補(bǔ)了傳統(tǒng)話題演化模型的不足。本文只對(duì)BBS帖子的內(nèi)容進(jìn)行了分析,今后將研究帖子之間的鏈接、作者、回帖者等信息在網(wǎng)絡(luò)輿情演化中的作用。
[1]洪 宇,張 宇,劉 挺,等.話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J].中文信息學(xué)報(bào),2007,21(6):71-87.
[2]曾潤(rùn)喜.網(wǎng)絡(luò)輿情信息資源共享研究[J].情報(bào)雜志,2009,28(8):187-191.
[3]趙旭劍.中文新聞話題動(dòng)態(tài)演化及其關(guān)鍵技術(shù)研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2012.
[4]單 斌,李 芳.基于LDA話題演化研究方法綜述[J].中文信息學(xué)報(bào),2010,24(6):43-49.
[5]Blei D M.Probabilistic Topic Models[J].Communications of the ACM,2012,55(4):77-84.
[6]Wang Xuerui,Mccallum A.Topics over Time:A Non-Markov Continuous-time Model of Topical Trends[C]//Proc.of the 12th International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2006:424-433.
[7]Canini K R,Shi L,Griffiths T L.Online Inference of Topics with Latent Dirichlet Allocation[C]//Proc.of the 12th International Conference on Artificial Intelligence and Statistics.New York,USA:ACM Press,2009:937-946.
[8]Iwata T,Yamada T,Sakurai Y,et al.Online Multiscale Dynamic Topic Models[C]//Proc.of the 16th International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2010:663-672.
[9]Alsumait L,Barbará D,Domeniconi C.On-line LDA:Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking[C]//Proc.of International Conference on Data Mining.Pisa,Italy:IEEE Press,2008:3-12.
[10]崔 凱,周 斌,賈 焰,等.一種基于LDA的在線主題演化挖掘模型[J].計(jì)算機(jī)科學(xué),2010,37(11):156-159.
[11]胡艷麗,白 亮,張維明.網(wǎng)絡(luò)輿情中一種基于OLDA的在線話題演化方法[J].國(guó)防科學(xué)技術(shù)大學(xué)學(xué)報(bào),2012,34(1):150-154.
[12]Kozumi H,Kobayashi G.Gibbs Sampling Methods for Bayesian Quantile Regression[J]. Journalof Statistical Computation and Simulation,2011,81(11):1565-1578.