国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于動態(tài)主題模型的大數(shù)據(jù)網(wǎng)絡(luò)輿情熱點(diǎn)抽取

2019-05-23 10:44萬紅新
電腦知識與技術(shù) 2019年8期
關(guān)鍵詞:大數(shù)據(jù)

萬紅新

摘要:隨著互聯(lián)網(wǎng)的發(fā)展和普及,在網(wǎng)絡(luò)上產(chǎn)生了大量的評論數(shù)據(jù),形成輿情熱點(diǎn)話題。輿情熱點(diǎn)是一個動態(tài)的變化過程。提出的動態(tài)主題模型可以從輿情文本中發(fā)現(xiàn)動態(tài)變化的熱點(diǎn)詞,通過詞語間的主題聚類來提取輿情熱點(diǎn)詞語,實現(xiàn)從海里文本數(shù)據(jù)中提取網(wǎng)絡(luò)輿情熱點(diǎn)。

關(guān)鍵詞:主題模型;動態(tài)主題;輿情熱點(diǎn);大數(shù)據(jù)

中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2019)08-0159-02

1引言

人工方式及一些常規(guī)方法已不能滿足對大數(shù)據(jù)輿情文本進(jìn)行分析和處理的要求,輿情熱點(diǎn)的挖掘需要利用具有大規(guī)模數(shù)據(jù)處理能力的自動化相關(guān)技術(shù)來實現(xiàn)。動態(tài)化的主題模型適于處理海量的時變性文本數(shù)據(jù),可以有效發(fā)現(xiàn)和提取熱點(diǎn)。將時間戳固定劃分的動態(tài)主題模型不能根據(jù)時間的動態(tài)變化調(diào)整主題-時間分布,在主題模型內(nèi)部沒有實現(xiàn)動態(tài)的主題分配,時間分配對于主題詞的概率分布影響有限,使得主題詞語的分配難以符合實際輿情詞語的動態(tài)變化特點(diǎn)。本文提出了一種動態(tài)的主題模型D-LDA(Dynamic LDA),將時間因子作為時間層嵌入到主題模型中,從結(jié)構(gòu)上對詞語的分布產(chǎn)生影響,并設(shè)計符合輿情文本分布特點(diǎn)的時間-主題-詞語分配算法,提升主題模型的時間敏感度,提取的主題詞語更能反映輿情熱點(diǎn)的變化規(guī)律。

2主要問題

LDA主題模型是一種概率模型,能夠從大文本數(shù)據(jù)集中提取潛在的主題詞語,而輿情熱點(diǎn)的挖掘契合了主題模型挖掘特點(diǎn),利用主題模型能夠抽取隱藏的輿情熱點(diǎn)詞語。但主題模型對于時間變化不夠敏感,提取的主題詞語往往是高頻詞語,但一些與時間密切相關(guān)的熱點(diǎn)詞語提取率不高,容易忽略一些低頻的熱點(diǎn)詞語。具體問題包括:

① 大數(shù)據(jù)環(huán)境下的輿情文本熱點(diǎn)主題抽取??朔延兄黝}模型的不足,提出能夠發(fā)現(xiàn)更多動態(tài)主題詞語的LDA主題模型,實現(xiàn)主題詞和輿情熱點(diǎn)的關(guān)系映射。

② 動態(tài)主題模型的分布參數(shù)設(shè)計研究。加入時間約束后的LDA增加了文檔-時間和時間-主題分布,需要設(shè)計符合輿情熱點(diǎn)分布特點(diǎn)的算法來計算它們之間的分配關(guān)系。

③ 動態(tài)主題模型D-LDA(Dynamic LDA)的構(gòu)建研究。如何在LDA的基礎(chǔ)上增加時間層,將三層結(jié)構(gòu)的LDA轉(zhuǎn)換為四層結(jié)構(gòu),以適應(yīng)時變性熱點(diǎn)主題詞的有效發(fā)現(xiàn)。

3相關(guān)研究

網(wǎng)絡(luò)上評論文本日益增加,已有的一些模型和算法難以處理如此大規(guī)模的文本數(shù)據(jù), 主題模型的方法收到了關(guān)注。主題模型是無監(jiān)督的學(xué)習(xí)方法,不需要進(jìn)行大量的數(shù)據(jù)標(biāo)注和訓(xùn)練,主題模型同時可以對文本進(jìn)行降維,適合對海量文本數(shù)據(jù)進(jìn)行關(guān)鍵詞語抽取。LDA主題模型的這些特點(diǎn)對于輿情熱點(diǎn)的挖掘來說,提供了很好的基礎(chǔ)模型和算法。很多研究在標(biāo)準(zhǔn)LDA模型的基礎(chǔ)上,進(jìn)行了模型改進(jìn)和算法重設(shè)。標(biāo)準(zhǔn)LDA(Latent Dirichlet Allocation)[1]主題模型包括三層結(jié)構(gòu):文檔層、主題層和詞語層。要實現(xiàn)動態(tài)主題詞的提取,可以增加時間層。Blei(2006)將時間層加入LDA主題模型,提出的DTM(Dynamic Topic Model)主題模型可以提取動態(tài)的主題詞語,層級分配考慮了離散時間的影響,文檔分布按照時間片的不同而生成不同的主題詞語結(jié)構(gòu),獲取的主題詞語和時間變化保持同步[2];曹麗娜(2014)提出的主題模型重點(diǎn)關(guān)注隨時間變化的主題詞語鏈的提取,在詞語提取后,設(shè)計熱點(diǎn)權(quán)重進(jìn)行主題排序,獲取更受關(guān)注的輿情話題 [3] ;陳曉美(2015)對于主題模型提取熱點(diǎn)的特點(diǎn)和優(yōu)點(diǎn)進(jìn)行了分析,提出了優(yōu)化的基于主題模型的輿情熱點(diǎn)挖掘策略和提取路徑[4]。

4模型設(shè)計

提出的D-LDA主題模型保留了主題模型的主題提取功能的基礎(chǔ)上,將動態(tài)時間引入到標(biāo)準(zhǔn)LDA主題模型中,實現(xiàn)從三層結(jié)構(gòu)到四層結(jié)構(gòu)的轉(zhuǎn)變,包括的層級為:時間層、文檔層、主題層和詞語層,在提取熱點(diǎn)主題詞的同時,發(fā)現(xiàn)主題之間的動態(tài)變化和關(guān)聯(lián)性,實現(xiàn)文本熱點(diǎn)抽取。

D-LDA模型的參數(shù)估計采用吉布斯抽樣計算,分配參數(shù)包括文檔-時間分配、時間-主題分配、主題-詞語分配和時間介入的主題-詞語配,分別用符號[φtkw]、θdt、[θttk]和φkw表示,計算公式如(1)、(2)、(3)和(4)所示。公式中,k-1是除主題k以外的主題集合中的其他主題,w-1是除詞語w之外詞語集合中的其他詞語,[CKWkw]表示在主題k中詞語w出現(xiàn)的次數(shù),[CDTdt]表示在時間點(diǎn)t文檔d的出現(xiàn)次數(shù), t-1是除時間點(diǎn)t以外的時間點(diǎn)集合中的其他時間點(diǎn),[CTKtk]表示在時間點(diǎn)t中主題k的分配次數(shù),qk(w)是時間戳對詞語w屬于相關(guān)主題的權(quán)重分配因子,N是文本數(shù)據(jù)源中的非重復(fù)詞語個數(shù)。

[θdt=CDTdt+αt-1CDTdt+Tα] (1)

[θttk=CTKtk+αtk-1CTKtk+Kαt] (2)

[φkw=CKWkw+βw-1CKWkw+Nβ] (3)

[φtkw=qk(w)CKWkw+βw-1CKWkw+Nβ] (4)

5 實驗分析

對3個典型的主題模型進(jìn)行了比較,LDA、DTM和D-LDA模型的熱點(diǎn)抽取的準(zhǔn)確率和召回率如圖1、2所示,其中縱坐標(biāo)表示準(zhǔn)確率,橫坐標(biāo)表示主題數(shù)。

從圖1進(jìn)行分析,發(fā)現(xiàn)準(zhǔn)確率隨著主題個數(shù)的增加都呈下降趨勢,這符合主題詞提取的一般規(guī)律。D-LDA模型相對于其他2個模型具有較明顯的優(yōu)勢,說明時間的引入可以有效提升主題-詞語的分布動態(tài)性,提取更精確的輿情熱點(diǎn)詞語。DTM相對于LDA具有更好的準(zhǔn)確率,表明LDA沒有時間層的介入,降低了詞語分布的變化性,影響了輿情主題詞語的提取。

從圖2可以看出,當(dāng)主題數(shù)較少時,提取的主題詞語相對有限,所以3個模型的輿情熱點(diǎn)詞語的提取率不高。隨著主題數(shù)的增加,主題詞語提取相應(yīng)增加,主題詞語的召回率業(yè)逐漸增加。D-LDA相對于其他2個模型召回率優(yōu)勢較明顯,說明了動態(tài)時間層的加入,使得時間-主題、主題-詞語的結(jié)構(gòu)更加清晰,改善了LDA模型對輿情熱點(diǎn)詞的識別率,提高了熱點(diǎn)詞的提取率。

6結(jié)論

提出了D-LDA模型基于大數(shù)據(jù)環(huán)境下的動態(tài)輿情熱點(diǎn)挖掘,重點(diǎn)在于構(gòu)建符合輿情熱點(diǎn)動態(tài)分布特征的主題模型,實現(xiàn)熱點(diǎn)詞的提取及主題聚類。首先實現(xiàn)了LDA主題模型的時間層的嵌入,構(gòu)造了四層LDA主題模型。標(biāo)準(zhǔn)LDA模型擅長抽取髙詞頻、高文檔頻率的主題詞語,沒有關(guān)注輿情文本詞語的動態(tài)變化特征,提取的主題詞語很難反映熱點(diǎn)的變化情況。D-LDA在保留LDA主題模型從大數(shù)據(jù)文本提取主題詞功能的同時,將時間戳因子引入主題模型,并且時間片的分配是隨機(jī)分布式的,可以動態(tài)影響文檔-時間、時間-主題的分布,從而抽取動態(tài)的而不是固化的熱度詞語及詞語關(guān)系,進(jìn)而實現(xiàn)輿情熱點(diǎn)的有效提取。

參考文獻(xiàn):

[1] Blei D, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(3): 993-1022.

[2] Blei D, Lafferty J D. Dynamic Topic Models[C]. Proceedings of the 23rd International Conference on Machine Learning (ICML). New York, USA: ACM, 2006: 113-120.

[3] 曹麗娜, 唐錫晉. 基于主題模型的BBS話題演化趨勢分析[J]. 管理科學(xué)學(xué)報, 2014, 17(11): 109-121.

[4] 陳曉美, 高鋮, 關(guān)心惠. 網(wǎng)絡(luò)輿情觀點(diǎn)提取的LDA主題模型方法[J]. 圖書情報工作, 2015, 59(21): 21-26.

【通聯(lián)編輯:光文玲】

猜你喜歡
大數(shù)據(jù)
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
“互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路