国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于組話題模型的政務(wù)微博話題預(yù)測(cè)

2021-05-20 15:35:09李文黃克文
關(guān)鍵詞:社會(huì)網(wǎng)絡(luò)微博

李文 黃克文

摘要:為了提高政府部門應(yīng)對(duì)網(wǎng)絡(luò)輿情的處理效率,采用一種產(chǎn)生式的組話題模型對(duì)微博政務(wù)話題進(jìn)行挖掘與分析。組話題模型對(duì)每個(gè)話題產(chǎn)生一個(gè)多項(xiàng)式分布,對(duì)相似性質(zhì)事件進(jìn)行合并生成相關(guān)矩陣。由于每個(gè)實(shí)體可以屬于多個(gè)話題,并且網(wǎng)絡(luò)規(guī)模大,用Gibbs采樣對(duì)提出的模型進(jìn)行了驗(yàn)證,并與其他話題預(yù)測(cè)模型進(jìn)行對(duì)比分析。實(shí)驗(yàn)結(jié)果表明:本文提出的組話題模型不僅執(zhí)行時(shí)間短、效率高,而且具有很高的準(zhǔn)確率。

關(guān)鍵詞:微博;話題模型;社會(huì)網(wǎng)絡(luò)

中圖分類號(hào): TP393? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? 文章編號(hào):1008-4657(2021)06-0089-05

引言

微博作為當(dāng)前最熱門的新媒體之一,其影響力已經(jīng)遠(yuǎn)遠(yuǎn)超過電視,報(bào)紙等傳統(tǒng)媒體。在微博中,每個(gè)注冊(cè)用戶都可以談?wù)撟约焊信d趣的話題,這種交互是自發(fā)的,往往能表達(dá)發(fā)言者的真實(shí)情感。隨著微博的普及和應(yīng)用,越來(lái)越多的用戶已經(jīng)把微博當(dāng)成生活中必不可少的一部分。在微博的注冊(cè)用戶中,不僅有影視明星、商人、普通群眾、也有國(guó)家的公務(wù)人員或機(jī)構(gòu)。這些代表國(guó)家權(quán)力的公務(wù)人員或機(jī)構(gòu)通過微博傳達(dá)黨和政府的聲音及時(shí)公布相關(guān)數(shù)據(jù)和事件,同時(shí)也可以傾聽人民心聲訴求排解與政府管理有關(guān)的實(shí)際問題。然而,在微博中,不僅有健康積極的內(nèi)容,也充斥著損害黨和國(guó)家形象的言論。因此,及時(shí)的發(fā)現(xiàn)這些損害黨和國(guó)家形象的話題,并加以監(jiān)督和引導(dǎo)對(duì)維護(hù)社會(huì)的穩(wěn)定有著重要的作用。隨著數(shù)據(jù)量的激增,傳統(tǒng)的話題預(yù)測(cè)模型已不適用,如何有效挖掘和分析微博政務(wù)話題,預(yù)測(cè)輿情趨勢(shì)進(jìn)而提前采取防治措施已成為相關(guān)管理部門亟待解決的問題。

1? ? ? ? 相關(guān)工作

向量空間模型是最早的話題挖掘與分析的工具。在向量空間中,通過尋找單詞同時(shí)出現(xiàn)的模式,例如TF或TF-IDF,可以將同時(shí)出現(xiàn)的相關(guān)單詞構(gòu)成話題模型?;趩卧~的頻率,Hearst? M[ 1 ]通過計(jì)算兩個(gè)單詞塊的余弦相似性來(lái)區(qū)分不同的話題。Choi? F[ 2 ]通過矩陣的秩的模式將不同的單詞進(jìn)行聚類,從而進(jìn)行話題的區(qū)分。Xiang? ?J等[ 3 ]對(duì)重復(fù)的單詞進(jìn)行加權(quán),然后應(yīng)用詞匯鏈對(duì)話題進(jìn)行分析。Utiyama? ?M等[ 4 ]提出一種概率話題分析方法,該方法應(yīng)用動(dòng)態(tài)規(guī)劃以最小的代價(jià)對(duì)話題進(jìn)行區(qū)分。此外,Malioutov? ?I等[ 5 ]將話題區(qū)分轉(zhuǎn)換成圖的分割問題。話題模型的另一個(gè)研究方向是應(yīng)用產(chǎn)生式對(duì)話題進(jìn)行建模,例如LDA[ 6 ]模型。PLDA[ 7 ]是一種無(wú)監(jiān)督的概率話題建模方法。該模型對(duì)LDA模型進(jìn)行了擴(kuò)展,將話題分布表示為馬爾科夫結(jié)構(gòu),該模型將多個(gè)LDA模型表示成一個(gè)馬爾科夫鏈。在PLDA中,Yi W等[ 7 ]人將每個(gè)文本信息附加了一個(gè)二元話題轉(zhuǎn)換變量。其中第j個(gè)文本的二元轉(zhuǎn)換變量表示該文本是否與第j-1個(gè)文本共享相同的話題分布。與PLDA相似,Nguyen? V等[ 8 ]也將話題分布表示成一個(gè)馬爾科夫結(jié)構(gòu),差別在于SITS中的每一個(gè)話題為HDP-LDA[ 9 ]。此外SITS認(rèn)為每個(gè)文本消息都有一個(gè)作者,并且這個(gè)作者與二元轉(zhuǎn)換變量相關(guān)。Rubin? ?T? ?N等[ 10 ]認(rèn)為一個(gè)數(shù)據(jù)集中的文檔可能不共享相同的話題,認(rèn)為每個(gè)單詞片段來(lái)自于單獨(dú)的話題,并應(yīng)用多項(xiàng)式語(yǔ)言模型對(duì)文檔中的詞匯進(jìn)行建模。在此基礎(chǔ)上,Chen? ?Z等[ 11 ]又進(jìn)行了擴(kuò)展,認(rèn)為每個(gè)單詞片段即可能來(lái)自于一個(gè)話題,也可能來(lái)自于這個(gè)話題的父話題。此外,Lee? ?S等[ 12 ]、Pan? ?S等[ 13 ]、Riedl? ?M等[ 14 ]將話題模型的輸出作為輸入來(lái)進(jìn)行話題的進(jìn)一步分析。然而,當(dāng)前話題模型大多存在預(yù)測(cè)精度不高,對(duì)大規(guī)模數(shù)據(jù)處理效率低,時(shí)變性不強(qiáng)等缺陷[ 15 ]。由于微博中含有大量的話題,政務(wù)話題往往會(huì)湮沒于海量的信息之中。組話題模型為大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)數(shù)據(jù)挖掘與分析提供了新的思路,本文采用組話題模型對(duì)微博中的政務(wù)話題挖掘進(jìn)行研究,對(duì)每一個(gè)指定的話題產(chǎn)生一個(gè)多項(xiàng)式分布,生成相關(guān)矩陣,并應(yīng)用Gibbs采樣進(jìn)行分析。

2? ? ? ? 組話題模型

微博文本具有文本短,信息量大,用詞不規(guī)范等特點(diǎn)。在微博中,文本是由一個(gè)個(gè)詞匯實(shí)體連接而成的。在實(shí)體的識(shí)別中,先去掉“#”格式信息,“@”格式信息以及虛詞。對(duì)于用戶用詞的不規(guī)范,先通過余弦相似性識(shí)別出詞匯及其縮寫形式并看做一個(gè)實(shí)體,對(duì)于近義詞則采用手工識(shí)別出實(shí)體。

組話題模型通過實(shí)體之間的關(guān)系將實(shí)體進(jìn)行聚類分析。實(shí)體之間的關(guān)系可以是有向的,也可以是無(wú)向的,還可以包含多個(gè)屬性。本文關(guān)注的是實(shí)體間的無(wú)向關(guān)系,并且關(guān)系之間的屬性是若干個(gè)詞匯,組話題模型的結(jié)構(gòu)如圖1。

在實(shí)體間的每個(gè)關(guān)系的產(chǎn)生過程中,該模型首先產(chǎn)生話題t,然后產(chǎn)生所有描述該話題的詞匯。其中每個(gè)詞匯都是通過多項(xiàng)式離散分布?覬t獨(dú)立產(chǎn)生的,并且是和話題t相關(guān)的。在網(wǎng)絡(luò)的關(guān)系結(jié)構(gòu)的產(chǎn)生過程中,對(duì)于每個(gè)話題t,從特定的多項(xiàng)式分布θt中產(chǎn)生一個(gè)組gst,并將之分配該話題。在給事件進(jìn)行了組分配后,可以得到矩陣V(b),其中每個(gè)元素V■■代表了實(shí)體i和j是否屬于相同的事件b。矩陣V中的每個(gè)元素都來(lái)自于二項(xiàng)分布γ。如果認(rèn)為所有的事件都反應(yīng)一個(gè)話題,那么該模型可以簡(jiǎn)化為隨機(jī)塊結(jié)構(gòu)模型[ 16 ]。為了和塊模型相匹配,每個(gè)事件定義為一個(gè)關(guān)系。例如在該事件中,兩個(gè)實(shí)體的話題組是否相同。然而,在本文的模型中,一個(gè)關(guān)系可以包含多個(gè)屬性(每個(gè)事件是由多個(gè)詞匯描述的),并且是多項(xiàng)式離散分布生成的。當(dāng)考慮多個(gè)話題存在的情況下,數(shù)據(jù)集被劃分為T個(gè)子塊,每個(gè)子塊與相應(yīng)的話題對(duì)應(yīng)。組話題模型的相關(guān)參數(shù)見表1。

該模型應(yīng)用實(shí)體間的關(guān)系及關(guān)系的屬性來(lái)挖掘話題敏感的組成員。由于微博網(wǎng)絡(luò)中往往含有大量的用戶及事件,因此本文采用Gibbs采樣分析。在模型中,可以將參數(shù)θ,?覬和γ結(jié)合起來(lái)降低不確定性,這樣做同樣可以簡(jiǎn)化Gibbs采樣對(duì)參數(shù)θ,?覬和γ的確定。于是組話題模型就是求出下面兩個(gè)條件概率:

其中,ntg表示在話題t中組g的實(shí)體個(gè)數(shù),m表示組g和h是否屬于同一個(gè)事件b(k=1或k=2),I(tb=t)是一個(gè)指示函數(shù),d表示m中實(shí)體s被分到組gst中的部分(如果I(tb=t)=0,那么忽略與事件b相關(guān)的部分)。

其中,e表示單詞v在事件b中出現(xiàn)的次數(shù)。m是一個(gè)隨著tb的賦值而變化的變量,因?yàn)閠b影響著事件b中的所有實(shí)體的組分配。

3? ?實(shí)驗(yàn)分析

實(shí)驗(yàn)采集的政務(wù)數(shù)據(jù)來(lái)源于新浪微博公開數(shù)據(jù),包含330 657個(gè)用戶構(gòu)成的網(wǎng)絡(luò)及用戶的發(fā)言內(nèi)容。我們對(duì)網(wǎng)民關(guān)注度比較高的“新冠疫情”“鐵鏈女”“離婚冷靜期”教育業(yè)“雙減”政策“二胎政策”等事件的發(fā)言進(jìn)行了收集,并將這些事件作為數(shù)據(jù)集的真實(shí)話題。同時(shí),對(duì)參與這些話題討論的用戶的其它發(fā)言也進(jìn)行了收集。本次實(shí)驗(yàn)的硬件測(cè)試環(huán)境采用Microsoft Windows10操作系統(tǒng),CPU為Inter Core i9 12900k,3.6GHz,內(nèi)存為16GB,編程語(yǔ)言為MATLAB R2020a。

實(shí)驗(yàn)采用話題檢測(cè)的缺失概率PMiss,錯(cuò)誤提示概率 PFA以及二者的組合CDet三個(gè)指標(biāo)來(lái)評(píng)價(jià)話題挖掘的性能。CDet用如下公式表示:

在參數(shù)的選擇上,令CMiss = 1.0,CFA = 0.1, Ptarget = 0.02,進(jìn)一步對(duì)CDet進(jìn)行規(guī)范化,可得

將本文提出的組話題模型表示為GM,將GM模型與主流的LDA模型[ 17 ]和Kmeans模型[ 18 ]的話題預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。從圖2的預(yù)測(cè)結(jié)果來(lái)看,本研究提出的GM模型能對(duì)微博政務(wù)熱點(diǎn)話題進(jìn)行刻畫,預(yù)測(cè)誤差較小,預(yù)測(cè)結(jié)果可為相關(guān)管理者把握網(wǎng)絡(luò)輿情走勢(shì),提前采取措施提供決策依據(jù)。對(duì)比了三種算法在缺失概率、錯(cuò)誤提示率及CDet,結(jié)果如圖3所示,LDA算法在新浪數(shù)據(jù)集上的話題預(yù)測(cè)性能優(yōu)于Kmeans算法,而GM算法的話題預(yù)測(cè)性能要高于LDA和Kmeans算法。

對(duì)比了三種算法在這5個(gè)不同大小(依次遞增)數(shù)據(jù)集下的執(zhí)行效率。不同算法運(yùn)行時(shí)間對(duì)比如圖4所示,從圖4所示的結(jié)果中可以看出,三種算法在小數(shù)據(jù)集上所需要的執(zhí)行時(shí)間較短,并且差異不大,隨著測(cè)試機(jī)的增大,GM算法所需要的執(zhí)行效率要明顯優(yōu)于其它兩種算法。這是因?yàn)镚M模型對(duì)原始數(shù)據(jù)進(jìn)行了分組,將相似事件分配到同一個(gè)矩陣進(jìn)行計(jì)算,大大縮小了計(jì)算時(shí)間。從上述結(jié)果可知,本文提出的組話題模型在保持較高的話題預(yù)測(cè)準(zhǔn)確性的同時(shí)具有較高的執(zhí)行效率,更適合大規(guī)模數(shù)據(jù)的話題挖掘和分析。

4? ? 結(jié)論

受數(shù)據(jù)量激增及時(shí)變性強(qiáng)等因素作用,傳統(tǒng)話題預(yù)測(cè)模型不能滿足當(dāng)前微博政務(wù)話題預(yù)測(cè)的需要。為此,提出一種基于組話題模型(GM)的數(shù)據(jù)挖掘技術(shù),對(duì)每一個(gè)指定的話題產(chǎn)生一個(gè)多項(xiàng)式分布并生成相關(guān)矩陣,應(yīng)用Gibbs采樣進(jìn)行分析,并與LDA模型和Kmeans模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明GM模型具有更好的預(yù)測(cè)精度,更優(yōu)的缺失檢測(cè)概率及錯(cuò)誤提示率,同時(shí)由于其采用相似分組模式,當(dāng)數(shù)據(jù)集較大時(shí)具有更高的運(yùn)算效率,能更好的服務(wù)于新時(shí)代網(wǎng)絡(luò)輿情預(yù)測(cè)。

參考文獻(xiàn):

[1] Hearst M. Texttiling: Segmenting text into multi-paragraph subtopic passage[J]. Computational linguistics,1997,23(1): 33-64.

[2] Choi F. Advances in domain independent linear text segmentation[C]. Proceedings of the 1st North American chapter of the Association for Computational Linguistics conference. Seattle: Association for Computational Linguistics, 2000: 26-33.

[3] Xiang J,Zha H. Domain-independent text segmentation using anisotropic diffusion and dynamic programming[J]. ACM? Sigir Forum,2003: 322-329.

[4] Utiyama M, Isahara H. A statistical model for domain-independent text segmentation[C]. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Seattle: Association for Computational Linguistics,2001: 499-506.

[5] Malioutov I, Barzilay R. Minimum cut model for spoken lecture segmentation[C]. Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Seattle: Association for Computational Linguistics,2006: 25-32.

[6] Lienou M, Maitre H, Datcu M. Semantic annotation of satellite images using latent dirichlet allocation[J]. IEEE Geoscience & Remote Sensing Letters,2010,7(1):28-32.

[7] Yi W,Bai H, Stanton M,et al. PLDA: Parallel latent dirichlet allocation for Large-scale applications[C]. Proceedings of the 5th International Conference on Algorithmic Aspects in Information and Management. Berlin-Heidelberg: Springer,1970.

[8] Nguyen V, Boydgraber J,Resnik P. SITS: A hierarchical nonparametric model using speaker identity for topic segmentation in multiparty conversations[C]. Meeting of the Association for Computational Linguistics: Long Papers. Seattle: Association for Computational Linguistics,2012.

[9] Wang E,Silva J,Willett R,et al. Dynamic relational topic model for social network analysis with noisy links[C]. Statistical Signal Processing Workshop. Piscataway: IEEE, 2011.

[10] Rubin T N, Chambers A, Smyth P, et al. Statistical topic models for multi-label document classification[J]. Machine Learning,2012,88(1-2):157-208.

[11] Chen Z, Mukherjee A, Liu B, et al. Leveraging multi-domain prior knowledge in topic models[C]. Proceedings of the Twenty-Third international joint conference on Artificial Intelligence. Palo Alto: AAAI Press, 2013: 2 071-2 077.

[12] Lee S,Belkasim S, Zhang Y. Multi-document text summarization using topic model and fuzzy logic[C]. Machine Learning and Data Mining in Pattern Recognition. Berlin-Heidelberg: Springer,2013: 159-168.

[13] Pan S , Zhou M X,Song Y,et al. Optimizing temporal topic segmentation for intelligent text visualization[C]. International Conference on Intelligent User Interfaces. New York: ACM,2013.

[14] Riedl M, Biemann C. Topictiling: A text segmentation algorithm based on LDA[C]. Proceedings of ACL 2012 Student Research Workshop. Seattle: Association for Computational Linguistics,2012: 37-42.

[15] 夏一雪.網(wǎng)絡(luò)話題傳播規(guī)律建模與預(yù)測(cè)問題研究[J].現(xiàn)代情報(bào),2019,39(4):3-12.

[16] Du L, Buntine W, Johnson M. Topic segmentation with a structured topic model[C]. Proceedings of NAACL-HLT. Atlanta: Naacl. 2013: 190-200.

[17] 許睿,龍丹,劉佳,等.基于LDA模型的電力投訴文本熱點(diǎn)話題識(shí)別[J].云南大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,42(S2):26-31.

[18] 郭順利,步輝,何宏國(guó).基于G-Kmeans的網(wǎng)絡(luò)問答社區(qū)話題用戶信息需求聚合方法及應(yīng)用研究[J].情報(bào)理論與實(shí)踐,2022(4):1-16.

[責(zé)任編輯:鄭筆耕]

收稿日期:2021-10-08

基金項(xiàng)目:廣東省科技廳科學(xué)研究項(xiàng)目(NO.163-2019-XMZC-0009-02-0066)

作者簡(jiǎn)介:李文(1963-),男,廣西欽州人,廣東科貿(mào)職業(yè)學(xué)院副教授,碩士。主要研究方向:網(wǎng)絡(luò)安全、數(shù)據(jù)庫(kù)。

猜你喜歡
社會(huì)網(wǎng)絡(luò)微博
青少年數(shù)字素養(yǎng)的社會(huì)與文化內(nèi)涵及其教育啟示
中國(guó)“面子”文化情境下領(lǐng)導(dǎo)政治技能對(duì)團(tuán)隊(duì)領(lǐng)導(dǎo)社會(huì)網(wǎng)絡(luò)的作用機(jī)制研究
城市新移民社會(huì)適應(yīng)與社會(huì)網(wǎng)絡(luò)協(xié)同模擬框架研究
大數(shù)據(jù)時(shí)代社會(huì)區(qū)域創(chuàng)新網(wǎng)絡(luò)學(xué)習(xí)與能力建構(gòu)
旅游目的地合作中網(wǎng)絡(luò)治理模式研究
“985工程”高校圖書館閱讀推廣的調(diào)查與分析
事實(shí)與流言的博弈
人間(2016年26期)2016-11-03 18:19:04
基于微博營(yíng)銷的企業(yè)推廣模式研究
企業(yè)管理中社會(huì)網(wǎng)絡(luò)的運(yùn)用及相關(guān)問題闡述
中小企業(yè)金融支持路徑的研究
甘泉县| 龙口市| 抚州市| 尼木县| 新丰县| 正安县| 无棣县| 柏乡县| 泸定县| 遂川县| 石渠县| 赞皇县| 信阳市| 彭阳县| 萝北县| 西畴县| 合阳县| 泽普县| 亚东县| 高台县| 繁峙县| 乐平市| 定陶县| 福安市| 花莲市| 会理县| 化州市| 栾川县| 商河县| 东乡县| 麻栗坡县| 长宁区| 镇巴县| 突泉县| 钟祥市| 石渠县| 榆中县| 沙湾县| 西安市| 日喀则市| 观塘区|