国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主題模型的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計

2015-05-08 16:34:19鐘榮飛
電腦知識與技術(shù) 2015年7期
關(guān)鍵詞:網(wǎng)絡(luò)輿情

鐘榮飛

摘要:網(wǎng)絡(luò)輿情是近年來研究的熱點。現(xiàn)有的輿情監(jiān)測系統(tǒng)大多采用基于統(tǒng)計和特征關(guān)鍵詞的方法,這種方法沒有考慮到文字背后的語義關(guān)聯(lián),可能在兩個文檔共同出現(xiàn)的單詞很少甚至沒有,但兩個文檔是相似的。而主題模型正是近年來大量使用的語義挖掘的方法,其中LDA主題模型使用最多。結(jié)合了基于統(tǒng)計和LDA主題模型兩種方法,應(yīng)用于網(wǎng)絡(luò)輿情監(jiān)控。在基于統(tǒng)計的基礎(chǔ)上進一步進行語義的挖掘,能夠?qū)浨樾畔⒏訙蚀_的分析。

關(guān)鍵詞:網(wǎng)絡(luò)輿情;輿情監(jiān)控;主題模型;LDA;語義挖掘

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2015)07-0090-04

Abstract: Network public opinion is a research hotspot in recent years. Most of the existing public opinion monitoring system used the count of word or key-word, in this way, lost the semantics of the document. Topic model is a good semantics mining model, and is very popular in recent years. LDA is most commonly used. Combining the statistics and LDA topic model, designed a public opinion monitoring system. Based on counting of key-word, mining the semantics of documents, can exactly analyses the public opinion.

Key words: network public opinion; opinion monitor; topic model; LDA; semantics mining

1 引言

互聯(lián)網(wǎng)是一個開放的信息平臺,隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)上的信息也是以指數(shù)級的方式增長,互聯(lián)網(wǎng)上的信息也是魚龍混雜。由于任何人都可以使用互聯(lián)網(wǎng),除了可以從網(wǎng)絡(luò)上獲取信息,同時還能夠通過網(wǎng)絡(luò)發(fā)布信息、轉(zhuǎn)載別人的信息、對別人發(fā)布的信息發(fā)表自己的看法。對于多數(shù)人們都關(guān)心的話題很容易形成熱點,金字塔式的擴散。尤其對于一些民生事件,很容易形成網(wǎng)絡(luò)輿情。所以以需要能夠?qū)W(wǎng)絡(luò)輿情[1,2]進行監(jiān)控。

近年來,對于網(wǎng)絡(luò)輿情的監(jiān)控已經(jīng)取得了很大的成果,不少網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)也建立了起來。目前對網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)所以使用的方法基本上是基于TF-IDF[3,4]的詞頻統(tǒng)計的方法,利用向量空間模型(VSM)[3,4]對文本進行表示,通過計算向量之間的余弦值來計算文本之間的相似度,采用聚類和分類算法來進行輿情熱點挖掘和跟蹤。目前對于這種方法的研究已經(jīng)趨于成熟。但是這種存在一些缺陷,1)使用TF-IDF詞頻統(tǒng)計的方式只考慮了詞語的頻率,并沒有能夠真正體現(xiàn)詞語的含義;2)向量空間模型來表示文本時,其數(shù)據(jù)空間的維度有可能是非常高的,這會使得計算非常復雜。

另一方面,學者們開始著手于從語義方面對文本的分析進行研究,LDA[5]主題模型就是目前使用最多的語義分析方法。LDA模型對文檔集進行建模,挖掘出其中隱含的主題分布,其主題空間[6]的規(guī)模是K×N,與文本集規(guī)模無關(guān)。雖然LDA主題模型于2003年就已經(jīng)提出,而且已經(jīng)應(yīng)用于很多數(shù)據(jù)挖掘的領(lǐng)域當中,但是在輿情監(jiān)控方面的應(yīng)用暫時還沒有。

因此本文針對傳統(tǒng)輿情分析基于統(tǒng)計方法的缺點跟LDA主題模型的優(yōu)點,提出把LDA主題模型應(yīng)用于輿情監(jiān)控當中,同時把基于統(tǒng)計的方法跟LDA主題模型相結(jié)合,能夠更準確的分析出網(wǎng)絡(luò)輿情,更好的跟蹤輿情的發(fā)展態(tài)勢。

2 網(wǎng)絡(luò)輿情監(jiān)控

網(wǎng)絡(luò)輿情監(jiān)控與分析的流程大體可以如圖1所示。

2.1 信息采集

通過網(wǎng)絡(luò)爬蟲(又稱網(wǎng)頁蜘蛛[6],網(wǎng)絡(luò)機器人)不斷的從互聯(lián)網(wǎng)上,按照一定的規(guī)則,自動的抓取互聯(lián)網(wǎng)上頁面,形成一個巨大的網(wǎng)頁文本集。爬蟲的原理是從一個或若干個初始網(wǎng)頁的URL開始,獲取初始網(wǎng)頁上的URL,在抓取的過程中不斷的從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。

2.2 信息預處理

由于爬蟲抓取的網(wǎng)頁是原始網(wǎng)頁,網(wǎng)頁中的數(shù)據(jù)非常復雜,多以無結(jié)構(gòu)和非半結(jié)構(gòu)化[6]結(jié)合的方式摻雜在一起,其中除了我們需要的主體內(nèi)容外還有很多其他無用的信息,如廣告,版本等。因此需要把沒用的信息過濾掉,只提取出其中的主體文本內(nèi)容。

同時網(wǎng)絡(luò)中存在很多轉(zhuǎn)載的重復信息,因此收集到的數(shù)據(jù)中可能存在相當多的冗余網(wǎng)頁。這種現(xiàn)象不但浪費了大量的存儲空間和資源,而且影響了對輿情分析的準確度。因此非常有必要對網(wǎng)頁進行去重,避免這種現(xiàn)象。

2.3 文本表示

文本表示是計算機進行文本挖掘的基礎(chǔ),在輿情監(jiān)控系統(tǒng)中,需要把一篇文本表示成以詞為單位的特征集合,因為普遍認為選取詞作為特征項是最優(yōu)的。通常,文本表示的方法有布爾模型和向量空間模型(Vector Space Model,VSM)。向量空間模型是使用最多的文本表示模型。將每個文本用詞來表示,然后根據(jù)TF-IDF詞頻統(tǒng)計給每個詞賦與一個權(quán)重。這樣就把文本表示成了數(shù)學上的向量,能夠在計算機中進行邏輯運算。一篇文檔可以表示成一個向量d={w1,w2,w3,…,wn},wi為文檔中詞的權(quán)重,n為文檔中詞的數(shù)目。

2.4 聚類分析

聚類[7]是一種把文本集合進行全自動分類處理的無監(jiān)督的機器學習[7]過程,聚類的目的是從采集到的所有網(wǎng)頁數(shù)據(jù)中找到一些類的集合,這些類的之間的相似度最小,而類內(nèi)部的相似度最大。聚類的本質(zhì)就是分類,把相似度高的文本聚集在一起,而把不相關(guān)的文本區(qū)分開來。這里就涉及到了文本相似度[8]的計算,向量空間模型的文本相似度的計算就計算向量之間的余弦值。這樣把采集到的所有文本經(jīng)過相似度計算后,相似的文本被歸為同一類中。相似的文本歸為一類,我們認為它們討論的是同一個話題。因此一個類就是一個話題,聚類最后的結(jié)果就是從文本集中發(fā)現(xiàn)出這些話題,并計算他們的熱點,找出熱點話題,因為只有熱點話題才有可能發(fā)展為網(wǎng)絡(luò)輿情。

2.5 輿情分析

根據(jù)話題的熱度進行趨勢分析,對其中有可能發(fā)展為輿情的話題進行跟蹤,并對輿情的發(fā)展情況進行實時的預警,隨時掌握網(wǎng)絡(luò)上的輿情發(fā)展趨勢。

因此,從上面的過程中可以發(fā)現(xiàn),輿情監(jiān)控本質(zhì)的就是要發(fā)現(xiàn)熱點話題。

3 LDA主題模型

3.1 LDA模型基本思想

其中“文檔-詞語”矩陣表示每個文檔中每個單詞的詞頻,即出現(xiàn)的概率;“主題-詞語”矩陣表示每個主題中每個單詞的出現(xiàn)概率;“文檔-主題”矩陣表示每個文檔中每個主題出現(xiàn)的概率。

3.2 生成過程

3.3 Gibbs抽樣

由上節(jié)可知,LDA模型有兩個參數(shù)α和β 在構(gòu)建LDA模型時需要進行估計,常用的方法有期望傳播算法、變分貝葉斯推理和Collapsed Gibbs抽樣[8]等。基于Gibbs抽樣的參數(shù)推理方法實現(xiàn)比較簡單,能夠有效的從大規(guī)模語料庫中抽取出主題,因此Gibbs抽樣算法是目前使用最多的LDA模型抽樣算法。

本文的參數(shù)估計使用Gibbs抽樣算法。估計出LDA模型中的最重要的兩個 參數(shù),各主題下詞語概率分布和各文本中的主題概率分布。主題就是文本的語義概括,而主題中的詞正是主題語義的高度概括。因此可以把文本映射到主題空間,文本向量可表示為d={t1,t2,t3,…,tk},其中ti是主題中所有詞在文檔的頻率,k為主題空間維度。

4 基于LDA模型的輿情監(jiān)控與分析

4.1 文本相似度計算

由第2節(jié)可以知道,輿情監(jiān)控與分析中非常重要的過程就是聚類分析,而聚類分析的基礎(chǔ)就是文本相似度的計算,相似度計算的好壞直接影響到聚類的結(jié)果。傳統(tǒng)相似度計算模型向量空間模型(VSM)僅采用詞頻統(tǒng)計方法TF-IDF來計算特征詞的權(quán)重,而沒有考慮文本內(nèi)的語義信息,從而影響了相似度計算的結(jié)果。

LDA主題模型是對文本語義的挖掘,一定程度上彌補了以上的不足。通過對LDA模型的訓練得到文本的主題分布跟主題中的詞分布。然后把文本映射到主題空間,形成基于主題的文本向量,結(jié)合TF-IDF權(quán)重的詞向量,將兩種文本表示向量有機的融合,能夠更好的準確地計算文本的相似度。

4.2 輿情監(jiān)控與分析步驟

基于LDA主題模型的輿情監(jiān)控與分析步驟如下:

1)通過網(wǎng)頁采集工具采集信息,并進行預處理,提取出主體文本內(nèi)容形成文本集。

2)對文本集進行LDA模型訓練,得出LDA模型參數(shù):文本主題分布與主題詞項分布。

3)把文本分別表示成VSM空間的向量與主題空間的向量,加權(quán)求和后進行文本相似度計算,并用于聚類。

4)對聚類結(jié)果進行輿情分析。

5 總結(jié)

本文通過分析傳統(tǒng)輿情監(jiān)控系統(tǒng)中使用的VSM空間向量模型存在的不足,對文本語義的表示不夠,只能知道詞在文檔中出現(xiàn)的頻數(shù),但缺乏對詞的深層次含義的挖掘,從而導致輿情分析的不準確。結(jié)合LDA主題模型的在語義挖掘方面的優(yōu)勢,把LDA主題模型與VSM空間模型有機融合,提高文本相似度計算的準確性,從而提高了輿情分析的準確性。

未來的研究工作包括:可以進一步的對LDA主題模型進行研究,如何利用改進的LDA主題模型來進行輿情監(jiān)控系統(tǒng)的設(shè)計,更好的挖掘網(wǎng)絡(luò)輿情信息的含義和準確性。

參考文獻:

[1] 李昌祖,張洪生,等. 網(wǎng)絡(luò)輿情的概念解析[J]. 現(xiàn)代傳播,2010,170(9):139-140.

[2] 許鑫,章成志,等. 國內(nèi)網(wǎng)絡(luò)輿情研究的回顧與展望[J]. 情報理論與實踐,2009,32(3):115-120.

[3] 秦宏宇.網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)相關(guān)技術(shù)研究[D].哈爾濱:哈爾濱工程大學,2010.

[4] 萬源. 基于語義統(tǒng)計分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D].湖北:武漢理工大學,2012.

[5] David M.Blei,andrew Y.Ng,Michael I.Jordan. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research,2003(3):993-1022.

[6] 劉杜楊. 網(wǎng)絡(luò)輿情監(jiān)督管理系統(tǒng)的設(shè)計與實現(xiàn)[D].成都:電子科技大學,2013.

[7] 董婧靈,李芳,何婷婷,等. 基于LDA模型的文本聚類研究[J]. 中國計算語言學研究前沿進展,2011,455-461.

[8] 王振振,何明,杜永萍,等. 基于LDA主題模型的文本相似度計算[J].計算機科學,2013,40(12):229-232.

[9] huagong_ad. 主題模型-LDA淺析[OL]. http://blog.csdn.net/huagong_adu/article/details/7937616.

[10] 張偉. 網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的研究與實現(xiàn)[D].天津:天津大學,2011.

[11] Edwin Chen. Introduction to Latent Dirichlet Allocation[OL]. http://blog.echen.me/2011/08/22/introduction-to-latent-dirichlet-allocation/.

猜你喜歡
網(wǎng)絡(luò)輿情
新媒體環(huán)境下網(wǎng)絡(luò)輿情預警體系研究
微博問政與回應(yīng)中的政府形象塑造
試論高校大學生網(wǎng)絡(luò)輿情引導方略
自媒體時代下高校網(wǎng)絡(luò)輿情預警指標體系構(gòu)建
山東青年(2016年9期)2016-12-08 16:45:59
新媒介生態(tài)環(huán)境下高職院校網(wǎng)絡(luò)輿情特點及研判機制思考
山東青年(2016年9期)2016-12-08 16:38:43
網(wǎng)絡(luò)輿情編輯能力構(gòu)成因素淺析
今傳媒(2016年10期)2016-11-22 13:04:37
網(wǎng)絡(luò)輿情事件的引導策略分析
數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究
大學教育(2016年11期)2016-11-16 20:34:04
“互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
中國市場(2016年38期)2016-11-15 23:42:46
淺析網(wǎng)絡(luò)輿情治理
吉林省| 游戏| 明水县| 鞍山市| 莒南县| 襄樊市| 麻阳| 依兰县| 朝阳区| 奉节县| 庄河市| 安化县| 安多县| 兰坪| 三河市| 高雄市| 杂多县| 邯郸县| 林口县| 五华县| 咸宁市| 浙江省| 安徽省| 同江市| 中超| 湄潭县| 马尔康县| 理塘县| 江津市| 宿松县| 喀喇| 浏阳市| 海晏县| 蕉岭县| 西乌珠穆沁旗| 通许县| 镇雄县| 兴安盟| 阿巴嘎旗| 延庆县| 蒲城县|