国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

我國(guó)網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)研究綜述

2017-04-07 23:09游丹丹陳福集
現(xiàn)代情報(bào) 2017年3期
關(guān)鍵詞:網(wǎng)絡(luò)輿情綜述

游丹丹+陳福集

〔摘要〕隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)輿情對(duì)社會(huì)的影響不容忽視。若能夠及時(shí)從海量數(shù)據(jù)中發(fā)現(xiàn)熱點(diǎn)話題,追蹤熱點(diǎn)話題演變以及預(yù)測(cè)話題的傾向,對(duì)于幫助相關(guān)部門及時(shí)有效地對(duì)其引導(dǎo)和控制具有較大意義。本文通過對(duì)我國(guó)網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)的相關(guān)文獻(xiàn)進(jìn)行收集、整理及分析,歸納其中的主要研究思想和方法,同時(shí)發(fā)現(xiàn)存在的不足,并提出進(jìn)一步的展望,以期對(duì)后來研究者提供參考。

〔關(guān)鍵詞〕網(wǎng)絡(luò)輿情;熱點(diǎn)話題發(fā)現(xiàn);發(fā)現(xiàn)模型;綜述

DOI:10.3969/j.issn.1008-0821.2017.03.029

〔中圖分類號(hào)〕G2062〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2017)03-0165-07

〔Abstract〕With the rapid development of the Internet,the impact of network public opinion on society can not be ignored.If we can timely find the hot topic,track the evolution of hot topics and predict the tendency of hot topics,it will be of great significance to help the relevant departments guide and control the development of network public opinion.The paper studied and reviewed the related literatures of the hotspot topic detection of network public opinion in China,analyzed and summarized the main ideology,key technology and existing problems,besides,gave the working directions of next steps.

〔Key words〕network public opinion;hotspot topic detection;detection models;review

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息交互與傳播迅速且敏捷,網(wǎng)絡(luò)中重要的信息常淹沒在海量數(shù)據(jù)中,因此如何有效地從不斷涌現(xiàn)的海量非結(jié)構(gòu)化數(shù)據(jù)中發(fā)現(xiàn)熱點(diǎn)話題、追蹤熱點(diǎn)話題演變以及預(yù)測(cè)話題的發(fā)展傾向,為相關(guān)單位部門及時(shí)提供有效網(wǎng)絡(luò)輿情信息、輿情監(jiān)控和競(jìng)爭(zhēng)情報(bào)具有較大意義。

本文在文獻(xiàn)調(diào)研的基礎(chǔ)上,對(duì)我國(guó)網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)的相關(guān)文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析和回顧整理。然后從數(shù)據(jù)采集、文本處理以及熱點(diǎn)話題發(fā)現(xiàn)模型等方面對(duì)現(xiàn)有研究進(jìn)行整理歸納,意在發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)中有待解決的難點(diǎn),以期為未來深入研究奠定基礎(chǔ),最后分析總結(jié)網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)研究中存在的問題與不足,并指出下一步的展望方向。

1文獻(xiàn)統(tǒng)計(jì)及分類

為了充分掌握我國(guó)網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)研究的現(xiàn)況,截至2016年6月對(duì)中國(guó)學(xué)術(shù)期刊網(wǎng)CNKI、萬方學(xué)位論文期刊網(wǎng)以及維普等數(shù)據(jù)庫(kù)進(jìn)行檢索搜集,采用“微博”、“輿情”、“網(wǎng)絡(luò)”、“論壇”與 “熱點(diǎn)話題發(fā)現(xiàn)”關(guān)鍵字組合作為檢索條件進(jìn)行模糊搜索,檢索2005-2016年期間的相關(guān)文獻(xiàn)。檢索命中135條,其中期刊論文64篇,學(xué)位論文66篇,會(huì)議論文5篇。從圖1可以看出,從2007-2014年,網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)研究的相關(guān)文獻(xiàn)逐年增多,2014年相關(guān)文獻(xiàn)數(shù)量達(dá)到高峰,近兩年有所減少。隨著互聯(lián)網(wǎng)的迅速壯大,網(wǎng)名規(guī)模的持續(xù)擴(kuò)大,網(wǎng)絡(luò)輿情事件的不斷爆發(fā),相關(guān)部門對(duì)網(wǎng)絡(luò)輿情的監(jiān)控越來越加大重視力度,并且隨著相關(guān)研究不斷深入,學(xué)術(shù)成果不斷呈現(xiàn)。

2我國(guó)網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)分析

21熱點(diǎn)話題發(fā)現(xiàn)研究路線

熱點(diǎn)話題指的是在某個(gè)時(shí)間段內(nèi)人們比較關(guān)注的話題,涉及民生、政治、經(jīng)濟(jì)以及文化等方面。網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)過程一般遵循數(shù)據(jù)采集、數(shù)據(jù)處理以及話題識(shí)別3個(gè)大步驟,具體流程如圖2所示。

22熱點(diǎn)話題數(shù)據(jù)采集

作為網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)的前提,數(shù)據(jù)采集是網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)的重要一部分,主要通過數(shù)據(jù)采集工具,對(duì)目標(biāo)站點(diǎn)的數(shù)據(jù)進(jìn)行監(jiān)測(cè)和數(shù)據(jù)采集。目前數(shù)據(jù)源主要來自微博、新聞網(wǎng)站、論壇以及相關(guān)網(wǎng)頁等。從數(shù)據(jù)采集方式上,目前主要是采用網(wǎng)絡(luò)爬蟲技術(shù)從互聯(lián)網(wǎng)中抓取下來。從網(wǎng)絡(luò)爬蟲的功能和結(jié)構(gòu)上分類,可分為通用類型的網(wǎng)絡(luò)爬蟲、專用型的網(wǎng)絡(luò)爬蟲以及增量型網(wǎng)絡(luò)爬蟲[1]。關(guān)于網(wǎng)頁信息抽取技術(shù),大體上分為基于DOM樹的抽取方法、基于統(tǒng)計(jì)的抽取方法以及基于模板的抽取方法。

孫勝平提出基于時(shí)間判斷的廣度優(yōu)先網(wǎng)頁采集技術(shù),在網(wǎng)頁采集流程中添加時(shí)間分析器來判斷頁面內(nèi)容的時(shí)效性,從而決定是否對(duì)該頁面進(jìn)行廣度采集,避免了采集無用信息,提高了采集效率和覆蓋率[2]。羅磊針對(duì)微博信息在內(nèi)部傳播時(shí)易于擴(kuò)散至其他新媒體,提出基于改進(jìn)的Shark-Search的主題擴(kuò)散跟蹤方法,通過主題爬蟲參數(shù)來逆向測(cè)評(píng)主題在網(wǎng)絡(luò)中的密度,另外對(duì)主題爬蟲算法進(jìn)行修改,解決在短期小規(guī)模搜索時(shí)易陷入粘滯狀態(tài)的問題[3]。衣波在分析網(wǎng)絡(luò)輿情數(shù)據(jù)的主要來源和抓取模塊中的網(wǎng)絡(luò)爬蟲的基礎(chǔ)上,對(duì)開源網(wǎng)絡(luò)爬蟲進(jìn)行改進(jìn),采用多個(gè)哈希碼映射彌補(bǔ)原算法高內(nèi)存消耗的不足,從而提高內(nèi)存的利用率,以及在一定程度上減少誤判率[4]。

23文本處理

231文本分詞

采集的數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗后,進(jìn)行文本分詞、詞性標(biāo)注、識(shí)別命名實(shí)體、特征選擇等數(shù)據(jù)處理步驟,進(jìn)而建立文檔表示模型,最后進(jìn)行熱點(diǎn)話題發(fā)現(xiàn)與更新。

其中目前比較常用的分詞方法有基于詞典匹配、基于理解以及基于統(tǒng)計(jì)3種[5]。以下表1對(duì)3類方法優(yōu)缺點(diǎn)進(jìn)行簡(jiǎn)單歸納[6]。

232文本表示

文本表示指的是將文本轉(zhuǎn)換為電腦可識(shí)別的結(jié)構(gòu)化形式的過程。目前比較常見的文本表示模型有向量空間模型、概率模型以及布爾模型[7]。其中向量空間模型應(yīng)用最為廣泛。向量空間模型經(jīng)過不斷改進(jìn),常見的VSM擴(kuò)展模型有廣義向量空間模型(GVSM)、潛在語義標(biāo)引、概率向量處理模型以及基于語義分析的向量空間模型(SVSM)等。三大類模型優(yōu)缺點(diǎn)歸納如表2所示,常見的文本表示應(yīng)用模型歸納如表3所示。

24熱點(diǎn)話題發(fā)現(xiàn)模型

熱點(diǎn)話題發(fā)現(xiàn)的核心部分實(shí)質(zhì)上是文本聚類的過程,不同的聚類算法對(duì)應(yīng)不同的有效性。從聚類內(nèi)容上看,可大致分為基于詞、基于內(nèi)容以及基于信息3個(gè)角度;從聚類方法上來看,目前比較常見的具聚類算法有:基于劃分、層次、密度、網(wǎng)格及其他聚類算法,歸納如表4所示。

在熱點(diǎn)提取方面,比較常見的有基于改進(jìn)的聚類算法、多層次聚類、遺傳算法、粒子群算法等模型。按照時(shí)間順序?qū)κ占南嚓P(guān)文獻(xiàn)的主要研究?jī)?nèi)容進(jìn)行簡(jiǎn)單歸納列舉,如表5所示。

3研究結(jié)論及展望

31研究中存在的不足

通過對(duì)現(xiàn)有網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)的研究進(jìn)行分析歸納,尚存在以下幾點(diǎn)不足:

1)微博是全中國(guó)主流、具人氣以及較火爆的互聯(lián)網(wǎng)產(chǎn)品,平臺(tái)上具有較為全面、及時(shí)的中文資訊,因此常被學(xué)者們作為網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)研究的數(shù)據(jù)采集源。微博中網(wǎng)絡(luò)用語呈現(xiàn)較大隨意性、碎片化、語言非結(jié)構(gòu)化等特點(diǎn),導(dǎo)致分詞準(zhǔn)確率受影響,使得熱點(diǎn)話題發(fā)現(xiàn)受一定程度的影響。

2)雖然目前關(guān)于網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)的研究比較多,其中的方法和模型也比較成熟,但是比較系統(tǒng)、成體系的網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)應(yīng)用不是很多,從數(shù)據(jù)采集、熱點(diǎn)話題發(fā)現(xiàn)以及話題追蹤的整套解決方案較少。

3)另外,針對(duì)數(shù)據(jù)采集的專門研究較為缺乏,大多文獻(xiàn)側(cè)重文本挖掘研究,大多聚類算法只針對(duì)較單一類型的數(shù)據(jù),較少的文獻(xiàn)關(guān)注到數(shù)據(jù)源中的圖片、音頻以及視頻等的數(shù)據(jù)采集。而現(xiàn)實(shí)中的數(shù)據(jù)多是混合數(shù)據(jù)類型的數(shù)據(jù),而簡(jiǎn)單的忽略其中的一種數(shù)據(jù)類型或者轉(zhuǎn)換為同種數(shù)據(jù)類型都會(huì)影響話題發(fā)現(xiàn)的準(zhǔn)確率。

32研究展望

通過對(duì)網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)的相關(guān)文獻(xiàn)進(jìn)行總結(jié),本文認(rèn)為接下來可從以下幾方面改進(jìn):

1)分詞的準(zhǔn)確性直接影響到主題分析的準(zhǔn)確性,目前在中文分詞上,基于詞典匹配的機(jī)械分詞方法和基于統(tǒng)計(jì)的分詞方法比較成熟,其二者結(jié)合使用也可使分詞達(dá)到較好的效果,但基于語義的分詞是較為理想的分析方法,如專家系統(tǒng)分詞、神經(jīng)網(wǎng)絡(luò)分詞等,這也是未來發(fā)展的方向。

2)在數(shù)據(jù)采集方面,大數(shù)據(jù)背景下數(shù)據(jù)呈爆發(fā)式增長(zhǎng),海量數(shù)據(jù)的抓取分析會(huì)使得熱點(diǎn)話題發(fā)現(xiàn)更為精確。而當(dāng)今大數(shù)據(jù)存儲(chǔ)和分析的主流技術(shù)Hadoop是解決這一問題有效途徑,采用基于API和結(jié)構(gòu)樹網(wǎng)頁正文抽取解析結(jié)合的方案,可實(shí)現(xiàn)海量數(shù)據(jù)的高效處理和深度并行化的分析。另外,在數(shù)據(jù)預(yù)處理方面,當(dāng)前的海量數(shù)據(jù)大而雜亂,對(duì)數(shù)據(jù)進(jìn)行有效的去噪處理頁是提高聚類效果的關(guān)鍵所在。

3)熱點(diǎn)話題發(fā)現(xiàn)的重要部分在于聚類,其聚類結(jié)果的準(zhǔn)確性直接影響熱點(diǎn)話題發(fā)現(xiàn)的準(zhǔn)確度,在盡量減少聚類所需時(shí)間的同時(shí),保證聚類的精確度也是重點(diǎn)。另外,在面對(duì)動(dòng)態(tài)變化的數(shù)據(jù)時(shí),傳統(tǒng)的聚類方法效率較低,應(yīng)提高聚類動(dòng)態(tài)數(shù)據(jù)的效率。

參考文獻(xiàn)

[1]陳震.基于云平臺(tái)的網(wǎng)絡(luò)新聞熱點(diǎn)話題檢測(cè)與發(fā)現(xiàn)[D].北京:北京郵電大學(xué),2013.

[2]孫勝平.中文微博客熱點(diǎn)話題檢測(cè)與跟蹤技術(shù)研究[D].北京:北京交通大學(xué),2011.

[3]羅磊.微博輿情熱點(diǎn)檢測(cè)與跟蹤方法研究[D].杭州:杭州電子科技大學(xué),2013.

[4]衣波.網(wǎng)絡(luò)輿情信息的話題發(fā)現(xiàn)和追蹤技術(shù)的研究與應(yīng)用[D].廣州:廣東工業(yè)大學(xué),2013.

[5]馮穎.網(wǎng)絡(luò)輿情敏感話題發(fā)現(xiàn)平臺(tái)的研究[D].北京:北京交通大學(xué),2009.

[6]中文分詞技術(shù)(中文分詞原理)[EB/OL].http:∥www.cnblogs.com/flish/archive/2011/08/08/2131031.html,2011-08-08.

[7]夏立新,金燕,方志,等.信息檢索原理與技術(shù)[M].北京:科學(xué)出版社,2009:21-37.

[8]王娟琴.三種檢索模型的比較分析研究:布爾,概率,向量空間模型[J].情報(bào)科學(xué),1998,16(3):225-230.

[9]劉奕群.搜索引擎技術(shù)基礎(chǔ)[M].北京:清華大學(xué)出版社,2010.

[10]張海東.基于論壇的熱點(diǎn)話題識(shí)別與趨勢(shì)預(yù)測(cè)研究[D].上海:上海師范大學(xué),2015.

[11]王巍,楊武,齊海鳳.基于多中心模型的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)算法[J].南京理工大學(xué)學(xué)報(bào),2009,33(4):422-426.

[12]馬雯雯.基于隱含語義分析的微博熱點(diǎn)話題發(fā)現(xiàn)策略[D].重慶:重慶大學(xué),2013.

[13]吳妮,趙捧未,秦春秀.基于語義分析和相似強(qiáng)度的微博熱點(diǎn)發(fā)現(xiàn)方法[J].現(xiàn)代圖書情報(bào)技術(shù),2015,31(5):57-64.

[14]米文麗,孫曰昕.利用概率主題模型的微博熱點(diǎn)話題發(fā)現(xiàn)方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,(8):163-167.

[15]李鳳嶺,朱保平.基于LDA模型的微博話題發(fā)現(xiàn)技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,(10):24-26.

[16]談成訪,汪材印,張亞康.基于LDA模型的中文微博熱點(diǎn)話題發(fā)現(xiàn)[J].宿州學(xué)院學(xué)報(bào),2014,29(4):71-73.

[17]黃波.基于向量空間模型和LDA模型相結(jié)合的微博客話題發(fā)現(xiàn)算法研究[D].成都:西南交通大學(xué),2012.

[18]馬慧芳,吉余崗,李曉紅,等.基于離散粒子群優(yōu)化的微博熱點(diǎn)話題發(fā)現(xiàn)算法[J].計(jì)算機(jī)工程,2016,42(3):208-213.

[19]龍志,程葳.基于詞聚類的熱點(diǎn)話題檢測(cè)算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(6):2214-2216.

[20]林思娟,林柏鋼,許為,等.一種基于詞語能量值變化的微博熱點(diǎn)話題發(fā)現(xiàn)方法研究[J].信息網(wǎng)絡(luò)安全,2015,(10):46-52.

[21]韓忠明,張慧,張夢(mèng),等.大規(guī)模短文本的快速話題發(fā)現(xiàn)方法與評(píng)價(jià)研究[J].計(jì)算機(jī)應(yīng)用研究,2015,32(3):717-722.

[22]丁若堯.基于博客的網(wǎng)絡(luò)話題發(fā)現(xiàn)及追蹤的研究[D].北京:北京交通大學(xué),2011.

[23]稅儀冬,瞿有利,黃厚寬.周期分類和Single-Pass聚類相結(jié)合的話題識(shí)別與跟蹤方法[J].北京交通大學(xué)學(xué)報(bào),2009,33(5):85-89.

[24]方星星,呂永強(qiáng).基于改進(jìn)的single-pass網(wǎng)絡(luò)輿情話題發(fā)現(xiàn)研究[J].計(jì)算機(jī)與數(shù)字工程,2014,(7):1233-1237.

[25]楊長(zhǎng)春,周猛,葉施仁,等.基于改進(jìn)CURE算法的微博熱點(diǎn)話題發(fā)現(xiàn)[J].計(jì)算機(jī)仿真,2013,30(11):383-387.

[26]路榮,項(xiàng)亮,劉明榮,等.基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J].模式識(shí)別與人工智能,2012,25(3):382-387.

[27]馬雯雯,魏文晗,鄧一貴.基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50.

[28]楊菲,黃柏雄.詞共現(xiàn)網(wǎng)絡(luò)的遺傳聚類在話題發(fā)現(xiàn)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(14):126-129.

[29]馬慧芳,吉余崗,李曉紅,等.基于離散粒子群優(yōu)化的微博熱點(diǎn)話題發(fā)現(xiàn)算法[J].計(jì)算機(jī)工程,2016,42(3):208-213.

[30]黃敏.網(wǎng)絡(luò)輿情熱點(diǎn)挖掘算法研究與實(shí)現(xiàn)[J].安徽大學(xué)學(xué)報(bào):自然科學(xué)版,2012,36(6):67-72.

[31]楊亮,林原,林鴻飛.基于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2012,26(1):84-90.

(本文責(zé)任編輯:郭沫含)

猜你喜歡
網(wǎng)絡(luò)輿情綜述
SEBS改性瀝青綜述
NBA新賽季綜述
近代顯示技術(shù)綜述
數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究
淺析網(wǎng)絡(luò)輿情治理
基于社會(huì)穩(wěn)定視角的網(wǎng)絡(luò)輿情預(yù)警機(jī)制構(gòu)建的思考
JOURNAL OF FUNCTIONAL POLYMERS
Progress of DNA-based Methods for Species Identification
綜述
富川| 瑞安市| 谷城县| 衡东县| 明星| 沅江市| 武邑县| 德州市| 克拉玛依市| 子洲县| 台州市| 洞口县| 平南县| 青河县| 红桥区| 保定市| 化州市| 崇阳县| 澄迈县| 罗定市| 含山县| 梨树县| 凤城市| 民乐县| 峨眉山市| 荃湾区| 莫力| 景德镇市| 大连市| 沂水县| 西畴县| 抚顺市| 桓台县| 永德县| 通榆县| 广饶县| 深圳市| 丽江市| 宜州市| 杭州市| 大洼县|