基于聚類(lèi)分析的網(wǎng)絡(luò)輿情傾向性分析研究

2019-07-04 10:25胡欣杰路雨楠

兵器裝備工程學(xué)報(bào) 2019年5期

胡欣杰,路雨楠,路川

(1.航天工程大學(xué)，北京 101416； 2.哥倫比亞大學(xué)，美國(guó) 紐約 10027)

網(wǎng)絡(luò)輿情就是通過(guò)網(wǎng)絡(luò)表達(dá)或傳播的輿情，是指在互聯(lián)網(wǎng)上傳播的公眾對(duì)某一“焦點(diǎn)”和“熱點(diǎn)”話(huà)題所表現(xiàn)的有一定影響力和帶傾向性的意見(jiàn)或言論。

近年來(lái)，隨著國(guó)內(nèi)外政府、企業(yè)和科研機(jī)構(gòu)越來(lái)越重視網(wǎng)絡(luò)輿情的開(kāi)發(fā)利用，輿情信息源的探測(cè)、獲取、處理、分析等關(guān)鍵技術(shù)取得了較大的發(fā)展，各個(gè)特定領(lǐng)域的網(wǎng)絡(luò)輿情分析模型日益完善，依托計(jì)算機(jī)軟件進(jìn)行網(wǎng)絡(luò)輿情監(jiān)測(cè)分析已經(jīng)進(jìn)入全面實(shí)用階段。

1 網(wǎng)絡(luò)輿情傾向性分析研究現(xiàn)狀

網(wǎng)絡(luò)輿情傾向性分析研究的歷史可以追溯到有了互聯(lián)網(wǎng)時(shí)代就有了網(wǎng)絡(luò)輿情研究并有相應(yīng)的協(xié)會(huì)和組織，代表性的有英國(guó)坎特伯雷大學(xué)設(shè)立的歐洲輿情研究中心、美國(guó)的輿情研究協(xié)會(huì)以及歐盟輿情分析官方網(wǎng)站等；重要的會(huì)議和論壇有話(huà)題檢測(cè)與跟蹤會(huì)議(TDT)、情報(bào)檢索專(zhuān)業(yè)組會(huì)議(SIGIR)和文本信息檢索會(huì)議(TREC)等。

在網(wǎng)絡(luò)輿情傾向性分析系統(tǒng)研究方面，國(guó)內(nèi)外的公司、大學(xué)和研究機(jī)構(gòu)先后開(kāi)發(fā)設(shè)計(jì)了多種系統(tǒng)，主要包含3種類(lèi)型：調(diào)查問(wèn)卷型、系統(tǒng)自動(dòng)分析文本數(shù)據(jù)型、自動(dòng)分析網(wǎng)頁(yè)數(shù)據(jù)型。調(diào)查問(wèn)卷型主要設(shè)計(jì)調(diào)查軟件，其解決方案是通過(guò)對(duì)調(diào)查問(wèn)卷的收集，利用計(jì)算機(jī)來(lái)自動(dòng)分析問(wèn)卷中的信息，最后得出所反映的事件傾向性分析進(jìn)而給出輿情的熱點(diǎn)或焦點(diǎn)問(wèn)題；系統(tǒng)自動(dòng)分析文本數(shù)據(jù)型是指設(shè)計(jì)一個(gè)分析文本數(shù)據(jù)的軟件系統(tǒng)，通過(guò)系統(tǒng)分析判斷得出其事件的傾向性進(jìn)而判斷出輿情熱點(diǎn)或焦點(diǎn)問(wèn)題；隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展，網(wǎng)絡(luò)上的數(shù)據(jù)、信息快速增長(zhǎng)，網(wǎng)絡(luò)信息數(shù)據(jù)發(fā)布平臺(tái)多樣，包括網(wǎng)頁(yè)、論壇、博客、微博、微信及各種APP軟件等，更有效和常用的方法是采用通過(guò)計(jì)算機(jī)自動(dòng)分析互聯(lián)網(wǎng)上的數(shù)據(jù)，形成輿情傾向性分析，例如英國(guó)Coppola軟件公司發(fā)布的“感情色彩”軟件，通過(guò)讀取新聞資料并進(jìn)行資料中相關(guān)語(yǔ)義的自動(dòng)計(jì)算和分析，判斷所分析的文章中對(duì)預(yù)先設(shè)定的事件的情感傾向是正面的、負(fù)面的還是中立的，從而確定其輿情信息；IBM公司研發(fā)的話(huà)題檢測(cè)系統(tǒng)的工作原理是基于兩次聚類(lèi)，首先計(jì)算兩篇新聞報(bào)道的相似性，然后把它先放入臨時(shí)分配的類(lèi)別子話(huà)題簇中，在一定的時(shí)間延遲后，觀察話(huà)題類(lèi)別是否變化，如果結(jié)果不變，再將該新聞報(bào)道歸入最后所在的類(lèi)；谷歌公司研制的谷歌趨勢(shì)(Google Trends)軟件，用于分析用戶(hù)使用谷歌搜索引擎搜索過(guò)的關(guān)鍵詞并顯示該關(guān)鍵詞的被關(guān)注程度的服務(wù)，分析的結(jié)果會(huì)顯示出不同地區(qū)對(duì)于該關(guān)鍵詞關(guān)注度的差異等；我們國(guó)家的大學(xué)和研究院等也先后開(kāi)展輿情分析研究?？傊?，自動(dòng)分析網(wǎng)頁(yè)數(shù)據(jù)的網(wǎng)絡(luò)輿情傾向性分析系統(tǒng)廣泛應(yīng)用于網(wǎng)絡(luò)輿情傾向性分析實(shí)踐中[1]。

在網(wǎng)絡(luò)輿情傾向性分析關(guān)鍵技術(shù)研究方面，Martin 提出了一種以語(yǔ)言模型為基礎(chǔ)的話(huà)題檢測(cè)方法；以K-mean聚類(lèi)算法為基礎(chǔ)的網(wǎng)絡(luò)輿情監(jiān)測(cè)算法得到了較多的應(yīng)用，通過(guò)計(jì)算相關(guān)話(huà)題的相似度，再將話(huà)題中的關(guān)鍵詞進(jìn)行聚類(lèi)就可以發(fā)現(xiàn)話(huà)題的特征表述；使用自然語(yǔ)言處理技術(shù)來(lái)幫助設(shè)計(jì)話(huà)題檢測(cè)的統(tǒng)計(jì)方法，使得之后話(huà)題檢測(cè)的正確率和追蹤的正確率都有很大程度的提高；James Allan 在話(huà)題追蹤的研究過(guò)程中使用了Rocchio算法，在一定程度上減少了進(jìn)行話(huà)題追蹤所需要的時(shí)間，但其缺點(diǎn)是需要對(duì)閾值進(jìn)行很精確地設(shè)置等。

總之，在網(wǎng)絡(luò)輿情傾向性分析研究方面，學(xué)者和工程技術(shù)人員做了大量的工作，但隨著網(wǎng)絡(luò)上大數(shù)據(jù)的產(chǎn)生，網(wǎng)絡(luò)輿情事件常常以較快的速度爆發(fā)，因此各種算法也在不斷的優(yōu)化改進(jìn)中。

2 網(wǎng)絡(luò)輿情傾向性聚類(lèi)分析模型及算法

網(wǎng)絡(luò)輿情的傾向性分析是了解輿情產(chǎn)生和演化的重要手段，輿情傾向性分析主要是分析內(nèi)容信息和行為信息，內(nèi)容信息是網(wǎng)民情緒與態(tài)度的直接反映，行為信息是網(wǎng)民情緒與態(tài)度的數(shù)據(jù)反映，二者結(jié)合能夠有效的表征網(wǎng)絡(luò)輿情的傾向性和演化過(guò)程。其中網(wǎng)絡(luò)輿情內(nèi)容信息包括時(shí)間、地點(diǎn)、人物、關(guān)鍵詞以及內(nèi)容信息的變化趨勢(shì)等，行為信息包括信息發(fā)表時(shí)間，文檔數(shù)量、評(píng)論數(shù)、點(diǎn)贊數(shù)等內(nèi)容。經(jīng)過(guò)分析研究和實(shí)驗(yàn)，根據(jù)聚類(lèi)分析的特點(diǎn)，使用聚類(lèi)分析方法判斷網(wǎng)絡(luò)輿情的傾向性、熱點(diǎn)和焦點(diǎn)問(wèn)題取得了較好的效果。

聚類(lèi)分析(clustering analysis)是依據(jù)數(shù)據(jù)相似度或相異度將數(shù)據(jù)分群歸屬到數(shù)個(gè)聚類(lèi)的方法，使得同一群內(nèi)的數(shù)據(jù)或個(gè)體相似程度大，而各群之間的相似程度小。相似度代表個(gè)體間的近似或相關(guān)程度，相似度越大，表示數(shù)據(jù)間的關(guān)聯(lián)程度越高，相似度越小，表示數(shù)據(jù)間的關(guān)聯(lián)程度越低，同一組樣本數(shù)據(jù)根據(jù)所選參數(shù)不同，特征屬性不同，判斷準(zhǔn)則不同，形成不同的分群結(jié)果。因此，利用聚類(lèi)分析適合于對(duì)網(wǎng)絡(luò)輿情樣本數(shù)據(jù)，通過(guò)選擇合理的特征屬性、判斷準(zhǔn)則等參數(shù)的設(shè)置形成網(wǎng)絡(luò)輿情的傾向性分析結(jié)果。網(wǎng)絡(luò)輿情傾向性分析模型建立在兩個(gè)度量參數(shù)上，一是距離，二是相似性。

2.1 距離模型

聚類(lèi)分析(clustering analysis)是依據(jù)數(shù)據(jù)相似度或相異度將數(shù)據(jù)分群歸屬到數(shù)個(gè)聚類(lèi)的方法，使得同一群內(nèi)的數(shù)據(jù)或個(gè)體相似程度大，而各群之間的相似程度小。相似度代表個(gè)體間的近似或相關(guān)程度，相似度越大，表示數(shù)據(jù)間的關(guān)聯(lián)程度越高，相似度越小，表示數(shù)據(jù)間的關(guān)聯(lián)程度越低，同一組樣本數(shù)據(jù)根據(jù)所選參數(shù)不同，特征屬性不同，判斷準(zhǔn)則不同，形成不同的分群結(jié)果。因此利用聚類(lèi)分析適合于對(duì)網(wǎng)絡(luò)輿情樣本數(shù)據(jù)，通過(guò)選擇合理的特征屬性、判斷準(zhǔn)則等參數(shù)的設(shè)置形成網(wǎng)絡(luò)輿情的傾向性分析結(jié)果。網(wǎng)絡(luò)輿情傾向性分析模型建立在兩個(gè)度量參數(shù)上，一是距離，二是相似性。

距離用來(lái)衡量?jī)晒P數(shù)據(jù)或兩個(gè)個(gè)體在一維或多維下的相異程度，距離越大，表示相異越大，反之則越小。距離衡量方式有多種，針對(duì)網(wǎng)絡(luò)輿情傾向性分析的特點(diǎn)，擬采用加權(quán)距離(weighted distance)和馬氏距離(mahalanobis distance)作為度量模型，其模型如下：

1) 加權(quán)距離。加權(quán)距離是指當(dāng)各個(gè)變量的重要性不相同時(shí)，通過(guò)給定不同的相對(duì)權(quán)重wj進(jìn)行加權(quán)，來(lái)衡量變量之間的距離的方法，加權(quán)距離的計(jì)算如式(1)所示：

(1)

其中：D(y1,y2)表示加權(quán)距離，所有加權(quán)權(quán)重wj總和為1，當(dāng)權(quán)重都相同時(shí)，加權(quán)距離等價(jià)于歐式距離[2]。

2) 馬氏距離。當(dāng)網(wǎng)絡(luò)變量之間不僅僅有尺度差異，變量間也有相關(guān)性時(shí)，用馬氏距離衡量數(shù)據(jù)點(diǎn)之間的距離更能反映實(shí)際情況，如式(2)所示：

D(y1,y2)=(x1-x2)′S-1(x1-x2)

(2)

其中：D(y1,y2)表示群體間的馬氏距離，x1=(x11,x12,…,x1p)與x2=(x21,x22,…,x2p)均為P×1的向量，S為P個(gè)變量的共變異矩陣，當(dāng)變量間沒(méi)有相關(guān)性時(shí)(相關(guān)系數(shù)等于0)，并且所有變量的方差都為1時(shí)，馬氏距離也就是標(biāo)準(zhǔn)化的歐式距離，馬氏距離的計(jì)算較為復(fù)雜，但其優(yōu)點(diǎn)是可以考慮變數(shù)間的相關(guān)性。針對(duì)網(wǎng)絡(luò)輿情信息相關(guān)性強(qiáng)的特點(diǎn)，馬氏距離模型更適合網(wǎng)絡(luò)輿情話(huà)題的分析和預(yù)測(cè)[2-3]。

2.2 相關(guān)系數(shù)

相關(guān)系數(shù)使用兩隨機(jī)變量的變動(dòng)方向與程度大小來(lái)衡量其相關(guān)性，是一個(gè)變量的相似度測(cè)量參數(shù)，在網(wǎng)絡(luò)輿情傾向性分析模型中，由于數(shù)據(jù)的類(lèi)型具有一定的連續(xù)性，因此擬采用線(xiàn)性相關(guān)系數(shù)模型，對(duì)于V1和V2兩個(gè)變量，假設(shè)有M組數(shù)據(jù)(x11,x12)(x21,x22)，…，(xM1,xM2)則其相關(guān)系數(shù)O(v1,v2)如式(3)所示：

(3)

相關(guān)系數(shù)值在-1與1之間，且與單位無(wú)關(guān)。

2.3 基于時(shí)間片的k中心點(diǎn)聚類(lèi)分析算法

由于網(wǎng)絡(luò)信息具有不確定性、廣泛性和數(shù)據(jù)量巨大等特點(diǎn)，其輿情的傾向性和演化主題不明顯、演化過(guò)程不明確，因此通過(guò)改進(jìn)k中心點(diǎn)(k-mediods method)聚類(lèi)算法，挖掘輿情主題、變化規(guī)律及傾向性。k中心點(diǎn)算法使用距離作為衡量數(shù)據(jù)間的相似度，以聚類(lèi)中最接近中心位置的數(shù)據(jù)點(diǎn)作為聚類(lèi)的中心，研究最小化數(shù)據(jù)點(diǎn)與聚類(lèi)中心點(diǎn)的總變異，因此k中心點(diǎn)算法容易去除噪聲使之不受異常值的影響，其算法如式(4)所示：

(4)

其中：xik為聚類(lèi)k中的某一個(gè)數(shù)據(jù)點(diǎn)，xmk為聚類(lèi)k中最接近中心的數(shù)據(jù)點(diǎn)，聚類(lèi)劃分的原則是圍繞中心劃分。

使用k中心點(diǎn)聚類(lèi)算法實(shí)現(xiàn)網(wǎng)絡(luò)輿情傾向性分析的步驟如下：

步驟1：選取k個(gè)具有代表性的數(shù)據(jù)作為聚類(lèi)的中心點(diǎn)，在輿情系統(tǒng)中選擇聚類(lèi)中離平均值最近的對(duì)象作為中心點(diǎn)；

步驟2：依據(jù)距離S(基于加權(quán)距離和馬氏距離模型進(jìn)行驗(yàn)證)的遠(yuǎn)近，將數(shù)據(jù)分配到最近的聚類(lèi)中；

步驟3：隨機(jī)選取一個(gè)非聚類(lèi)中心的數(shù)據(jù)點(diǎn)y取代任意一個(gè)聚類(lèi)中心點(diǎn)；計(jì)算用y取代中心點(diǎn)的聚類(lèi)代價(jià)，即距離改變量S，當(dāng)S為負(fù)數(shù)時(shí)，以數(shù)據(jù)y取代原有的聚類(lèi)中心，形成新的中心點(diǎn)，當(dāng)該S為正數(shù)時(shí)，則原有的聚類(lèi)中心保持不變，不需要替代。

步驟4：重復(fù)步驟3，直到k個(gè)中心點(diǎn)不再變化為止[2-3]。

k中心點(diǎn)聚類(lèi)算法的優(yōu)點(diǎn)是，當(dāng)數(shù)據(jù)存在噪聲與異常值時(shí)，k中心點(diǎn)法能形成較穩(wěn)定的分群結(jié)果，不容易受到異常值的影響而產(chǎn)生偏差，擔(dān)當(dāng)數(shù)據(jù)點(diǎn)與聚類(lèi)數(shù)目增加時(shí)，k中心點(diǎn)法的計(jì)算成本將大量增加，而對(duì)網(wǎng)絡(luò)輿情數(shù)據(jù)量的不確定性，當(dāng)輿情數(shù)據(jù)量增大時(shí)，需改進(jìn)K中心點(diǎn)聚類(lèi)算法，其方法是建立基于時(shí)間序列的K中心點(diǎn)聚類(lèi)模型，在時(shí)間片上進(jìn)行數(shù)據(jù)的分類(lèi)整合，整合得到的數(shù)據(jù)代表著這個(gè)時(shí)間片內(nèi)的演化主題[4-5]。

假設(shè)輿情的原始數(shù)據(jù){x1,x2,…,xi}，初始化k個(gè)隨機(jī)數(shù)據(jù){o1,o2,…,ok}，時(shí)間為{t0,t1,…,tn}。在一個(gè)時(shí)間片內(nèi)根據(jù)下列K聚類(lèi)的兩個(gè)迭代公式求出最終所有類(lèi)的聚類(lèi)中心o，步驟如下：

步驟1：求出時(shí)間片內(nèi)所有數(shù)據(jù)和初始化的隨機(jī)數(shù)據(jù)的距離，找出距離每個(gè)初始數(shù)據(jù)最近的原始數(shù)據(jù)pi，如式(5)所示：

(5)

步驟2：計(jì)算初始數(shù)據(jù)和最近原始數(shù)據(jù)的距離，距離計(jì)算采用馬氏距離；

步驟3：隨機(jī)選取一個(gè)非聚類(lèi)中心的數(shù)據(jù)點(diǎn)替代聚類(lèi)中心點(diǎn)，計(jì)算取代聚類(lèi)中心點(diǎn)的代價(jià)，不斷迭代，直至oj的大小不再變化為止，如式(6)所示：

(6)

通過(guò)上面的算法，提高了聚類(lèi)的迭代時(shí)間效率和查全率，尤其當(dāng)數(shù)據(jù)量巨大時(shí)，時(shí)間效率的提高效果顯著。

3 實(shí)驗(yàn)結(jié)果分析及評(píng)估

使用聚類(lèi)分析方法獲得的聚類(lèi)中心是輿情產(chǎn)生傾向性分析的主要依據(jù)，也即是輿情的主題，在時(shí)間序列下聚類(lèi)中心的變化情況代表了輿情的演變。以論壇和微博作為實(shí)驗(yàn)數(shù)據(jù)抽取平臺(tái)[6]，按照時(shí)間片進(jìn)行信息的隨機(jī)抽取，時(shí)間間隔以天為單位，T{T1、T2、T3、T4、T5}表示{第1天、第2天、第3天、第4天、第5天}，抽取數(shù)據(jù)樣本數(shù)量如表1所示。

表1 抽取數(shù)據(jù)樣本篇

使用改進(jìn)的基于時(shí)間片的k中心點(diǎn)聚類(lèi)算法，得到的聚類(lèi)中心如表2所示。

表2 聚類(lèi)中心

從聚類(lèi)結(jié)果看，使用k中心點(diǎn)聚類(lèi)，聚類(lèi)過(guò)程中加入了時(shí)間序列，反應(yīng)出網(wǎng)絡(luò)輿情演化的傾向性，同時(shí)由于使用了時(shí)間片，按照時(shí)間片再進(jìn)行聚類(lèi)的迭代，降低了聚類(lèi)的維數(shù)，增加了聚類(lèi)的可靠性。同時(shí)k值相對(duì)集中，在第2和第3天相對(duì)較大，表明在輿情發(fā)生的第2天和第3天事件關(guān)注度及網(wǎng)民討論程度能達(dá)到最高峰。

為了衡量改進(jìn)的基于時(shí)間片的k中心點(diǎn)聚類(lèi)算法的有效性，使用查全率和時(shí)間效率兩個(gè)指標(biāo)作為評(píng)價(jià)標(biāo)準(zhǔn)[7]，設(shè)網(wǎng)絡(luò)輿情信息聚類(lèi)查全率用P表示，P越大表示信息聚類(lèi)覆蓋的越全面，P越小，表示樣本聚類(lèi)覆蓋效果越差，與P相關(guān)的參數(shù)集如下：

P∝P{標(biāo)題，作者，發(fā)布時(shí)間，網(wǎng)民數(shù)量，發(fā)帖數(shù)量，跟帖數(shù)量、網(wǎng)民數(shù)量變化率，發(fā)帖數(shù)量變化率，持續(xù)時(shí)間}

網(wǎng)民是事件討論的主體，統(tǒng)計(jì)每個(gè)階段參與事件討論的網(wǎng)民數(shù)量可以評(píng)估網(wǎng)民對(duì)此事件的參與程度；發(fā)帖數(shù)量加上跟帖數(shù)量反應(yīng)了網(wǎng)絡(luò)輿情的熱度；網(wǎng)民數(shù)量變化率和發(fā)帖數(shù)量的變化率一定程度上反映了網(wǎng)絡(luò)輿情的傾向性。

時(shí)間效率Q用來(lái)衡量輿情信息聚類(lèi)的效率，Q越大表示聚類(lèi)成輿情信息越快，更有利于輿情的研判，與Q相關(guān)的參數(shù)集如下：

Q∝Q{樣本數(shù)，樣本屬性，分類(lèi)數(shù)，時(shí)間片，主題詞，特征值，特征值權(quán)重，事件屬性}

針對(duì)表1和表2中的樣本數(shù)和聚類(lèi)中心，設(shè)k中心點(diǎn)聚類(lèi)P和Q均為1作為比較基準(zhǔn)，表3列出了采用基于時(shí)間片的k中心點(diǎn)聚類(lèi)的P和Q值。

表3中看出，經(jīng)過(guò)改進(jìn)的基于時(shí)間片的k中心點(diǎn)聚類(lèi)從每一個(gè)時(shí)間片上其查全率P和時(shí)間效率Q比沒(méi)有改進(jìn)時(shí)均有提升，當(dāng)樣本數(shù)值越大時(shí)，時(shí)間效率Q提升就越大，在所有的時(shí)間段內(nèi)T1～T5，如果不劃分時(shí)間片聚類(lèi)，由于樣本數(shù)為T(mén)1～T5所有樣本的和，其時(shí)間效率會(huì)更低，而通過(guò)劃分時(shí)間片，在每個(gè)時(shí)間片上聚類(lèi)，時(shí)間效率顯著提高。

表3 基于時(shí)間片的k中心點(diǎn)聚類(lèi)查全率P和時(shí)間效率Q

比較基準(zhǔn)為：k中心點(diǎn)的P和Q值均為1。

4 結(jié)論

本文提出的基于時(shí)間片的k中心點(diǎn)聚類(lèi)分析算法，提供了網(wǎng)絡(luò)輿情分析的有效途徑，這些方法在開(kāi)發(fā)研制網(wǎng)絡(luò)輿情系統(tǒng)中得到了很好的應(yīng)用，取得了較好的效果，今后隨著網(wǎng)絡(luò)平臺(tái)不斷增多，智能手機(jī)的廣泛應(yīng)用，網(wǎng)絡(luò)輿情產(chǎn)生的渠道會(huì)越來(lái)越廣，基于時(shí)間片的k中心點(diǎn)聚類(lèi)分析算法還要進(jìn)一步的完善，以應(yīng)用于更多的平臺(tái)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡