胡欣杰,路雨楠,路 川
(1.航天工程大學(xué), 北京 101416; 2.哥倫比亞大學(xué), 美國(guó) 紐約 10027)
網(wǎng)絡(luò)輿情就是通過(guò)網(wǎng)絡(luò)表達(dá)或傳播的輿情,是指在互聯(lián)網(wǎng)上傳播的公眾對(duì)某一“焦點(diǎn)”和“熱點(diǎn)”話(huà)題所表現(xiàn)的有一定影響力和帶傾向性的意見(jiàn)或言論。
近年來(lái),隨著國(guó)內(nèi)外政府、企業(yè)和科研機(jī)構(gòu)越來(lái)越重視網(wǎng)絡(luò)輿情的開(kāi)發(fā)利用,輿情信息源的探測(cè)、獲取、處理、分析等關(guān)鍵技術(shù)取得了較大的發(fā)展,各個(gè)特定領(lǐng)域的網(wǎng)絡(luò)輿情分析模型日益完善,依托計(jì)算機(jī)軟件進(jìn)行網(wǎng)絡(luò)輿情監(jiān)測(cè)分析已經(jīng)進(jìn)入全面實(shí)用階段。
網(wǎng)絡(luò)輿情傾向性分析研究的歷史可以追溯到有了互聯(lián)網(wǎng)時(shí)代就有了網(wǎng)絡(luò)輿情研究并有相應(yīng)的協(xié)會(huì)和組織,代表性的有英國(guó)坎特伯雷大學(xué)設(shè)立的歐洲輿情研究中心、美國(guó)的輿情研究協(xié)會(huì)以及歐盟輿情分析官方網(wǎng)站等;重要的會(huì)議和論壇有話(huà)題檢測(cè)與跟蹤會(huì)議(TDT)、情報(bào)檢索專(zhuān)業(yè)組會(huì)議(SIGIR)和文本信息檢索會(huì)議(TREC)等。
在網(wǎng)絡(luò)輿情傾向性分析系統(tǒng)研究方面,國(guó)內(nèi)外的公司、大學(xué)和研究機(jī)構(gòu)先后開(kāi)發(fā)設(shè)計(jì)了多種系統(tǒng),主要包含3種類(lèi)型:調(diào)查問(wèn)卷型、系統(tǒng)自動(dòng)分析文本數(shù)據(jù)型、自動(dòng)分析網(wǎng)頁(yè)數(shù)據(jù)型。調(diào)查問(wèn)卷型主要設(shè)計(jì)調(diào)查軟件,其解決方案是通過(guò)對(duì)調(diào)查問(wèn)卷的收集,利用計(jì)算機(jī)來(lái)自動(dòng)分析問(wèn)卷中的信息,最后得出所反映的事件傾向性分析進(jìn)而給出輿情的熱點(diǎn)或焦點(diǎn)問(wèn)題;系統(tǒng)自動(dòng)分析文本數(shù)據(jù)型是指設(shè)計(jì)一個(gè)分析文本數(shù)據(jù)的軟件系統(tǒng),通過(guò)系統(tǒng)分析判斷得出其事件的傾向性進(jìn)而判斷出輿情熱點(diǎn)或焦點(diǎn)問(wèn)題;隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上的數(shù)據(jù)、信息快速增長(zhǎng),網(wǎng)絡(luò)信息數(shù)據(jù)發(fā)布平臺(tái)多樣,包括網(wǎng)頁(yè)、論壇、博客、微博、微信及各種APP軟件等,更有效和常用的方法是采用通過(guò)計(jì)算機(jī)自動(dòng)分析互聯(lián)網(wǎng)上的數(shù)據(jù),形成輿情傾向性分析,例如英國(guó)Coppola軟件公司發(fā)布的“感情色彩”軟件,通過(guò)讀取新聞資料并進(jìn)行資料中相關(guān)語(yǔ)義的自動(dòng)計(jì)算和分析,判斷所分析的文章中對(duì)預(yù)先設(shè)定的事件的情感傾向是正面的、負(fù)面的還是中立的,從而確定其輿情信息;IBM公司研發(fā)的話(huà)題檢測(cè)系統(tǒng)的工作原理是基于兩次聚類(lèi),首先計(jì)算兩篇新聞報(bào)道的相似性,然后把它先放入臨時(shí)分配的類(lèi)別子話(huà)題簇中,在一定的時(shí)間延遲后,觀察話(huà)題類(lèi)別是否變化,如果結(jié)果不變,再將該新聞報(bào)道歸入最后所在的類(lèi);谷歌公司研制的谷歌趨勢(shì)(Google Trends)軟件,用于分析用戶(hù)使用谷歌搜索引擎搜索過(guò)的關(guān)鍵詞并顯示該關(guān)鍵詞的被關(guān)注程度的服務(wù),分析的結(jié)果會(huì)顯示出不同地區(qū)對(duì)于該關(guān)鍵詞關(guān)注度的差異等;我們國(guó)家的大學(xué)和研究院等也先后開(kāi)展輿情分析研究??傊?,自動(dòng)分析網(wǎng)頁(yè)數(shù)據(jù)的網(wǎng)絡(luò)輿情傾向性分析系統(tǒng)廣泛應(yīng)用于網(wǎng)絡(luò)輿情傾向性分析實(shí)踐中[1]。
在網(wǎng)絡(luò)輿情傾向性分析關(guān)鍵技術(shù)研究方面,Martin 提出了一種以語(yǔ)言模型為基礎(chǔ)的話(huà)題檢測(cè)方法;以K-mean聚類(lèi)算法為基礎(chǔ)的網(wǎng)絡(luò)輿情監(jiān)測(cè)算法得到了較多的應(yīng)用,通過(guò)計(jì)算相關(guān)話(huà)題的相似度,再將話(huà)題中的關(guān)鍵詞進(jìn)行聚類(lèi)就可以發(fā)現(xiàn)話(huà)題的特征表述;使用自然語(yǔ)言處理技術(shù)來(lái)幫助設(shè)計(jì)話(huà)題檢測(cè)的統(tǒng)計(jì)方法,使得之后話(huà)題檢測(cè)的正確率和追蹤的正確率都有很大程度的提高;James Allan 在話(huà)題追蹤的研究過(guò)程中使用了Rocchio算法,在一定程度上減少了進(jìn)行話(huà)題追蹤所需要的時(shí)間,但其缺點(diǎn)是需要對(duì)閾值進(jìn)行很精確地設(shè)置等。
總之,在網(wǎng)絡(luò)輿情傾向性分析研究方面,學(xué)者和工程技術(shù)人員做了大量的工作,但隨著網(wǎng)絡(luò)上大數(shù)據(jù)的產(chǎn)生,網(wǎng)絡(luò)輿情事件常常以較快的速度爆發(fā),因此各種算法也在不斷的優(yōu)化改進(jìn)中。
網(wǎng)絡(luò)輿情的傾向性分析是了解輿情產(chǎn)生和演化的重要手段,輿情傾向性分析主要是分析內(nèi)容信息和行為信息,內(nèi)容信息是網(wǎng)民情緒與態(tài)度的直接反映,行為信息是網(wǎng)民情緒與態(tài)度的數(shù)據(jù)反映,二者結(jié)合能夠有效的表征網(wǎng)絡(luò)輿情的傾向性和演化過(guò)程。其中網(wǎng)絡(luò)輿情內(nèi)容信息包括時(shí)間、地點(diǎn)、人物、關(guān)鍵詞以及內(nèi)容信息的變化趨勢(shì)等,行為信息包括信息發(fā)表時(shí)間,文檔數(shù)量、評(píng)論數(shù)、點(diǎn)贊數(shù)等內(nèi)容。經(jīng)過(guò)分析研究和實(shí)驗(yàn),根據(jù)聚類(lèi)分析的特點(diǎn),使用聚類(lèi)分析方法判斷網(wǎng)絡(luò)輿情的傾向性、熱點(diǎn)和焦點(diǎn)問(wèn)題取得了較好的效果。
聚類(lèi)分析(clustering analysis)是依據(jù)數(shù)據(jù)相似度或相異度將數(shù)據(jù)分群歸屬到數(shù)個(gè)聚類(lèi)的方法,使得同一群內(nèi)的數(shù)據(jù)或個(gè)體相似程度大,而各群之間的相似程度小。相似度代表個(gè)體間的近似或相關(guān)程度,相似度越大,表示數(shù)據(jù)間的關(guān)聯(lián)程度越高,相似度越小,表示數(shù)據(jù)間的關(guān)聯(lián)程度越低,同一組樣本數(shù)據(jù)根據(jù)所選參數(shù)不同,特征屬性不同,判斷準(zhǔn)則不同,形成不同的分群結(jié)果。因此,利用聚類(lèi)分析適合于對(duì)網(wǎng)絡(luò)輿情樣本數(shù)據(jù),通過(guò)選擇合理的特征屬性、判斷準(zhǔn)則等參數(shù)的設(shè)置形成網(wǎng)絡(luò)輿情的傾向性分析結(jié)果。 網(wǎng)絡(luò)輿情傾向性分析模型建立在兩個(gè)度量參數(shù)上,一是距離,二是相似性。
聚類(lèi)分析(clustering analysis)是依據(jù)數(shù)據(jù)相似度或相異度將數(shù)據(jù)分群歸屬到數(shù)個(gè)聚類(lèi)的方法,使得同一群內(nèi)的數(shù)據(jù)或個(gè)體相似程度大,而各群之間的相似程度小。相似度代表個(gè)體間的近似或相關(guān)程度,相似度越大,表示數(shù)據(jù)間的關(guān)聯(lián)程度越高,相似度越小,表示數(shù)據(jù)間的關(guān)聯(lián)程度越低,同一組樣本數(shù)據(jù)根據(jù)所選參數(shù)不同,特征屬性不同,判斷準(zhǔn)則不同,形成不同的分群結(jié)果。因此利用聚類(lèi)分析適合于對(duì)網(wǎng)絡(luò)輿情樣本數(shù)據(jù),通過(guò)選擇合理的特征屬性、判斷準(zhǔn)則等參數(shù)的設(shè)置形成網(wǎng)絡(luò)輿情的傾向性分析結(jié)果。 網(wǎng)絡(luò)輿情傾向性分析模型建立在兩個(gè)度量參數(shù)上,一是距離,二是相似性。
距離用來(lái)衡量?jī)晒P數(shù)據(jù)或兩個(gè)個(gè)體在一維或多維下的相異程度,距離越大,表示相異越大,反之則越小。距離衡量方式有多種,針對(duì)網(wǎng)絡(luò)輿情傾向性分析的特點(diǎn),擬采用加權(quán)距離(weighted distance)和馬氏距離(mahalanobis distance)作為度量模型,其模型如下:
1) 加權(quán)距離。加權(quán)距離是指當(dāng)各個(gè)變量的重要性不相同時(shí),通過(guò)給定不同的相對(duì)權(quán)重wj進(jìn)行加權(quán),來(lái)衡量變量之間的距離的方法,加權(quán)距離的計(jì)算如式(1)所示:
(1)
其中:D(y1,y2)表示加權(quán)距離,所有加權(quán)權(quán)重wj總和為1,當(dāng)權(quán)重都相同時(shí),加權(quán)距離等價(jià)于歐式距離[2]。
2) 馬氏距離。當(dāng)網(wǎng)絡(luò)變量之間不僅僅有尺度差異,變量間也有相關(guān)性時(shí),用馬氏距離衡量數(shù)據(jù)點(diǎn)之間的距離更能反映實(shí)際情況,如式(2)所示:
D(y1,y2)=(x1-x2)′S-1(x1-x2)
(2)
其中:D(y1,y2)表示群體間的馬氏距離,x1=(x11,x12,…,x1p)與x2=(x21,x22,…,x2p)均為P×1的向量,S為P個(gè)變量的共變異矩陣,當(dāng)變量間沒(méi)有相關(guān)性時(shí)(相關(guān)系數(shù)等于0),并且所有變量的方差都為1時(shí),馬氏距離也就是標(biāo)準(zhǔn)化的歐式距離,馬氏距離的計(jì)算較為復(fù)雜,但其優(yōu)點(diǎn)是可以考慮變數(shù)間的相關(guān)性。針對(duì)網(wǎng)絡(luò)輿情信息相關(guān)性強(qiáng)的特點(diǎn),馬氏距離模型更適合網(wǎng)絡(luò)輿情話(huà)題的分析和預(yù)測(cè)[2-3]。
相關(guān)系數(shù)使用兩隨機(jī)變量的變動(dòng)方向與程度大小來(lái)衡量其相關(guān)性,是一個(gè)變量的相似度測(cè)量參數(shù),在網(wǎng)絡(luò)輿情傾向性分析模型中,由于數(shù)據(jù)的類(lèi)型具有一定的連續(xù)性,因此擬采用線(xiàn)性相關(guān)系數(shù)模型,對(duì)于V1和V2兩個(gè)變量,假設(shè)有M組數(shù)據(jù)(x11,x12)(x21,x22),…,(xM1,xM2)則其相關(guān)系數(shù)O(v1,v2)如式(3)所示:
(3)
相關(guān)系數(shù)值在-1與1之間,且與單位無(wú)關(guān)。
由于網(wǎng)絡(luò)信息具有不確定性、廣泛性和數(shù)據(jù)量巨大等特點(diǎn),其輿情的傾向性和演化主題不明顯、演化過(guò)程不明確,因此通過(guò)改進(jìn)k中心點(diǎn)(k-mediods method)聚類(lèi)算法,挖掘輿情主題、變化規(guī)律及傾向性。k中心點(diǎn)算法使用距離作為衡量數(shù)據(jù)間的相似度,以聚類(lèi)中最接近中心位置的數(shù)據(jù)點(diǎn)作為聚類(lèi)的中心,研究最小化數(shù)據(jù)點(diǎn)與聚類(lèi)中心點(diǎn)的總變異,因此k中心點(diǎn)算法容易去除噪聲使之不受異常值的影響,其算法如式(4)所示:
(4)
其中:xik為聚類(lèi)k中的某一個(gè)數(shù)據(jù)點(diǎn),xmk為聚類(lèi)k中最接近中心的數(shù)據(jù)點(diǎn),聚類(lèi)劃分的原則是圍繞中心劃分。
使用k中心點(diǎn)聚類(lèi)算法實(shí)現(xiàn)網(wǎng)絡(luò)輿情傾向性分析的步驟如下:
步驟1:選取k個(gè)具有代表性的數(shù)據(jù)作為聚類(lèi)的中心點(diǎn),在輿情系統(tǒng)中選擇聚類(lèi)中離平均值最近的對(duì)象作為中心點(diǎn);
步驟2:依據(jù)距離S(基于加權(quán)距離和馬氏距離模型進(jìn)行驗(yàn)證)的遠(yuǎn)近,將數(shù)據(jù)分配到最近的聚類(lèi)中;
步驟3:隨機(jī)選取一個(gè)非聚類(lèi)中心的數(shù)據(jù)點(diǎn)y取代任意一個(gè)聚類(lèi)中心點(diǎn);計(jì)算用y取代中心點(diǎn)的聚類(lèi)代價(jià),即距離改變量S,當(dāng)S為負(fù)數(shù)時(shí),以數(shù)據(jù)y取代原有的聚類(lèi)中心,形成新的中心點(diǎn),當(dāng)該S為正數(shù)時(shí),則原有的聚類(lèi)中心保持不變,不需要替代。
步驟4:重復(fù)步驟3,直到k個(gè)中心點(diǎn)不再變化為止[2-3]。
k中心點(diǎn)聚類(lèi)算法的優(yōu)點(diǎn)是,當(dāng)數(shù)據(jù)存在噪聲與異常值時(shí),k中心點(diǎn)法能形成較穩(wěn)定的分群結(jié)果,不容易受到異常值的影響而產(chǎn)生偏差,擔(dān)當(dāng)數(shù)據(jù)點(diǎn)與聚類(lèi)數(shù)目增加時(shí),k中心點(diǎn)法的計(jì)算成本將大量增加,而對(duì)網(wǎng)絡(luò)輿情數(shù)據(jù)量的不確定性,當(dāng)輿情數(shù)據(jù)量增大時(shí),需改進(jìn)K中心點(diǎn)聚類(lèi)算法,其方法是建立基于時(shí)間序列的K中心點(diǎn)聚類(lèi)模型,在時(shí)間片上進(jìn)行數(shù)據(jù)的分類(lèi)整合,整合得到的數(shù)據(jù)代表著這個(gè)時(shí)間片內(nèi)的演化主題[4-5]。
假設(shè)輿情的原始數(shù)據(jù){x1,x2,…,xi},初始化k個(gè)隨機(jī)數(shù)據(jù){o1,o2,…,ok},時(shí)間為{t0,t1,…,tn}。在一個(gè)時(shí)間片內(nèi)根據(jù)下列K聚類(lèi)的兩個(gè)迭代公式求出最終所有類(lèi)的聚類(lèi)中心o,步驟如下:
步驟1:求出時(shí)間片內(nèi)所有數(shù)據(jù)和初始化的隨機(jī)數(shù)據(jù)的距離,找出距離每個(gè)初始數(shù)據(jù)最近的原始數(shù)據(jù)pi,如式(5)所示:
(5)
步驟2:計(jì)算初始數(shù)據(jù)和最近原始數(shù)據(jù)的距離,距離計(jì)算采用馬氏距離;
步驟3:隨機(jī)選取一個(gè)非聚類(lèi)中心的數(shù)據(jù)點(diǎn)替代聚類(lèi)中心點(diǎn),計(jì)算取代聚類(lèi)中心點(diǎn)的代價(jià),不斷迭代,直至oj的大小不再變化為止,如式(6)所示:
(6)
通過(guò)上面的算法,提高了聚類(lèi)的迭代時(shí)間效率和查全率,尤其當(dāng)數(shù)據(jù)量巨大時(shí),時(shí)間效率的提高效果顯著。
使用聚類(lèi)分析方法獲得的聚類(lèi)中心是輿情產(chǎn)生傾向性分析的主要依據(jù),也即是輿情的主題,在時(shí)間序列下聚類(lèi)中心的變化情況代表了輿情的演變。以論壇和微博作為實(shí)驗(yàn)數(shù)據(jù)抽取平臺(tái)[6],按照時(shí)間片進(jìn)行信息的隨機(jī)抽取,時(shí)間間隔以天為單位,T{T1、T2、T3、T4、T5}表示{第1天、第2天、第3天、第4天、第5天},抽取數(shù)據(jù)樣本數(shù)量如表1所示。
表1 抽取數(shù)據(jù)樣本 篇
使用改進(jìn)的基于時(shí)間片的k中心點(diǎn)聚類(lèi)算法,得到的聚類(lèi)中心如表2所示。
表2 聚類(lèi)中心
從聚類(lèi)結(jié)果看,使用k中心點(diǎn)聚類(lèi),聚類(lèi)過(guò)程中加入了時(shí)間序列,反應(yīng)出網(wǎng)絡(luò)輿情演化的傾向性,同時(shí)由于使用了時(shí)間片,按照時(shí)間片再進(jìn)行聚類(lèi)的迭代,降低了聚類(lèi)的維數(shù),增加了聚類(lèi)的可靠性。同時(shí)k值相對(duì)集中,在第2和第3天相對(duì)較大,表明在輿情發(fā)生的第2天和第3天事件關(guān)注度及網(wǎng)民討論程度能達(dá)到最高峰。
為了衡量改進(jìn)的基于時(shí)間片的k中心點(diǎn)聚類(lèi)算法的有效性,使用查全率和時(shí)間效率兩個(gè)指標(biāo)作為評(píng)價(jià)標(biāo)準(zhǔn)[7],設(shè)網(wǎng)絡(luò)輿情信息聚類(lèi)查全率用P表示,P越大表示信息聚類(lèi)覆蓋的越全面,P越小,表示樣本聚類(lèi)覆蓋效果越差,與P相關(guān)的參數(shù)集如下:
P∝P{標(biāo)題,作者,發(fā)布時(shí)間,網(wǎng)民數(shù)量,發(fā)帖數(shù)量,跟帖數(shù)量、網(wǎng)民數(shù)量變化率,發(fā)帖數(shù)量變化率,持續(xù)時(shí)間}
網(wǎng)民是事件討論的主體,統(tǒng)計(jì)每個(gè)階段參與事件討論的網(wǎng)民數(shù)量可以評(píng)估網(wǎng)民對(duì)此事件的參與程度;發(fā)帖數(shù)量加上跟帖數(shù)量反應(yīng)了網(wǎng)絡(luò)輿情的熱度;網(wǎng)民數(shù)量變化率和發(fā)帖數(shù)量的變化率一定程度上反映了網(wǎng)絡(luò)輿情的傾向性。
時(shí)間效率Q用來(lái)衡量輿情信息聚類(lèi)的效率,Q越大表示聚類(lèi)成輿情信息越快,更有利于輿情的研判,與Q相關(guān)的參數(shù)集如下:
Q∝Q{樣本數(shù),樣本屬性,分類(lèi)數(shù),時(shí)間片,主題詞,特征值,特征值權(quán)重,事件屬性}
針對(duì)表1和表2中的樣本數(shù)和聚類(lèi)中心,設(shè)k中心點(diǎn)聚類(lèi)P和Q均為1作為比較基準(zhǔn),表3列出了采用基于時(shí)間片的k中心點(diǎn)聚類(lèi)的P和Q值。
表3中看出,經(jīng)過(guò)改進(jìn)的基于時(shí)間片的k中心點(diǎn)聚類(lèi)從每一個(gè)時(shí)間片上其查全率P和時(shí)間效率Q比沒(méi)有改進(jìn)時(shí)均有提升,當(dāng)樣本數(shù)值越大時(shí),時(shí)間效率Q提升就越大,在所有的時(shí)間段內(nèi)T1~T5,如果不劃分時(shí)間片聚類(lèi),由于樣本數(shù)為T(mén)1~T5所有樣本的和,其時(shí)間效率會(huì)更低,而通過(guò)劃分時(shí)間片,在每個(gè)時(shí)間片上聚類(lèi),時(shí)間效率顯著提高。
表3 基于時(shí)間片的k中心點(diǎn)聚類(lèi)查全率P和時(shí)間效率Q
比較基準(zhǔn)為:k中心點(diǎn)的P和Q值均為1。
本文提出的基于時(shí)間片的k中心點(diǎn)聚類(lèi)分析算法,提供了網(wǎng)絡(luò)輿情分析的有效途徑,這些方法在開(kāi)發(fā)研制網(wǎng)絡(luò)輿情系統(tǒng)中得到了很好的應(yīng)用,取得了較好的效果,今后隨著網(wǎng)絡(luò)平臺(tái)不斷增多,智能手機(jī)的廣泛應(yīng)用,網(wǎng)絡(luò)輿情產(chǎn)生的渠道會(huì)越來(lái)越廣,基于時(shí)間片的k中心點(diǎn)聚類(lèi)分析算法還要進(jìn)一步的完善,以應(yīng)用于更多的平臺(tái)。