楊茜,王克勤
(1.西安醫(yī)學(xué)院,公共衛(wèi)生學(xué)院, 陜西,西安 710021;2.成都理工大學(xué),信息科學(xué)與技術(shù)學(xué)院, 四川,成都 610059)
智能互聯(lián)自媒體時代造就了網(wǎng)絡(luò)成為多元化的信息傳播平臺,網(wǎng)絡(luò)熱點事件受眾更為廣泛[1]。網(wǎng)絡(luò)熱點話題信息主要來自微博、網(wǎng)評和新聞事件,熱點事件的態(tài)勢走向是輿情管理的重要內(nèi)容。正面、積極向上的信息同樣會產(chǎn)生良性的導(dǎo)引和走向,負(fù)面的言論以及惡意導(dǎo)向?qū)?、甚至是整個社會產(chǎn)生消極影響,成為危險因子。因此,對于熱點事件的信息監(jiān)管和預(yù)測是目前輿論監(jiān)督管理的重要課題[2-3]。Logistics回歸模型是最早應(yīng)用于網(wǎng)絡(luò)熱點分析的算法,其對于線性變化的分析效果較好,但是處理非線性變化的網(wǎng)絡(luò)熱評的特征分析存在明顯不足[4]。雖然后來融入了聚類算法與新聞事件分類及關(guān)聯(lián)規(guī)則識別分析,但聚類算法沒有預(yù)測分析的能力[5]。近年來,隨著輿論監(jiān)管的重視度日益加強,神經(jīng)網(wǎng)絡(luò)算法、極限向量機(jī)等算法在網(wǎng)絡(luò)熱點預(yù)測方面應(yīng)用日益成熟,前者的預(yù)測準(zhǔn)確度依賴于分析樣本的數(shù)據(jù)量,數(shù)據(jù)量小預(yù)測的準(zhǔn)確性不穩(wěn)定;后者在處理大量樣本時,誤差明顯增加[6-7]。
基于此,本文結(jié)合支持向量機(jī)處理海量數(shù)據(jù)的能力以及目前對于非線性變化的網(wǎng)絡(luò)熱點事件的分析預(yù)測方面存在的不足,提出了基于組合模型的網(wǎng)絡(luò)熱點話題演化動態(tài)預(yù)測模型。首先使用改進(jìn)的k-means聚類分析縮小樣本空間范圍,然后應(yīng)用改進(jìn)果蠅算法篩選支持向量機(jī)模型的最優(yōu)參數(shù),進(jìn)一步提升預(yù)測模型的精度。實驗結(jié)果表明:本文提出的組合模型預(yù)測精度達(dá)到了99%,誤差率更低,同時,性能方面也有較大的提升,具有較高的理論價值和實際推廣應(yīng)用前景。
首先使用改進(jìn)后的k-means聚類算法結(jié)合優(yōu)秀的歷史熱點分類進(jìn)行聚類,生成最佳樣本訓(xùn)練集合,降低數(shù)據(jù)規(guī)模。通過動態(tài)生成k值,應(yīng)用密度擴(kuò)張的原理挖掘到數(shù)據(jù)集中的密集點集作為初始聚類集,并摘到密度最大的點作為聚類點,從而解決了k-means算法中聚類結(jié)合量以及初始點位難以確定的問題。
獲取核心聚類點示意圖如圖1所示。其中,o即為核心點,由圖1可以發(fā)現(xiàn)該距離與空間密度負(fù)相關(guān)。擴(kuò)展到密集空間中,選擇空間內(nèi)的極小值定義為k-means算法中k值,其與聚類結(jié)果密切相關(guān)。本文在計算k值得過程中使用密度特征樹法。密度特征數(shù)設(shè)置了兒子——兄弟子樹的存儲方式,舉例如ε領(lǐng)域內(nèi)節(jié)點p的兒子所對應(yīng)存儲的密度小于p所對應(yīng)的數(shù)據(jù)點q1。q1的兄弟節(jié)點存儲的密度也小于p的相鄰按聚類升序排列的數(shù)據(jù)點q2,q3,…,qi,…,qm,構(gòu)件過程如圖2所示。首先找到ε領(lǐng)域內(nèi)的q1數(shù)據(jù)點,根據(jù)該點生產(chǎn)最小兒子節(jié)點、兄弟節(jié)點,依次迭代直到找到ε領(lǐng)域內(nèi)的最小值數(shù)據(jù)點q11,在此基礎(chǔ)上按照核心距離的大小插入對應(yīng)的兄弟子樹和分支。
圖1 核心點與其周圍數(shù)據(jù)點關(guān)系圖
圖2 動態(tài)特征樹的構(gòu)建
獲得最小k值的k-means聚類算法首先根據(jù)與K個初始聚類中心的聚類劃分到最相近的聚類簇中,然后處理未聚隊列weiList中的孤立點,具體算法如下。
Step 1 通過動態(tài)特征樹建立聚類隊列CList以及聚類詳細(xì)說明隊列NList,從中獲得每個類別對應(yīng)的代表。
Step 2 處理待處理網(wǎng)絡(luò)新聞或者熱評,將其定位到起始的聚類密度中心點位。
Step 3 通過式(1)逐一計算每一個類族的網(wǎng)絡(luò)熱評對象的均值,同時更新對應(yīng)類別的平均值。Ci內(nèi)各聚類對象的平均值mi的計算公式為
(1)
其中,|Ci|表示集合C中元素的個數(shù)。
Step 4 結(jié)合Step 3中計算出來的聚類對象的均值,處理未聚類對象,將其劃分到分值接近的聚類族中。
Step 5 通過式(2)計算聚類的平均誤差值E,根據(jù)既定的閾值α識別Step 4中的聚類結(jié)果,如果滿足誤差值小于既定閾值,說明聚類已經(jīng)穩(wěn)定,聚類完成。否則回到Step 3重復(fù)執(zhí)行。
(2)
式中,E代表全部聚類對象的誤差均值的合計值,p代表待聚類的樣本對象,oi代表了聚類類族中與式(1)計算的平均值最為接近的網(wǎng)絡(luò)熱評對象。
Step 6 獲得最終的聚類,完成聚類。
至此,即可將需要分析預(yù)測的網(wǎng)絡(luò)熱點樣本分類到對應(yīng)的類別中,并將該類別下的文檔作為預(yù)測的訓(xùn)練樣本集合。
支持向量機(jī)模型作為統(tǒng)計學(xué)為基礎(chǔ)的算法,通過在高維空間中獲得準(zhǔn)確的分類超平面,區(qū)別各種類型樣本點,獲得最大超平面[8-9]。其計算過程如下。
對于給定的數(shù)據(jù)集合{(x1,y1),…,(xi,yi)},(i=1,2,…,m),x∈Rd,y∈R,使用非線性映射完成低緯度數(shù)據(jù)與高緯度數(shù)空間變化,進(jìn)行線性回歸,回歸方程如式(3):
f(x)=w·φ(xi)+b
(3)
式中,w為權(quán)向量,b是實數(shù)。對式(3)變換后,得到支持向量機(jī)的約束算法如式(4):
(4)
(5)
由式(5)可知,支持向量機(jī)的最終回歸預(yù)測的結(jié)果受懲罰系數(shù)以及核函數(shù)對應(yīng)的參數(shù)影響較大,基于此,本文選用自適應(yīng)步長的果蠅優(yōu)化算法得到上述兩個參數(shù)的全局最優(yōu)解,從而提升支持向量機(jī)模型的預(yù)測精度。
為了解決傳統(tǒng)的果蠅算法由于其步長固定存在收斂不到最優(yōu)解以及產(chǎn)生局部最優(yōu)的問題,本文提出了動態(tài)調(diào)整步長的模式,迭代的前半段搜索半徑比較大,通過增加步長,提升其全局范圍內(nèi)的尋優(yōu)能力。在迭代的后半段, 果蠅的搜索半徑將會變得非常小,整體的尋優(yōu)能力可以減低,同步提升局部的尋優(yōu)能力,進(jìn)一步平衡局部以及整體的關(guān)系。具體做法如式(6):
(6)
式中,L′代表動態(tài)變化的步長,L代表原始步長,gen是指目前的代數(shù),max gen代表最大代數(shù)。
在當(dāng)前這一代果蠅完成搜索之前,使用式(7)獲得果蠅的變異的幾率mu,當(dāng)該值達(dá)到了變異條件時,復(fù)制當(dāng)前最佳的M個果蠅,通過式(8)對果蠅的位置進(jìn)行變異更新。迭代的前一段受果蠅間的個體差異比較大的影響,最差果蠅與最佳果蠅之間存在的較大的差別,此時算出來的變異率比較低。迭代的后半段,個體間差異逐步降低,此時增加變異幾率,減少群體陷入局部最優(yōu)的情況。
(7)
(8)
式中,S代表了味道的濃度值,min(S)、max(S)分別代表果蠅搜索過程的當(dāng)前最小濃度與歷史最大濃度。S值最終轉(zhuǎn)化為支持向量機(jī)的最優(yōu)參數(shù)。式中,Xmu、Ymu分別代表果蠅更新后的位置坐標(biāo),(Xaxis,Yaxis)代表果蠅當(dāng)前位置坐標(biāo),normrnd為隨機(jī)搜索函數(shù),生成每一個果蠅的隨機(jī)搜索距離。
基于組合模型的網(wǎng)絡(luò)熱點事件預(yù)測算法的執(zhí)行流程如圖3所示。
圖3 基于組合模型的網(wǎng)絡(luò)熱點事件預(yù)測模型的執(zhí)行流程
實驗階段,本文選擇了目前較為突出的網(wǎng)絡(luò)熱點話題印度疫情作為研究對象,并在全網(wǎng)搜索微博、百度、知乎等文檔數(shù)據(jù)作為訓(xùn)練集,并與經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型算法進(jìn)行對比實驗,驗證預(yù)測模型的準(zhǔn)確性。
使用本文的組合模型針對上述熱點事件的預(yù)測結(jié)果如圖4所示。
圖4 本文模型的話題預(yù)測結(jié)果
從圖4可以分析出,本文提出的組合模型算法對熱門事件的走勢預(yù)測準(zhǔn)確率較高,基本與實際走勢保持一致。本文對樣本的誤差進(jìn)行了統(tǒng)計,具體如圖5所示。
圖5 樣本預(yù)測誤差值
由誤差測試圖可知,誤差整體保持在-0.1到0.1之間,而最大的絕對誤差值為0.051。對比其他模型的預(yù)測精度,如表1所示。
表1 不同算法識別準(zhǔn)確率
對比SVM、BP神經(jīng)網(wǎng)絡(luò)算法以及本文提出的算法,如表1所示。本文提出的算法精確度最高達(dá)到99.03%,對比其他模型算法提升了4%左右,算法的執(zhí)行時間也更加少。說明引入了聚類分析和果蠅算法剔除了無效數(shù)據(jù),提升了算法的精度,同時改善了整體的執(zhí)行效率。
本文提出基于組合模型的網(wǎng)絡(luò)熱點話題演化動態(tài)預(yù)測模型。首先使用改進(jìn)的k-means聚類分析縮小樣本空間范圍,然后應(yīng)用改進(jìn)果蠅算法篩選支持向量機(jī)模型的最優(yōu)參數(shù),進(jìn)一步提升預(yù)測模型的精度。實驗結(jié)果表明本文提出的組合模型預(yù)測精度達(dá)到了99%,同時,性能方面也有較大的提升,具有較高的理論價值和實際推廣應(yīng)用前景。