国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)混沌理論的網(wǎng)絡(luò)輿情短期預(yù)測策略方法研究

2019-07-16 12:29
關(guān)鍵詞:相空間訓(xùn)練樣本輿情

高 穎

(1.南開大學(xué) 周恩來政府管理學(xué)院, 天津 300000;2.內(nèi)蒙古民族大學(xué) 人事處, 內(nèi)蒙古 通遼 028000)

輿情是一定時(shí)期、一定范圍內(nèi)民眾對(duì)社會(huì)現(xiàn)實(shí)的主觀反映,是群體性的思想、心理、情緒、意見和要求的綜合表現(xiàn)[1]。隨著互聯(lián)網(wǎng)的迅速發(fā)展和智能手機(jī)的廣泛使用,網(wǎng)絡(luò)已成為一種主導(dǎo)性的信息傳播方式。國內(nèi)外的重大事件都可能在互聯(lián)網(wǎng)上快速傳播,引發(fā)社會(huì)公眾的廣泛關(guān)注和討論,從而造成極大的輿論壓力,成為任何國家和部門都必須面對(duì)的社會(huì)問題。

從一定程度上看,互聯(lián)網(wǎng)已成為新時(shí)代社會(huì)輿論的放大器。一方面,網(wǎng)絡(luò)能夠起到社會(huì)監(jiān)督的作用;但另一方面,如果引導(dǎo)和監(jiān)管不善,負(fù)面輿情可能對(duì)公共安全造成威脅。網(wǎng)絡(luò)輿情具有突發(fā)性、隱蔽性和多元化等特點(diǎn),因此相關(guān)部門對(duì)網(wǎng)絡(luò)輿情的處理可能滯后。加強(qiáng)對(duì)網(wǎng)絡(luò)輿情的監(jiān)控和疏導(dǎo),提前預(yù)測輿情發(fā)展趨勢,盡最大可能化解矛盾,對(duì)維護(hù)社會(huì)穩(wěn)定、保障國家安全具有重大意義[2]。

從當(dāng)前研究看,輿情預(yù)測的方法總體可分為兩類:一類是傳統(tǒng)的時(shí)間序列預(yù)測方法,如指數(shù)平滑法[3]、灰色預(yù)測法等[4-5];另一類是現(xiàn)代智能機(jī)器學(xué)習(xí)方法,如小波理論[6]、神經(jīng)網(wǎng)絡(luò)及其改進(jìn)方法等[7-9]。指數(shù)平滑法適合時(shí)間序列平穩(wěn)情況的預(yù)測。灰色預(yù)測法適用于具有指數(shù)變化趨勢的原始樣本,對(duì)隨機(jī)波動(dòng)較大的樣本效果不佳。神經(jīng)網(wǎng)絡(luò)能夠逼近復(fù)雜的非線性關(guān)系,但是存在網(wǎng)絡(luò)結(jié)構(gòu)難以確定、過擬合等問題。

最小二乘支持向量機(jī)(least squares support vector machine,LS-SVM)是近年發(fā)展起來的一種機(jī)器學(xué)習(xí)方法,能夠避免標(biāo)準(zhǔn)SVM訓(xùn)練時(shí)間長,神經(jīng)網(wǎng)絡(luò)存在的過擬合等問題,具有較強(qiáng)的泛化能力[10-11]。在LS-SVM建模中,傳統(tǒng)的訓(xùn)練樣本和模型參數(shù)選取依靠預(yù)測者自身經(jīng)驗(yàn),導(dǎo)致訓(xùn)練時(shí)間長,并且一旦選定訓(xùn)練樣本就只能通過模型參數(shù)優(yōu)化來反復(fù)修正模型,直到達(dá)到滿意的訓(xùn)練效果。粒子群算法[12-13](particle swarm optimization,PSO)是由J.Kennedy和R.C.Eberhart等提出的一種進(jìn)化算法,具有計(jì)算過程簡單、優(yōu)化精度高、收斂速度快等優(yōu)點(diǎn),適用于對(duì)LS-SVM參數(shù)進(jìn)行優(yōu)化。本文在混沌理論相空間重構(gòu)的基礎(chǔ)上,用LS-SVM擬合網(wǎng)絡(luò)輿情相空間中相點(diǎn)的演化趨勢,通過PSO算法尋找最優(yōu)LS-SVM參數(shù),最后以“8·25”事件為案例進(jìn)行仿真實(shí)驗(yàn),對(duì)模型進(jìn)行驗(yàn)證。

1 相關(guān)理論

1.1 相空間重構(gòu)理論

相空間重構(gòu)(phase space reconstruction,PSR)是根據(jù)有限的數(shù)據(jù)在重構(gòu)的相空間中把混沌吸引子恢復(fù)出來以研究系統(tǒng)動(dòng)力學(xué)特性的方法。在進(jìn)行相空間重構(gòu)時(shí),通常只考慮一個(gè)變量,然后將該變量在固定時(shí)間延遲點(diǎn)上的測量作為一個(gè)新維,進(jìn)而確定多維狀態(tài)空間中的一個(gè)點(diǎn)。通過重復(fù)上述過程,就可用一個(gè)分量重構(gòu)出原動(dòng)力系統(tǒng)模型。

對(duì)于混沌時(shí)間序列{xi,i=1,2,…,n},n為樣本個(gè)數(shù)。根據(jù)Takens定理,重構(gòu)相空間為:

(xi,xi+τ,…,xi+(m-1)τ),i=1,2,…,M

(1)

式中:xi表示相空間的點(diǎn);m表示嵌入維數(shù);τ為延遲時(shí)間;M為重構(gòu)相空間中相點(diǎn)個(gè)數(shù),M=n-(m-1)τ。重構(gòu)相空間的吸引子矩陣為:

(2)

相空間重構(gòu)結(jié)果的好壞取決于m和τ。目前,確定m和τ的方法主要包括兩種思路:一種是兩者獨(dú)立確定;另一種是聯(lián)合確定。依據(jù)Takens定理,對(duì)于無限長、無噪聲的時(shí)間序列,τ可以是任意值。但事實(shí)上真實(shí)時(shí)間序列往往都有噪聲,同時(shí)不能保證時(shí)間序列的長度足夠長。C-C法[14]基于嵌入窗的思想,在確定τ的過程中同時(shí)得到合適的m,并且該方法計(jì)算量小、具有較強(qiáng)的抗噪聲能力,因此采用C-C法進(jìn)行相空間重構(gòu)。

1.2 LS-SVM

給定一組訓(xùn)練樣本D={(xk,yk)|k=1,2,…,N},xk∈Rn,yk∈R。xk為輸入向量,yk為輸出向量,n為訓(xùn)練樣本數(shù)。

最小二乘支持向量機(jī)回歸模型可表示如下:

y=wTφ(x)+b

(3)

式中:φ(·)為映射函數(shù);w為特征空間的權(quán)向量;b為偏置量。

根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,LS-SVM函數(shù)估計(jì)問題可描述為:

(4)

式中:γ為誤差懲罰參數(shù);ek為誤差變量,ek∈R。

滿足以下約束:

yk=wTφ(xk)+b+ek

(5)

通過構(gòu)建非線性映射函數(shù),能夠提取原始空間的特征,因此原始的線性不可分問題得到解決。定義拉格朗日函數(shù)如下:

L(w,b,e;α)=J(w,e)-

(6)

式中:αk為拉格朗日乘子,αk∈R。

根據(jù)KKT條件,對(duì)式(6)進(jìn)行優(yōu)化,即:

(7)

消去特征空間的權(quán)向量w和e,得到矩陣方程如下:

(8)

其中:

e=[e1,e2,…,eN],lv=[1,1,…,1]

y=[y1,y2,…,yN],α=[α1,α2,…,αN]

Ωkl=φT(xk)φ(xl),l=1,2,…,N)

根據(jù)Mercer條件,存在映射φ和核函數(shù)K(·,·)使:

K(xk,xl)=φT(xk)φ(xl)

(9)

由式(8)和式(9)聯(lián)立求出α和b后,得到最小二乘支持向量機(jī)回歸算法的函數(shù)估計(jì)式為:

(10)

式(10)取不同的核函數(shù)生成不同的支持向量。徑向基核函數(shù)(RBF)在時(shí)間序列預(yù)測中取得了較好的效果,本文選取RBF核函數(shù)為LS-SVM的核函數(shù)。確定核函數(shù)以后,需要尋找最優(yōu)的核函數(shù)參數(shù)σ和誤差懲罰參數(shù)γ。

1.3 PSO算法

粒子群算法是基于鳥類個(gè)體之間的協(xié)作和信息共享尋找最優(yōu)解,非常適用于連續(xù)域優(yōu)化問題的解決。粒子群算法初始化為一組隨機(jī)粒子,然后通過不斷迭代尋找最優(yōu)解,各粒子的優(yōu)劣度用適應(yīng)度函數(shù)表示。種群中每個(gè)粒子表示一個(gè)可能的解向量,通過跟蹤個(gè)體極值和全局極值實(shí)時(shí)更新位置和速度,實(shí)現(xiàn)最優(yōu)目標(biāo)。設(shè)粒子的位置和速度分別是Xi和Vi,則其更新策略為:

(11)

(12)

(13)

為了減少依靠主觀經(jīng)驗(yàn)選取參數(shù)的盲目性和工作量,提高訓(xùn)練效果,本文采用粒子群算法選取LS-SVM的最優(yōu)參數(shù)σ和γ,基本流程如圖1所示。

步驟1初始化粒子的初始位置和速度等。

步驟2用初始粒子對(duì)最小二乘支持向量機(jī)訓(xùn)練樣本進(jìn)行學(xué)習(xí),從而獲得當(dāng)前位置的訓(xùn)練誤差,將其作為粒子適應(yīng)度值。對(duì)比粒子的當(dāng)前適應(yīng)度值和最優(yōu)適應(yīng)度值,若結(jié)果更優(yōu),則當(dāng)前位置即為該粒子的最優(yōu)位置。

步驟3計(jì)算慣性權(quán)重,并用式(11)和式(12)更新粒子的速度和位置。

步驟4計(jì)算適應(yīng)度值,判斷是否符合尋優(yōu)終止條件(最大迭代次數(shù)或設(shè)定的精度要求),如果滿足則得到最優(yōu)解,否則轉(zhuǎn)至步驟3。

圖1 PSO算法優(yōu)化LS-SVM參數(shù)的基本流程

2 混沌理論和LS-SVM結(jié)合的網(wǎng)絡(luò)輿情預(yù)測模型

2.1 數(shù)據(jù)預(yù)處理

網(wǎng)絡(luò)輿情具有非線性、隨機(jī)性的特點(diǎn),原始數(shù)據(jù)之間相差比較大。因此,在將數(shù)據(jù)輸入到LS-SVM訓(xùn)練之前,將原始樣本進(jìn)行歸一化處理:

(14)

式中:xi表示原始樣本;ximin、ximax分別為原始樣本的最小值和最大值。

然后,對(duì)網(wǎng)絡(luò)輿情的預(yù)測結(jié)果進(jìn)行反歸一化,即:

(15)

2.2 LS-SVM預(yù)測器的輸入輸出結(jié)構(gòu)

混沌相空間中,任一相點(diǎn)xi演變到下一相點(diǎn)xi+1可用函數(shù)表示如下:

f:xi+1=f(xi)

(16)

2.3 預(yù)測步驟

基于改進(jìn)混沌理論的網(wǎng)絡(luò)輿情短期預(yù)測步驟如下:

步驟1對(duì)輿情原始數(shù)據(jù)進(jìn)行預(yù)處理;

步驟2相空間重構(gòu)。用C-C法確定最佳延遲時(shí)間τ和嵌入維數(shù)m,建立網(wǎng)絡(luò)輿情時(shí)間序列的多維相空間;

步驟3構(gòu)造輸入輸出向量,形成訓(xùn)練樣本和預(yù)測樣本;

步驟4用PSO算法對(duì)LS-SVM參數(shù)進(jìn)行優(yōu)化,尋找最優(yōu)的參數(shù)σ和γ;

步驟5在上述基礎(chǔ)上,代入預(yù)測樣本用已訓(xùn)練好的學(xué)習(xí)機(jī)器進(jìn)行預(yù)測,獲得網(wǎng)絡(luò)輿情的預(yù)測值。

2.4 預(yù)測精度評(píng)價(jià)

當(dāng)前用于表征預(yù)測結(jié)果精度的指標(biāo)主要有:平均絕對(duì)值相對(duì)誤差(MAPE)、相對(duì)誤差(RE)和均方根誤差(RMSE)等。本文采用MAPE作為預(yù)測結(jié)果精度評(píng)價(jià)指標(biāo):

(17)

3 仿真實(shí)驗(yàn)

3.1 數(shù)據(jù)來源與預(yù)處理

為驗(yàn)證所建輿情預(yù)測模型的有效性,對(duì)2018年哈市發(fā)生的“8.25”火災(zāi)事件進(jìn)行預(yù)測分析。通過對(duì)百度新聞、搜狐網(wǎng)、騰訊網(wǎng)、今日頭條等網(wǎng)站進(jìn)行跟蹤調(diào)查統(tǒng)計(jì),得到“8.25”事件發(fā)展過程中的點(diǎn)擊量、評(píng)價(jià)量和轉(zhuǎn)載量,用式(14)對(duì)網(wǎng)絡(luò)輿情歷史數(shù)據(jù)進(jìn)行歸一化處理。由于篇幅限制,僅以事件發(fā)生后10天內(nèi)的點(diǎn)擊量預(yù)測為案例進(jìn)行仿真,如表1所示。

表1 “8.25”事件點(diǎn)擊量

3.2 模型的訓(xùn)練結(jié)果與分析

3.2.1相空間重構(gòu)

基于混沌理論進(jìn)行相空間重構(gòu),用C-C法確定最優(yōu)延遲時(shí)間τ=1,最優(yōu)嵌入維數(shù)m=4。相空間重構(gòu)后得到6組樣本集,屬于典型的小樣本預(yù)測問題。用前4組樣本作為訓(xùn)練樣本,用于訓(xùn)練支持向量機(jī)模型,后兩組樣本作為預(yù)測樣本,用于檢驗(yàn)?zāi)P偷念A(yù)測能力。

3.2.2LS-SVM參數(shù)尋優(yōu)

用LS-SVM對(duì)重構(gòu)的網(wǎng)絡(luò)輿情預(yù)測樣本進(jìn)行訓(xùn)練,構(gòu)建訓(xùn)練樣本的適應(yīng)度函數(shù)如下:

(18)

粒子群算法基本參數(shù)設(shè)置為:種群數(shù)N為20,學(xué)習(xí)因子c1為1.5,c2為1.5,慣性權(quán)重ω為0.5,最大迭代次數(shù)Gmax為80。在Matlab2014下進(jìn)行仿真,得到最優(yōu)的誤差懲罰參數(shù)γ=744,最優(yōu)的寬度參數(shù)σ2=0.51。粒子群算法的參數(shù)尋優(yōu)過程如圖2所示。

圖2 PSO參數(shù)進(jìn)化過程

3.2.3模型訓(xùn)練和分析

對(duì)網(wǎng)絡(luò)輿情訓(xùn)練樣本進(jìn)行訓(xùn)練,結(jié)果如圖3所示??梢钥闯鼍W(wǎng)絡(luò)輿情訓(xùn)練樣本的真實(shí)值和輸出值基本上重合,說明所建模型訓(xùn)練精度較高。

圖3 模型訓(xùn)練結(jié)果

3.3 模型的預(yù)測結(jié)果與分析

在建立上述學(xué)習(xí)機(jī)器的基礎(chǔ)上,對(duì)網(wǎng)絡(luò)輿情第9天和第10天的點(diǎn)擊量進(jìn)行預(yù)測,并與未進(jìn)行PSO參數(shù)優(yōu)化的預(yù)測結(jié)果對(duì)比,結(jié)果見表2。

表2 網(wǎng)絡(luò)輿情的預(yù)測結(jié)果

從表2可以看出:參數(shù)經(jīng)過優(yōu)化后的預(yù)測結(jié)果更加接近真實(shí)值,第9天、第10天的預(yù)測結(jié)果相對(duì)誤差絕對(duì)值均小于5%。計(jì)算得MAPE=3.50%,說明基于改進(jìn)混沌理論和LS-SVM的預(yù)測模型對(duì)網(wǎng)絡(luò)輿情短期預(yù)測能夠取得較好的預(yù)測效果,具有廣泛的應(yīng)用前景。

4 結(jié)論

1) 針對(duì)網(wǎng)絡(luò)輿情數(shù)據(jù)隨機(jī)波動(dòng)大、小樣本的特點(diǎn),通過引入混沌理論對(duì)網(wǎng)絡(luò)輿情時(shí)間序列進(jìn)行相空間重構(gòu),用C-C法確定最佳嵌入維數(shù)和延遲時(shí)間,避免了依靠預(yù)測者主觀經(jīng)驗(yàn)的盲目性。

2) PSO算法用于LS-SVM參數(shù)尋優(yōu)具有計(jì)算簡單、運(yùn)算速度快的特點(diǎn),能夠?qū)ふ业阶罴训腖S-SVM參數(shù),避免了主觀選擇參數(shù)的盲目性,提高了建模精度。

3) 通過對(duì)網(wǎng)絡(luò)輿情第9天、第10天的預(yù)測結(jié)果分析,MAPE值為3.50%,并且每天的預(yù)測值相對(duì)誤差絕對(duì)值都小于5%,說明本文所提方法具有較高的預(yù)測精度和廣泛的應(yīng)用前景。

猜你喜歡
相空間訓(xùn)練樣本輿情
人工智能
相干態(tài)輻射場的Husimi分布函數(shù)在非對(duì)易相空間中的表示
消費(fèi)輿情
基于小波神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測研究
寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
輿情
輿情
非對(duì)易空間中的三維諧振子Wigner函數(shù)
輿情
相空間中含時(shí)滯的非保守力學(xué)系統(tǒng)的Noether定理*