馬 峻,萬 劼
(首都經(jīng)濟(jì)貿(mào)易大學(xué) 安全與環(huán)境工程學(xué)院,北京 100070)
復(fù)雜網(wǎng)絡(luò)廣泛存在于社會各個領(lǐng)域。社交網(wǎng)站用戶構(gòu)成的社交網(wǎng)絡(luò),反映的是社交網(wǎng)站用戶之間的好友關(guān)系或關(guān)注(收聽)關(guān)系;商店顧客與商品構(gòu)成的購買關(guān)系網(wǎng)絡(luò),反映的是顧客對商品的購買關(guān)系;其他諸如航空網(wǎng)絡(luò)、國家的電力網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)、食物鏈網(wǎng)絡(luò)等。不論是什么種類的網(wǎng)絡(luò),一個網(wǎng)絡(luò)可抽象為由點(diǎn)集P和邊集E組成的圖G=(P,E),設(shè)R是從P到其自身的一個二元關(guān)系,即R?P×P,對任意(x,y)∈P×P,如果xRy,則從x有一條有向連邊指向y,連邊反映了x與y的一種二元關(guān)系,如果(x,y)≠(y,x),則構(gòu)成一個不對稱關(guān)系,否則為對稱關(guān)系。但在數(shù)量方面,同樣規(guī)模的網(wǎng)絡(luò)中,二元不對稱關(guān)系的潛在數(shù)量往往比二元對稱關(guān)系多;在信息量方面,二元不對稱關(guān)系更具有方向性,因此描述二元不對稱關(guān)系的網(wǎng)絡(luò)要比描述二元對稱關(guān)系的網(wǎng)絡(luò)包含更多的信息量。網(wǎng)絡(luò)中存在的這種關(guān)系對于網(wǎng)絡(luò)影響力的拓展以及網(wǎng)絡(luò)資源的有效利用具有很大的價值[1],二元不對稱關(guān)系相對于二元關(guān)系的研究更具有普遍性和研究意義。
目前針對社會網(wǎng)絡(luò)中的二元關(guān)系的預(yù)測主要基于的信息可分為三類,第一類是根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)屬性信息進(jìn)行預(yù)測;第二類是根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)信息進(jìn)行預(yù)測;第三類是上述兩類的混合方法,即在預(yù)測中既使用節(jié)點(diǎn)屬性信息也使用網(wǎng)絡(luò)結(jié)構(gòu)信息。文獻(xiàn)[2,3]表明使用節(jié)點(diǎn)屬性信息對社會網(wǎng)絡(luò)中的二元關(guān)系進(jìn)行預(yù)測求解可以得到較好的效果,但是使用節(jié)點(diǎn)屬性信息存在著以下問題:第一,大量的節(jié)點(diǎn)屬性信息很難獲取,可靠性也難以得到保證;第二,需要大量的資源來存儲、讀取節(jié)點(diǎn)屬性信息。但是根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)信息進(jìn)行關(guān)系預(yù)測求解一般不存在上述兩個問題。
根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)信息進(jìn)行關(guān)系預(yù)測求解中,一類是基于節(jié)點(diǎn)相似度的關(guān)系預(yù)測求解方法,另一類是基于似然分析的預(yù)測求解方法?;谙嗨贫鹊年P(guān)系預(yù)測求解方法較為簡便,需要的假設(shè)前提較少,而基于似然分析的關(guān)系預(yù)測求解方法較為復(fù)雜,且需要建立在較多的假設(shè)(如層次結(jié)構(gòu)、社團(tuán)結(jié)構(gòu)等)之上,使用較少。文獻(xiàn)[4]將節(jié)點(diǎn)相似度與機(jī)器學(xué)習(xí)方法相結(jié)合,收到了較好的求解效果,但是還存在一些有待解決的問題;其次,基于節(jié)點(diǎn)相似性的關(guān)系預(yù)測方法在處理二部分網(wǎng)絡(luò)時會遇到困難,例如很多常用的相似度指標(biāo)是無法計算的,這時一般需要使用一些更為復(fù)雜的相似度指標(biāo),或者采用集合投影和協(xié)同過濾的方法[5-7],這些方法或是較為復(fù)雜,或是有待完善。而神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)作為一種非線性動力學(xué)模型廣泛用在各個領(lǐng)域預(yù)測求解,但是神經(jīng)網(wǎng)絡(luò)在進(jìn)行社會網(wǎng)絡(luò)關(guān)系預(yù)測計算中,由于社會網(wǎng)絡(luò)的動態(tài)性和時變性導(dǎo)致網(wǎng)絡(luò)資源拓展的不確定性,同時社會網(wǎng)絡(luò)規(guī)模大、小世界性小社團(tuán)等特性導(dǎo)致網(wǎng)絡(luò)鄰接關(guān)系矩陣稀疏和不均勻性,產(chǎn)生社會網(wǎng)絡(luò)預(yù)測求解中輸入數(shù)據(jù)維數(shù)高,同時網(wǎng)絡(luò)中存在的不平衡性也極大地影響了神經(jīng)網(wǎng)絡(luò)預(yù)測計算的效果[8],為此,本文針對這兩個問題,在提出相應(yīng)降維算法基礎(chǔ)上,建立了如何克服不平衡性從而提高模型求解效果的方法。
本文采用BP神經(jīng)網(wǎng)絡(luò)對社會網(wǎng)絡(luò)二元不對稱關(guān)系進(jìn)行預(yù)測求解的基本邏輯過程如下頁圖1所示。
圖1 利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行社會網(wǎng)絡(luò)二元不對稱關(guān)系預(yù)測求解邏輯過程
T=(SR)反映訓(xùn)練集所有樣本在整個網(wǎng)絡(luò)的連接關(guān)系。
P=(UV)反映了預(yù)測求解集所有樣本在整個網(wǎng)絡(luò)的連接關(guān)系。
S和U分別是訓(xùn)練和預(yù)測求解的輸入值,R是訓(xùn)練輸出值,V是預(yù)測求解輸出值。S,U,R是鄰接矩陣的已知部分,V是鄰接矩陣的未知部分。
實(shí)際應(yīng)用中V的某些部分可能是已知的,但鑒于一般V占整個鄰接矩陣的比例較?。ú淮笥?/9),而考慮V的已知部分會增大算法和代碼的復(fù)雜度,因此將V的全部設(shè)為未知。如果只需要預(yù)測求解V的部分列向量,那么就不需要獲取關(guān)于R的全部信息,只需要知道R所對應(yīng)列向量的取值。
根據(jù)圖1,預(yù)測求解需要大量的訓(xùn)練樣本,因此An×n的m會很大,如果將S和U這種高維向量直接作為輸入,則算法復(fù)雜度會很大,因此需要采取適當(dāng)方法進(jìn)行降維;另外由于網(wǎng)絡(luò)中大部分節(jié)點(diǎn)對是不存在關(guān)系的(這種情形也被稱為數(shù)據(jù)不平衡),而神經(jīng)網(wǎng)絡(luò)算法通常以訓(xùn)練誤差最小化為目標(biāo)求解模型,這會導(dǎo)致模型傾向做出關(guān)系不存在的預(yù)測,而實(shí)際應(yīng)用中更多被關(guān)注的是存在的關(guān)系,將存在的關(guān)系判斷為不存在所導(dǎo)致的損失經(jīng)常遠(yuǎn)大于將不存在的關(guān)系判斷為存在所導(dǎo)致的損失,因此需要對模型進(jìn)行進(jìn)一步的處理。
根據(jù)圖1,在利用神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系預(yù)測時,需要將關(guān)系矩陣An×n中Sm×m的m個變量取值全部直接輸入到神經(jīng)網(wǎng)絡(luò)輸入層,通常較大的m將導(dǎo)致神經(jīng)網(wǎng)絡(luò)規(guī)模也會變大,將大大增加算法的復(fù)雜度,因此有必要設(shè)法減少輸入層的節(jié)點(diǎn)數(shù)。
根據(jù)鄰接關(guān)系矩陣An×n,m個原始輸入變量的取值只有0與1兩種可能,又因?yàn)檫@個變量的順序是固定不變的,因此神經(jīng)網(wǎng)絡(luò)輸入層其實(shí)是一個長度為m的0-1向量,為此可以將其固定長度轉(zhuǎn)化為一個整數(shù),從而實(shí)現(xiàn)數(shù)據(jù)的降維。具體方法如下:
設(shè)πn為全體n維0-1向量構(gòu)成的集合,Z為整數(shù)集。對?x∈πn,x可被表述為如下形式:
再做如下映射:
對于f,有如下命題成立:
命 題 1:對 ?x1,x2∈πn,若x1≠x2,則 必 有f(x1)≠f(x2)。
采用反證法可以對上述命題進(jìn)行證明。
命題1說明:f可將不同長度的0-1向量轉(zhuǎn)化為不同整數(shù),并且通過fn進(jìn)行數(shù)據(jù)降維的過程中不會丟失原有的任何信息。
理論上任意n維0-1向量可以轉(zhuǎn)化為一維整數(shù),因此可以將m個輸入變量轉(zhuǎn)化為一個輸入變量,這樣神經(jīng)網(wǎng)絡(luò)的輸入層節(jié)點(diǎn)數(shù)最少只需要一個,而不是m個。但是,如果僅僅用一個十進(jìn)制數(shù)替代原先的m個變量,那么可能會大大增加神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。
例如:設(shè)m為5,樣本A的原始輸入向量為(1,0,0,0,1),轉(zhuǎn)化為十進(jìn)制數(shù),即為17。樣本B的原始輸入向量為(0,0,0,0,1),轉(zhuǎn)化為十進(jìn)制數(shù),即為1。A和B只在一個位置上不同,應(yīng)該說兩個樣本比較相似。但是轉(zhuǎn)化為十進(jìn)制數(shù)后,兩個樣本對應(yīng)的輸入值要相差16倍。再設(shè)樣本C的輸入向量為(0,1,1,1,0)。C與A在所有位置上都不同,但是C的輸入向量轉(zhuǎn)化為十進(jìn)制后為14,反而與A比較接近。一般來說,A與B的輸出值往往是相同的,而A與C的輸出值更可能是不同的。這意味著輸出值對輸入值的變化非常敏感,而且通過神經(jīng)網(wǎng)絡(luò)得出的預(yù)測函數(shù)會有高頻且大幅的波動。
雖然神經(jīng)網(wǎng)絡(luò)算法比很多其他算法更善于處理此類非線性的回歸,但在輸入值與輸出值之間幾乎毫無線性相關(guān)性的情況下,如果訓(xùn)練樣本并不是很多,那么神經(jīng)網(wǎng)絡(luò)也較難做出準(zhǔn)確的預(yù)測。
解決上述問題的辦法是將原始m維輸入向量分為k段(k>1),提高算法效率同時保證算法的有效性。m維的輸入向量分為k段,每段轉(zhuǎn)化為一個整數(shù),輸入變量轉(zhuǎn)化為k個整數(shù)。這樣對于任意一個樣本集,設(shè)原始輸入向量x=(a1,a2,…,am)(ai∈{0,1},i=1,2,…,m),分段降維結(jié)果y=(b1,b2,…,bk)∈Zk(k≤m)。
k的取值既不能太大,也不能太小。如果k太大,達(dá)不到降低神經(jīng)網(wǎng)絡(luò)輸入層維數(shù)的目的,如果k太小,則輸出值對輸入值的變化會很敏感,從而增加神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的難度。由于k實(shí)際上就是輸入層的節(jié)點(diǎn)數(shù),因此k是一個影響神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的變量,而神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也會影響預(yù)測的效果。
分段降維算法如下:
步驟1:ifk|m!=int
步驟1.1:設(shè)h=m'/(k-1)
步驟1.2:Forj=0tok-2
依次將 (ajh+1,ajh+2,…ajh+h)記為Aj+1,將x的最后(m-m')個分量(am'+1,am'+2,…,am)記為Ak
步驟2:ifk|m=int
步驟2.1:設(shè)h=m/k
步驟2.2:Forj=0tok-1
依次將 (ajh+1,ajh+2,…ajh+h)記為Aj+1,將x的最后(m-m')個分量(am'+1,am'+2,…,am)記為Ak
步驟3:得到分為k段的向量x,記為(A1,A2,…,Ak)
步驟4:Forj=0tok
?Aj∈{A1,A2,…,Ak}將Aj轉(zhuǎn)化為整數(shù)f(Aj)
bj=f(Aj)
步驟5:得到k維整數(shù)向量y=(b1,b2,…,bk)∈Zk
上述將An×n劃分為An×n的過程中,可以保證An×n都有相同的維數(shù)An×n,并且能使An×n盡量大。這樣,An×n就能較為“均勻”地被劃分為An×n段。同時由于分段降維算法對于每個二進(jìn)制數(shù)都會與一個十進(jìn)制數(shù)一一對應(yīng),因此降維前后的數(shù)據(jù)之間存在一一映射,降維并沒有使數(shù)據(jù)所包含的信息量減少,整個數(shù)據(jù)降維過程是可逆的。
數(shù)據(jù)的降維提高了神經(jīng)網(wǎng)絡(luò)計算的效率,但是由于復(fù)雜社會網(wǎng)絡(luò)存在關(guān)系的復(fù)雜性,以及所擁有的冪律特性導(dǎo)致在利用神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系預(yù)測時存在的不平衡性問題,即對于關(guān)系比較密集的社會網(wǎng)絡(luò),預(yù)測出不存在的關(guān)系實(shí)際是存在的,反之在稀疏關(guān)系網(wǎng)絡(luò)預(yù)測出存在的關(guān)系實(shí)際是不存在的,這種不平衡性是由于模型本身造成的[8],為了消除這種不平衡性,本文構(gòu)建預(yù)測模型綜合評價指標(biāo)基本上建立模型綜合方法,具體實(shí)現(xiàn)過程如下。
神經(jīng)網(wǎng)絡(luò)預(yù)測模型的評價是建立在鄰接矩陣An×n基礎(chǔ)上,設(shè)Y=(aij)(n-m)×q是An×n中V的一個子矩陣,表示V中全部待預(yù)測的部分,q是待預(yù)測的列向量的數(shù)量。X=(bij)(n-m)×q是對Y的預(yù)測值(Y為真實(shí)值)。||A表示任意有限集合A的基數(shù),N+表示正整數(shù)集,則有:
Np=(n-m)q,即Np為Y的元素總數(shù);
Nt=|{(i,j)∈N+×N+|aij=bij}|,即Nt為預(yù)測正確的次數(shù);
Mp=|{(i,j)∈N+×N+|aij=1}|,即Mp為預(yù)測集中真正存在的連邊數(shù)量;
Mt=|{(i,j)∈N+×N+|aij=bij=1}|,即Mt為在連邊真實(shí)存在的條件下,正確預(yù)測的次數(shù)。
評價指標(biāo)有兩個。一個是總預(yù)測準(zhǔn)確率P1,另一個是正類預(yù)測準(zhǔn)確率P2。
從本質(zhì)看P1反映的是模型整體的預(yù)測準(zhǔn)確率,P2反映的是模型對關(guān)系存在性的發(fā)現(xiàn)能力。之所以要進(jìn)一步計算P2,是因?yàn)樵诜治鰧?shí)際問題中,人們往往更關(guān)注關(guān)系的存在性,而對關(guān)系的不存在性并不那么關(guān)注,從廣義上來看,關(guān)系的存在性與不存在性的受重視程度是不同的,P2會增強(qiáng)模型對非重視關(guān)系的發(fā)現(xiàn)能力。
因此P1和P2是評價模型預(yù)測效果的兩個基本指標(biāo),兩個指標(biāo)缺一不可。如果忽視P2,而只看P1,那么將正類誤判為負(fù)類的概率就難以得到控制。另一方面,如果P2很高而P1很低,那么總的誤判損失還是會很大。為了彌補(bǔ)這個缺陷,本文建立基于P1和P2基本指標(biāo)的綜合評價指標(biāo)。
將基本指標(biāo)P1和P2加權(quán)平均可以得到一個新的綜合指標(biāo)Pc,Pc可由式(4)確定:
γ1和γ2的取值是與使用者對P1和P2的重視程度有關(guān),但是在實(shí)際應(yīng)用中Pc計算方法未必能真實(shí)體現(xiàn)使用者對P1和P2的重視程度。這是因?yàn)镻1和P2的標(biāo)準(zhǔn)差可能會有很大差異,在許多復(fù)雜網(wǎng)絡(luò)中(尤其是連邊較為稀疏網(wǎng)絡(luò)中),由于真實(shí)存在的連邊要比節(jié)點(diǎn)對總數(shù)少很多,往往P2的標(biāo)準(zhǔn)差要比P1大很多,影響P2的偶然隨機(jī)因素要比P1大,P1的差異更大程度上是模型本身因素導(dǎo)致的。為了消除上述影響,只有對P1和P2做調(diào)整,使兩者的標(biāo)準(zhǔn)差相同,才能更加客觀地評價模型的預(yù)測能力。
設(shè)σi是Pi的標(biāo)準(zhǔn)差,則P1σ1和P2σ2具有相同的標(biāo)準(zhǔn)差,帶入公式(4)可得到:
其中γi由人為主觀決定。σi是Pi總體的性質(zhì),無法直接結(jié)算,但是可以根據(jù)不?同模型得到的Pi值,通過計算Pi的樣本標(biāo)準(zhǔn)差 ,再將作為σi的估計值。
利用神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系預(yù)測時,不同的模型參數(shù),相同的輸入其輸出的預(yù)測結(jié)果也不同,在這里把擁有不同參數(shù)的神經(jīng)網(wǎng)絡(luò)預(yù)測模型稱為不同的分類器。在實(shí)際問題求解過程中,如果以預(yù)測效果最好的一個分類器預(yù)測結(jié)果為準(zhǔn),可能會導(dǎo)致較大的誤判風(fēng)險,因?yàn)橐粋€分類器預(yù)測效果的好壞,通常需要通過已知樣本進(jìn)行檢測才能得出,當(dāng)一個分類器在用于檢測模型效果的已知樣本上表現(xiàn)出良好效果時,雖然可以認(rèn)為該分類器的預(yù)測能力是較強(qiáng)的,但其未必會在待預(yù)測的未知樣本上也能取得最好的效果。即使該分類器在未知樣本上的預(yù)測能力仍然是最強(qiáng)的,其預(yù)測效果也未必好于將多個分類器綜合得出的結(jié)果。因此,相對于僅僅“信任”一個分類器的做法,本文將若干個分類器組合起來進(jìn)行預(yù)測,降低結(jié)果的誤判風(fēng)險?;驹硎菍Ω魃窠?jīng)網(wǎng)絡(luò)預(yù)測模型賦予權(quán)重,根據(jù)各個分類器的預(yù)測值加權(quán)平均來獲得最終預(yù)測結(jié)果,加權(quán)平均值表達(dá)形式如下:
其中,H為分類器個數(shù),yi是第i個分類器的預(yù)測值,βi第i個分類器的權(quán)重系數(shù)。問題的關(guān)鍵轉(zhuǎn)換為如何得到每個分類器的βi值。
在公式(6)中,βi值的大小是與預(yù)測效果成正比的,如果只考慮兩個分類器ρ1和ρ2的情形下,分類器ρi(i=1,2)的權(quán)重系數(shù)βi的計算公式為:
其中,Pc(ρi)是分類器ρi對檢測集樣本的預(yù)測效果綜合評價指標(biāo)Pc的值。在其他條件不變的情況下,βi與Pc(ρi)成正比,說明預(yù)測效果越好,權(quán)重系數(shù)越大。而φ(ρ1,ρ2)是兩個分類器ρ1和ρ2預(yù)測值相同的概率,,其中Ns是用于檢測集樣本總數(shù),yρ1,i和yρ2,i分別是分類器ρ1和ρ2對第i個檢測集樣本的預(yù)測值。
根據(jù)公式(7),φ(ρ1,ρ2)越大,則βi越小。如果φ(ρ1,ρ2)達(dá)到最大值1,則有:
這樣,在使用兩個預(yù)測結(jié)果完全相同的分類器的情況下,兩個分類器權(quán)重系數(shù)總和與僅僅保留其中一個分類器的情況下的權(quán)重系數(shù)是相同的。如果φ(ρ1,ρ2)達(dá)到最小值0,則βi=Pc(ρi),說明當(dāng)兩個預(yù)測結(jié)果完全不同的分類器組合起來時,他們各自的權(quán)重都不會被削弱。
把式(7)式擴(kuò)展到兩個以上分類器的情形,在有H個分類器情況下,第i(i=1,2,…H)個分類器ρi的權(quán)重系數(shù)βi的計算公式為:
由于φ(ρi,ρi)=1,因此式(8)又能寫成以下形式:
因此,模型綜合的權(quán)值βi求解過程為:
步驟1:從已知樣本中抽出一部分,將其作為檢測集樣本,并用各分類器對檢測集樣本進(jìn)行預(yù)測,得出預(yù)測值;
步驟2:根據(jù)第一步的預(yù)測結(jié)果,計算各分類器的Pc值;
步驟3:計算每兩個分類器預(yù)測值相同的概率φ(ρi,ρj);
步驟4:利用式(9)計算βi。
本文以美國政治博客引用關(guān)系網(wǎng)絡(luò)為實(shí)例(數(shù)據(jù)來源于www.linkprediction.org 2014年6月),網(wǎng)絡(luò)中節(jié)點(diǎn)是博客文章,如果博客文章A引用了博客文章B,則在網(wǎng)絡(luò)中代表文章A的節(jié)點(diǎn)會有一條有向邊指向代表文章B的節(jié)點(diǎn)。驗(yàn)證數(shù)據(jù)選用這一網(wǎng)絡(luò)的一個導(dǎo)出子網(wǎng)絡(luò)進(jìn)行實(shí)證分析,該子網(wǎng)絡(luò)包含150個節(jié)點(diǎn),將網(wǎng)絡(luò)中的節(jié)點(diǎn)編號為1~150號,并將這150個節(jié)點(diǎn)構(gòu)成的集合記為Np。以1~100號節(jié)點(diǎn)為訓(xùn)練集,101~150號節(jié)點(diǎn)為預(yù)測集。為檢驗(yàn)算法效果,假定有序節(jié)點(diǎn)對集合Yp={(x,y)|x∈Np,y∈Np,101≤x≤150,106≤y≤150}中的二元關(guān)系存在性是未知的,其余節(jié)點(diǎn)對的二元關(guān)系存在性是已知的。然后從106~150號節(jié)點(diǎn)中隨機(jī)選擇10個節(jié)點(diǎn),構(gòu)成集合Kt,利用本文提出的方法對有序節(jié)點(diǎn)對集合Y={(x,y)|x∈Np,y∈Kt,101≤x≤150}中的二元關(guān)系存在性進(jìn)行預(yù)測。
神經(jīng)網(wǎng)絡(luò)求解約束條件設(shè)置:①訓(xùn)練的最大迭代次數(shù)為1000;②連接函數(shù)選擇為Logistic函數(shù);③初始開始進(jìn)行訓(xùn)練的次數(shù)選為50;④訓(xùn)練的學(xué)習(xí)率取值為0.01;⑤訓(xùn)練時觀察模型誤差的頻率是每迭代10次觀察一次;⑥迭代收斂的判斷標(biāo)準(zhǔn)是相鄰兩次觀察到的誤差值相差小于5×10-7。
不同分類器的參數(shù)調(diào)整是:①輸入向量的維數(shù)k;②隱藏層的節(jié)點(diǎn)數(shù)s;③正類樣本權(quán)重c。
將Yt={(x,y)|x∈Np,y∈Np,101≤x≤150,101≤y≤105}作為檢測集,以檢測不同參數(shù)下模型的預(yù)測效果。在k取10和20、s取15和30、c取5和6情況下,三個參數(shù)的全部組合共是8,分別在這8個參數(shù)組合下對檢測集進(jìn)行預(yù)測實(shí)驗(yàn)。測試實(shí)驗(yàn)發(fā)現(xiàn)s為30,c為6情況下的兩個模型預(yù)測效果最好。于是s取為30,c取為6,再分別取k為5、15和25,進(jìn)行三組實(shí)驗(yàn)。
根據(jù)算法1,在k取5情況下的數(shù)據(jù)降維是:
根據(jù)公式(2)和(3)計算得到11個參數(shù)組合下預(yù)測模型評價指標(biāo)如表1所示。
表1 參數(shù)組合及預(yù)測模型評價指標(biāo)
計算出表1中任意兩個模型預(yù)測值相同的概率如表3所示。
表2 各個預(yù)測模型綜合評價指標(biāo)值
表3 任意兩個模型預(yù)測值相同的概率
根據(jù)公式(9)各個模型權(quán)重系數(shù)βi如表4所示。
表4 各個模型的權(quán)重系數(shù)(歸一化前)
依據(jù)表1中11個模型對Y中的關(guān)系進(jìn)行預(yù)測,得出各模型對Y中有序各節(jié)點(diǎn)對關(guān)系存在性的預(yù)測值,然后對于每個待預(yù)測的有序節(jié)點(diǎn)對,根據(jù)式(6)并采用表4的βi值計算各模型預(yù)測值的加權(quán)平均,該加權(quán)平均值即為整個模型最終的預(yù)測值。將各模型的預(yù)測值以及模型最終預(yù)測值與真實(shí)值做比較,計算各模型的P1值和P2值以及模型綜合的預(yù)測效果P1值和P2如下頁表5所示。
從表5可以看出,最終對預(yù)測值求加權(quán)平均后得到的綜合模型的P2值是所有模型中最高的。雖然3號模型和8號模型的P2值與最終綜合模型的P2值相同,但這兩個模型的P1值都相對較低。在P1值方面,除去10號模型與11號模型以外,其他模型的P1值都比最終綜合模型低。10號模型與11號模型的P1值比最終綜合模型的P1值略高,但在P2值方面卻不如最終綜合模型。根據(jù)表5,可以計算出各模型的Pc值(其中對P1和P2的重視程度相同)如表6所示。
表5 各模型的預(yù)測效果以及模型綜合法預(yù)測效果
表6 各個模型的預(yù)測效果綜合評價指標(biāo)值
從表6可知,在對P1和P2的重視程度相同的前提下,綜合模型的Pc值是最高的??梢娋C合模型預(yù)測效果比單個模型要好。
隨著互聯(lián)網(wǎng)+的不斷發(fā)展,社會網(wǎng)絡(luò)逐步滲透到社會各個領(lǐng)域,充分利用網(wǎng)絡(luò)資源拓展服務(wù)成為互聯(lián)網(wǎng)經(jīng)濟(jì)時代面臨的一個突出問題,而有效地預(yù)知網(wǎng)絡(luò)中二元不對稱關(guān)系可以為用戶準(zhǔn)確地把握措施的實(shí)施提供了有力的支持。本文基于社會網(wǎng)絡(luò)的復(fù)雜性和動態(tài)性,利用神經(jīng)網(wǎng)絡(luò)預(yù)測特性,構(gòu)建了預(yù)測時高維輸入向量降維的算法,在建立模型綜合評價指標(biāo)基礎(chǔ)上,構(gòu)造了具有消除不平衡性的模型綜合預(yù)測方法,實(shí)例驗(yàn)證表明,本文所提算法和方法是有效的。