BP-ANN預(yù)測網(wǎng)絡(luò)關(guān)系中的數(shù)據(jù)降維與模型綜合方法

2018-08-10 01:39馬峻，萬劼

統(tǒng)計與決策 2018年13期

馬峻，萬劼

（首都經(jīng)濟(jì)貿(mào)易大學(xué) 安全與環(huán)境工程學(xué)院，北京 100070）

0 引言

復(fù)雜網(wǎng)絡(luò)廣泛存在于社會各個領(lǐng)域。社交網(wǎng)站用戶構(gòu)成的社交網(wǎng)絡(luò)，反映的是社交網(wǎng)站用戶之間的好友關(guān)系或關(guān)注(收聽)關(guān)系；商店顧客與商品構(gòu)成的購買關(guān)系網(wǎng)絡(luò)，反映的是顧客對商品的購買關(guān)系；其他諸如航空網(wǎng)絡(luò)、國家的電力網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)、食物鏈網(wǎng)絡(luò)等。不論是什么種類的網(wǎng)絡(luò)，一個網(wǎng)絡(luò)可抽象為由點(diǎn)集P和邊集E組成的圖G=(P,E)，設(shè)R是從P到其自身的一個二元關(guān)系，即R?P×P，對任意(x,y)∈P×P，如果xRy，則從x有一條有向連邊指向y，連邊反映了x與y的一種二元關(guān)系，如果(x,y)≠(y,x)，則構(gòu)成一個不對稱關(guān)系，否則為對稱關(guān)系。但在數(shù)量方面，同樣規(guī)模的網(wǎng)絡(luò)中，二元不對稱關(guān)系的潛在數(shù)量往往比二元對稱關(guān)系多；在信息量方面，二元不對稱關(guān)系更具有方向性，因此描述二元不對稱關(guān)系的網(wǎng)絡(luò)要比描述二元對稱關(guān)系的網(wǎng)絡(luò)包含更多的信息量。網(wǎng)絡(luò)中存在的這種關(guān)系對于網(wǎng)絡(luò)影響力的拓展以及網(wǎng)絡(luò)資源的有效利用具有很大的價值[1]，二元不對稱關(guān)系相對于二元關(guān)系的研究更具有普遍性和研究意義。

目前針對社會網(wǎng)絡(luò)中的二元關(guān)系的預(yù)測主要基于的信息可分為三類，第一類是根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)屬性信息進(jìn)行預(yù)測；第二類是根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)信息進(jìn)行預(yù)測；第三類是上述兩類的混合方法，即在預(yù)測中既使用節(jié)點(diǎn)屬性信息也使用網(wǎng)絡(luò)結(jié)構(gòu)信息。文獻(xiàn)[2，3]表明使用節(jié)點(diǎn)屬性信息對社會網(wǎng)絡(luò)中的二元關(guān)系進(jìn)行預(yù)測求解可以得到較好的效果，但是使用節(jié)點(diǎn)屬性信息存在著以下問題：第一，大量的節(jié)點(diǎn)屬性信息很難獲取，可靠性也難以得到保證；第二，需要大量的資源來存儲、讀取節(jié)點(diǎn)屬性信息。但是根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)信息進(jìn)行關(guān)系預(yù)測求解一般不存在上述兩個問題。

根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)信息進(jìn)行關(guān)系預(yù)測求解中，一類是基于節(jié)點(diǎn)相似度的關(guān)系預(yù)測求解方法，另一類是基于似然分析的預(yù)測求解方法?；谙嗨贫鹊年P(guān)系預(yù)測求解方法較為簡便，需要的假設(shè)前提較少，而基于似然分析的關(guān)系預(yù)測求解方法較為復(fù)雜，且需要建立在較多的假設(shè)(如層次結(jié)構(gòu)、社團(tuán)結(jié)構(gòu)等)之上，使用較少。文獻(xiàn)[4]將節(jié)點(diǎn)相似度與機(jī)器學(xué)習(xí)方法相結(jié)合，收到了較好的求解效果，但是還存在一些有待解決的問題；其次，基于節(jié)點(diǎn)相似性的關(guān)系預(yù)測方法在處理二部分網(wǎng)絡(luò)時會遇到困難，例如很多常用的相似度指標(biāo)是無法計算的，這時一般需要使用一些更為復(fù)雜的相似度指標(biāo)，或者采用集合投影和協(xié)同過濾的方法[5-7]，這些方法或是較為復(fù)雜，或是有待完善。而神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network，ANN)作為一種非線性動力學(xué)模型廣泛用在各個領(lǐng)域預(yù)測求解，但是神經(jīng)網(wǎng)絡(luò)在進(jìn)行社會網(wǎng)絡(luò)關(guān)系預(yù)測計算中，由于社會網(wǎng)絡(luò)的動態(tài)性和時變性導(dǎo)致網(wǎng)絡(luò)資源拓展的不確定性，同時社會網(wǎng)絡(luò)規(guī)模大、小世界性小社團(tuán)等特性導(dǎo)致網(wǎng)絡(luò)鄰接關(guān)系矩陣稀疏和不均勻性，產(chǎn)生社會網(wǎng)絡(luò)預(yù)測求解中輸入數(shù)據(jù)維數(shù)高，同時網(wǎng)絡(luò)中存在的不平衡性也極大地影響了神經(jīng)網(wǎng)絡(luò)預(yù)測計算的效果[8]，為此，本文針對這兩個問題，在提出相應(yīng)降維算法基礎(chǔ)上，建立了如何克服不平衡性從而提高模型求解效果的方法。

1 問題描述

本文采用BP神經(jīng)網(wǎng)絡(luò)對社會網(wǎng)絡(luò)二元不對稱關(guān)系進(jìn)行預(yù)測求解的基本邏輯過程如下頁圖1所示。

圖1 利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行社會網(wǎng)絡(luò)二元不對稱關(guān)系預(yù)測求解邏輯過程

T=(SR)反映訓(xùn)練集所有樣本在整個網(wǎng)絡(luò)的連接關(guān)系。

P=(UV)反映了預(yù)測求解集所有樣本在整個網(wǎng)絡(luò)的連接關(guān)系。

S和U分別是訓(xùn)練和預(yù)測求解的輸入值，R是訓(xùn)練輸出值，V是預(yù)測求解輸出值。S，U，R是鄰接矩陣的已知部分，V是鄰接矩陣的未知部分。

實(shí)際應(yīng)用中V的某些部分可能是已知的，但鑒于一般V占整個鄰接矩陣的比例較?。ú淮笥?/9），而考慮V的已知部分會增大算法和代碼的復(fù)雜度，因此將V的全部設(shè)為未知。如果只需要預(yù)測求解V的部分列向量，那么就不需要獲取關(guān)于R的全部信息，只需要知道R所對應(yīng)列向量的取值。

根據(jù)圖1，預(yù)測求解需要大量的訓(xùn)練樣本，因此An×n的m會很大，如果將S和U這種高維向量直接作為輸入，則算法復(fù)雜度會很大，因此需要采取適當(dāng)方法進(jìn)行降維；另外由于網(wǎng)絡(luò)中大部分節(jié)點(diǎn)對是不存在關(guān)系的（這種情形也被稱為數(shù)據(jù)不平衡），而神經(jīng)網(wǎng)絡(luò)算法通常以訓(xùn)練誤差最小化為目標(biāo)求解模型，這會導(dǎo)致模型傾向做出關(guān)系不存在的預(yù)測，而實(shí)際應(yīng)用中更多被關(guān)注的是存在的關(guān)系，將存在的關(guān)系判斷為不存在所導(dǎo)致的損失經(jīng)常遠(yuǎn)大于將不存在的關(guān)系判斷為存在所導(dǎo)致的損失，因此需要對模型進(jìn)行進(jìn)一步的處理。

2 數(shù)據(jù)降維

2.1 數(shù)據(jù)降維方法

根據(jù)圖1，在利用神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系預(yù)測時，需要將關(guān)系矩陣An×n中Sm×m的m個變量取值全部直接輸入到神經(jīng)網(wǎng)絡(luò)輸入層，通常較大的m將導(dǎo)致神經(jīng)網(wǎng)絡(luò)規(guī)模也會變大，將大大增加算法的復(fù)雜度，因此有必要設(shè)法減少輸入層的節(jié)點(diǎn)數(shù)。

根據(jù)鄰接關(guān)系矩陣An×n，m個原始輸入變量的取值只有0與1兩種可能，又因?yàn)檫@個變量的順序是固定不變的，因此神經(jīng)網(wǎng)絡(luò)輸入層其實(shí)是一個長度為m的0-1向量，為此可以將其固定長度轉(zhuǎn)化為一個整數(shù)，從而實(shí)現(xiàn)數(shù)據(jù)的降維。具體方法如下：

設(shè)πn為全體n維0-1向量構(gòu)成的集合，Z為整數(shù)集。對?x∈πn，x可被表述為如下形式：

再做如下映射：

對于f，有如下命題成立：

命題 1：對 ?x1,x2∈πn，若x1≠x2，則必有f(x1)≠f(x2)。

采用反證法可以對上述命題進(jìn)行證明。

命題1說明：f可將不同長度的0-1向量轉(zhuǎn)化為不同整數(shù)，并且通過fn進(jìn)行數(shù)據(jù)降維的過程中不會丟失原有的任何信息。

2.2 存在的問題

理論上任意n維0-1向量可以轉(zhuǎn)化為一維整數(shù)，因此可以將m個輸入變量轉(zhuǎn)化為一個輸入變量，這樣神經(jīng)網(wǎng)絡(luò)的輸入層節(jié)點(diǎn)數(shù)最少只需要一個，而不是m個。但是，如果僅僅用一個十進(jìn)制數(shù)替代原先的m個變量，那么可能會大大增加神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。

例如：設(shè)m為5，樣本A的原始輸入向量為(1，0，0，0，1)，轉(zhuǎn)化為十進(jìn)制數(shù)，即為17。樣本B的原始輸入向量為(0，0，0，0，1)，轉(zhuǎn)化為十進(jìn)制數(shù)，即為1。A和B只在一個位置上不同，應(yīng)該說兩個樣本比較相似。但是轉(zhuǎn)化為十進(jìn)制數(shù)后，兩個樣本對應(yīng)的輸入值要相差16倍。再設(shè)樣本C的輸入向量為(0，1，1，1，0)。C與A在所有位置上都不同，但是C的輸入向量轉(zhuǎn)化為十進(jìn)制后為14，反而與A比較接近。一般來說，A與B的輸出值往往是相同的，而A與C的輸出值更可能是不同的。這意味著輸出值對輸入值的變化非常敏感，而且通過神經(jīng)網(wǎng)絡(luò)得出的預(yù)測函數(shù)會有高頻且大幅的波動。

雖然神經(jīng)網(wǎng)絡(luò)算法比很多其他算法更善于處理此類非線性的回歸，但在輸入值與輸出值之間幾乎毫無線性相關(guān)性的情況下，如果訓(xùn)練樣本并不是很多，那么神經(jīng)網(wǎng)絡(luò)也較難做出準(zhǔn)確的預(yù)測。

2.3 分段降維算法

解決上述問題的辦法是將原始m維輸入向量分為k段（k＞1），提高算法效率同時保證算法的有效性。m維的輸入向量分為k段，每段轉(zhuǎn)化為一個整數(shù)，輸入變量轉(zhuǎn)化為k個整數(shù)。這樣對于任意一個樣本集，設(shè)原始輸入向量x=(a1,a2,…,am)（ai∈{0,1}，i=1,2,…,m），分段降維結(jié)果y=(b1,b2,…,bk)∈Zk（k≤m）。

k的取值既不能太大，也不能太小。如果k太大，達(dá)不到降低神經(jīng)網(wǎng)絡(luò)輸入層維數(shù)的目的，如果k太小，則輸出值對輸入值的變化會很敏感，從而增加神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的難度。由于k實(shí)際上就是輸入層的節(jié)點(diǎn)數(shù)，因此k是一個影響神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的變量，而神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也會影響預(yù)測的效果。

分段降維算法如下：

步驟1：ifk|m!=int

步驟1.1：設(shè)h=m'/(k-1)

步驟1.2：Forj=0tok-2

依次將 (ajh+1,ajh+2,…ajh+h)記為Aj+1,將x的最后(m-m')個分量(am'+1,am'+2,…,am)記為Ak

步驟2：ifk|m=int

步驟2.1：設(shè)h=m/k

步驟2.2：Forj=0tok-1

依次將 (ajh+1,ajh+2,…ajh+h)記為Aj+1,將x的最后(m-m')個分量(am'+1,am'+2,…,am)記為Ak

步驟3：得到分為k段的向量x，記為(A1,A2,…,Ak)

步驟4：Forj=0tok

?Aj∈{A1,A2,…,Ak}將Aj轉(zhuǎn)化為整數(shù)f(Aj)

bj=f(Aj)

步驟5：得到k維整數(shù)向量y=(b1,b2,…,bk)∈Zk

上述將An×n劃分為An×n的過程中，可以保證An×n都有相同的維數(shù)An×n，并且能使An×n盡量大。這樣，An×n就能較為“均勻”地被劃分為An×n段。同時由于分段降維算法對于每個二進(jìn)制數(shù)都會與一個十進(jìn)制數(shù)一一對應(yīng)，因此降維前后的數(shù)據(jù)之間存在一一映射，降維并沒有使數(shù)據(jù)所包含的信息量減少，整個數(shù)據(jù)降維過程是可逆的。

3 模型綜合法

數(shù)據(jù)的降維提高了神經(jīng)網(wǎng)絡(luò)計算的效率，但是由于復(fù)雜社會網(wǎng)絡(luò)存在關(guān)系的復(fù)雜性，以及所擁有的冪律特性導(dǎo)致在利用神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系預(yù)測時存在的不平衡性問題，即對于關(guān)系比較密集的社會網(wǎng)絡(luò)，預(yù)測出不存在的關(guān)系實(shí)際是存在的，反之在稀疏關(guān)系網(wǎng)絡(luò)預(yù)測出存在的關(guān)系實(shí)際是不存在的，這種不平衡性是由于模型本身造成的[8]，為了消除這種不平衡性，本文構(gòu)建預(yù)測模型綜合評價指標(biāo)基本上建立模型綜合方法，具體實(shí)現(xiàn)過程如下。

3.1 基本評價指標(biāo)

神經(jīng)網(wǎng)絡(luò)預(yù)測模型的評價是建立在鄰接矩陣An×n基礎(chǔ)上，設(shè)Y=(aij)(n-m)×q是An×n中V的一個子矩陣，表示V中全部待預(yù)測的部分，q是待預(yù)測的列向量的數(shù)量。X=(bij)(n-m)×q是對Y的預(yù)測值（Y為真實(shí)值）。||A表示任意有限集合A的基數(shù)，N+表示正整數(shù)集，則有：

Np=(n-m)q，即Np為Y的元素總數(shù)；

Nt=|{(i,j)∈N+×N+|aij=bij}|，即Nt為預(yù)測正確的次數(shù)；

Mp=|{(i,j)∈N+×N+|aij=1}|，即Mp為預(yù)測集中真正存在的連邊數(shù)量；

Mt=|{(i,j)∈N+×N+|aij=bij=1}|，即Mt為在連邊真實(shí)存在的條件下，正確預(yù)測的次數(shù)。

評價指標(biāo)有兩個。一個是總預(yù)測準(zhǔn)確率P1，另一個是正類預(yù)測準(zhǔn)確率P2。

從本質(zhì)看P1反映的是模型整體的預(yù)測準(zhǔn)確率，P2反映的是模型對關(guān)系存在性的發(fā)現(xiàn)能力。之所以要進(jìn)一步計算P2，是因?yàn)樵诜治鰧?shí)際問題中，人們往往更關(guān)注關(guān)系的存在性，而對關(guān)系的不存在性并不那么關(guān)注，從廣義上來看，關(guān)系的存在性與不存在性的受重視程度是不同的，P2會增強(qiáng)模型對非重視關(guān)系的發(fā)現(xiàn)能力。

因此P1和P2是評價模型預(yù)測效果的兩個基本指標(biāo)，兩個指標(biāo)缺一不可。如果忽視P2，而只看P1，那么將正類誤判為負(fù)類的概率就難以得到控制。另一方面，如果P2很高而P1很低，那么總的誤判損失還是會很大。為了彌補(bǔ)這個缺陷，本文建立基于P1和P2基本指標(biāo)的綜合評價指標(biāo)。

3.2 綜合評價指標(biāo)

將基本指標(biāo)P1和P2加權(quán)平均可以得到一個新的綜合指標(biāo)Pc，Pc可由式（4）確定：

γ1和γ2的取值是與使用者對P1和P2的重視程度有關(guān)，但是在實(shí)際應(yīng)用中Pc計算方法未必能真實(shí)體現(xiàn)使用者對P1和P2的重視程度。這是因?yàn)镻1和P2的標(biāo)準(zhǔn)差可能會有很大差異，在許多復(fù)雜網(wǎng)絡(luò)中(尤其是連邊較為稀疏網(wǎng)絡(luò)中)，由于真實(shí)存在的連邊要比節(jié)點(diǎn)對總數(shù)少很多，往往P2的標(biāo)準(zhǔn)差要比P1大很多，影響P2的偶然隨機(jī)因素要比P1大，P1的差異更大程度上是模型本身因素導(dǎo)致的。為了消除上述影響，只有對P1和P2做調(diào)整，使兩者的標(biāo)準(zhǔn)差相同，才能更加客觀地評價模型的預(yù)測能力。

設(shè)σi是Pi的標(biāo)準(zhǔn)差，則P1σ1和P2σ2具有相同的標(biāo)準(zhǔn)差，帶入公式（4）可得到：

其中γi由人為主觀決定。σi是Pi總體的性質(zhì)，無法直接結(jié)算，但是可以根據(jù)不?同模型得到的Pi值，通過計算Pi的樣本標(biāo)準(zhǔn)差，再將作為σi的估計值。

3.3 模型綜合

利用神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系預(yù)測時，不同的模型參數(shù)，相同的輸入其輸出的預(yù)測結(jié)果也不同，在這里把擁有不同參數(shù)的神經(jīng)網(wǎng)絡(luò)預(yù)測模型稱為不同的分類器。在實(shí)際問題求解過程中，如果以預(yù)測效果最好的一個分類器預(yù)測結(jié)果為準(zhǔn)，可能會導(dǎo)致較大的誤判風(fēng)險，因?yàn)橐粋€分類器預(yù)測效果的好壞，通常需要通過已知樣本進(jìn)行檢測才能得出，當(dāng)一個分類器在用于檢測模型效果的已知樣本上表現(xiàn)出良好效果時，雖然可以認(rèn)為該分類器的預(yù)測能力是較強(qiáng)的，但其未必會在待預(yù)測的未知樣本上也能取得最好的效果。即使該分類器在未知樣本上的預(yù)測能力仍然是最強(qiáng)的，其預(yù)測效果也未必好于將多個分類器綜合得出的結(jié)果。因此，相對于僅僅“信任”一個分類器的做法，本文將若干個分類器組合起來進(jìn)行預(yù)測，降低結(jié)果的誤判風(fēng)險?；驹硎菍Ω魃窠?jīng)網(wǎng)絡(luò)預(yù)測模型賦予權(quán)重，根據(jù)各個分類器的預(yù)測值加權(quán)平均來獲得最終預(yù)測結(jié)果，加權(quán)平均值表達(dá)形式如下：

其中，H為分類器個數(shù)，yi是第i個分類器的預(yù)測值，βi第i個分類器的權(quán)重系數(shù)。問題的關(guān)鍵轉(zhuǎn)換為如何得到每個分類器的βi值。

在公式（6）中，βi值的大小是與預(yù)測效果成正比的，如果只考慮兩個分類器ρ1和ρ2的情形下，分類器ρi（i=1,2）的權(quán)重系數(shù)βi的計算公式為：

其中，Pc(ρi)是分類器ρi對檢測集樣本的預(yù)測效果綜合評價指標(biāo)Pc的值。在其他條件不變的情況下，βi與Pc(ρi)成正比，說明預(yù)測效果越好，權(quán)重系數(shù)越大。而φ(ρ1,ρ2)是兩個分類器ρ1和ρ2預(yù)測值相同的概率，，其中Ns是用于檢測集樣本總數(shù)，yρ1,i和yρ2,i分別是分類器ρ1和ρ2對第i個檢測集樣本的預(yù)測值。

根據(jù)公式（7），φ(ρ1,ρ2)越大，則βi越小。如果φ(ρ1,ρ2)達(dá)到最大值1，則有：

這樣，在使用兩個預(yù)測結(jié)果完全相同的分類器的情況下，兩個分類器權(quán)重系數(shù)總和與僅僅保留其中一個分類器的情況下的權(quán)重系數(shù)是相同的。如果φ(ρ1,ρ2)達(dá)到最小值0，則βi=Pc(ρi)，說明當(dāng)兩個預(yù)測結(jié)果完全不同的分類器組合起來時，他們各自的權(quán)重都不會被削弱。

把式（7）式擴(kuò)展到兩個以上分類器的情形，在有H個分類器情況下，第i（i=1,2,…H）個分類器ρi的權(quán)重系數(shù)βi的計算公式為：

由于φ(ρi,ρi)=1，因此式（8）又能寫成以下形式：

因此，模型綜合的權(quán)值βi求解過程為：

步驟1：從已知樣本中抽出一部分，將其作為檢測集樣本，并用各分類器對檢測集樣本進(jìn)行預(yù)測，得出預(yù)測值；

步驟2：根據(jù)第一步的預(yù)測結(jié)果，計算各分類器的Pc值；

步驟3：計算每兩個分類器預(yù)測值相同的概率φ(ρi,ρj)；

步驟4：利用式（9）計算βi。

4 實(shí)例驗(yàn)證

本文以美國政治博客引用關(guān)系網(wǎng)絡(luò)為實(shí)例（數(shù)據(jù)來源于www.linkprediction.org 2014年6月），網(wǎng)絡(luò)中節(jié)點(diǎn)是博客文章，如果博客文章A引用了博客文章B，則在網(wǎng)絡(luò)中代表文章A的節(jié)點(diǎn)會有一條有向邊指向代表文章B的節(jié)點(diǎn)。驗(yàn)證數(shù)據(jù)選用這一網(wǎng)絡(luò)的一個導(dǎo)出子網(wǎng)絡(luò)進(jìn)行實(shí)證分析，該子網(wǎng)絡(luò)包含150個節(jié)點(diǎn)，將網(wǎng)絡(luò)中的節(jié)點(diǎn)編號為1～150號，并將這150個節(jié)點(diǎn)構(gòu)成的集合記為Np。以1～100號節(jié)點(diǎn)為訓(xùn)練集，101～150號節(jié)點(diǎn)為預(yù)測集。為檢驗(yàn)算法效果，假定有序節(jié)點(diǎn)對集合Yp={(x,y)|x∈Np,y∈Np,101≤x≤150,106≤y≤150}中的二元關(guān)系存在性是未知的，其余節(jié)點(diǎn)對的二元關(guān)系存在性是已知的。然后從106～150號節(jié)點(diǎn)中隨機(jī)選擇10個節(jié)點(diǎn)，構(gòu)成集合Kt，利用本文提出的方法對有序節(jié)點(diǎn)對集合Y={(x,y)|x∈Np,y∈Kt,101≤x≤150}中的二元關(guān)系存在性進(jìn)行預(yù)測。

神經(jīng)網(wǎng)絡(luò)求解約束條件設(shè)置：①訓(xùn)練的最大迭代次數(shù)為1000；②連接函數(shù)選擇為Logistic函數(shù)；③初始開始進(jìn)行訓(xùn)練的次數(shù)選為50；④訓(xùn)練的學(xué)習(xí)率取值為0.01；⑤訓(xùn)練時觀察模型誤差的頻率是每迭代10次觀察一次；⑥迭代收斂的判斷標(biāo)準(zhǔn)是相鄰兩次觀察到的誤差值相差小于5×10-7。

不同分類器的參數(shù)調(diào)整是：①輸入向量的維數(shù)k；②隱藏層的節(jié)點(diǎn)數(shù)s；③正類樣本權(quán)重c。

將Yt={(x,y)|x∈Np,y∈Np,101≤x≤150,101≤y≤105}作為檢測集，以檢測不同參數(shù)下模型的預(yù)測效果。在k取10和20、s取15和30、c取5和6情況下，三個參數(shù)的全部組合共是8，分別在這8個參數(shù)組合下對檢測集進(jìn)行預(yù)測實(shí)驗(yàn)。測試實(shí)驗(yàn)發(fā)現(xiàn)s為30，c為6情況下的兩個模型預(yù)測效果最好。于是s取為30，c取為6，再分別取k為5、15和25，進(jìn)行三組實(shí)驗(yàn)。

根據(jù)算法1，在k取5情況下的數(shù)據(jù)降維是：

根據(jù)公式（2）和（3）計算得到11個參數(shù)組合下預(yù)測模型評價指標(biāo)如表1所示。

表1 參數(shù)組合及預(yù)測模型評價指標(biāo)

計算出表1中任意兩個模型預(yù)測值相同的概率如表3所示。

表2 各個預(yù)測模型綜合評價指標(biāo)值

表3 任意兩個模型預(yù)測值相同的概率

根據(jù)公式（9）各個模型權(quán)重系數(shù)βi如表4所示。

表4 各個模型的權(quán)重系數(shù)（歸一化前）

依據(jù)表1中11個模型對Y中的關(guān)系進(jìn)行預(yù)測，得出各模型對Y中有序各節(jié)點(diǎn)對關(guān)系存在性的預(yù)測值，然后對于每個待預(yù)測的有序節(jié)點(diǎn)對，根據(jù)式(6)并采用表4的βi值計算各模型預(yù)測值的加權(quán)平均，該加權(quán)平均值即為整個模型最終的預(yù)測值。將各模型的預(yù)測值以及模型最終預(yù)測值與真實(shí)值做比較，計算各模型的P1值和P2值以及模型綜合的預(yù)測效果P1值和P2如下頁表5所示。

從表5可以看出，最終對預(yù)測值求加權(quán)平均后得到的綜合模型的P2值是所有模型中最高的。雖然3號模型和8號模型的P2值與最終綜合模型的P2值相同，但這兩個模型的P1值都相對較低。在P1值方面，除去10號模型與11號模型以外，其他模型的P1值都比最終綜合模型低。10號模型與11號模型的P1值比最終綜合模型的P1值略高，但在P2值方面卻不如最終綜合模型。根據(jù)表5，可以計算出各模型的Pc值(其中對P1和P2的重視程度相同)如表6所示。

表5 各模型的預(yù)測效果以及模型綜合法預(yù)測效果

表6 各個模型的預(yù)測效果綜合評價指標(biāo)值

從表6可知，在對P1和P2的重視程度相同的前提下，綜合模型的Pc值是最高的?？梢娋C合模型預(yù)測效果比單個模型要好。

5 結(jié)束語

隨著互聯(lián)網(wǎng)+的不斷發(fā)展，社會網(wǎng)絡(luò)逐步滲透到社會各個領(lǐng)域，充分利用網(wǎng)絡(luò)資源拓展服務(wù)成為互聯(lián)網(wǎng)經(jīng)濟(jì)時代面臨的一個突出問題，而有效地預(yù)知網(wǎng)絡(luò)中二元不對稱關(guān)系可以為用戶準(zhǔn)確地把握措施的實(shí)施提供了有力的支持。本文基于社會網(wǎng)絡(luò)的復(fù)雜性和動態(tài)性，利用神經(jīng)網(wǎng)絡(luò)預(yù)測特性，構(gòu)建了預(yù)測時高維輸入向量降維的算法，在建立模型綜合評價指標(biāo)基礎(chǔ)上，構(gòu)造了具有消除不平衡性的模型綜合預(yù)測方法，實(shí)例驗(yàn)證表明，本文所提算法和方法是有效的。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡