楊天瑞,孫偉東
(沈陽航空航天大學計算機學院,沈陽 110000)
隨著科學技術的不斷發(fā)展,我國進入到大數據時代,在此時代背景下數據預測與應用成為數據技術開發(fā)的重要部分?,F階段,阿里集團、騰訊、谷歌等都陸續(xù)認識到大數據的重要作用,突出體現便是“雙十一”購物節(jié)的成功運營,使當天的銷售額能夠達到前十一個月的20倍以上,這與數據特征提取與預測之間有著十分重要的促進作用。
社區(qū)結構主要是社區(qū)內部各要素之間形成的相對穩(wěn)定的關系,屬于由各個要素的共同作用下組成的有機系統(tǒng)。在對社團演化預測過程中,考慮到社團演化中的合并問題,因此在預測模型中通常提取社團內部的特征,包括規(guī)模、內度、內外部連邊的比值等等,這些特征只是單純的能夠體現某個社團,因此需要對社團之間的共性特征進行提取,才能夠對多個社團合并事件進行預測。
通過現有的研究表明,社團的性質能夠通過規(guī)模和內外連邊比值體現出來,所謂的規(guī)模也就是節(jié)點數量,規(guī)模越小的社團發(fā)生合并的幾率將越高,而社會的數量只能體現其規(guī)模,卻無法表現其稀疏程度。因此,需要加入內外連邊比值特征,該特征主要是指社團外部與內部連邊數量的比值,且比值與社團合并可能性之間呈現正比例關系,如若內部連邊與外部連邊相比,增長速度較低,則會增加合并的幾率,因此可以通過對內外連邊比值測試的方式,對社團的演化趨勢進行預測[1]。
假設G=(V,E)屬于無權無向網絡,具有N個頂點,且頂點集合V的取值范圍為V1到VN,頂點與集合二者的連邊用E來表示。同時,該網絡的鄰接矩陣屬于一個角對稱矩陣,將其表示為:
式中,i與j均表示頂點;aij表示兩個頂點間的連邊,其數值為1;當aij的數值為0時則表示兩個頂點連邊之間不存在連邊,這時i的取值范圍在0到N之間,i的度數表示為:
Ci與 Cj屬于兩個隨機社團,二者之間的連接度為 Bd(Ci,Cj),能夠與社團之間相連的一階差值為△Bd(Ci,Cj),二階差值為△△Bd(Ci,Cj),并且計算方式分別為:
一階差值 :△ Bd(Ci,Cj)=Bd(Ci,Cj)t=to-Bd(Ci,Cj)t=to-△t
二階差值:△△ Bd(Ci,Cj)= △ Bd(Ci,Cj)t=to-△ Bd(Ci,
式中,t0代表的是時間段;△t0代表的是時間步長。
綜上可知,在社團結構中共計需要提取出四個特征數據,分別為 Ni社團大小、連接度 Bd(Ci,Cj),以及一階差值為△ Bd(Ci,Cj)、二階差值為△△ Bd(Ci,Cj)。
DBN屬于一個概率生成模型,將樣本標簽數據當中的特征值有效的提取出來,利用該模型獲取到社團特征以后進行預測分析。通常波爾茲曼機的輸入范圍為0-1之間,但是在社會合并預測中,特征向量具有連續(xù)性,因此可以將RBM中的實值特征轉變?yōu)槎M制變量。在低維空間中,將樣本數據轉變?yōu)楦呔暥认蛄?,然后輸入到向量訓練層當中,由此完成在深度學習基礎上的社團合并預測模型的建立[2]。
由于以往采用的BP算法中存在較大的誤差信號,很可能出現“梯度擴散”現象,影響訓練效果。因此,本文采用貪婪逐層算法的方式,對整個網絡進行訓練。貪婪逐層算法是將樣本數據看作成輸入量,對首個RBM進行訓練,并在此基礎上對第二個RBM進行輸入,從而訓練出第二個,以此類推,直至所有深度學習網絡全部被訓練完成。在算法流程方面,主要內容如下。
(1)利用CD算法對特征向量X進行訓練,從而得出第一個RBM。
(2)利用上一個RBM作為向量,輸出下一個RBM。
(3)重復第二步,直至使所有RBM均完成訓練。
(4)通過最后一層得出RBM輸出向量,將輸出向量看做成回歸預測層輸入向量,并且對參數進行初始化處理。
(5)利用帶標簽的數據和BP算法,通過從上到下的方式,對整個預測模型參數進行細微的調整,進而獲取預測模型參數。
利用上述貪婪逐層算法對各個RBM進行訓練以后,便能夠建立DBM預測模型,進而通過數據集的方式對社團的合并進行分析和預測。
綜上所述,本文針對大數據時代下的數據預測進行分析,在深度學習背景下,在RBM基礎上建立了結構模型,對智能家居發(fā)展趨勢進行預測,并且提出了社團檢測方法,最后在時間序列數據預測的基礎上,對復雜網絡的社團演化進行預測,這對于智能家居行業(yè)的實際工作來說具有較大的應用價值與現實意義。