代 偉 李德鵬 楊春雨 馬小平
信息技術(shù)的迅速發(fā)展使得生產(chǎn)制造行業(yè)進(jìn)入大數(shù)據(jù)時代,這為數(shù)據(jù)建模提供了大量的數(shù)據(jù)樣本,使得數(shù)據(jù)驅(qū)動建模在不同領(lǐng)域產(chǎn)生廣闊的應(yīng)用空間[1?3].然而,系統(tǒng)復(fù)雜度和數(shù)據(jù)規(guī)模的日益增大為數(shù)據(jù)建模算法帶來新的挑戰(zhàn).模型精度取決于樣本的質(zhì)量與數(shù)量,但超過一定規(guī)模的樣本數(shù)據(jù),會顯著增加網(wǎng)絡(luò)參數(shù)訓(xùn)練與優(yōu)化的成本,且難以有效學(xué)習(xí),導(dǎo)致模型的整體性能下降[4].在采用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法進(jìn)行大數(shù)據(jù)建模時,所得到的模型往往存在訓(xùn)練耗時、網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜等問題,難以滿足實(shí)際應(yīng)用的需求.因此,建立一種能夠從大量數(shù)據(jù)中快速、高效學(xué)習(xí)的策略具有重要意義.
上世紀(jì)90 年代,文獻(xiàn)[5]提出的隨機(jī)向量函數(shù)鏈接網(wǎng)絡(luò),與文獻(xiàn)[6]提出的另一種具有隨機(jī)權(quán)值的單層前饋神經(jīng)網(wǎng)絡(luò)等被統(tǒng)稱為隨機(jī)權(quán)神經(jīng)網(wǎng)絡(luò)(Random weight neural networks,RWNNs)[7?8].其特征在于隱含層參數(shù)(輸入權(quán)值和偏置)在給定的區(qū)間內(nèi)隨機(jī)產(chǎn)生,只需解析求解網(wǎng)絡(luò)輸出權(quán)值.因RWNNs 實(shí)現(xiàn)簡單、建模速度快等優(yōu)勢受到了廣泛的關(guān)注.文獻(xiàn)[9]設(shè)計了一種二維RWNNs 分類器,用于人臉識別,其使用兩組輸入權(quán)值直接以特征矩陣作為輸入而不用轉(zhuǎn)換成向量形式,能夠有效保留圖像數(shù)據(jù)的空間信息,具有良好的分類性能.文獻(xiàn)[10]將非參數(shù)的核密度估計方法與加權(quán)最小二乘估計引入到RWNNs 的學(xué)習(xí)算法,通過評估每個訓(xùn)練樣本對于建模的貢獻(xiàn)度來抑制噪聲數(shù)據(jù)或離群點(diǎn)的負(fù)面影響,從而建立了魯棒RWNN 以及在線學(xué)習(xí)算法.在此基礎(chǔ)上,文獻(xiàn)[11]進(jìn)一步引入正則項(xiàng)來防止過擬合現(xiàn)象,有效減小輸出權(quán)值,在一定程度上降低了模型復(fù)雜度.然而,兩個本質(zhì)缺陷使得RWNNs的應(yīng)用受到一定的限制:1)隱含層節(jié)點(diǎn)數(shù)不能先于訓(xùn)練而確定,即難以設(shè)定合適的網(wǎng)絡(luò)結(jié)構(gòu);2)隱含層參數(shù)在固定不變的區(qū)間內(nèi)產(chǎn)生,影響其實(shí)際逼近特性[12?13].
為了解決上述問題,Wang 等首次提出了一種隨機(jī)增量學(xué)習(xí)技術(shù),即隨機(jī)配置網(wǎng)絡(luò)(Stochastic configuration networks,SCNs)[14].SCNs 在一個可調(diào)區(qū)間內(nèi)隨機(jī)分配隱含層參數(shù),并創(chuàng)新性地引入監(jiān)督機(jī)制加以約束,確保了其無限逼近特性.作為一種增量學(xué)習(xí)算法,SCNs 在每次的增量學(xué)習(xí)過程中,均建立候選“節(jié)點(diǎn)池”以選出最佳節(jié)點(diǎn),加快了收斂速度;同時,網(wǎng)絡(luò)結(jié)構(gòu)也可在增量學(xué)習(xí)過程中確定.針對SCNs 監(jiān)督機(jī)制中關(guān)鍵參數(shù)的選擇問題,文獻(xiàn)[15]指導(dǎo)性地給出了兩種不等式約束,從而提高了隨機(jī)參數(shù)配置的效率,有助于候選“節(jié)點(diǎn)池”的建立.文獻(xiàn)[16]以SCNs 作為基模型,采用負(fù)相關(guān)學(xué)習(xí)策略來配置輸出權(quán)值,提出了一種快速解除相關(guān)異構(gòu)神經(jīng)元的集成學(xué)習(xí)方法.文獻(xiàn)[17]針對隱含層輸出矩陣可能存在的多重共線性等不適定情況,在計算輸出權(quán)值時采用截斷奇異值分解對重新構(gòu)建的輸出矩陣進(jìn)行廣義逆運(yùn)算,建立了TSVD-SCN 模型.文獻(xiàn)[18]通過引入正則化技術(shù),進(jìn)一步提升SCNs 的泛化性能.文獻(xiàn)[19] 通過理論分析和算法實(shí)現(xiàn)將SCNs 推廣到深度結(jié)構(gòu),即DeepSCNs.結(jié)果表明,相比其他深度神經(jīng)網(wǎng)絡(luò),DeepSCNs 可以快速有效地生成,且學(xué)習(xí)特性和泛化性能之間具有一致性.此外,文獻(xiàn)[20]和[21]分別提出了兩種不同的魯棒SCNs 算法用于受污染數(shù)據(jù)的建模問題.
然而,現(xiàn)有的SCNs 及其相關(guān)算法均采用點(diǎn)增量的構(gòu)建方式.在大數(shù)據(jù)建模任務(wù)中,往往需要大量的迭代和耗時的偽逆運(yùn)算.為解決采用傳統(tǒng)計算方式將產(chǎn)生過大計算損耗的問題,本文研究SCNs并行學(xué)習(xí)方法,以提高SCNs 在大數(shù)據(jù)應(yīng)用中的效率.
現(xiàn)有面向大數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)并行建模的研究成果可分為數(shù)據(jù)或者模型并行兩類[22?24].數(shù)據(jù)并行是將數(shù)據(jù)集分成若干數(shù)據(jù)塊以同時處理,模型并行是將參數(shù)進(jìn)行并行劃分以同時求解.本文針對SCNs增量學(xué)習(xí)過程中網(wǎng)絡(luò)結(jié)構(gòu)動態(tài)變化的特點(diǎn),提出一種新穎的模型與數(shù)據(jù)混合并行的增量學(xué)習(xí)方法.主要貢獻(xiàn)在于:將點(diǎn)增量和塊增量兩種增量模型構(gòu)建方法進(jìn)行并行,左側(cè)為點(diǎn)增量SCN (PSCN),右側(cè)為塊增量SCN (BSCN).其中,PSCN 每次迭代隱含層節(jié)點(diǎn)單個增加,以準(zhǔn)確地找到最佳網(wǎng)絡(luò)結(jié)構(gòu),BSCN 每次迭代隱含層節(jié)點(diǎn)按塊添加,具有較快的收斂速度.同時針對樣本數(shù)據(jù)維數(shù)高、數(shù)據(jù)量大導(dǎo)致的計算耗時問題,采用一種基于動態(tài)分塊策略的數(shù)據(jù)并行方法,其在增量學(xué)習(xí)過程的不同階段,根據(jù)當(dāng)前節(jié)點(diǎn)數(shù)將訓(xùn)練數(shù)據(jù)劃分為不同的數(shù)據(jù)塊,從而采用并行計算方式,同步進(jìn)行運(yùn)算;然后,在PSCN 與BSCN 計算輸出權(quán)值時整合數(shù)據(jù)塊,并通過比較殘差,擇優(yōu)選取模型參數(shù).對所形成的混合并行隨機(jī)配置網(wǎng)絡(luò)(Hybrid parallel stochastic configuration networks,HPSCNs)進(jìn)行對比實(shí)驗(yàn),結(jié)果表明,其具有資源利用率高、建模速度快、網(wǎng)絡(luò)模型緊致等優(yōu)點(diǎn).
對于給定的N組訓(xùn)練集樣本 (xi,ti),其輸入X={x1,x2,···,xN},xi={xi,1,···,xi,d}∈Rd,相應(yīng)的輸出T={t1,t2,···,tN},ti={ti,1,···,ti,m}∈Rm.其中i=1,2,···,N.具有L個隱含層節(jié)點(diǎn)的RWNNs 模型可以表示為:
其中,gj(·)表示隱含層第j個節(jié)點(diǎn)的激活函數(shù),隱含層參數(shù)(vj和bj) 分別在區(qū)間[?λ,λ]d和[?λ,λ]隨機(jī)生成,βj=[βj,1,···,βj,q,···,βj,m]T為隱含層第j個節(jié)點(diǎn)與m個輸出節(jié)點(diǎn)之間的輸出權(quán)值,fL即當(dāng)前網(wǎng)絡(luò)的輸出.模型參數(shù)可以通過求解如下的二次型優(yōu)化問題獲得.
上述等式可以進(jìn)一步表示為矩陣形式:
其中
為隱含層輸出矩陣,H?為其Moore-Penrose 廣義逆[25].
通常,傳統(tǒng)RWNNs 所需要的節(jié)點(diǎn)數(shù)往往只能針對特定建模任務(wù)采用交叉驗(yàn)證法確定,實(shí)驗(yàn)過程耗時,且網(wǎng)絡(luò)結(jié)構(gòu)的確定取決于交叉驗(yàn)證時所選擇的參數(shù).
增量構(gòu)造學(xué)習(xí)算法是解決網(wǎng)絡(luò)結(jié)構(gòu)的一種有效方法,從隨機(jī)產(chǎn)生第一個節(jié)點(diǎn)g1=g(v1,b1,x) 開始,向網(wǎng)絡(luò)中逐漸增加節(jié)點(diǎn);相應(yīng)地,輸出權(quán)值為β1=〈e0,g1〉/‖g1‖2,其中e0=f;更新e1=f?β1g1[12].通過重復(fù)上述過程可以同時解決網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)優(yōu)化問題,增量RWNNs 的構(gòu)造過程如下.
首先,設(shè)定增量學(xué)習(xí)的期望精度,其輸出fL可以表示為先前網(wǎng)絡(luò)fL?1與新增節(jié)點(diǎn)gL(vL和bL)的特定組合,即:
其中,新增節(jié)點(diǎn)的輸出權(quán)值依據(jù)下式
且先前網(wǎng)絡(luò)的殘差
增量RWNNs 雖然解決了傳統(tǒng)RWNNs 難以確定網(wǎng)絡(luò)結(jié)構(gòu)的問題,但網(wǎng)絡(luò)的輸入權(quán)值和偏置通常選擇在固定區(qū)間(如[?1,1])內(nèi)產(chǎn)生,這種與樣本數(shù)據(jù)無關(guān)的參數(shù)設(shè)定方式導(dǎo)致RWNNs 的逼近特性具有不確定性.因此,隨機(jī)參數(shù)的產(chǎn)生應(yīng)該依賴于建模數(shù)據(jù)并加以約束.
SCNs 作為一種先進(jìn)的隨機(jī)學(xué)習(xí)技術(shù),其本質(zhì)特征在于隨機(jī)產(chǎn)生的輸入權(quán)值和偏置需要滿足監(jiān)督機(jī)制,并采用數(shù)據(jù)依賴策略動態(tài)調(diào)整隨機(jī)區(qū)間,有效解決了RWNNs 及其增量構(gòu)造學(xué)習(xí)算法的本質(zhì)缺陷.然而,傳統(tǒng)SCNs 均是采用點(diǎn)增量的方式來構(gòu)建網(wǎng)絡(luò)(PSCN),即一次迭代過程只能添加一個節(jié)點(diǎn).采用這種方法,每一個新增節(jié)點(diǎn)都需要重新建模,當(dāng)所需節(jié)點(diǎn)數(shù)較多時,網(wǎng)絡(luò)的構(gòu)建就會變得相對復(fù)雜、耗時.從特征學(xué)習(xí)的角度來說,前饋神經(jīng)網(wǎng)絡(luò)從輸入樣本空間去逼近復(fù)雜非線性函數(shù)的能力很大程度上取決于隱含層的特征映射,即從低維輸入數(shù)據(jù)到高維特征空間.而節(jié)點(diǎn)可以被認(rèn)為是高維空間的特征.那么,每次只增加一個節(jié)點(diǎn)則在很大程度上限制了特征的獲取.因此,使用點(diǎn)增量方法構(gòu)建SCNs 的過程往往需要較多的迭代,不可避免地增加了計算量、影響了建模效率.鑒于此,我們最近的工作[26]將傳統(tǒng)點(diǎn)增量SCNs 推廣為允許同時添加多個隱含層節(jié)點(diǎn)(節(jié)點(diǎn)塊)的塊增量網(wǎng)絡(luò)(BSCN),用于加快構(gòu)建過程.
點(diǎn)增量與塊增量算法分別具有網(wǎng)絡(luò)結(jié)構(gòu)緊致但收斂速度慢和收斂速度快但模型不緊致的特點(diǎn).為了進(jìn)一步提高算法的綜合性能,本文對傳統(tǒng)SCNs進(jìn)行改進(jìn),提出了一種新的混合并行增量學(xué)習(xí)方法,即:HPSCNs,以應(yīng)對大數(shù)據(jù)建模.主要思想是:在同一個建模任務(wù)中,使用點(diǎn)和塊兩種增量構(gòu)建模型方法進(jìn)行并行學(xué)習(xí),且在學(xué)習(xí)過程中將樣本數(shù)據(jù)隨學(xué)習(xí)過程動態(tài)劃分為多個數(shù)據(jù)塊,從而采用并行計算擇優(yōu)選取模型參數(shù).
HPSCNs 由PSCN 和BSCN 組成,以單輸出為例,其模型并行結(jié)構(gòu)如圖1 所示.這里添加節(jié)點(diǎn)的過程被稱為迭代.在訓(xùn)練過程中,PSCN 的構(gòu)建方式采用點(diǎn)增量方法(隱含層節(jié)點(diǎn)每次迭代單個增加),從而保證相對準(zhǔn)確地找到最佳隱含層節(jié)點(diǎn);BSCN 的構(gòu)建方式采用塊增量方法(隱含層節(jié)點(diǎn)每次迭代按塊添加),以提高模型的收斂速度.
該策略采用平行網(wǎng)絡(luò)并行計算.即在增量學(xué)習(xí)過程中,平行的PSCN 與BSCN 通過并行計算被獨(dú)立地構(gòu)建;每次迭代結(jié)束后,以當(dāng)前網(wǎng)絡(luò)殘差為指標(biāo),保留其中較優(yōu)的網(wǎng)絡(luò),并將其模型參數(shù)作為本次迭代的最終結(jié)果;同時將該結(jié)果賦值給另一個網(wǎng)絡(luò)以更新其節(jié)點(diǎn)數(shù),然后進(jìn)行下一次迭代.
2.1.1 PSCN
圖1 所示的模型并行增量學(xué)習(xí)方法,左側(cè)采用傳統(tǒng)點(diǎn)增量隨機(jī)配置網(wǎng)絡(luò)PSCN,其學(xué)習(xí)過程約束根據(jù)引理1 獲得.
圖1 模型并行結(jié)構(gòu)圖Fig.1 The structure diagram of model parallelism
引理 1[14].令 Γ:={g1,g2,g3,···}表示一組實(shí)值函數(shù),span(Γ)表示由 Γ組成的函數(shù)空間.假設(shè)span(Γ)稠密于L2空間且?g ∈Γ ,0<‖g‖ 若激活函數(shù)gL滿足下列不等式約束: 并且輸出權(quán)值通過式(3) 計算,那么limL→∞‖f?fL‖=0恒成立. 在上述定理中,將式(8)代入(9),可以得到點(diǎn)增量學(xué)習(xí)的監(jiān)督機(jī)制: 其中,q=1,2,···,m,μL=(1?r)/(L+1). 網(wǎng)絡(luò)構(gòu)建過程簡述如下: 1) 在可調(diào)區(qū)間內(nèi)隨機(jī)產(chǎn)生隱含層參數(shù) (vL和bL). 將滿足式(10)的節(jié)點(diǎn)作為候選節(jié)點(diǎn),并保留最大的ξL,q所對應(yīng)的隨機(jī)參數(shù); 2) 輸出權(quán)值β通過公式(3)求解全局最小二乘得到; 3) 計算PSCN 當(dāng)前訓(xùn)練殘差eL,判斷是否滿足 停止條件. 2.1.2 BSCN 按照塊增量方法,將引理1 進(jìn)行推廣,有如下引理2. 引理 2[26].給定 0 那么 limL→∞‖f?‖=0恒成立.其中塊寬?k表示第k次迭代中新加入的節(jié)點(diǎn)塊;表示第k?1次迭代結(jié)束時的訓(xùn)練殘差;表示第k次迭代時的隱含層輸出塊;且 表示第k次迭代中的輸出權(quán)值的中值. BSCN 的增量學(xué)習(xí)過程在PSCN 的基礎(chǔ)上,根據(jù)式(11)在可調(diào)區(qū)間內(nèi)隨機(jī)產(chǎn)生新增節(jié)點(diǎn)塊(和),從而實(shí)現(xiàn)了批量分配隱含層參數(shù)和按塊增加隱含層節(jié)點(diǎn). 2.1.3 收斂性分析 模型并行增量學(xué)習(xí)過程當(dāng)前網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)為L時,令新增節(jié)點(diǎn)數(shù)為l∈{1,?k}有: 1) 點(diǎn)增量 (l=1) 時: 2) 塊增量(l=?k)時: 由以上分析可知,式(13)‖eL+l‖?(r+μL+l)‖eL‖2≤0,殘差序列‖eL+l‖單調(diào)遞減且有界.進(jìn)一步地, 注意到 limL→∞μL+l‖eL‖2=0 ,其中l(wèi)imL→∞μL+l=0.根據(jù)式(16)可以進(jìn)一步得到limL→∞‖eL+l‖2=0,即 limL→∞‖eL+l‖=0.因此殘差序列‖eL+l‖單調(diào)遞減且收斂于0,說明本文所提HPSCNs 模型具有無限逼近特性. 在增量學(xué)習(xí)過程中,將數(shù)據(jù)進(jìn)行分塊處理,以建立一種數(shù)據(jù)并行計算策略,可進(jìn)一步提高學(xué)習(xí)速度.因此,將訓(xùn)練輸入樣本X、訓(xùn)練輸出樣本T等分為M塊,即 每個數(shù)據(jù)塊的隱含層輸出矩陣通過并行計算獲得,第p個數(shù)據(jù)塊與隱含層輸出矩陣的對應(yīng)關(guān)系: 這里gp,L表示節(jié)點(diǎn)數(shù)為L時第p個數(shù)據(jù)塊的隱含層輸出.此時,PSCN 的監(jiān)督機(jī)制為: 相應(yīng)地,BSCN 的監(jiān)督機(jī)制為: 表示第k次迭代時輸出權(quán)值的中值. 根據(jù)不同數(shù)據(jù)規(guī)模的學(xué)習(xí)任務(wù),輸出權(quán)值β可由下式計算獲得: 對于大數(shù)據(jù)建模,這里只考慮N ≥L的情況,因此,數(shù)據(jù)并行學(xué)習(xí)方法中的輸出權(quán)值可以表示為: 式(23)將不同數(shù)據(jù)塊整合并得到輸出權(quán)值. 注意到,隨著學(xué)習(xí)過程中隱含層節(jié)點(diǎn)數(shù)的增加,網(wǎng)絡(luò)尺寸逐漸增大,計算負(fù)荷也隨之增加,因此,在增量學(xué)習(xí)過程的不同階段,本文采用動態(tài)分塊策略,逐漸增加數(shù)據(jù)塊數(shù)量,以充分利用并行計算資源,提高學(xué)習(xí)的效率.所形成的數(shù)據(jù)并行策略如圖2 所示,其中從隱含層到輸入層的連接起到反饋?zhàn)饔?實(shí)現(xiàn)數(shù)據(jù)塊M隨學(xué)習(xí)過程中隱含層節(jié)點(diǎn)數(shù)L的增加而變化,具體動態(tài)分塊方法如下: 圖2 數(shù)據(jù)并行策略Fig.2 Strategy of data parallelism 注1.HPSCNs 繼承了原始SCNs 自組織學(xué)習(xí)的特點(diǎn),其隱含層節(jié)點(diǎn)在監(jiān)督機(jī)制下自主構(gòu)建,無需采用傳統(tǒng)自組織學(xué)習(xí)的剪枝等算法即可保證模型的緊致性.此外,HPSCNs 中PSCN 和BSCN 的監(jiān)督機(jī)制分別不同于傳統(tǒng)SCNs 和塊增量SCNs.以PSCN 為例,若根據(jù)M個不同的數(shù)據(jù)塊同步獲取一組隱含層輸出g1,L,···,gp,L,···,gM,L后,直接帶入SCNs 中得到M組滿足條件的不等式約束,盡管該網(wǎng)絡(luò)仍具有無限逼近特性,但收斂性會變差.這是因?yàn)楸O(jiān)督機(jī)制的數(shù)據(jù)依賴特性.每組監(jiān)督機(jī)制只包含當(dāng)前數(shù)據(jù)塊的信息而忽略了其他數(shù)據(jù)塊,不可避免地放寬了約束的作用,導(dǎo)致所得到的輸入權(quán)值和偏置"質(zhì)量"變低,從而影響到模型收斂性.因此,隱含層參數(shù)的分配需要考慮全體數(shù)據(jù)塊. 注2.RWNNs 與SCNs 均直接使用式(3)求解輸出權(quán)值,導(dǎo)致廣義逆運(yùn)算成為構(gòu)建過程中較為耗時環(huán)節(jié),尤其針對大數(shù)據(jù)建模,即N >>L的情況,則需要對N ×L階的矩陣進(jìn)行廣義逆運(yùn)算;而基于數(shù)據(jù)并行采用式(23),則只需要計算L×L階矩陣的廣義逆,大大降低了計算量. 混合并行增量學(xué)習(xí)算法的具體實(shí)現(xiàn)描述如下: 給定訓(xùn)練輸入X∈RN×d,輸出T∈RN×m.設(shè)置增量構(gòu)建過程中的容忍誤差ε和最大迭代次數(shù)kmax;隱含層參數(shù)分配區(qū)間集Υ={λ1,λ2,···,λend};最大隨機(jī)配置次數(shù)Tmax;BSCN 中的塊寬 ?k等. 步驟1.初始化訓(xùn)練集數(shù)據(jù)分塊數(shù)M=M1; 步驟2.開始模型與數(shù)據(jù)并行學(xué)習(xí); PSCN: 1) 在區(qū)間 [?λi,λi]d和 [?λi,λi] 內(nèi)隨機(jī)生成隱含層參數(shù)vL和bL,λi∈Υ,i=1,2,···,end; 2) 使用不同數(shù)據(jù)塊同步獲取PSCN 的隱含層輸出g1,L,···,gp,L,···,gM,L; 3) 根據(jù)式(19)建立候選“節(jié)點(diǎn)池”,并找出使得ξL,q最大的隨機(jī)參數(shù)和 4) 根據(jù)式(23)整合數(shù)據(jù)塊并評估PSCN的輸出權(quán)值. BSCN: 1) 在區(qū)間 [?λi,λi]?k×d和 [?λi,λi]?k×1內(nèi)隨機(jī)生成隱含層參數(shù)v?k和b?k,λi∈Υ,i=1,2,···,end; 2) 使用不同數(shù)據(jù)塊同步獲取BSCN 的隱含層輸出塊h1,k,···,hp,k,···,hM,k; 3) 根據(jù)式(20)建立候選“節(jié)點(diǎn)池”,并找出使得ξL,q最大的隨機(jī)參數(shù)和 4) 根據(jù)式(23)整合數(shù)據(jù)塊并評估BSCN 的輸出權(quán)值. 步驟3.計算PSCN 和BSCN 的訓(xùn)練殘差; 步驟4.通過比較殘差擇優(yōu)選取模型參數(shù)并用于更新另一個模型的隱含層節(jié)點(diǎn)數(shù)L; 步驟5.更新下一次迭代中訓(xùn)練數(shù)據(jù)的分塊數(shù)M=Mk+1(L); 步驟6.重復(fù)上述步驟,直至模型達(dá)到停止標(biāo)準(zhǔn); 步驟7.返回最終模型參數(shù)v?,b?和β?. 注3.神經(jīng)網(wǎng)絡(luò)的模型精度會隨隱含層節(jié)點(diǎn)數(shù)的增加而逐漸提高,但當(dāng)節(jié)點(diǎn)數(shù)過多時會使訓(xùn)練誤差變小而測試誤差增大,即過擬合現(xiàn)象.本文所提方法達(dá)到停止條件時立即結(jié)束迭代,不再繼續(xù)增加隱含層節(jié)點(diǎn),在一定程度上避免了過擬合現(xiàn)象. 注4.為盡可能地提高學(xué)習(xí)效率,需要多次隨機(jī)配置隱含層參數(shù),以建立候選"節(jié)點(diǎn)池",從而尋找出最佳的隱含層節(jié)點(diǎn).Tmax決定著隨機(jī)配置隱含層參數(shù)的次數(shù),過大增加計算損耗、過小不利于候選“節(jié)點(diǎn)池”的建立[14].此外,隱含層參數(shù)分配區(qū)間集Υ={λ1,λ2,···,λend}可設(shè)置從λ1到λend逐漸增長,學(xué)習(xí)過程從λ1開始逐次選擇.以PSCN 為例:首先在[?λ1,λ1]d和[?λ1,λ1]內(nèi)隨機(jī)生成Tmax組隱含層參數(shù)vL和bL,并從后續(xù)所建立的候選"節(jié)點(diǎn)池"中找出最佳的一組隨機(jī)參數(shù)和;若候選"節(jié)點(diǎn)池"為空,則從參數(shù)集Υ中選擇λ2,調(diào)節(jié)分配區(qū)間,進(jìn)而重復(fù)上述步驟. 本文選取收斂性和緊致性作為衡量模型質(zhì)量的評價指標(biāo).其中收斂性在數(shù)值上表現(xiàn)為殘差序列的遞減程度,可采用達(dá)到期望容忍誤差時的學(xué)習(xí)時間來衡量,收斂性好有利于建模的快速性.緊致性表現(xiàn)為網(wǎng)絡(luò)尺寸,可采用達(dá)到期望容忍誤差時的隱含層節(jié)點(diǎn)數(shù)來度量,模型不緊致往往包含不必要的冗余節(jié)點(diǎn),不利于泛化性能,且會顯著增加計算空間和硬件實(shí)現(xiàn)的成本.此外,采用均方根誤差(Root mean squares error,RMSE)計算建模精度,均值(Mean)和標(biāo)準(zhǔn)差(Standard deviation,Std)則分別用來反映模型性能的平均值和離散程度. 為驗(yàn)證本文所提混合并行增量學(xué)習(xí)模型的有效性,將傳統(tǒng)SCNs (SC-III)[14]、塊增量SCNs (BSCI)[26]和混合并行隨機(jī)配置網(wǎng)絡(luò)(HPSCNs)分別對大數(shù)據(jù)建模并根據(jù)評價指標(biāo)進(jìn)行性能評估.仿真實(shí)驗(yàn)在MATLAB 2016a 環(huán)境下運(yùn)行,所用PC 的CPU為i5,3.4 GHz,內(nèi)存為16 GB RAM. 4 個不同領(lǐng)域的基準(zhǔn)數(shù)據(jù):DB1 (SGEMM GPU Kernel Performance Data Set)、DB2 (Electrical Grid Stability Simulated Data Set)、DB3(Mv Data Set) 和DB4 (Pole Telecommunications Data Set)來自UCI (University of California at Irvine)[27]和KEEL (Knowledge Extraction based on Evolutionary Learning)[28]. 所選數(shù)據(jù)集信息見表1.針對每個大規(guī)模數(shù)據(jù),我們隨機(jī)選取80 %的樣本作為訓(xùn)練集,余下的20 %作為測試集. 表1 基準(zhǔn)數(shù)據(jù)集說明Table 1 Specification of benchmark data sets 在數(shù)據(jù)預(yù)處理階段,輸入輸出樣本均被歸一化至[?1,1].實(shí)驗(yàn)參數(shù)設(shè)定如下: 最大迭代次數(shù)kmax=300; 最大隨機(jī)配置次數(shù)Tmax=10; 隨機(jī)參數(shù)范圍λ∈{1,10,50,100,150,200}; 學(xué)習(xí)參數(shù)r∈{0.9,0.99,0.999,···}; 容忍誤差ε=0.1(DB1 和DB2),ε=0.01(DB3 和DB4); 不同BSCN 每次迭代的塊寬分別取固定值?k=1、3、5; 大規(guī)模訓(xùn)練集分塊基數(shù)M0=4,第k次迭代時分塊數(shù)遞增區(qū)間長度取50,100,150,···,具體對應(yīng)關(guān)系見表2. 表2 分塊數(shù)遞增區(qū)間長度及其上下界Table 2 Incremental interval length of block number and its upper and lower bounds 因此,根據(jù)式(24)可得 為了便于描述,本文以下標(biāo)的形式表示BSC-I算法中的塊寬,以上下標(biāo)的形式分別表示HPSCNs中左側(cè)隨機(jī)配置網(wǎng)絡(luò)PSCN 和右側(cè)隨機(jī)配置網(wǎng)絡(luò)BSCN 的塊寬.如BSC-I3表示其每次迭代添加3個隱含層節(jié)點(diǎn);表示本文所提方法中PSCN每次迭代添加1 個隱含層節(jié)點(diǎn),而BSCN 每次迭代添加3 個隱含層節(jié)點(diǎn).需要指出的是,點(diǎn)增量構(gòu)建方式是塊增量中 ?k取1 的特例. 表3 記錄了不同算法50 次獨(dú)立實(shí)驗(yàn)結(jié)果的均值和標(biāo)準(zhǔn)差(Mean±Std).通過比較SC-III、BSC-I3和BSC-I5可以看出,隨著塊寬?k取值的增加,達(dá)到期望容忍誤差ε時所需要的迭代次數(shù)k明顯降低,建模時間t顯著減少,即塊增量的構(gòu)建方式可以有效加快傳統(tǒng)SCNs 的收斂速度;然而,塊增量SCNs 需要更多的節(jié)點(diǎn)數(shù)L,導(dǎo)致網(wǎng)絡(luò)復(fù)雜度增加,不利于模型泛化性能.這是因?yàn)閺奶卣鲗W(xué)習(xí)的角度來說,殘差序列單調(diào)遞減,尚未學(xué)習(xí)的特征也會隨著增量學(xué)習(xí)的過程減少,然而BSC-I3和BSC-I5在每次迭代中采用固定的塊寬,不可避免地導(dǎo)致了特征(節(jié)點(diǎn))的冗余.尤其在構(gòu)建過程后期,每次迭代中節(jié)點(diǎn)塊對于建模的貢獻(xiàn)近似于單個節(jié)點(diǎn),卻徒增了網(wǎng)絡(luò)復(fù)雜度.因此,塊增量SCNs 是一種以犧牲模型緊致性為代價的極速建模方法. 表3 不同算法性能比較Table 3 Performance comparison of different algorithms 1)數(shù)據(jù)并行通過使用動態(tài)分塊策略并同步獲取隱含層輸出,加快了候選“節(jié)點(diǎn)池”的建立;同時,針對大數(shù)據(jù)本文所提方法采用式(23)整合數(shù)據(jù)塊并計算輸出權(quán)值,在很大程度上降低了廣義逆運(yùn)算負(fù)擔(dān); 2)模型并行通過單次迭代中PSCN 與BSCN獨(dú)立地同步建模,完成當(dāng)前迭代后選擇獲得殘差較小的模型參數(shù).其中,HPSCNs 中的BSCN 采用塊增量的構(gòu)建方式,具有較快的收斂性;PSCN 采用點(diǎn)增量的構(gòu)建方式,從而準(zhǔn)確地找到最佳隱含層節(jié)點(diǎn)數(shù).模型并行增量學(xué)習(xí)也有效減少了迭代次數(shù). 為了評估模型的綜合性能,圖3 給出不同算法對數(shù)據(jù)集DB1-DB4 的建模時間(t)和隱含層節(jié)點(diǎn)數(shù)(L).其中,t和L均歸一化處理至[0,1],并表示對應(yīng)性能指標(biāo)的得分情況.如:在DB1 建模任務(wù)中,SC-III 相比其他算法用時最長,其t對應(yīng)的得分為1、BSC?I5所需節(jié)點(diǎn)數(shù)最多,其L對應(yīng)的得分為1.顯然,分?jǐn)?shù)越低,性能越好.因此,由圖3 可以看出,本文所提混合并行增量學(xué)習(xí)方法具有較好的綜合性能,且最佳. 圖3 不同算法綜合性能比較Fig.3 Comparison of comprehensive performance of different algorithms 其中nL和nR分別表示每次迭代PSCN 和BSCN貢獻(xiàn)最佳模型參數(shù)的次數(shù),則Eff正比于nL. 表4 記錄了HPSCNs 中BSCN 選擇不同塊寬?k時的模型并行情況.可以看出,對于DB1-DB4,隨著 ?k的增加,Eff的數(shù)值越來越小,如?k=10時,的Eff最低,此時PSCN 基本上失去了其在模型并行中的作用.因此,考慮模型的綜合性能,使用HPSCNs 進(jìn)行大數(shù)據(jù)建模時,其BSCN的塊寬建議取 ?k∈{1,2,3}. 表4 不同塊寬的算法性能比較Table 4 Performance comparison of algorithms with different block sizes 將所提方法應(yīng)用在典型一段磨礦過程,建立以磨機(jī)給礦量、磨機(jī)入口給水量和分級機(jī)溢流質(zhì)量濃度為輸入,以磨礦粒度為輸出的軟測量模型.從磨礦半實(shí)物仿真平臺[29]中采集20 000 訓(xùn)練樣本和5 000 測試樣本,設(shè)置容忍誤差ε=0.05,塊寬?k=3,其余實(shí)驗(yàn)參數(shù)設(shè)定同比較實(shí)驗(yàn)部分. 圖4 和圖5 分別為基于HPSCNs 的磨礦粒度軟測量模型的收斂特性和逼近特性.由圖4 可以看出,在訓(xùn)練過程中所提方法具有較好的收斂效果,且在接近容忍誤差前殘差序列能夠快速下降.為了便于觀察,這里僅取500 個測試數(shù)據(jù)的逼近效果(如圖5 所示),從中可以看出模型輸出與真實(shí)值基本吻合,可以實(shí)現(xiàn)磨礦粒度的準(zhǔn)確估計. 圖4 模型的收斂曲線Fig.4 Convergence curve of HPSCNs 此外,從圖5 可知,所建立磨礦粒度軟測量模型在達(dá)到期望精度時,建模時間較快,網(wǎng)絡(luò)結(jié)構(gòu)簡單,具有良好的泛化性能;Eff=25.0 %,其中左側(cè)點(diǎn)增量網(wǎng)絡(luò)(PSCN)、右側(cè)塊增量網(wǎng)絡(luò)(BSCN)貢獻(xiàn)最佳模型參數(shù)的次數(shù)分別為3 和9,說明模型具有較高的有效性.需要指出的是,上述礦粒度軟測量模型是通過輸入特性維數(shù)較少的樣本建立的,本文所提方法應(yīng)用到其他數(shù)據(jù)維數(shù)較多的工業(yè)案例中,將會取得更好的優(yōu)勢.同時在多維大數(shù)據(jù)應(yīng)用時,還可以考慮并行節(jié)點(diǎn)池構(gòu)建策略,以提高學(xué)習(xí)速度. 圖5 模型的逼近特性Fig.5 Approximation performance of HPSCNs 本文基于隨機(jī)配置網(wǎng)絡(luò)提出了一種模型與數(shù)據(jù)混合并行的增量學(xué)習(xí)方法.實(shí)際數(shù)據(jù)仿真研究表明:與傳統(tǒng)SCNs 和塊增量SCNs 相比,本文所提方法大大降低了計算量,提高了資源利用率,所建立模型綜合性能好,且利于硬件實(shí)現(xiàn),具有良好的實(shí)用價值.然而,HPSCNs 直接根據(jù)PSCN 和BSCN 的殘差選擇新增節(jié)點(diǎn),在BSCN 獲得殘差優(yōu)勢不明顯的情況下,選擇了增加節(jié)點(diǎn)塊構(gòu)建模型,不利于模型緊致性.下一步的研究目標(biāo)是進(jìn)一步提高算法的綜合性能,如針對HPSCNs 模型的有效性,建立新的模型參數(shù)交互準(zhǔn)則;在保留塊增量SCNs 極速建模優(yōu)勢的情況下,削減其中的冗余隱含層節(jié)點(diǎn).2.2 數(shù)據(jù)并行策略
2.3 HPSCNs 實(shí)現(xiàn)步驟
3 性能評估
3.1 建模數(shù)據(jù)
3.2 比較實(shí)驗(yàn)
3.3 參數(shù)討論與選擇
3.4 工業(yè)案例
4 結(jié)語