,
(上海理工大學(xué) 管理學(xué)院,上海 200093)
基于隨機(jī)旋轉(zhuǎn)集成的降維方法
王橢,肖慶憲
(上海理工大學(xué) 管理學(xué)院,上海200093)
對(duì)隨機(jī)旋轉(zhuǎn)集成方法提出了一種針對(duì)降維問題的改進(jìn),得到了新的降維算法框架進(jìn)行隨機(jī)變換降維,可以顯著減少降維過程中造成的信息損失.采用隨機(jī)變換降維后,訓(xùn)練監(jiān)督學(xué)習(xí)算法時(shí)可以獲得更高的準(zhǔn)確率和更好的泛化性能.通過在模擬數(shù)據(jù)上進(jìn)行的實(shí)驗(yàn),證明了使用多重共線性數(shù)據(jù)進(jìn)行回歸分析時(shí),與傳統(tǒng)降維算法相比,經(jīng)隨機(jī)變換降維處理后可以保留更多的信息,獲得更小的均方誤差.對(duì)隨機(jī)變換降維在手寫數(shù)字識(shí)別數(shù)據(jù)集上的表現(xiàn)進(jìn)行了研究,證明了與一般性的降維算法相比,隨機(jī)變換降維在圖像分類問題上可以獲得更高的準(zhǔn)確率.
集成學(xué)習(xí); 隨機(jī)旋轉(zhuǎn)集成; 降維; 多樣性
高維數(shù)據(jù)的處理一直是機(jī)器學(xué)習(xí)領(lǐng)域的重要問題,尤其是近年來(lái)機(jī)器學(xué)習(xí)的幾個(gè)重要應(yīng)用方向,如計(jì)算機(jī)視覺、自然語(yǔ)言處理等,都必須面對(duì)高維數(shù)據(jù)帶來(lái)的挑戰(zhàn).數(shù)據(jù)的維數(shù)越大,處理數(shù)據(jù)所需的時(shí)間消耗與儲(chǔ)存空間消耗就越大,還可能存在許多與給定任務(wù)無(wú)關(guān)的特征甚至存在大量噪聲,或是出現(xiàn)數(shù)據(jù)冗余、樣本稀疏及多重共線性問題對(duì)數(shù)據(jù)分析造成干擾.要想克服這些高維數(shù)據(jù)帶來(lái)的問題,必須對(duì)數(shù)據(jù)進(jìn)行一定的加工和處理.
在過去的幾十年里,有大量的降維方法被不斷地提出并被深入研究,其中常用的包括傳統(tǒng)的線性降維算法如PCA和LDA;核化線性降維算法如KPCA,流形學(xué)習(xí)算法如LE[1-4],ISOMAP[5-7]以及LTSA[8],度量學(xué)習(xí)算法如NCA[9].
部分降維算法如線性降維與核化線性降維試圖在降維過程中使噪聲被消去,保留盡可能多的有效信息;而另外一部分降維算法,如流形學(xué)習(xí)與度量學(xué)習(xí),則試圖找到保留數(shù)據(jù)在高維下的結(jié)構(gòu)特征的低維映射,以此來(lái)解決高維數(shù)據(jù)帶來(lái)的問題.
但是在實(shí)踐中,由于樣本與總體間的差異,噪聲有可能不會(huì)被正確的識(shí)別,樣本數(shù)據(jù)的結(jié)構(gòu)特征也可能與總體存在差異.并且,將高維空間中的數(shù)據(jù)在低維空間中表示,這一數(shù)據(jù)壓縮重構(gòu)的過程不可避免地會(huì)造成信息的損失.很多情況下,將降維后的數(shù)據(jù)用于預(yù)測(cè),其準(zhǔn)確性會(huì)低于甚至遠(yuǎn)低于采用原數(shù)據(jù)進(jìn)行預(yù)測(cè).
為解決這些問題,本文借鑒隨機(jī)旋轉(zhuǎn)集成(random rotation ensemble)的思想,并對(duì)降維問題作出了針對(duì)性改進(jìn),提出了一種新的降維算法框架隨機(jī)變換降維(RTDR).通過對(duì)原數(shù)據(jù)集進(jìn)行隨機(jī)變換,生成多個(gè)子數(shù)據(jù)集后再應(yīng)用現(xiàn)有的降維算法,然后通過stacking算法對(duì)降維后的結(jié)果進(jìn)行集成,可以極大地減少降維過程中造成的信息損失.這一過程本質(zhì)上是在保留原數(shù)據(jù)集信息的情況下,對(duì)其在高維空間內(nèi)進(jìn)行扭曲變形,然后再生成對(duì)應(yīng)的低維映射,最后將多個(gè)這樣的低維映射進(jìn)行集成.由于每個(gè)低維映射都能包含原數(shù)據(jù)集在高維空間的結(jié)構(gòu)信息,并且由于經(jīng)過隨機(jī)變換獲得,這些信息彼此之間不完全重疊.因此,在集成后,可以比單個(gè)低維映射保留更多的信息,并且在經(jīng)過隨機(jī)變換后,原數(shù)據(jù)集中可能被誤判為噪聲的一部分信息有可能在生成的子數(shù)據(jù)集中得到保留,同樣能夠得到減少信息損失的效果.
本文通過在模擬數(shù)據(jù)上的實(shí)驗(yàn),驗(yàn)證了在使用具有多重共線性的數(shù)據(jù)進(jìn)行回歸分析時(shí),隨機(jī)變換降維可以有效克服多重共線性問題.并且與傳統(tǒng)的降維算法相比,隨機(jī)變換降維提取信息更充分,得到的均方誤差更小.在經(jīng)典的MNIST手寫數(shù)字?jǐn)?shù)據(jù)集上進(jìn)行試驗(yàn),證明了在圖像分類問題中,與傳統(tǒng)降維算法相比,采用隨機(jī)變換降維準(zhǔn)確率更高.
1.1集成學(xué)習(xí)
集成學(xué)習(xí)(ensemble learning)是通過構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù)的一類算法,通過將多個(gè)學(xué)習(xí)器結(jié)合,??色@得比單一學(xué)習(xí)器顯著優(yōu)越的泛化性能[10-13].Liu[14]基于集成學(xué)習(xí)的特性提出了EasyEnsemble,用于應(yīng)對(duì)對(duì)數(shù)據(jù)集進(jìn)行欠采樣造成的信息損失.
在集成學(xué)習(xí)與降維算法結(jié)合時(shí),集成學(xué)習(xí)可以從3方面提升降維算法的性能:a.通過集成多個(gè)低維映射,可以降低有效信息被誤判為噪聲的可能;b.通過集成多個(gè)低維投影,可以最大限度地保留數(shù)據(jù)在高維空間的性質(zhì);c.通過集成多個(gè)低維投影,可以有效減少數(shù)據(jù)由高維向低維投影時(shí)造成的信息損失.
但是只有用于集成的學(xué)習(xí)器具有足夠好的多樣性時(shí)才能得到理想的效果.多樣性即個(gè)體學(xué)習(xí)器之間的差異,Krogh等[15]曾給出了誤差-分歧分解(error-ambiguity decomposition),證明了對(duì)于回歸任務(wù),集成的泛化誤差等于個(gè)體學(xué)習(xí)器泛化誤差的加權(quán)均值減去個(gè)體學(xué)習(xí)器的加權(quán)分歧,說明了構(gòu)造優(yōu)秀的集成需要選擇“好而不同”的個(gè)體學(xué)習(xí)器.
1.2隨機(jī)旋轉(zhuǎn)集成
2016年,Blaser等[16]發(fā)現(xiàn)將樣本屬性進(jìn)行隨機(jī)旋轉(zhuǎn),可以顯著增強(qiáng)基學(xué)習(xí)器的多樣性,并且基學(xué)習(xí)器的準(zhǔn)確性僅會(huì)發(fā)生小幅下降,因此可以得到效果更好的集成學(xué)習(xí)算法,并由此提出了隨機(jī)旋轉(zhuǎn)集成.
假定x=[x1,x2,x3,…,xn]T表示一個(gè)具有n個(gè)特征的樣本,D1,D2,D3,…,DL表示L個(gè)基學(xué)習(xí)器,隨機(jī)旋轉(zhuǎn)集成可由以下簡(jiǎn)單步驟來(lái)構(gòu)造:
a. 對(duì)樣本x的各特征作標(biāo)準(zhǔn)化處理;
b. 生成一個(gè)n×n的隨機(jī)旋轉(zhuǎn)矩陣Rn,i,RT=R-1,且|R|=1;
c. 將x乘以Rn,i,使特征空間進(jìn)行隨機(jī)旋轉(zhuǎn),采用旋轉(zhuǎn)后的樣本訓(xùn)練基分類器Di;
d. 重復(fù)步驟b,c;
e. 集成L個(gè)分類器的訓(xùn)練結(jié)果作為最終輸出結(jié)果.
1.3stacking算法
stacking算法由Wolpert[17]提出.stacking算法使用多個(gè)不同類型的個(gè)體分類器,且將它們分為兩層.首先使用多種不同的學(xué)習(xí)算法在同一訓(xùn)練集上進(jìn)行訓(xùn)練,生成多個(gè)基分類器.基學(xué)習(xí)器分別對(duì)每個(gè)樣本進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果作為新的屬性,與樣本的原始標(biāo)簽y結(jié)合起來(lái)作為新的訓(xùn)練集.第二層分類器在該訓(xùn)練集上進(jìn)行訓(xùn)練,得到的結(jié)果作為最終的訓(xùn)練結(jié)果.
假定x=[x1,x2,x3,…,xn]T表示一個(gè)具有n個(gè)特征的樣本,y為樣本標(biāo)簽,D1,D2,D3,…,DL表示L個(gè)初級(jí)學(xué)習(xí)器,D表示次級(jí)學(xué)習(xí)器.stacking算法可經(jīng)由以下簡(jiǎn)要步驟構(gòu)造:
a. 采用(x,y)分別訓(xùn)練初級(jí)學(xué)習(xí)器D1,D2,D3,…,DL,得到的輸出結(jié)果為Z1,Z2,Z3,…,ZL;
b. 構(gòu)造新的數(shù)據(jù)集Z=[Z1,Z2,Z3,…,Zn]T;
c. 采用(Z,y)訓(xùn)練次級(jí)學(xué)習(xí)器D,得到的輸出作為最終的輸出結(jié)果.
1.4主成分分析(PCA)
主成分分析(principal components analysis,PCA)[18-20]是一種經(jīng)典的線性降維方法,它將一組觀測(cè)變量X1,X2,…,Xn通過線性變化,轉(zhuǎn)化為一組互不相關(guān)的變量W1,W2,…,Wn,稱之為主成分.在變化過程中保持總方差不變,然后根據(jù)方差大小從W1,W2,…,Wn中挑出k(k a. 求初始矩陣X的n×n階相關(guān)系數(shù)矩陣R; b. 求相關(guān)系數(shù)矩陣R的特征值λ1≥λ2≥λ3≥…≥λn,以及與各特征值相對(duì)應(yīng)的一組長(zhǎng)度為1且相互正交的特征向量a1,a2,…,an; 本文在MNIST數(shù)據(jù)集上采用RTDR與PCA進(jìn)行了對(duì)比,驗(yàn)證了RTDR減少信息損失的效果. 2.1原理 本文基于隨機(jī)旋轉(zhuǎn)集成的思想,提出了一種新的降維算法——隨機(jī)變換降維RTDR (random transform dimensionality reduction).對(duì)于降維而言,通過集成學(xué)習(xí)可以綜合多個(gè)高維數(shù)據(jù)的低維映射信息,減少降維過程中的信息損失.以主成分分析為例,主成分分析構(gòu)建了一個(gè)具有最大可分性的超平面(樣本點(diǎn)在這個(gè)超平面上的投影能盡可能分開),以此來(lái)盡可能保存樣本在高維空間的信息.但是事實(shí)上,其他方向的超平面同樣可以保存樣本的信息,并且性能可以接近于具有最大可分性的超平面.集合多個(gè)不同投影方向的信息,可以盡可能地還原出原數(shù)據(jù)集的信息,幾何中的三視圖則是這一思想的典型案例.將三維立體圖形投影成3個(gè)二維圖形(俯視圖、正視圖、側(cè)視圖),通過觀察對(duì)比這3個(gè)圖形,能夠了解這一立體圖形的形狀和結(jié)構(gòu).但是很多情況下,只用一個(gè)投影,無(wú)法反映一個(gè)立體圖形的結(jié)構(gòu). 為集成多個(gè)高維數(shù)據(jù)的低維映射的信息,RTDR以stacking算法為基礎(chǔ)進(jìn)行集成,以多個(gè)低維投影上的學(xué)習(xí)器的輸出作為次級(jí)學(xué)習(xí)器的輸入,通過這種形式實(shí)現(xiàn)集成多個(gè)低維投影的信息.stacking算法通常可以獲得比個(gè)體學(xué)習(xí)器更好的性能[17],并已在有監(jiān)督學(xué)習(xí)(如回歸[21]、分類及距離[22])和無(wú)監(jiān)督學(xué)習(xí)(如密度估計(jì)[23])上都取得了巨大的成功. 但是,Wolpert曾指出stacking方法的一個(gè)難點(diǎn)是如何為每個(gè)特定領(lǐng)域數(shù)據(jù)集配置合適的基分類器和元分類器(第二層學(xué)習(xí)器).因?yàn)榈谝粚訉W(xué)習(xí)器之間的差異需要盡可能的大(否則輸出結(jié)果幾乎一致,第二層學(xué)習(xí)器將面對(duì)嚴(yán)重的多重共線性問題),通常第一層學(xué)習(xí)器需要選擇不同類型的學(xué)習(xí)器進(jìn)行組合,如將隨機(jī)森林和logistic回歸進(jìn)行組合.但是,對(duì)特定問題,不同類型的學(xué)習(xí)器往往性能差異較大,用隨機(jī)森林取得較高的準(zhǔn)確率,而用logistic回歸取得的正確率則較低.這樣一來(lái),較差的學(xué)習(xí)器的性能將會(huì)拖累學(xué)習(xí)器的整體性能,甚至可能出現(xiàn)集成后的學(xué)習(xí)器的性能比單個(gè)的優(yōu)秀學(xué)習(xí)器的性能要差. 隨機(jī)旋轉(zhuǎn)集成可以在不損失原數(shù)據(jù)集信息的情況下生產(chǎn)多個(gè)子數(shù)據(jù)集,顯著提升集成效果.將隨機(jī)旋轉(zhuǎn)集成應(yīng)用于stacking算法,可以解決stacking算法基學(xué)習(xí)器選擇難的問題,只需選擇最恰當(dāng)一類的學(xué)習(xí)器,然后通過隨機(jī)旋轉(zhuǎn)集成技術(shù),即可獲得任意多個(gè)新的差異較大但準(zhǔn)確率接近的學(xué)習(xí)器. 隨機(jī)旋轉(zhuǎn)集成通過旋轉(zhuǎn)的方式保留了子數(shù)據(jù)集的空間結(jié)構(gòu)信息,通過將樣本乘RT=R-1,且|R|=1的矩陣以隨機(jī)角度進(jìn)行旋轉(zhuǎn)來(lái)生成子數(shù)據(jù)集.在監(jiān)督學(xué)習(xí)問題上,這一方法在盡可能多地保留樣本信息的情況下實(shí)現(xiàn)了多樣性.但是,在降維問題上,由于子數(shù)據(jù)集的空間結(jié)構(gòu)都是一致的,降維得到的結(jié)果反而失去了多樣性,難以起到集成的效果和減少降維造成的信息損失. 為此,本文對(duì)具有n個(gè)特征的樣本生成n×n的隨機(jī)矩陣,隨機(jī)矩陣由n個(gè)標(biāo)準(zhǔn)化的隨機(jī)向量組成,將樣本乘以隨機(jī)矩陣進(jìn)行隨機(jī)變換,得到的新樣本的各個(gè)特征都是原樣本特征的線性組合,因此保留了原樣本的絕大部分信息.并且由于新樣本的每個(gè)特征都是原樣本的特征乘以隨機(jī)權(quán)重而獲得,與隨機(jī)旋轉(zhuǎn)集成相比,對(duì)樣本的空間結(jié)構(gòu)進(jìn)行一定程度的扭曲變形,實(shí)現(xiàn)了降維的多樣性,保證了對(duì)降維進(jìn)行集成的效果. 通過在模擬數(shù)據(jù)上的實(shí)驗(yàn)可以發(fā)現(xiàn),在數(shù)據(jù)具有多重共線性問題時(shí),進(jìn)行回歸估計(jì)會(huì)產(chǎn)生嚴(yán)重的偏差.在經(jīng)過降維算法處理后,可以有效減小多重共線性造成的負(fù)面影響.而與一般性的降維算法相比,通過隨機(jī)變換降維,可以獲得更好的性能,進(jìn)行預(yù)測(cè)得到的均方誤差更小,并且殘差更貼近于白噪聲. 由于圖像處理問題中,數(shù)據(jù)維度往往會(huì)遠(yuǎn)大于樣本量,如果不進(jìn)行降維處理,則難以對(duì)圖片進(jìn)行分類或者識(shí)別,因此本文在手寫數(shù)字識(shí)別數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn).從本文實(shí)驗(yàn)結(jié)果可以看到,在通過隨機(jī)變換得到的新樣本上進(jìn)行降維,然后再應(yīng)用多層感知機(jī)(MLP),可以取得與直接在原數(shù)據(jù)上進(jìn)行降維然后再應(yīng)用MLP同等水平的準(zhǔn)確性,甚至有些情況下準(zhǔn)確性會(huì)更高.并且將多個(gè)隨機(jī)變換后的樣本降維再進(jìn)行集成,從實(shí)驗(yàn)結(jié)果來(lái)看,準(zhǔn)確性可以得到巨大的提升,降維程度越大提升效果越明顯.這充分說明了隨機(jī)變換降維(RTDR)生成的子數(shù)據(jù)集不僅保留了原數(shù)據(jù)集的絕大部分信息,并且具有多樣性,獲得了集成學(xué)習(xí)所需要的“好而不同”的基學(xué)習(xí)器,也證明了RTDR可以減少降維帶來(lái)的信息損失. 2.2步驟 假定x=[x1,x2,x3,…,xn]T表示一個(gè)具有n個(gè)特征的樣本,y為樣本標(biāo)簽,D1,D2,D3,…,DL表示L個(gè)基學(xué)習(xí)器,D為次級(jí)學(xué)習(xí)器(本文實(shí)驗(yàn)中基學(xué)習(xí)器與次級(jí)學(xué)習(xí)器都采用MLP),F為降維算法(本文實(shí)驗(yàn)中采用PCA),RTDR可由以下步驟進(jìn)行構(gòu)造,算法的流程如圖1所示. 圖1 隨機(jī)變換降維算法流程圖Fig.1 Flow chart of the random transform dimension reduction algorithm b. 生成L個(gè)n×n隨機(jī)變換矩陣R; e. 采用降維后的樣本分別訓(xùn)練初級(jí)學(xué)習(xí)器D1,D2,D3,…,DL,得到 其中,Ωi為Di的參數(shù),Loss為指定的損失函數(shù); g. 采用(Z,y)訓(xùn)練次級(jí)學(xué)習(xí)器D,得到的輸出作為最終的輸出結(jié)果. 其中隨機(jī)變換矩陣根據(jù)以下方式構(gòu)造: (b) 重復(fù)以上步驟,獲得n個(gè)向量w1,w2,…,wn,R=[w1,w2,…,wn]. 3.1實(shí)驗(yàn)介紹 多重共線性是指線性回歸模型中的解釋變量之間由于存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系,而使模型估計(jì)失真或難以估計(jì)準(zhǔn)確的問題,在經(jīng)濟(jì)學(xué)研究中屬于非常常見的現(xiàn)象.經(jīng)濟(jì)變量往往存在共同的趨勢(shì),或是在模型中引入了滯后項(xiàng),這些都會(huì)導(dǎo)致多重共線性問題.通過降維算法對(duì)數(shù)據(jù)進(jìn)行處理,是應(yīng)對(duì)多重共線性的方法之一,經(jīng)過降維處理后,可以獲得更為穩(wěn)定而準(zhǔn)確的估計(jì)結(jié)果. 但是,在降維過程中,不可避免會(huì)拋棄一部分信息.以PCA為例,除了方差最大的若干個(gè)方向上的信息被保留外,其他信息都被舍棄了.通常假定這一部分信息是與因變量無(wú)關(guān)的,屬于噪聲,但這一假定并不總是成立.如圖2所示,最大方差方向上的信息對(duì)判斷樣本點(diǎn)屬于“”還是“”毫無(wú)幫助. 隨機(jī)變換降維相對(duì)于傳統(tǒng)的降維算法而言,可以保留更多的信息,并且通過集成,可以拓展算法的假設(shè)空間.因而在出現(xiàn)數(shù)據(jù)的特征不符合降維算法的假定時(shí),采用隨機(jī)變換降維處理后對(duì)數(shù)據(jù)進(jìn)行回歸分析得到的均方誤差會(huì)更小,預(yù)測(cè)結(jié)果更準(zhǔn)確. 圖2 模擬數(shù)據(jù)散點(diǎn)圖Fig.2 Scatter plot of simulated data 3.2數(shù)據(jù)構(gòu)造 模擬實(shí)驗(yàn)采用的數(shù)據(jù)通過以下方式構(gòu)造: a. 構(gòu)造n維隨機(jī)向量a,k維隨機(jī)向量b,向量中的元素相互獨(dú)立且服從均值為0,標(biāo)準(zhǔn)差為σ的正態(tài)分布. b. 構(gòu)造n維隨機(jī)向量xk+1,xk+2,…,xm(m>k),xk+1,xk+2,…,xm之間相互獨(dú)立,且向量中的元素相互獨(dú)立且服從標(biāo)準(zhǔn)正態(tài)分布.令x=aT×b, 由于完全的多重共線性在實(shí)際問題中較少出現(xiàn),因此再對(duì)X中所有元素加上隨機(jī)擾動(dòng),擾動(dòng)項(xiàng)服從標(biāo)準(zhǔn)正態(tài)分布. c. 對(duì)XT進(jìn)行奇異值分解,得到XT=WΣVT,其中m×m矩陣W是XTX的本征矢量矩陣,Σ是m×n的非負(fù)矩形對(duì)角矩陣,V是XXT的本征矢量矩陣. e. 以n行m列矩陣X作為自變量,n維向量Y作為因變量,構(gòu)造成實(shí)驗(yàn)所需的數(shù)據(jù)集,在實(shí)際實(shí)驗(yàn)操作中,n與m設(shè)置為1 000. 3.3實(shí)驗(yàn)設(shè)置 本文采用隨機(jī)生成的1 000個(gè)樣本進(jìn)行實(shí)驗(yàn),其中600個(gè)樣本用于訓(xùn)練,400個(gè)樣本用于預(yù)測(cè).回歸分析采用多元線性模型,RTDR以多元線性模型為基學(xué)習(xí)器和次學(xué)習(xí)器,用于對(duì)照的降維算法為PCA.實(shí)驗(yàn)首先不作降維處理,直接應(yīng)用多元線性回歸并觀察結(jié)果,然后分別應(yīng)用RTDR與PCA將原數(shù)據(jù)由1 000維降至200維、190維……直到降至10維,并分別在降維后的數(shù)據(jù)集上應(yīng)用多元線性回歸模型并觀察結(jié)果. 3.4實(shí)驗(yàn)結(jié)果 實(shí)驗(yàn)對(duì)具有多重共線性的模擬數(shù)據(jù)進(jìn)行回歸分析,分別采用了PCA和隨機(jī)變換降維對(duì)數(shù)據(jù)進(jìn)行了處理.在未進(jìn)行降維處理前,直接采用多元線性回歸得到的均方誤差(MSE)為29.73,而經(jīng)降維處理后,均方誤差可以縮減為原來(lái)的10%左右,可以有效克服多重共線性對(duì)回歸分析的影響.并且,采用隨機(jī)變換降維得到的MSE更小,說明經(jīng)隨機(jī)變換降維處理,可以得到更準(zhǔn)確的預(yù)測(cè)結(jié)果.均方誤差對(duì)比結(jié)果如圖3所示. 實(shí)驗(yàn)還對(duì)經(jīng)RTDR與PCA處理后采用多元線性回歸模型進(jìn)行預(yù)測(cè)得到的殘差進(jìn)行比較.圖4為通過RTDR與PCA將原數(shù)據(jù)降至150維時(shí),對(duì)多元線性回歸得到的殘差采用P-P圖進(jìn)行檢驗(yàn),觀察是否殘差符合正態(tài)分布. 圖3 RTDR與PCA的均方誤差比較Fig.3 Comparison between the MSEs of RTDR and PCA 可以看到,RTDR的殘差基本分布在P-P圖的對(duì)角線上,與PCA得到的殘差相比,與對(duì)角線的偏離程度要更小,說明RTDR的殘差要更接近于正態(tài)分布.再對(duì)RTDR與PCA得到的殘差進(jìn)行觀察,兩者的標(biāo)準(zhǔn)差、偏度、峰度如表1所示. 圖4 RTDR與PCA的殘差P-P圖比較Fig.4 Comparison between the P-P plots of RTDR’s residual and PCA 表1 RTDR與PCA殘差的標(biāo)準(zhǔn)差、偏度、峰度比較Tab.1 Comparison between the standard deviations,skewnesses and kurtosises of RTDR’s residual and PCA 可以看到,RTDR殘差的標(biāo)準(zhǔn)差更小,說明殘差的分布要更為集中.盡管峰度與PCA得到的殘差峰度相似,但偏度明顯要比PCA的偏度更小,進(jìn)一步說明RTDR的殘差更接近于正態(tài)分布. 從模擬數(shù)據(jù)的結(jié)果可以看到,經(jīng)過RTDR處理后再進(jìn)行多元線性回歸,不僅有效克服了多重共線性問題,并且相對(duì)于PCA而言,RTDR得到的預(yù)測(cè)結(jié)果更為穩(wěn)定、準(zhǔn)確,并且對(duì)信息的提取更為充分. 4.1實(shí)驗(yàn)數(shù)據(jù) 在圖像處理問題中,由于圖片可能具有千萬(wàn)級(jí)的像素,將圖片轉(zhuǎn)換為數(shù)據(jù)后,數(shù)據(jù)的維度也將是千萬(wàn)級(jí)的,遠(yuǎn)遠(yuǎn)大于可用于訓(xùn)練算法的樣本數(shù)量,因而圖像處理問題是降維算法的重要應(yīng)用領(lǐng)域之一.因此,本文通過MNIST (mixed national institute of standards and technology database)數(shù)據(jù)集上的實(shí)驗(yàn),檢驗(yàn)了在圖像分類問題中隨機(jī)變換降維的性能,并與一般的降維算法進(jìn)行了比較. MNIST數(shù)據(jù)集是一個(gè)大型的手寫數(shù)字識(shí)別數(shù)據(jù)集,是驗(yàn)證圖像處理算法的常用數(shù)據(jù)集之一,也被廣泛應(yīng)用于訓(xùn)練和測(cè)試機(jī)器學(xué)習(xí)算法.MNIST數(shù)據(jù)集來(lái)源于NIST數(shù)據(jù)集,有訓(xùn)練集60 000例,測(cè)試集10 000例. MNIST數(shù)據(jù)集中的每一張圖片都是0~9的單個(gè)數(shù)字,每一張都是抗鋸齒(anti-aliasing)的灰度圖,圖片大小28×28像素,數(shù)字部分被歸一化為20×20的大小,位于圖片的中間位置,保持了原來(lái)形狀的比例.MNIST數(shù)據(jù)集中的圖片如圖5所示. 圖5 MNIST數(shù)據(jù)集中的圖片F(xiàn)ig.5 Images in MNIST dataset MNIST數(shù)據(jù)集的來(lái)源是兩個(gè)數(shù)據(jù)集的混合:一個(gè)來(lái)自Census Bureau employees (SD-3);一個(gè)來(lái)自high-school students (SD-1).有訓(xùn)練樣本60 000個(gè),測(cè)試樣本10 000個(gè).訓(xùn)練樣本和測(cè)試樣本中,employee和student寫的各占一半.60 000個(gè)訓(xùn)練樣本一共由250個(gè)人寫,訓(xùn)練樣本和測(cè)試樣本的來(lái)源人群沒有交集,MNIST數(shù)據(jù)庫(kù)也保留了手寫數(shù)字與身份的對(duì)應(yīng)關(guān)系.實(shí)驗(yàn)中,MNIST中的每張圖片被表示成784維的向量. 4.2實(shí)驗(yàn)設(shè)置 本文在MNIST數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別通過RTDR與PCA將MNIST數(shù)據(jù)集中的樣本由784維降至100維、50維、25維、10維、3維、1維,并應(yīng)用MLP在降維后的樣本上進(jìn)行訓(xùn)練,比較MLP在不同降維處理后的效果. MLP的參數(shù)設(shè)置為,隱層數(shù)(hidden layer sizes)=50,最大迭代次數(shù)(max iter)=10,L1罰系數(shù)alpha=0.000 1,優(yōu)化方法為sgd,學(xué)習(xí)率為0.1. 4.3RTDR基學(xué)習(xí)器與PCA的比較結(jié)果 RTDR首先會(huì)通過隨機(jī)變換生成多個(gè)子數(shù)據(jù)集,在子數(shù)據(jù)集上經(jīng)過PCA處理后應(yīng)用MLP作為基學(xué)習(xí)器,基學(xué)習(xí)器的輸出作為次級(jí)學(xué)習(xí)器的輸入.為驗(yàn)證隨機(jī)變換不會(huì)損失原數(shù)據(jù)集的信息,本文通過實(shí)驗(yàn)對(duì)比了RTDR基學(xué)習(xí)器的訓(xùn)練準(zhǔn)確率與直接通過PCA處理后的數(shù)據(jù)集上MLP的準(zhǔn)確率,比較結(jié)果如表2所示. 可以看到,RTDR的基學(xué)習(xí)器(經(jīng)過隨機(jī)變換后采用PCA處理然后應(yīng)用MLP)的訓(xùn)練準(zhǔn)確率與在直接PCA降維后的數(shù)據(jù)上采用MLP的準(zhǔn)確率非常接近,在部分情況下甚至?xí)哂谥苯硬捎肞CA降維的數(shù)據(jù)的準(zhǔn)確率,說明經(jīng)過隨機(jī)變換的處理不會(huì)造成原數(shù)據(jù)集的信息損失. 4.4RTDR次級(jí)學(xué)習(xí)器與PCA的比較結(jié)果 RTDR基學(xué)習(xí)器的輸出作為次級(jí)學(xué)習(xí)器的輸入,次級(jí)學(xué)習(xí)器的輸出為最終的輸出結(jié)果.本文將RTDR次級(jí)學(xué)習(xí)器的準(zhǔn)確率與經(jīng)過PCA處理后的數(shù)據(jù)集進(jìn)行比較,驗(yàn)證RTDR可以顯著地減少降維帶來(lái)的信息損失. 圖6和圖7為通過PCA與RTDR將MNIST數(shù)據(jù)集中的數(shù)據(jù)降至100維、50維、25維、10維、5維、3維、1維時(shí),在PCA處理過的數(shù)據(jù)上應(yīng)用MLP和在RTDR處理過的數(shù)據(jù)上應(yīng)用MLP作為次級(jí)學(xué)習(xí)器時(shí),兩者的準(zhǔn)確率差異.可以看到,隨著降維程度的增加,PCA與RTDR處理的數(shù)據(jù)上應(yīng)用MLP的準(zhǔn)確率都在不斷下降,說明降維的過程中必然會(huì)帶來(lái)信息損失,影響在降維后的數(shù)據(jù)集上采用監(jiān)督學(xué)習(xí)算法進(jìn)行預(yù)測(cè)的準(zhǔn)確率.但是采用RTDR準(zhǔn)確率的下降速率要明顯低于采用PCA,在最低端情況下,將原數(shù)據(jù)集降至1維,采用PCA僅有0.3左右的準(zhǔn)確率,但是采用RTDR仍然能有接近0.7的準(zhǔn)確率.不同降維幅度下PCA與RTDR的次級(jí)學(xué)習(xí)器的準(zhǔn)確率比較如圖6和圖7所示. 表2 RTDR基學(xué)習(xí)器與PCA訓(xùn)練準(zhǔn)確率比較Tab.2 Comparison between the accuracies of the RTDR’s base learner and the training of PCA 圖6 RTDR次級(jí)學(xué)習(xí)器與PCA訓(xùn)練準(zhǔn)確率比較Fig.6 Comparison between the accuracies of the RTDR’s secondary learner and the training of PCA 圖7 RTDR次級(jí)學(xué)習(xí)器與PCA測(cè)試準(zhǔn)確率比較Fig.7 Comparison between the accuracies of the RTDR’s secondary learner and the testing of PCA 從實(shí)驗(yàn)結(jié)果可以看到,采用RTDR可以顯著減少降維過程中帶來(lái)的信息損失,經(jīng)過RTDR處理后,可以有效解決多重共線性問題,并且用于預(yù)測(cè)時(shí),相對(duì)于傳統(tǒng)的降維算法可以獲得更高的準(zhǔn)確性和穩(wěn)定性,并且提取信息更充分.采用RTDR進(jìn)行降維的計(jì)算復(fù)雜度要高于直接采用PCA,但是RTDR的結(jié)構(gòu)可以使其自然地采用分布式計(jì)算,減少計(jì)算所需要消耗的時(shí)間.但是,RTDR仍然存在有待改進(jìn)的地方,主要包括兩點(diǎn):a.只適用于定量數(shù)據(jù),不適合定性數(shù)據(jù),對(duì)定性數(shù)據(jù)采用RTDR難以取得良好的效果也缺乏可解釋性;b.RTDR只適用于將數(shù)據(jù)進(jìn)行降維然后進(jìn)行預(yù)測(cè)的問題,即只適用于監(jiān)督學(xué)習(xí)的場(chǎng)景,對(duì)于無(wú)監(jiān)督學(xué)習(xí)的情況不能采用RTDR. [1] BELKIN M,NIYOGI P.Laplacian eigenmaps for dimensionality reduction and data representation[J].Neural Computation,2003,15(6):1373-1396. [2] FRANZ T,ZIMMERMANN R,G?RTZ S.Adaptive sampling for nonlinear dimensionality reduction based on manifold learning[M]∥BENNER P,OHLBERGER M,PATERA A,et al.Model Reduction of Parametrized Systems.Cham:Springer,2017. [3] LIU Y,GU Z L, CHEUNG Y M,et al.Multi-view manifold learning for media interestingness prediction[C]∥Proceedings of the 2017 ACM on International Conference on Multimedia Retrieval.Bucharest,Romania:ACM,2017:308-314. [4] YANG L,WANG X.Online Appearance manifold learning for video classification and clustering[C]∥International Conference on Computational Science and Its Applications.Beijing:Springer,2016:551-561. [5] TENENBAUM J B,DE SILVA V,LANGFORD J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(5500):2319-2323. [6] YANG B,XIANG M,ZHANG Y P.Multi-manifold discriminant Isomap for visualization and classification[J].Pattern Recognition,2016,55:215-230. [7] QU T,QU T,CAI Z X,et al.An improved Isomap method for manifold learning[J].International Journal of Intelligent Computing and Cybernetics,2017,10(1):30-40. [8] ZHANG Z Y,ZHA H Y.Principal manifolds and nonlinear dimensionality reduction via tangent space alignment[J].Journal of Shanghai University (English Edition),2004,8(4):406-424. [9] GOLDBERGER J,ROWEIS S,HINTON G E,et al.Neighbourhood components analysis[C]∥Proceedings of the Conference on Neural Information Processing Systems.Cambridge:MIT Press,2004. [10] OPITZ D,MACLIN R.Popular ensemble methods:an empirical study[J].Journal of Artificial Intelligence Research,1999,11:169-198. [11] POLIKAR R.Ensemble based systems in decision making[J].IEEE Circuits and Systems Magazine,2006,6(3):21-45. [12] ROKACH L.Ensemble-based classifiers[J].Artificial Intelligence Review,2010,33(1-2):1-39. [13] ZHOU Z H.Ensemble methods:foundations and algorithms[M].Boca Raton:CRC press,2012. [14] LIU T Y.Easy ensemble and feature selection for imbalance data sets[C]∥International Joint Conference on Bioinformatics,Systems Biology and Intelligent Computing.Shanghai:IEEE,2009:517-520. [15] KROGH A,VEDELSBY J.Neural network ensembles,cross validation,and active learning[C]∥Proceedings of the 7th International Conference on Neural Information Processing Systems.Denver:MIT Press,1995:231-238. [16] BLASER R,FRYZLEWICZ P.Random rotation ensembles[J].Journal of Machine Learning Research,2016,17(4):1-26. [17] WOLPERT D H.Stacked generalization[J].Neural Networks,1992,5(2):241-259. [18] 徐雅靜,汪遠(yuǎn)征.主成分分析應(yīng)用方法的改進(jìn)[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2006,36(6):68-75. [19] 馬慶國(guó).管理統(tǒng)計(jì):數(shù)據(jù)獲取、統(tǒng)計(jì)原理SPSS工具與應(yīng)用研究[M].北京:科學(xué)出版社,2008:308-315. [20] 林海明.對(duì)主成分分析法運(yùn)用中十個(gè)問題的解析[J].統(tǒng)計(jì)與決策,2007(8):16-18. [21] BREIMAN L.Stacked regressions[J].Machine Learning,1996,24(1):49-64. [22] OZAY M,VURAL F T Y.A new fuzzy stacked generalization technique and analysis of its performance[Z].arXiv preprint arXiv:1204.0171,2013. [23] SMYTH P,WOLPERT D.Linearly combining density estimators via stacking[J].Machine Learning,1999,36(1/2):59-83. DimensionReductionMethodBasedontheRandomRotationEnsemble WANG Tuo,XIAOQinxian (BusinessSchool,UniversityofShanghaiforScienceandTechnology,Shanghai200093,China) For the random rotation ensemble method,a new dimension reduction algorithm named random transform dimension reduction was proposed,which can reduce the information loss caused by the reduction dimension.After the random transform dimension reduction,the training supervised learning algorithm can obtain higher accuracy and better generalization performance.Through the experiments on the simulated data,it is proved that the regression analysis using multiple collinearity data can retain more information and obtain smaller mean square error than the traditional dimensionality reduction method.The performance of the random transform dimension reduction in handwritten numeral recognition datasets was studied,and it is proved that,compared with the general dimensionality reduction algorithm,the random transform dimension reduction can achieve higher accuracy in image classification. ensemblelearning;randomrotationensemble;dimensionreduction;diversity 1007-6735(2017)05-0450-09 10.13255/j.cnki.jusst.2017.05.008 2017-03-16 王 橢(1993-),男,碩士研究生.研究方向:金融工程.E-mail:1210724980@qq.com 肖慶憲(1956-),男,教授.研究方向:金融工程.E-mail:qxxiao@163.com TP181 A (編輯:丁紅藝)2 隨機(jī)變換降維算法的構(gòu)造
3 模擬實(shí)驗(yàn)
4 手寫數(shù)字識(shí)別數(shù)據(jù)集(MNIST)實(shí)驗(yàn)
5 結(jié)束語(yǔ)