張凌潔寶雞文理學院
?
淺談高維數(shù)據(jù)變量選擇現(xiàn)狀與方法
張凌潔
寶雞文理學院
變量選擇是統(tǒng)計分析理論中的重要內(nèi)容,也是目前學者們研究的重點。本文在傳統(tǒng)數(shù)據(jù)變量選擇的基礎上,介紹高維數(shù)據(jù)變量選擇方法的研究歷史和研究現(xiàn)狀,總結(jié)已有變量選擇的研究成果,并在此基礎上進行了總結(jié)和展望。
高維 變量選擇 穩(wěn)健方法
從20世紀60年代至今,變量選擇的研究已有不少文獻與資料。以Akaike 在1974年提出的AIC準則為標志,近幾十年來,變量選擇是統(tǒng)計學者們研究的重點,研究的方法和理論結(jié)果已經(jīng)有了相對成熟的進展。
經(jīng)典的變量選擇包括前進法、后退法、逐步回歸法、最優(yōu)回歸子集法等,通過AIC,BIC,Cp等從候選模型中選出一個最優(yōu)子集來擬合回歸模型。建立回歸模型初期,引入很多相關(guān)的變量以減小模型的誤差;選擇對因變量有明顯影響的重要變量以提高模型預測的精度和可解釋性。
實際中,經(jīng)典的變量選擇方法,適合模型中變量個數(shù)比較少的模型。但是當變量個數(shù)增多時,需要解決的問題也隨之增多。如由于要求解一個多項式復雜程度的非確定性問題,從而處理高維和海量問題時失效;對于成百上千的變量,如果我們選擇過多的變量,則會使計算成本過大、變量選擇估計的速度減慢以及模型選擇的精準度降低,也會出現(xiàn)過度擬合現(xiàn)象;如果我們選擇較少的變量,則會遺漏重要變量或選擇變量不當,使結(jié)果誤差較大,也失去了分析研究的意義。只有選取適合的變量選擇方法,才能選擇出有用變量,去除冗余變量,化簡模型。這樣既節(jié)省了計算量,也便于分析數(shù)據(jù)使結(jié)果更加精確,所以選擇適合的變量選擇方法是研究高維數(shù)據(jù)時的重要的步驟。
近年來,統(tǒng)計學者們提出用懲罰函數(shù)同時進行變量選擇和系數(shù)估計,其基本思想就是在進行參數(shù)估計的同時,把較小的系數(shù)估計壓縮,而將較大的系數(shù)估計保留,從而選擇出重要變量達到變量選擇的目的──正則化方法。正則化估計能大大減少計算量、克服經(jīng)典變量選擇方法的不穩(wěn)定性。目前的懲罰方法有:Tishirani等提出的Lasso、Fan等提出的SCAD、Zou等提出的自適應Lasso、Zou等提出的Elast ic Net、Wang等提出的組Lasso、Zhao等提出的分級Lasso、Candes等提出的Dantzig Selector 以及Xu等提出L1/2正則化、Zhang等提出處理NP維下的非凸懲罰估計MCP懲罰、Fan等研究超高維非凸懲罰函數(shù)變量選擇問題。
隨著科學技術(shù)的發(fā)展,人們可以搜集到物理化學、個性化醫(yī)療、霧霾分析及其它領(lǐng)域的高維海量數(shù)據(jù)。這些數(shù)據(jù)計算的復雜性和高成本使得經(jīng)典地變量選擇方法不再適用,為此,統(tǒng)計學者們開始尋找研究高維數(shù)據(jù)的變量選擇方法,即以lasso為代表的懲罰似然方法(通過系數(shù)壓縮來實現(xiàn)變量選擇)。然而實際中的高維數(shù)據(jù)卻含有異常值點,使得數(shù)據(jù)呈現(xiàn)尖峰或厚尾分布,此時的變量選擇方法將不再具有優(yōu)良性和穩(wěn)健性,統(tǒng)計學者們提出穩(wěn)健估計方法,即用具有穩(wěn)健性的損失函數(shù)來替代最小二乘損失函數(shù),如M-估計、最小平方中位數(shù)估計和最小平方修整估計、分位數(shù)回歸模型、秩回歸、CQR估計等。
2.1方法的提出和性質(zhì)的研究
1996年Tibshirani提出一般線性模型下的lasso方法,開啟了高維數(shù)據(jù)變量選擇的研究,具有劃時代的意義。Lasso可以使無明顯影響變量的系數(shù)壓縮為零,同時進行變量選擇和參數(shù)估計。Lasso在估計值較大的變量可將重要變量的系數(shù)壓縮較小,而保證參數(shù)估計的準確性。但是lasso方法不具有oracle性。2004年Fan得出SCAD具有oracle性質(zhì)且降低了計算的復雜度。2007年Zhao提出lasso不具有相合性也不具有oracle性,Zou對lasso做相同系數(shù)壓縮提出ALasso方法,證明其在固定維數(shù)時具有oracle性。2010年Shojaie提出ALasso中調(diào)整系數(shù)A值的ALasso是一種凸優(yōu)化問題,可快速有效地得到其全局最優(yōu)解。2005年Zou提出了處理基因微陣列數(shù)據(jù)的Elastic net方法,對系數(shù)二次懲罰,使得具有組效應的數(shù)據(jù)可以進行有效的變量選擇,且能解決高維小樣本問題。2009年Zou提出的adaptive Elastic Net具有oracle性質(zhì)。為解決Lasso方法過擬合問題,2007年Meinshausen引入壓縮參數(shù)提出Relaxed Lasso,2013張凌潔等分析研究LS+LAD組合損失函數(shù)的高維穩(wěn)健統(tǒng)計性質(zhì)。這些方法一定程度上可以處理高維統(tǒng)計問題。
2.2方法在各類模型中的研究
一般線性模型中有變量選擇,同樣其他模型中也有變量選擇。1996年Tibshirani推出COX模型下的lasso,2001年P(guān)aek提出廣義線性模型下的lasso,2007年Meinshausen提出高斯圖模型中的Graphical lasso,2014年張凌潔等分析研究了分層懲罰鏈接單個圖模型的估計的多圖模型,2011年盧穎提出poisson對數(shù)線性模型下和logist ic回歸模型下的ElasticNet變量選擇方法,同年Nardi提出時間序列模型下的lasso,Kai等提出的變系數(shù)半?yún)?shù)模型下的SCAD及其理論性質(zhì),崔靜等提出Poisson對數(shù)回歸模型下ALasso的定義和性質(zhì),2012年Li提出半?yún)?shù)模型的lasso,2015年蘇美紅等[4]分析研究了LADElastic Net模型選擇的一致性。
2.3方法研究注意的事項
正則化方法研究的模式通常是“損失函數(shù)+懲罰函數(shù)”,一個較優(yōu)的懲罰估計需注意以下幾個問題:
(1)選擇損失函數(shù)。損失函數(shù)的好壞決定著模型的穩(wěn)健性,數(shù)據(jù)模型呈正態(tài)分布時,其結(jié)果最佳;
(2)選擇懲罰函數(shù)。懲罰估計的理論性質(zhì)(稀疏性、連續(xù)性和無偏性)取決于懲罰函數(shù)的選擇;
(3)采用的算法。算法的可行性,運算時間直接影響著估計結(jié)果的準確性;
(4)選擇調(diào)試參數(shù)。調(diào)試參數(shù)對模型稀疏性和相合性影響較大。
隨著大數(shù)據(jù)應用的深廣,人們對高維數(shù)據(jù)的研究和運用也日益普遍。高維數(shù)據(jù)變量選擇是大數(shù)據(jù)研究領(lǐng)域的熱點,也是大數(shù)據(jù)領(lǐng)域不得不關(guān)注的重要問題。本文介紹了高維數(shù)據(jù)變量選擇方法的研究歷史和研究現(xiàn)狀,總結(jié)了一些已有的研究成果。高維數(shù)據(jù)變量選擇模型多種多樣,從中選擇與實際情況相結(jié)合并不斷地修改模型使其具有實際應用價值。如果采用最優(yōu)的函數(shù)和有效的算法,用于模型的建立與算法的實現(xiàn),可為高維數(shù)據(jù)變量選擇的應用提供研究基礎,有利于推進研究工作的進一步深化,也有利于體現(xiàn)現(xiàn)實價值。
[1] Tibshi rani, R. Regression shrinkage and selectionvia the Lasso[J]. Journal of the Royal Statistical Society Series B. 1996, 58: 267-288.
[2]張凌潔,蘇美紅,張海。LS,LAD組合損失的高維統(tǒng)計性質(zhì)分析[J].純粹數(shù)學與應用數(shù)學期刊(自然科學版),2013,29(5):536-546.
[3]張凌潔,張海。多圖模型的聯(lián)合估計的群橋方法[J].高校應用數(shù)學學報(自然科學版).2014,29(2):127-137.
[4]蘇美紅,張海,張凌潔.基于LAD-Elast ic Net的模型選擇[J].南京大學學報(自然科學版),2015,51(4):894-900.
寶雞文理學院校級重點科研項目,項目名稱:高維數(shù)據(jù)統(tǒng)計性質(zhì)分析。編號:(ZK16118)。
0212.1
張凌潔(1986-),女,陜西鳳翔人,碩士學位,主要研究方向:機器學習。