吳桐雨,吳少雄
(1.福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院,福州 350116;2.福建工程學(xué)院 交通學(xué)院,福州 350118)
現(xiàn)有統(tǒng)計(jì)數(shù)據(jù)因各種原因存在缺失值,給統(tǒng)計(jì)分析帶來(lái)一定的困難。通常采用刪除缺失的單元項(xiàng)進(jìn)行統(tǒng)計(jì)分析,然而這種做法會(huì)丟失有用的信息,容易得出誤導(dǎo)性的結(jié)論。插補(bǔ)技術(shù)能夠?yàn)槿笔ы?xiàng)確定一個(gè)合理的數(shù)值,減小由數(shù)據(jù)缺失帶來(lái)的估計(jì)偏差,完善統(tǒng)計(jì)數(shù)據(jù)集利于后期操作。
常用的插補(bǔ)方法有演繹估計(jì)、均值插補(bǔ)、隨機(jī)插補(bǔ)、回歸插補(bǔ)和多重插補(bǔ)、極大似然估計(jì)、EM算法等;李序穎考慮空間相關(guān)性引入空間自回歸模型;張松蘭提出統(tǒng)計(jì)方法與機(jī)器學(xué)習(xí)相結(jié)合的支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和決策樹(shù)方法[1];其他方法還有最近鄰插補(bǔ)法和關(guān)聯(lián)規(guī)則法、得分匹配法等。其中,單值插補(bǔ)的不足在于根本上改變了數(shù)據(jù)的原始分布,造成抽樣誤差,且不能很好地體現(xiàn)出缺失值的不確定性??臻g自回歸模型需要驗(yàn)證數(shù)據(jù)間的相關(guān)性,對(duì)相鄰缺失值的插補(bǔ)可能存在一定的偏差,難以處理大量的缺失數(shù)據(jù)。研究表明,通過(guò)學(xué)習(xí)相關(guān)度較大的已知屬性值進(jìn)行估計(jì)的精度更高[1],用支持向量機(jī)方法對(duì)數(shù)據(jù)進(jìn)行插補(bǔ)較傳統(tǒng)方法有更高的恢復(fù)率[2]。總的說(shuō)來(lái),采取以上方法處理數(shù)據(jù)缺失存在各自的優(yōu)勢(shì),但也有其不足之處,比如一些研究?jī)H適用于小樣本情況下的插補(bǔ),對(duì)于大樣本插補(bǔ)的精度有所下降;一些研究雖然考慮了數(shù)據(jù)間的影響關(guān)系,但考慮的因素并不全面;大部分文獻(xiàn)集中于研究社會(huì)調(diào)查中的數(shù)據(jù)缺失插補(bǔ)方法,鮮有文獻(xiàn)研究統(tǒng)計(jì)數(shù)據(jù)的缺失插補(bǔ)方法,而且插補(bǔ)的精度還有待進(jìn)一步改善。支持向量機(jī)作為一種新興的統(tǒng)計(jì)學(xué)習(xí)算法在模式識(shí)別、回歸估計(jì)等方面均取得理想效果,本文以福建省流通產(chǎn)業(yè)的統(tǒng)計(jì)數(shù)據(jù)為例,將核主成分分析、粒子群算法和支持向量機(jī)三者有機(jī)結(jié)合,對(duì)統(tǒng)計(jì)數(shù)據(jù)的缺失值進(jìn)行插補(bǔ)。
核主成分分析是通過(guò)一個(gè)非線(xiàn)性變換將數(shù)據(jù)從輸入空間投影到高維特征空間,然后在高維空間進(jìn)行線(xiàn)性主成分分析,其中,非線(xiàn)性變換通過(guò)定義內(nèi)積函數(shù)實(shí)現(xiàn),該函數(shù)由一個(gè)核函數(shù)代替。這種方法可以避免單純使用線(xiàn)性主成分分析遇到的特征向量線(xiàn)性不可分的問(wèn)題[3]。
根據(jù) λν=Cν,求C的特征值 λ及特征向量V∈F{0},C的特征值非負(fù)。設(shè)C的特征值為0≤λ1≤λ2≤…≤λn,對(duì)應(yīng)的特征向量為 ν1,ν2,…,νn。記:
在實(shí)際操作中,可以根據(jù)一定的規(guī)則選取式(4)的前幾個(gè)分量作為主成分。
粒子群優(yōu)化是一種智能群體搜索方法,其基本思想是初始化為一群隨機(jī)粒子,每個(gè)粒子代表解空間的一個(gè)候選解,粒子通過(guò)跟蹤個(gè)體最優(yōu)值和全局最優(yōu)值來(lái)更新自己的速度和位置,迭代直至達(dá)到預(yù)先設(shè)定的目標(biāo)則實(shí)現(xiàn)最優(yōu)解[4]。粒子通過(guò)以下兩個(gè)公式更新其位置和速度:
式中,k為進(jìn)化代數(shù),νij(k+1)為粒子i在第k次迭代中第j維的速度,νij∈[ ]-νmax,νmax,νmax是粒子被允許移動(dòng)的最高速度;c1,c2是加速系數(shù),通常取值為2;r1,r2是[0,1]之間的隨機(jī)數(shù);pij是粒子i在第j維上的個(gè)體極值點(diǎn)的位置,pij∈[ ]-pmax,pmax,pmax是粒子被允許移動(dòng)的最大位置;gj是整體在第j維上的全局極值點(diǎn)的位置。設(shè)搜索空間的第j維定義為區(qū)間 j∈[ ]-pjmax,pjmax,則通常有
最小二乘支持向量機(jī)的基本思想是通過(guò)非線(xiàn)性變換將數(shù)據(jù)映射到高維特征空間,并構(gòu)造最優(yōu)決策函數(shù),利用原空間的核函數(shù)代替高維特征空間中的點(diǎn)積運(yùn)算,用有限樣本的學(xué)習(xí)訓(xùn)練來(lái)獲得全局最優(yōu)解[5]。
對(duì)于給定的樣本數(shù)據(jù),作非線(xiàn)性映射Φ:Rn→F,則被估計(jì)函數(shù) f(x)為:
在權(quán)w空間中的函數(shù)估計(jì)描述為以下求解問(wèn)題:
其中:w為空間F中的權(quán)向量,b∈R為偏置,誤差變量ξk∈R,b是偏差量,γ是可調(diào)超參數(shù)。
根據(jù)式(8),可定義拉格朗日函數(shù):
其中,拉格朗日乘子ak∈R。對(duì)上式各變量求偏導(dǎo)并整理線(xiàn)性方程組:
最小二乘支持向量機(jī)的函數(shù)估計(jì)為:
其中,a、b由式(9)求解出。不為零的ai對(duì)應(yīng)的樣本為支持向量。
在研究省域流通產(chǎn)業(yè)評(píng)價(jià)指標(biāo)體系中,將評(píng)價(jià)指標(biāo)分為6個(gè)一級(jí)指標(biāo),22個(gè)二級(jí)指標(biāo),45個(gè)三級(jí)指標(biāo)[6],具體見(jiàn)表1。
表1 省域流通產(chǎn)業(yè)競(jìng)爭(zhēng)力評(píng)價(jià)指標(biāo)體系
由于我國(guó)對(duì)流通產(chǎn)業(yè)的統(tǒng)計(jì)并沒(méi)有統(tǒng)一的口徑,而是分散在批發(fā)業(yè)、零售業(yè)、餐飲業(yè)、交通運(yùn)輸、倉(cāng)儲(chǔ)和郵政業(yè)幾個(gè)行業(yè)中。本文共收集了各省從1949—2015年85項(xiàng)統(tǒng)計(jì)指標(biāo)的數(shù)據(jù),數(shù)據(jù)來(lái)源于《中國(guó)統(tǒng)計(jì)年鑒》、《中國(guó)貿(mào)易外經(jīng)統(tǒng)計(jì)年鑒》、《中國(guó)第三產(chǎn)業(yè)統(tǒng)計(jì)年鑒》等。其中,1949—1991年和2015年統(tǒng)計(jì)數(shù)據(jù)缺失較多,1992—2014年存在少量缺失值,若將含有缺失數(shù)據(jù)的年份全部剔除后進(jìn)行分析,將會(huì)丟失大量有用的信息,對(duì)流通產(chǎn)業(yè)競(jìng)爭(zhēng)力的評(píng)價(jià)可能會(huì)出現(xiàn)誤導(dǎo)性的結(jié)果。因此,選取1992—2014年含有缺失值的福建省流通產(chǎn)業(yè)相關(guān)統(tǒng)計(jì)數(shù)據(jù)為例進(jìn)行數(shù)據(jù)插補(bǔ)研究。
統(tǒng)計(jì)數(shù)據(jù)缺失值插補(bǔ)的詳細(xì)流程如下:
(1)為增加樣本集和提高數(shù)據(jù)修補(bǔ)的準(zhǔn)確性,采用增量變化的方法進(jìn)行數(shù)據(jù)處理,即將各年份的數(shù)據(jù)相減所得作為訓(xùn)練與測(cè)試的樣本,這樣23年的統(tǒng)計(jì)數(shù)據(jù)共產(chǎn)生132組數(shù)據(jù)。
(2)因各項(xiàng)統(tǒng)計(jì)數(shù)據(jù)存在較大差異,且量綱不一致,需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,使它們統(tǒng)一歸一化到-1~1。
(3)選取有數(shù)據(jù)缺失的指標(biāo)作為研究對(duì)象,采用高斯徑向基核函數(shù),對(duì)其余的44項(xiàng)統(tǒng)計(jì)指標(biāo)進(jìn)行核主成分分析。主成分累計(jì)貢獻(xiàn)率如圖1所示,其中第1主成分貢獻(xiàn)率為0.266,第2主成分累計(jì)貢獻(xiàn)率達(dá)0.448,第13主成分的累計(jì)貢獻(xiàn)率為0.908,選取前13個(gè)主成分作為最小二乘支持向量機(jī)的新影響因子。
圖1 主成分累積貢獻(xiàn)率
(4)將新影響因子和數(shù)據(jù)缺失指標(biāo)的數(shù)據(jù)分成兩部分,前100組數(shù)據(jù)作為訓(xùn)練樣本,后32組數(shù)據(jù)為測(cè)試樣本。
(5)應(yīng)用PSO優(yōu)化最小二乘支持向量機(jī)的超參數(shù),加速系數(shù)c1.c2均設(shè)為2,慣性權(quán)重w設(shè)為0.6,種群規(guī)模設(shè)為20,最大迭代步數(shù)設(shè)為100。搜索得到支持向量機(jī)的參數(shù)懲罰因子=3124.8795和RBF核函數(shù)參數(shù)=20.5206。
(6)應(yīng)用最小二乘支持向量機(jī)對(duì)樣本分別進(jìn)行訓(xùn)練和測(cè)試,測(cè)試結(jié)果如圖2和表2所示。
表2 測(cè)試結(jié)果分析
圖2 模型測(cè)試值與真實(shí)值比較
由表2可以看出基于核主成分與支持向量機(jī)的方法進(jìn)行數(shù)據(jù)插補(bǔ)可以取得較好的效果,最大相對(duì)誤差為9.863%,最小相對(duì)誤僅為0.1742,平均相對(duì)誤差為4.094%。
在開(kāi)展統(tǒng)計(jì)數(shù)據(jù)分析時(shí),對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)是十分必要的。將核主成分分析與支持向量機(jī)模型結(jié)合,建立數(shù)據(jù)插補(bǔ)模型,具有很好的非線(xiàn)性信息提取和降噪的能力,研究表明其具有較高的精度,可以應(yīng)用于數(shù)據(jù)插補(bǔ)。
參考文獻(xiàn):
[1]張松蘭,王鵬,徐子偉.基于統(tǒng)計(jì)相關(guān)的缺失值數(shù)據(jù)處理研究[J].統(tǒng)計(jì)與決策,2016,(12).
[2]張嬋.一種基于支持向量機(jī)的缺失值填補(bǔ)算法[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(5).
[3]Scholkopf B,Smola A J,Muller K R.Kernel Principal Component Analysis[M].Massachustees:MIT Press,1999.
[4]楊維,李歧強(qiáng).粒子群優(yōu)化算法綜述[J].中國(guó)工程科學(xué),2004,6(5).
[5][美]瓦普尼克.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].北京:清華大學(xué)出版社,2000.
[6]張連剛.省域流通產(chǎn)業(yè)競(jìng)爭(zhēng)力評(píng)價(jià)體系構(gòu)建與實(shí)證研究[D].成都:西南財(cái)經(jīng)大學(xué)博士學(xué)位論文,2011.