劉陽洋 魏鑫坤
摘 要:本文運用主成分分析(PCA)對影響企業(yè)資金成本的指標(biāo)進(jìn)行了降維處理,將17個影響指標(biāo)變量變成了6個綜合變量,然后將綜合變量輸入到支持向量回歸機(SVR)模型中,最后確定模型是有效的可以用來進(jìn)行企業(yè)資金成本的預(yù)測。
關(guān)鍵詞:PCA;SVR;企業(yè)資金成本
一、基本理論
主成分分析(Prineipal Component Analysis,PCA),起初由英國的Karl Pearosn運用到非隨機變量中,由霍特林在上個世紀(jì)30年代將主成分分析法引入到隨機變量的情況中去。主成分分析就是思考在不減少原有指標(biāo)信息的基礎(chǔ)上,將較多的變量問題轉(zhuǎn)化為少數(shù)幾個不相關(guān)的綜合變量,為了將要解決的問題簡單化,通常將多維空間的問題變動到低維空間,這樣使問題轉(zhuǎn)化的通俗容易懂,主成分分析是方法是一類特別重要的統(tǒng)計方法,它的將輸入變量降維的模式,有力的從理論及技術(shù)方面對綜合評價進(jìn)行了支撐。
支持向量機(SVM)是一種可以在多個方面應(yīng)用的學(xué)習(xí)機器,它主要解決識別模型這個難題,可以達(dá)成統(tǒng)計學(xué)習(xí)理論,并且在這個過程中將結(jié)構(gòu)風(fēng)險降到了極小值。它的運行機理為把我們輸入的向量通過映射反映到一個維數(shù)較高的特征空間,然后在這個空間中組織最合理的分類。它能彌補多層前向網(wǎng)絡(luò)中的不足,而且在理論上證實了:在選擇了恰當(dāng)?shù)挠成浜瘮?shù)之后,一大部分空間內(nèi)線性不可分的通過特征空間都得到轉(zhuǎn)化變成了線性可分。但還有一個問題是解決不了的,就是低向高維轉(zhuǎn)化時,因為空間的維數(shù)變化太大,并且使維數(shù)大大增加,導(dǎo)致有時不能在特征空間找到最優(yōu)的分類平面。在SVM中解決上述問題的方法是找到一個可以使用的分類平面,它是一個更優(yōu)異的超平面。而且還能將訓(xùn)練集中的點遠(yuǎn)離這個平面,也就是說緊挨這個超優(yōu)平面兩側(cè)的點盡量的少。不僅如此,SVM還給出了核函數(shù),核函數(shù)將替換維數(shù)較高的特征空間的內(nèi)部乘積計算,也就是說它的作用是避免維數(shù)過高而導(dǎo)致的計算量過大。核函數(shù)實施的具體過程是將原空間向量經(jīng)過非線性映射到一個維數(shù)較高的空間,使原來并不具有線性特征的向量變成線性關(guān)系,然后在這個高維空間中得到具有線性關(guān)系的最優(yōu)解,也就是最優(yōu)決策函數(shù)。
通過對企業(yè)的資料分析,采用專家調(diào)查法確定企業(yè)資金成本影響因素,影響因素有固定成本的分?jǐn)?,專業(yè)化生產(chǎn),大規(guī)模設(shè)備,經(jīng)驗成本,企業(yè)組織狀況,一體化經(jīng)營,制度因素,地理因素,企業(yè)文化等。
主成分分析及支持向量回歸機模型的建立
我們運用主成分分析和支持向量回歸機方法對數(shù)據(jù)與信息進(jìn)行處理:分析建筑企業(yè)的資料,首先采用專家調(diào)查法確定影響企業(yè)資金成本的因素進(jìn)行因素識別,建立指標(biāo)體系的基礎(chǔ),其次就要搜集整理數(shù)據(jù),運用SPSS軟件對原始數(shù)據(jù)進(jìn)行離散化、標(biāo)準(zhǔn)化,最終獲得主成分得分矩陣數(shù)據(jù),在獲取輸入數(shù)據(jù)之后確定主成分分析法和支持向量回歸機的組合方式,再次將數(shù)據(jù)作為支持向量回歸機的輸入向量,將企業(yè)資金成本作為支持向量機的輸出,構(gòu)建訓(xùn)練樣本集。最后選擇或者構(gòu)造一個核函數(shù),確定一個不敏感損失函數(shù),根據(jù)規(guī)定的項目精度標(biāo)準(zhǔn),確定與之對應(yīng)的誤差允許值,以誤差值為依據(jù),通過一定的方式尋找最優(yōu)值和核函數(shù)參數(shù),來優(yōu)化支持向量回歸機自適應(yīng)性能。當(dāng)滿足訓(xùn)練要求時,支持向量回歸機模型就能夠進(jìn)行工程成本預(yù)測,將測試數(shù)據(jù)集按一定方式輸入到模型中就可以進(jìn)行預(yù)測,而且可以快速批量地進(jìn)行。
二、預(yù)測結(jié)果分析
運用SPSS軟件對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,然后進(jìn)行主成分分析,主成分分析過程如參考文獻(xiàn)5,得到主成分值。然后運用25家企業(yè)的前20家作為訓(xùn)練樣本,對SVR模型先進(jìn)行訓(xùn)練,最后選擇了徑向基核函數(shù)(RBF)為本研究的核函數(shù),最優(yōu)秀數(shù)懲罰因子C=88,核函數(shù)=1.1,損失函數(shù)值=0.0006,訓(xùn)練完成后用最后5家企業(yè)進(jìn)行預(yù)測,并對預(yù)測結(jié)果與實際結(jié)果做比較。測試樣本的相對誤差如表,實際值和預(yù)測值的對比曲線見圖。
可見PCA-SVR模型對企業(yè)資金成本的預(yù)測結(jié)果的相對誤差都不大于5%,可以滿足企業(yè)資金成本預(yù)測的精度要求。因此該模型是有效的,適于企業(yè)資金成本的預(yù)測。
參考文獻(xiàn):
[1]王芹芹,雷曉云,高凡.基于主成分分析和RBF神經(jīng)網(wǎng)絡(luò)的融雪期積雪深度模擬[J].干旱區(qū)資源與環(huán)境,2014,02:175-179.
[2]聞芳,盧欣,孫之榮等.基于支持向量機(SVM)的剪接位點識別[J]. 生物物理學(xué)報,1999,04:733-739.
[3]姚瀟,余樂安.模糊近似支持向量機模型及其在信用風(fēng)險評估中的應(yīng)用[J].系統(tǒng)工程理論與實踐,2012,03:549-554.
[4]盧鈺.基于參數(shù)優(yōu)化的支持向量機股票市場趨勢預(yù)測[D].浙江:浙江工商大學(xué),2013.
[5]丁國盛,李濤.SPSS統(tǒng)計教程——從研究設(shè)計到數(shù)據(jù)分析[M].北京:機械工業(yè)出版社,2005.