朱賀 張帆
摘要摘要:BP神經(jīng)網(wǎng)絡(luò)是一種使用非線性可導(dǎo)函數(shù)作為傳遞函數(shù)的前饋神經(jīng)網(wǎng)絡(luò),具有較高的精確度,但過多的預(yù)測變量會影響B(tài)P神經(jīng)網(wǎng)絡(luò)的準確性。采用Logistic回歸變量篩選方法能在一定程度上提高分類準確性,提高模型效率。對2013年滬深兩市A股分類評級進行了研究,證明基于Logistic回歸變量篩選的神經(jīng)網(wǎng)絡(luò)提高了兩極類別分類的準確性。
關(guān)鍵詞關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò);Logistic回歸;變量篩選
DOIDOI:10.11907/rjdk.151010
中圖分類號:TP301
文獻標識碼:A文章編號文章編號:16727800(2015)004003504
0引言
人工神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)擬合是通過對輸入和輸出的分析,來更新各神經(jīng)元間的連接權(quán)重,是一種非線性的統(tǒng)計模型,具有較高的精確度[1]。但是,對于多種因素共同決定的復(fù)雜問題來說,由于影響因變量的預(yù)測變量過多,將全部預(yù)測變量加入模型進行分析,一些重要性較低的變量噪聲就會影響整個模型的精度,達不到分析效果[2]。由此,本文提出一種優(yōu)化的基于Logistic回歸變量篩選的神經(jīng)網(wǎng)絡(luò)分析方法。
1原理
1.1BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種基于有監(jiān)督的學(xué)習(xí)、使用非線性可導(dǎo)函數(shù)作為傳遞函數(shù)的前饋神經(jīng)網(wǎng)絡(luò)[3]。BP神經(jīng)網(wǎng)絡(luò)具有較強的非線性映射能力、較高的自學(xué)習(xí)和自適應(yīng)能力、將學(xué)習(xí)成果應(yīng)用于新環(huán)境和新知識的能力以及相當?shù)娜蒎e能力[4]。
BP算法(Error Back Proragation)學(xué)習(xí)過程由信號的正向傳播與誤差的反向傳播兩個過程組成。正向傳播時,輸入樣本從輸入層傳入,經(jīng)各隱層逐層處理后,傳向輸出層[5]。若輸出層的實際輸出與期望的輸出不符,則轉(zhuǎn)入誤差的反向傳播階段。誤差反傳是將輸出誤差以某種形式通過隱層向輸入層逐層反傳,并將誤差分攤給各層的所有單元,從而獲得各層單元的誤差信號,此誤差信號即作為修正各單元權(quán)值的依據(jù)[6]。這種信號正向傳播與誤差反向傳播的各層權(quán)值調(diào)整過程,是周而復(fù)始進行的。權(quán)值不斷調(diào)整的過程,也就是網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過程。此過程一直進行到網(wǎng)絡(luò)輸出的誤差減少到可接受的程度,或進行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止[78]。如圖1所示,向量X為輸入層輸入向量,向量Y為隱層輸出向量,向量O為輸出層輸出向量,矩陣V為輸入層到隱層之間的權(quán)值矩陣,矩陣W為隱層到輸出層之間的權(quán)值矩陣。
1.3基于Logistic回歸變量篩選的BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)方法
使用IBM SPSS Modeler 15.0構(gòu)建模型[11]。用Logistic回歸分析方法擬合數(shù)據(jù),提取出符合變量篩選條件的預(yù)測變量[12]。構(gòu)建Logistic回歸模型時使用分區(qū)數(shù)據(jù)并為每個分割構(gòu)建獨立的模型;選用多項式過程,變量提取方法使用步進法并使用主效應(yīng)模型,目標基準類別使用第一類別,迭代次數(shù)上限為20次。挑選出滿足給定顯著水準的預(yù)測變量后,將這些預(yù)測變量加入數(shù)據(jù)流作為BP神經(jīng)網(wǎng)絡(luò)輸入層變量,目標選擇創(chuàng)建標準模型,并使用BP算法建立MLP神經(jīng)網(wǎng)絡(luò)模型,停止條件為最大訓(xùn)練時間10分鐘,防止過度擬合集合設(shè)為30%。使用上述權(quán)值調(diào)整算法建立神經(jīng)網(wǎng)絡(luò)進行分類分析,具體模型如圖2所示。
2實例分析
股票評級是股票資信評估的一個重要項目,它可以為投資者提供股票的風(fēng)險信息,降低投資者的風(fēng)險成本,是投資者決策的重要依據(jù)[13]。由于股票價格受到政治、經(jīng)濟、社會等多種因素影響,使用傳統(tǒng)的模型擬合往往無法達到令人滿意的效果[14],本文提出的模型正好能解決此難題。
2.1數(shù)據(jù)準備
選取2013年度上證A股、深證A股所有股票,導(dǎo)出2013年1月4日至2013年12月31日間股票交易數(shù)據(jù),并從銳思數(shù)據(jù)庫、中國證券報網(wǎng)站、新浪財經(jīng)數(shù)據(jù)中心等平臺匯總上市公司四季度報(年報)數(shù)據(jù)。其中年報數(shù)據(jù)保留盈利能力(包括凈資產(chǎn)收益等7項指標)、運營能力(包括應(yīng)收賬款周轉(zhuǎn)率等6項指標)、成長能力(包括主營業(yè)務(wù)收入增長率等6項指標)、償債能力(包括流動比率等6項指標)、現(xiàn)金流量(包括現(xiàn)金流量比等5項指標),共計30項財務(wù)分析指標。
2.2數(shù)據(jù)清理
由于樣本含量足夠大,將近2 500例,對于存在缺失值的實例,將整條數(shù)據(jù)刪除,不作分析使用。
2.3數(shù)據(jù)變換及離散化
(1)考慮到個別股票在2013年度存在除權(quán)除息,如果直接按市場價格計算股票漲跌幅,就會偏離實際情況,因此對這部分股票需要按實際收益計算其漲跌幅度。
(2)計算出年度股票漲跌幅后,將其離散化處理,漲跌幅(-∞,-20%],(-20%,0%],(0%,20%],(20%,+∞)分別離散為0,1,2,3四個數(shù)值。
2.4數(shù)據(jù)集成
將股票價格及漲跌數(shù)據(jù),上市公司財務(wù)指標數(shù)據(jù)集成至一個數(shù)據(jù)庫,最終得到有效數(shù)據(jù)1 856例。
2.5建立模型
構(gòu)建Logistic回歸模型,以步進法通過似然比統(tǒng)計篩選得到7個預(yù)測變量,如圖3所示,再用此7個預(yù)測變量構(gòu)建人工神經(jīng)網(wǎng)絡(luò)模型如圖4所示。對照模型使用未使用變量篩選的人工神經(jīng)網(wǎng)絡(luò)。構(gòu)建模型時,訓(xùn)練數(shù)據(jù)占80%,測試數(shù)據(jù)占20%。
2.6實驗結(jié)果
評級總正確率較未使用變量篩選的模型,在培訓(xùn)和測試數(shù)據(jù)分區(qū)分別有了1.5和3個百分點的提高,分別為48.64%和50.52%;在評級=0時分別有了21和28個百分點的提高,分別為60.61%和64.63%,從ROC下方面積可以清晰看到這個變化,如圖7、圖8所示;在評級=3時培訓(xùn)分區(qū)有了5個百分點的提高,為82.8%,測試區(qū)沒有提高。但在評級=1或者評級=2時正確率卻有了不同程度的下降。
2.7實驗結(jié)果分析
使用Logistic回歸篩選變量后的BP神經(jīng)網(wǎng)絡(luò)在對股票進行評級時,其評級正確率在漲幅最大區(qū)域因原模型準確率已高達77%,提升幅度不是特別大,但在跌幅最大區(qū)域卻有了顯著提高。其原因在于篩選后的變量擴大了影響程度較大的變量的影響,縮小了原有影響程度較小的變量產(chǎn)生噪聲的影響,使處于漲幅極端的兩類因變量特征更加明顯,其分類正確率自然會有提升。而對于處于漲幅中間區(qū)域的兩類因變量來說,因其漲跌幅較小,各種自變量的影響相互博弈,刪減自變量,對其正確分類必然產(chǎn)生較大影響,降低了分類正確率。但在實際生活中,人們關(guān)心的往往是如何使利益最大化,并盡可能減小風(fēng)險成本。因此,本文所提出的模型價值顯而易見。
3結(jié)語
股票分級實驗證明,基于Logistic回歸篩選變量后的BP神經(jīng)網(wǎng)絡(luò)在保證總體分類正確率穩(wěn)步提升的同時在極大、極小分類正確率上也有了顯著的提高。因此,在對極值分類有較高要求且預(yù)測變量較多的應(yīng)用領(lǐng)域,此模型可作為一種分類參考,以提高分類效率。
參考文獻參考文獻:
[1]SONG Y P, PENG X Q. New structure adapting neural network and its training method[J]. Control and Decision,2010,25(8):12651268.
[2]韓玲.基于人工神經(jīng)網(wǎng)絡(luò)—多層感知器(MLP)的遙感影像分類模型[J].測繪通報,2004(9):2931.
[3]韓力群.人工神經(jīng)網(wǎng)絡(luò)教程[M].北京:北京郵電大學(xué)出版社,2006.
[4]LI Y, WANG Z, AO Z G, et al.Optimization for breakout prediction system of BP neural network[J]. Control and Decision, 2010,25(3): 453456.
[5]LUENGO J,GARCIA S,HERRERA F.A study on the use of imputation methods for experimentation with radial basis function network classifiers handling missing attribute values: the good synergy between RBFNs and EventCovering method[J].Neural Networks,2010,23(3):406418.
[6]衛(wèi)敏,余樂安.具有最優(yōu)學(xué)習(xí)率的RBF神經(jīng)網(wǎng)絡(luò)及其應(yīng)用[J].管理科學(xué)學(xué)報,2012(4):5057.
[7]LIU Y Y, STARZYK J A, ZHU Z. Optimized approximation algorithm in neural networks without overtting[J].IEEE Transactions on Neural Networks,2008,19(6):983995.
[8]徐富強,劉相國.基于優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)的變量篩選方法[J].計算機系統(tǒng)應(yīng)用[J],2012(3):206208.
[9]石慶焱.一個基于神經(jīng)網(wǎng)絡(luò)—Logistic回歸的混合兩階段個人信用評分模型研究[J].統(tǒng)計研究,2005(5):4549.
[10]謝遠濤,楊娟,王穩(wěn). Logistic與分類樹模型變量篩選的比較——基于信用卡郵寄業(yè)務(wù)響應(yīng)率分析[J].統(tǒng)計與信息論壇,2011(6):96101.
[11]王國平,郭偉宸,汪若君.IBM SPSS Modeler數(shù)據(jù)與文本挖掘?qū)崙?zhàn)[M].北京:清華大學(xué)出版社,2014.
[12]徐璐.判別分析Logistic回歸和BP神經(jīng)網(wǎng)絡(luò)在二分類問題中的模擬對比[J].中南財經(jīng)政法大學(xué)研究生學(xué)報,2012(2):5964.
[13]鄭睿穎,伍應(yīng)環(huán).神經(jīng)網(wǎng)絡(luò)在股票價格預(yù)測中的研究[J].計算機仿真,2011(10):393396.
[14]黃亦瀟,邵培基,李菁菁.基于信息擴散原理運用人工神經(jīng)網(wǎng)絡(luò)識別股票級別[J].中國管理科學(xué),2004(5):611.
責(zé)任編輯(責(zé)任編輯:杜能鋼)