賈妮
摘要: 針對傳統(tǒng)預(yù)測模型在高考分?jǐn)?shù)線預(yù)測方面精度不高的問題,在分析出高考分?jǐn)?shù)線的分布規(guī)律及主要影響因素后,運(yùn)用主成分分析法對影響因素降維并歸一化數(shù)據(jù),建立高考分?jǐn)?shù)線神經(jīng)網(wǎng)絡(luò)模型,并運(yùn)用BP反向傳播算法進(jìn)行學(xué)習(xí),計(jì)算出最優(yōu)權(quán)值。以西安工業(yè)大學(xué)為例,用此神經(jīng)網(wǎng)絡(luò)對錄取分?jǐn)?shù)線進(jìn)行預(yù)測,給出預(yù)測結(jié)果的精度分析,結(jié)果表明了該分?jǐn)?shù)線神經(jīng)網(wǎng)絡(luò)模型有效地提高了分?jǐn)?shù)線預(yù)測精度,為高考分?jǐn)?shù)線的預(yù)測以及學(xué)生志愿的填報(bào)提供了參考依據(jù)。
Abstract: In view of the low precision of college entrance examination scores prediction by traditional forecasting model, the distribution rule and the main influence factors of the college entrance examination scores are analyzed, after that the principal component analysis method is used for the dimensionality reduction of influence factors and data normalization, the college entrance examination scores neural network model is established, and the BP back propagation algorithm is learned to calculate the optimal weights. Taking the Xi'an University of Technology as an example, the neural network model is used to predict the scores and obtain the accuracy analysis of the prediction result. The results show that the neural network model can improve the prediction accuracy of the score line and provide reference for the forecast of college entrance examination scores and the intention for university.
關(guān)鍵詞: 數(shù)據(jù)挖掘;分?jǐn)?shù)線預(yù)測;BP神經(jīng)網(wǎng)絡(luò);應(yīng)用
Key words: data mining;fractional line prediction;BP neural network;application
中圖分類號:TP39 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-4311(2017)34-0200-02
0 引言
預(yù)測是數(shù)據(jù)挖掘中重要的任務(wù)之一。目前大部分的預(yù)測研究集中在銷售量預(yù)測及股票預(yù)測上,一般都帶有盈利性,而針對分?jǐn)?shù)線這類公益性的預(yù)測研究卻很少,預(yù)測方法也均為傳統(tǒng)的預(yù)測方法。如何采用適當(dāng)?shù)哪P皖A(yù)測分?jǐn)?shù)線,進(jìn)而為考生填報(bào)志愿提供科學(xué)的參考依據(jù)是一個問題。傳統(tǒng)的預(yù)測模型主要有線性回歸預(yù)測模型、灰度預(yù)測模型等,然而在實(shí)際中,分?jǐn)?shù)線的影響因素復(fù)雜,傳統(tǒng)的預(yù)測模型并不能較好地?cái)M合原始數(shù)據(jù),導(dǎo)致預(yù)測的結(jié)果精度較低。近年來,隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,出現(xiàn)了基于支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)等方法的預(yù)測模型。神經(jīng)網(wǎng)絡(luò)(neural networks,NN)是由大量的、簡單的處理單元(稱為神經(jīng)元)廣泛地互相連接而形成的復(fù)雜網(wǎng)絡(luò)系統(tǒng),它反映了人腦功能的許多基本特征,是一個高度復(fù)雜的非線性動力學(xué)習(xí)系統(tǒng),能夠精確描述非線性系統(tǒng)的變化規(guī)律,成為各個領(lǐng)域的主要預(yù)測方法。本文將分步驟詳細(xì)介紹分?jǐn)?shù)線神經(jīng)網(wǎng)絡(luò)模型的建立過程,給出預(yù)測模型的精度分析。
1 模型可行性分析
分析收集的高考分?jǐn)?shù)線數(shù)據(jù),發(fā)現(xiàn)存在眾多影響分?jǐn)?shù)線的因素,對收集到的因素進(jìn)行降維處理。觀察數(shù)據(jù)其分布規(guī)律,發(fā)現(xiàn)該分布沒有較好的函數(shù)進(jìn)行擬合,而三層神經(jīng)網(wǎng)絡(luò)能夠以任意精度逼近任何的非線性連續(xù)函數(shù),因此采用神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行擬合并對平均分?jǐn)?shù)線進(jìn)行預(yù)測是可行的。(圖1)
2 分?jǐn)?shù)線神經(jīng)網(wǎng)絡(luò)建立過程
2.1 輸入輸出確定
在使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分?jǐn)?shù)線預(yù)測時(shí),將學(xué)校、招生省份作為篩選項(xiàng),對輸入變量個數(shù)進(jìn)行降維,確定輸入變量為年份、招生專業(yè)、招生人數(shù),將平均分做為輸出變量,對于最高分?jǐn)?shù)線與最低分?jǐn)?shù)線的預(yù)測與平均分?jǐn)?shù)線的預(yù)測方法類似。
2.2 數(shù)據(jù)清洗及歸一化
對輸入的數(shù)據(jù)進(jìn)行歸一化處理,采用線性歸一化方法處理,降低數(shù)據(jù)分布不均勻的情況,如下式:
若不采用歸一化處理,算法的收斂速度會變慢,時(shí)間較長,如圖2左所示,采取歸一化后算法的收斂時(shí)間會大大縮短,如圖2右所示。
2.3 神經(jīng)網(wǎng)絡(luò)的建立
對于分?jǐn)?shù)線神經(jīng)網(wǎng)絡(luò)的建立,我們構(gòu)造一個3層的前饋神經(jīng)網(wǎng)絡(luò)N來擬合該非線性數(shù)據(jù),其中輸入不作為一層,隱藏層及輸出層的總數(shù)為神經(jīng)網(wǎng)絡(luò)的層數(shù),過多的層數(shù)會影響擬合的效果,如圖3所示。
其中每層節(jié)點(diǎn)個數(shù)的計(jì)算公式為:
對于該原始數(shù)據(jù)分布,經(jīng)過嘗試發(fā)現(xiàn),在第一層和第二層使用雙曲正切S形激活函數(shù)或者對數(shù)S型轉(zhuǎn)移激活函數(shù),第三層使用線性函數(shù)擬合的效果最佳。
2.4 學(xué)習(xí)算法
對于該神經(jīng)網(wǎng)絡(luò)采用BP反向傳播算法計(jì)算神經(jīng)元之間的權(quán)重w的值[3],其主要步驟如下:
1)對樣本集合(x(i),y(i))進(jìn)行歸一化;
2)隨即初始化權(quán)重w,并計(jì)算網(wǎng)絡(luò)的輸出h (w,b)(x);
3)構(gòu)建其代價(jià)函數(shù)J(W,b;x,y);
4)利用梯度下降算法求解神經(jīng)網(wǎng)絡(luò)。
2.5 預(yù)測分?jǐn)?shù)線
我們以2013年、2014年、2015年西安工業(yè)大學(xué)的數(shù)據(jù)為例,在Matlab中繪制出預(yù)測值與真實(shí)值的對比圖,如圖4所示。其中X軸為樣本序號,Y軸為分?jǐn)?shù)線,綠色為訓(xùn)練用的原始數(shù)據(jù),藍(lán)色為預(yù)測的數(shù)據(jù),紫色為未用作訓(xùn)練的原始數(shù)據(jù),紅色為對應(yīng)的預(yù)測數(shù)據(jù),即拿出數(shù)據(jù)的百分之八十用作訓(xùn)練,用剩下的作為檢測數(shù)據(jù)??梢园l(fā)現(xiàn)擬合的模型和原始數(shù)據(jù)擬合效果較好。
2.6 模型檢驗(yàn)
進(jìn)一步分析每一次采樣的誤差分布,如圖5所示。其中X軸為樣本序號,Y為預(yù)測值與實(shí)際值差的絕對值。觀察發(fā)現(xiàn),在100個樣本中,70個樣本誤差在五分左右,對于其他偏離較遠(yuǎn)的點(diǎn)是由于樣本數(shù)據(jù)量小所導(dǎo)致,說明該模型在一定誤差范圍內(nèi),能較為實(shí)際地預(yù)測出平均分?jǐn)?shù)線。
3 結(jié)論
為了提高了當(dāng)前高考分?jǐn)?shù)線的預(yù)測精度,在分析當(dāng)前預(yù)測方法的優(yōu)缺點(diǎn)基礎(chǔ)上,提出了一種基于BP神經(jīng)網(wǎng)絡(luò)的分?jǐn)?shù)線預(yù)測模型,并用近三年的某高校數(shù)據(jù)為研究對象,對模型的性能進(jìn)行驗(yàn)證,結(jié)果表明,BP神經(jīng)網(wǎng)絡(luò)能夠較好地預(yù)測分?jǐn)?shù)線的變化趨勢,在分?jǐn)?shù)線領(lǐng)域預(yù)測中值得推廣。
參考文獻(xiàn):
[1]羅艷輝,呂永貴,李彬.基于ARMA的混合卷煙銷售預(yù)測模型[J].計(jì)算機(jī)應(yīng)用研究,2015,27(7):2664-2668.
[2]謝星峰.基于神經(jīng)網(wǎng)絡(luò)的卷煙銷售預(yù)測模型的研究及應(yīng)用[D].昆明:昆明理工大學(xué),2011.
[3]趙云豐,劉萬軍.人工神經(jīng)網(wǎng)絡(luò)在ERP系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2013,25(4):748-750.
[4]謝東風(fēng),鄒平.基于CBP的卷煙銷售二重趨勢時(shí)間序列預(yù)測模型研究與應(yīng)用[J].控制理論與應(yīng)用,2007,24(6):1015-1020.
[5]羅艷輝,呂永貴,李彬.混合卷煙銷售預(yù)測模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,30(20):4744-4747.endprint