蔣林利
數(shù)據(jù)挖掘是一種從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)的過程,它可對(duì)知識(shí)進(jìn)行自動(dòng)提取和分析,因而它與信息系統(tǒng)、數(shù)據(jù)庫技術(shù)之間都存在密切的聯(lián)系。數(shù)據(jù)挖掘的對(duì)象并不局限于某一個(gè)數(shù)據(jù)庫,不論是一般數(shù)據(jù)庫、高級(jí)數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫還是信息系統(tǒng),只要是需要進(jìn)行數(shù)據(jù)挖掘的系統(tǒng)都可以成為數(shù)據(jù)挖掘的研究對(duì)象。數(shù)據(jù)挖掘的內(nèi)容就是從數(shù)據(jù)庫大量的數(shù)據(jù)中挖掘出有用的信息,為行業(yè)提供制定決策所需的依據(jù)。根據(jù)挖掘任務(wù)不同,數(shù)據(jù)挖掘可分為兩種,一種是描述一種是預(yù)測(cè),描述任務(wù)相對(duì)預(yù)測(cè)任務(wù)而言更為簡(jiǎn)單,它只需提取數(shù)據(jù)的表面性質(zhì),而預(yù)測(cè)任務(wù)則需對(duì)提取的數(shù)據(jù)進(jìn)分析和預(yù)測(cè)。本文以國家統(tǒng)計(jì)局編印的《中國統(tǒng)計(jì)年鑒》為研究背景,對(duì)運(yùn)輸行業(yè)和郵電行業(yè)的公路貨運(yùn)量進(jìn)行分析,并在此基礎(chǔ)上運(yùn)用數(shù)據(jù)挖掘技術(shù)中的RBF神經(jīng)網(wǎng)絡(luò)算法,構(gòu)建公路貨運(yùn)量預(yù)測(cè)模型。
主成分分析法是一種將多個(gè)變量通過線性變化以選出較少個(gè)數(shù)重要變量的多元統(tǒng)計(jì)法,這種統(tǒng)計(jì)法可有效地針對(duì)變量間復(fù)雜的關(guān)系進(jìn)行簡(jiǎn)化處理,從而達(dá)到降低信息損失量,形成線性組合的目的。主成分分析方法是建立在降維思想的基礎(chǔ)上,由于它對(duì)每個(gè)變量都進(jìn)行了不同程度和不同角度的考慮,所以它統(tǒng)計(jì)出來的信息實(shí)用度都較高,且各指標(biāo)間都存在重疊和交叉,所以指標(biāo)的個(gè)數(shù)也從多個(gè)發(fā)展成綜合指標(biāo),綜合指標(biāo)的形成不僅保證信息的精確、全面,還能提高信息的抓取速度。主成分分析法的運(yùn)用簡(jiǎn)化了研究人員的工作分析量,在將研究重點(diǎn)放在主要成分信息的同時(shí)抓住了主要信息的重點(diǎn)內(nèi)容,掌握事物內(nèi)部變量規(guī)律的過程更為簡(jiǎn)單,研究人員的工作效率得到了有效的提升。
由于RBF神經(jīng)網(wǎng)絡(luò)在逼近任意連續(xù)函數(shù)時(shí)精度不受限制,所以它又屬于局部逼近網(wǎng)絡(luò)。當(dāng)樣本數(shù)據(jù)的個(gè)數(shù)為n,屬性為m,在神經(jīng)網(wǎng)絡(luò)徑向基函數(shù)中的輸入向量應(yīng)為 X=(X1,X2,…,Xm),函數(shù)的輸出向量應(yīng)為Y=(Y1,Y2,…,Ys)。在上述向量中,s代表輸出節(jié)點(diǎn)維數(shù),m代表輸入節(jié)點(diǎn)維數(shù)。隱含層包含的高斯函數(shù)具有一定的輻射狀作用,如下所示為高斯函數(shù):
在上述公式中,ui(x)表示隱節(jié)點(diǎn)i的輸出;樣本輸入向量用x表示;ci表示隱節(jié)點(diǎn)i的中心向量,它和樣本輸入向量x的維數(shù)相同;σi是一個(gè)標(biāo)準(zhǔn)常數(shù)。
高斯函數(shù)的數(shù)學(xué)表達(dá)式非常簡(jiǎn)單,即使輸入的量為多變量也不會(huì)使運(yùn)算復(fù)雜化,兩者之間呈現(xiàn)徑向?qū)ΨQ且光滑型較好,任何數(shù)的階導(dǎo)數(shù)都存在。隱含層的節(jié)點(diǎn)輸出ui(x)表示輸入模式與隱含層節(jié)點(diǎn)間呈現(xiàn)分離狀態(tài)時(shí),該隱含層節(jié)點(diǎn)表示的徑向基函數(shù),在傳統(tǒng)的輸入方法中,隱含層節(jié)點(diǎn)的中心向量通常用訓(xùn)練樣本中隱節(jié)點(diǎn)i的輸入向量,因而馴良樣本的個(gè)數(shù)就表示為隱含層節(jié)點(diǎn)的個(gè)數(shù)。受高斯函數(shù)性質(zhì)的影響,當(dāng)ui(x)在隱含層節(jié)點(diǎn)的中心向量處存在最大值時(shí),ui(x)會(huì)隨著(x-ci)的增大而逐漸減小直至取值為零,在衰減過程中只有很少的中心向量靠近x,這部分中心向量才能被激活,若用聚類中心代替部分中心,與聚類中心鄰近的中心向量都可以被激活。隱層節(jié)點(diǎn)與輸出層間呈現(xiàn)線性關(guān)系,由此可見神經(jīng)網(wǎng)絡(luò)隱含層中的高斯函數(shù)為線性函數(shù)。
本文用于數(shù)據(jù)挖掘的數(shù)據(jù)來源于國家統(tǒng)計(jì)局編印的《中國統(tǒng)計(jì)年鑒》中的貨運(yùn)量信息,信息內(nèi)容有公路總長(zhǎng)、公路運(yùn)量、民用車輛以及私用車輛等。為了驗(yàn)證數(shù)據(jù)挖掘技術(shù)的精確性,本文選取了2000年至2011年間的所有公路貨運(yùn)量數(shù)據(jù),用于預(yù)測(cè)2012年的公路貨運(yùn)量。選取的數(shù)據(jù)根據(jù)年份劃分成11個(gè)樣本,將2000年至2009年的公路貨運(yùn)量數(shù)據(jù)作為訓(xùn)練樣本,將2010年的公路貨運(yùn)量數(shù)據(jù)作為測(cè)試樣本,2011年的公路貨運(yùn)量數(shù)據(jù)作為對(duì)比樣本。由于數(shù)據(jù)的屬性和數(shù)量級(jí)各不相同,所以在處理數(shù)據(jù)的過程中比較麻煩,為了滿足神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)算法的要求,在進(jìn)行數(shù)據(jù)挖掘前我們首先要對(duì)待挖掘的數(shù)據(jù)進(jìn)行歸一化處理。然后利用神經(jīng)網(wǎng)絡(luò)算法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行預(yù)測(cè),輸入結(jié)構(gòu)為X1、X2、X3,輸出量為Y,其中X1表示公路總長(zhǎng)度,X2表示民用車輛的輛數(shù),X3表示私人車輛的輛數(shù)。將2009年的樣本數(shù)據(jù)集合成訓(xùn)練集,將2010年的樣本數(shù)據(jù)集合成測(cè)試集,以此為基礎(chǔ)建立新的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,對(duì)訓(xùn)練集和測(cè)試集中的數(shù)據(jù)進(jìn)行預(yù)測(cè)。
時(shí)域因素和關(guān)聯(lián)因素都會(huì)影響到公路貨運(yùn)量的預(yù)測(cè)信息,公路貨運(yùn)量數(shù)據(jù)經(jīng)過預(yù)處理后便可形成對(duì)應(yīng)的綜合延拓矩陣。關(guān)聯(lián)預(yù)測(cè)主要是通過對(duì)本年的其他因素進(jìn)行分析從而達(dá)到預(yù)測(cè)公路貨運(yùn)量的目的,時(shí)域預(yù)測(cè)則是以近幾年的公路貨運(yùn)量為依據(jù),對(duì)今后的發(fā)展趨勢(shì)作出的一個(gè)公路貨運(yùn)量預(yù)測(cè)信息。無論是時(shí)域因素還是關(guān)聯(lián)因素,它們與公路貨運(yùn)量都存在著直接或間接的聯(lián)系,為了順利完成數(shù)據(jù)預(yù)處理,提高公路貨運(yùn)量的預(yù)測(cè)準(zhǔn)確性,本文采用了關(guān)聯(lián)因素與時(shí)域因素相結(jié)合的綜合延拓矩陣。首先對(duì)數(shù)據(jù)進(jìn)行歸一化處理全部統(tǒng)一至[0,1]區(qū)間,歸一化處理數(shù)據(jù)的步驟是找出屬性相同的樣本數(shù)據(jù)中的最大值,對(duì)該屬性進(jìn)行處理后將每個(gè)樣本所有相同的屬性都除以最大值,這樣就能弱化數(shù)量級(jí)對(duì)數(shù)據(jù)預(yù)處理的影響。歸一化處理后的數(shù)據(jù)就可用線性回歸法和主成分分析法進(jìn)行數(shù)據(jù)分析,得出關(guān)聯(lián)因素(X1、X2、X3)的主成分?jǐn)?shù)據(jù)分析結(jié)果,再將本年前的四年公路貨運(yùn)量數(shù)據(jù)設(shè)定為時(shí)域因素,同樣用線性回歸法和主成分分析法對(duì)數(shù)據(jù)進(jìn)行分析,然后得出時(shí)域因素(Y1、Y2、Y3)的主成分?jǐn)?shù)據(jù)分析結(jié)果。
根據(jù)年份將2000年至2009年的公路貨運(yùn)量數(shù)據(jù)劃分成9個(gè)樣本,然后對(duì)這9個(gè)樣本數(shù)據(jù)進(jìn)行均值聚類,K代表聚類的個(gè)數(shù)。RBF神經(jīng)網(wǎng)絡(luò)有一個(gè)隱含層,而隱含層的中心則是聚類中心,所以隱含層中包含的神經(jīng)元個(gè)數(shù)就等于聚類個(gè)數(shù),將神經(jīng)網(wǎng)絡(luò)和聚類綜合起來進(jìn)行反復(fù)實(shí)驗(yàn),然后利用動(dòng)態(tài)聚類算法將聚類K設(shè)定為5,獲得如下表所示的下近似集樣本號(hào)和上近似集樣本號(hào)。表1所示為基于粗糙集的動(dòng)態(tài)聚類結(jié)果:
表1 基于粗糙集的動(dòng)態(tài)聚類結(jié)果
RBF神經(jīng)網(wǎng)絡(luò)在輸入結(jié)構(gòu)處有三個(gè)節(jié)點(diǎn),而隱含層則包含了5個(gè)節(jié)點(diǎn),如上文所述將聚類中心作為隱含層的中心,則輸出節(jié)點(diǎn)的個(gè)數(shù)為1個(gè)。基于RBF構(gòu)建的預(yù)測(cè)模型可以吸收9個(gè)樣本中包含的數(shù)據(jù)信息,而數(shù)據(jù)信息的體現(xiàn)則是借助綜合延拓矩陣完成的,樣本信息中包含了與公路貨運(yùn)量相關(guān)的屬性分析和一些預(yù)測(cè)值,神經(jīng)網(wǎng)絡(luò)的構(gòu)建是以聚類中心為構(gòu)建中心,在此基礎(chǔ)上學(xué)習(xí)9個(gè)樣本中的數(shù)據(jù)信息,從而使神經(jīng)網(wǎng)絡(luò)達(dá)到一個(gè)穩(wěn)定狀態(tài)。
構(gòu)建穩(wěn)定的神經(jīng)網(wǎng)絡(luò),首先需建立神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,然后選取訓(xùn)練樣本,訓(xùn)練樣本數(shù)據(jù)一般就是這11個(gè)數(shù)據(jù)樣本,利用神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果出現(xiàn)的誤差則用均方誤差表示。均方誤差是表示誤差函數(shù)常用的方法,通常用MSE來表示,其中T代表實(shí)際值而Y則用來表示預(yù)測(cè)值,具體計(jì)算公式如下所示:
將2011年的數(shù)據(jù)信息輸入上述公式,得出2011年一年內(nèi)的公路貨運(yùn)量,將得出的公路貨運(yùn)量數(shù)據(jù)與均方誤差進(jìn)行比較,得出兩者的誤差。
表2 多種模型的預(yù)測(cè)性能比較
公路貨運(yùn)量預(yù)測(cè)常用方法包括組合預(yù)測(cè)法、直接預(yù)測(cè)法和KM-RBF綜合預(yù)測(cè)法,直接預(yù)測(cè)法則通過分析公路貨運(yùn)量歷史數(shù)據(jù)達(dá)到預(yù)測(cè)的目的,它是借助RBF神經(jīng)網(wǎng)絡(luò)對(duì)原始數(shù)據(jù)進(jìn)行直接預(yù)測(cè);組合預(yù)測(cè)法主要是用兩種以上的不同預(yù)測(cè)方法對(duì)公路貨運(yùn)量數(shù)據(jù)進(jìn)行預(yù)測(cè)的一種方法,它與直接預(yù)測(cè)存在一定的區(qū)別,首先要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,轉(zhuǎn)變成延拓矩陣才能得出預(yù)測(cè)結(jié)果;KMRBF綜合預(yù)測(cè)法比直接預(yù)測(cè)法和組合預(yù)測(cè)法的精度都要高,相對(duì)于簡(jiǎn)單的RBF神經(jīng)網(wǎng)絡(luò)算法,KM-RBF綜合預(yù)測(cè)法在分析能力上有所提升,而輸入結(jié)構(gòu)也得到了簡(jiǎn)化,預(yù)測(cè)顯示的實(shí)際值是指該年公路的實(shí)際貨運(yùn)數(shù)值。
[1]王純子,張斌.基于隱層優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型[J].計(jì)算機(jī)工程,2010,36(18)
[2]李曦,王青,萬云輝,李琦.基于RBF神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型及其應(yīng)用研究[J].泰山學(xué)院學(xué)報(bào),2008,30(3)
[3]許霞.基于RBF神經(jīng)網(wǎng)絡(luò)的貨運(yùn)量預(yù)測(cè)模型[J].航空計(jì)算技術(shù),2007,37(5):28-31