南書坡 程聰
摘要:隨著人工智能和數(shù)據(jù)挖掘技術(shù)的深入發(fā)展,大數(shù)據(jù)逐步進(jìn)入人們的視野,在大數(shù)據(jù)的處理過程中,離散化處理是一個(gè)必不可少的環(huán)節(jié)。本文通過在BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程中引入動量學(xué)習(xí)法,進(jìn)一步完善了BP神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)方面的局限性,降低了BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練誤差,在此基礎(chǔ)上提出了一種基于BP神經(jīng)網(wǎng)絡(luò)的離散化方法,實(shí)現(xiàn)了對連續(xù)屬性的離散化處理。算法分析和實(shí)驗(yàn)證明,本算法是切實(shí)可行的。
關(guān)鍵詞:離散化;BP神經(jīng)網(wǎng)絡(luò);連續(xù)屬性;動量學(xué)習(xí)法
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)09-0195-02
Abstract: With the further development of artificial intelligence and data mining technology, big data gradually into view, in the process large data, discrete processing is an essential link . In this paper, in the learning process by introducing the momentum BP neural network learning method to improve the stability and accuracy of BP neural network , reducing the learning error BP neural network , and on this basis, proposes a BP neural network discretization method to achieve a discrete handling of continuous attributes . Algorithm analysis and experiments show that the algorithm is feasible.
Key words: Discrete; BP neural network; continuous attributes; Momentum Learning
在當(dāng)今大數(shù)據(jù)時(shí)代,我們會面臨著各種各樣的數(shù)據(jù),包括離散化的數(shù)據(jù)和連續(xù)性的數(shù)據(jù),在眾多的算法中,有許多關(guān)于數(shù)據(jù)離散化的例子[1-4],在這些現(xiàn)有的方法中,各有千秋,有的處理連續(xù)性數(shù)據(jù)效果不好,有些算法即使能處理連續(xù)型數(shù)據(jù),但挖掘和學(xué)習(xí)的效果沒有處理離散型數(shù)據(jù)有用和有效。對我們?nèi)粘I詈蛻?yīng)用中的實(shí)際例子分析發(fā)現(xiàn),對我們有用的數(shù)據(jù)除了連續(xù)性的,更多存在的是連續(xù)型屬性的數(shù)據(jù)。這樣的話,對數(shù)據(jù)進(jìn)行離散化處理顯得異常重要,離散化處理的效果好壞,效率高低,直接關(guān)系到數(shù)據(jù)處理和分析的最終結(jié)果[5-6]。
離散化處理是數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的一個(gè)重要環(huán)節(jié),離散化對整個(gè)數(shù)據(jù)挖掘的成敗有著關(guān)鍵的作用:1)減少數(shù)據(jù)處理中的不確定因素,比如,描述一個(gè)人的身高,規(guī)定1.80m是高個(gè)子,那么1.799m,怎么處理這樣的數(shù)據(jù)呢。2)離散化可以減小數(shù)據(jù)規(guī)模,我們現(xiàn)在處于一個(gè)被數(shù)據(jù)包圍的時(shí)代,如果能在數(shù)據(jù)處理過程中減小數(shù)據(jù)規(guī)模,就可以大大提高數(shù)據(jù)處理的速度,提高算法的有效性,降低程序的運(yùn)行時(shí)間。3)離散化處理能夠改善算法的魯棒性,提高數(shù)據(jù)處理的準(zhǔn)確性[7]。(4)算法的改進(jìn)和離散化處理可以相互促進(jìn)發(fā)展[6,8,9]。
1 離散化問題的描述
離散化就是采取各種方法將連續(xù)的區(qū)間劃分為小的區(qū)間,并將這連續(xù)的小區(qū)間與離散的值關(guān)聯(lián)起來。
離散化的問題本質(zhì)是:決定選擇多少個(gè)分割點(diǎn)和確定分割點(diǎn)位置。
連續(xù)屬性離散化的方法有大概有以下幾種:
1)無監(jiān)督和有監(jiān)督。在離散化過程中使用類信息的方法是有監(jiān)督的,而不使用類信息的方法。
2)全局和局部。全局離散化指使用整個(gè)樣本空間進(jìn)行離散化,而局部離散化指在樣本空間的一個(gè)區(qū)域內(nèi)進(jìn)行離散化。
3)動態(tài)離散化和靜態(tài)離散化。動態(tài)的離散化方法就是在建立分類模型的同時(shí)對連續(xù)屬性進(jìn)行離散化,而靜態(tài)離散化方法就是在進(jìn)行分類之前完成離散化處理。
2 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種多層前向型神經(jīng)網(wǎng)絡(luò),其神經(jīng)元的傳遞是S型函數(shù),輸出緊為0-1.的連續(xù)量,它可以實(shí)現(xiàn)從輸入到輸出的任意非線性映射。由于權(quán)位的調(diào)整采用反向傳播學(xué)習(xí)算法,因此,人們就就將此算法稱為向后傳播算法,簡稱BP算法。
日前,在神經(jīng)網(wǎng)絡(luò)的已有的應(yīng)用實(shí)踐中,BP神經(jīng)網(wǎng)絡(luò)的應(yīng)用占了絕對優(yōu)勢,也說明了BP神經(jīng)網(wǎng)絡(luò)的應(yīng)用廣泛性和優(yōu)勢,以及有不可限量的應(yīng)用前景和發(fā)展空間。
BP神經(jīng)網(wǎng)絡(luò)模型是一個(gè)三層網(wǎng)絡(luò),它的拓?fù)浣Y(jié)構(gòu)可被劃分為:輸入層、輸出層,隱含層。其中,輸入層與輸出層具有更重要的意義,因此有些文獻(xiàn)和算法中把BP神經(jīng)網(wǎng)絡(luò)看成有輸入層和輸出層組成的兩層網(wǎng)絡(luò)結(jié)構(gòu)。
3 基于BP神經(jīng)網(wǎng)絡(luò)的離散化方法
1)對BP神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化。首先創(chuàng)建網(wǎng)絡(luò)結(jié)構(gòu),并根據(jù)實(shí)際情況確定BP神經(jīng)網(wǎng)絡(luò)中的輸入層,隱含層和輸出層的節(jié)點(diǎn)數(shù)、連接權(quán)值和訓(xùn)練誤差值等初值,最后給定學(xué)習(xí)速率和神經(jīng)元激勵函數(shù)。
2)隱含層輸出計(jì)算。
3)輸出層輸出計(jì)算。
4)計(jì)算訓(xùn)練誤差
[?j(l)=(dqj-x(l)j)f'(s(l)j)],輸出層
[?j(l)=f'(s(l)j)k=1nl+1?(l+1)w(l+1)kj],隱含層和輸入層
5)修正權(quán)值和閾值
[w(l+1)ji[k+1]=w(l)ji[k]+μ?j(l)x(l-1)i+η(w(l)ji[k]-w(l)ji[k-1])]
[θ(l+1)j[k+1]=θ(l)j[k]+μ?j(l)+η(θ(l)j[k]-θ(l)j[k-1])]
6)判斷是否達(dá)到訓(xùn)練誤差要求,如果達(dá)到要求,就進(jìn)行下一步,如果達(dá)不到要求否則,轉(zhuǎn)到第2步,重新對BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練和學(xué)習(xí)。
7)利用附加動量法規(guī)則對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,為了克服BP神經(jīng)網(wǎng)絡(luò)的缺點(diǎn),在BP算法中加入動量項(xiàng)不僅可以微調(diào)權(quán)值的修正量,也可以有效的減少BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練和學(xué)習(xí)過程中的缺陷。另外在修改訓(xùn)練參數(shù)和連接權(quán)值的同時(shí),還可以使用順序方式訓(xùn)練網(wǎng)絡(luò)。順序方式訓(xùn)練網(wǎng)絡(luò)要比批處理方式更快,特別是在訓(xùn)練樣本集很大,而且具有重復(fù)樣本時(shí),順序方式的這一優(yōu)點(diǎn)更為突出。
8)利用訓(xùn)練后的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行離散化處理
利用BP神經(jīng)網(wǎng)絡(luò)的分類功能,對訓(xùn)練樣本數(shù)據(jù)進(jìn)行處理,根據(jù)處理結(jié)果對連續(xù)數(shù)據(jù)進(jìn)行離散化處理,綜合整理后就得到了離散化后的屬性表。
利用BP神經(jīng)網(wǎng)絡(luò)的新建一個(gè)網(wǎng)絡(luò),經(jīng)過訓(xùn)練之后為了測試一下我們提出的算法的效果,我們可以對此算法進(jìn)行一次實(shí)驗(yàn),我們利用仿真函數(shù)sim()可以看到的聚類結(jié)果是:
Yc =6544465 3
由此看出,離散數(shù)據(jù)分成3類??梢缘贸鼋Y(jié)論,BP神經(jīng)網(wǎng)絡(luò)成功的對樣本數(shù)據(jù)進(jìn)行了離散化,其中第1和第6是同類,第2和第7是同類,第3、第4、第5和第8是同類。每一類用一個(gè)離散數(shù)據(jù)替代,所以可以得到的離散化結(jié)果是:[34555435]
這樣我們就得到了離散化后的屬性表。
連續(xù)屬性離散化之后我們需要驗(yàn)證一下離散化的結(jié)果是否對屬性表的一致性產(chǎn)生了影響,所以我們再次利用LVQ神經(jīng)網(wǎng)絡(luò)來檢驗(yàn),現(xiàn)在訓(xùn)練樣本為P=[34 2 2 2 43 2;34 2 3 2 2 43]
經(jīng)過訓(xùn)練得到的聚類結(jié)果是:
Yc =55 1 5 1 1 55
我們發(fā)現(xiàn)得到的結(jié)果和實(shí)際情況相符合。
4 小結(jié)
對于連續(xù)屬性離散化問題,我們在BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程中,對網(wǎng)絡(luò)的訓(xùn)練做了一些改進(jìn),引入了動量學(xué)習(xí)法,改善了BP神經(jīng)網(wǎng)絡(luò)的性能,最后通過Mantis仿真實(shí)驗(yàn)證明了該算法對于處理離散化問題的有效性。
參考文獻(xiàn):
[1] 徐澤柱,王林.基于粗糙集理論和BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法[J].計(jì)算機(jī)工程與應(yīng)用,2004,31(3):169-172.
[2] 余衛(wèi)雄,姜禮平,蕭星.基于粗糙集和神經(jīng)網(wǎng)絡(luò)的聯(lián)合模式識別系統(tǒng)[J].海軍工程大學(xué)學(xué)報(bào),2006, 18(2):87-90.
[3] 蔣麗華,覃征.基于粗糙集的LVQ神經(jīng)網(wǎng)絡(luò)的稽查選案模型研究[J].計(jì)算機(jī)應(yīng)用. 2006, 26(12):205-207.
[4] 謝振華,商琳,李寧,等.粗糙集在神經(jīng)網(wǎng)絡(luò)中應(yīng)用技術(shù)的研究[J].計(jì)算機(jī)應(yīng)用研究, 2004, 21(9):71- 74.
[5] Ying Yang,Xindong Wu,Discretization Methods Simon, H.A. 1981. The Sciences of the Artificial, 2nd edn. Cambridge, MA: MIT Press, 2007.
[6] 劉業(yè)政,焦寧.連續(xù)特征離散化算法比較研究[J].計(jì)算機(jī)應(yīng)用研究,2007,24(9).
[7] Dougherty J,Kohavi R., Sahami M.Supervised and unsupervised discretization of continuous features. In Proc. Twelfth International Conference on Machine Learning. Los Altos, CA: Morgan Kaufmann, 1995:194–202.
[8] HUAN LIU, RARHAD HUSSAIN, CHEW LIM TAN, MANORANJAN DASH, 2002. Discretization: An Enabling Technique. Data Mining and Knowledge Discovery,6,393-423,2002. 2002 Kluwer Academic Publishers. Manufactured in The Netherlands.
[9] Jiawei Han, MichelineKamber.數(shù)據(jù)挖掘概念與技術(shù)[M].2版.范明,孟小峰,譯.機(jī)械工業(yè)出版社, 2004:47-60.