查道貴,許彩芳(宿州職業(yè)技術(shù)學(xué)院,安徽 宿州 234101)
?
RBF神經(jīng)網(wǎng)絡(luò)迭加粗糙集的數(shù)據(jù)挖掘算法探討
查道貴,許彩芳
(宿州職業(yè)技術(shù)學(xué)院,安徽 宿州 234101)
摘 要:報(bào)告了數(shù)據(jù)挖掘技術(shù)及算法的現(xiàn)狀,研究了粗糙集理論和RBF神經(jīng)網(wǎng)絡(luò)的經(jīng)典模型,比較分析了二者優(yōu)缺點(diǎn),為提高數(shù)據(jù)挖掘算法的準(zhǔn)確性,提出了 RBF神經(jīng)網(wǎng)絡(luò)迭加粗糙集的數(shù)據(jù)挖掘算法思想,實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了利用RBF神經(jīng)網(wǎng)絡(luò)優(yōu)化數(shù)據(jù),再利用粗糙集來約束和提取規(guī)則,可取得良好的數(shù)據(jù)挖掘效果。
關(guān)鍵詞:RBF神經(jīng)網(wǎng)絡(luò);粗糙集;數(shù)據(jù)挖掘算法
2012年,美國(guó)奧巴馬政府為提高海量數(shù)據(jù)的收集、訪問和整理的速度,承諾投資2億美元加強(qiáng)大數(shù)據(jù)及相關(guān)產(chǎn)業(yè)的發(fā)展和研究。我國(guó)也于2012年批復(fù)了“十二五國(guó)家政務(wù)信息化建設(shè)工程規(guī)劃”。聯(lián)合國(guó)于同年發(fā)布白皮書,指出大數(shù)據(jù)對(duì)聯(lián)合國(guó)及各國(guó)都是一個(gè)歷史的機(jī)遇。一個(gè)開放的、共享的、智能化的大數(shù)據(jù)的時(shí)代已經(jīng)來臨!
分析并挖掘海量數(shù)據(jù)中所蘊(yùn)藏有價(jià)值信息,就是數(shù)據(jù)挖掘的目的所在。數(shù)據(jù)挖掘就是利用技術(shù)、方法和算法來管理、分析數(shù)據(jù)以達(dá)到知識(shí)發(fā)現(xiàn)。在此領(lǐng)域中應(yīng)用比較廣泛的包含遺傳算法、RBF(徑向基函數(shù))神經(jīng)網(wǎng)絡(luò)及粗糙集理論等。粗糙集理論是通過不可分辨關(guān)系確定某些特征屬性,從而確定數(shù)據(jù)的內(nèi)部屬性,在大量數(shù)據(jù)處理和消除冗余的情況下粗糙集在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用比較廣泛[1]。
RBF神經(jīng)網(wǎng)絡(luò)首先利用徑向基函數(shù)將數(shù)據(jù)映射到一個(gè)高維的空間,之后再在高維空間上的實(shí)現(xiàn)線性建模。RBF神經(jīng)網(wǎng)絡(luò)原理如下:
研究的數(shù)據(jù)有N個(gè)訓(xùn)練樣本組,各個(gè)層次均有不同的神經(jīng)元組成,其中隱含層有i個(gè)神經(jīng)元構(gòu)成,輸入層有M個(gè)神經(jīng)元構(gòu)成,然后根據(jù)這兩組數(shù)據(jù)分析、總結(jié)出結(jié)構(gòu),并以高斯函數(shù)作為基函數(shù),其中it代表的是基函數(shù)的中心,輸入層含有j個(gè)神經(jīng)元元素。系統(tǒng)中輸入層與輸入層之間的權(quán)值用mi1ω(m=1,2…,M;i=1,2,…i)表示;另外,隱含層設(shè)置的值域單元為0δ,其中它的輸出值始終為1。假設(shè)X=[為一個(gè)訓(xùn)練樣本,其中任意一列(n=1,2,…N)為一個(gè)訓(xùn)練樣本,對(duì)應(yīng)的實(shí)際輸出為(n=1,2,…N),矢量集為D。通過以上的分析我們可以計(jì)算出此次分析中的基函數(shù)為:
在公式(1)中iσ為高斯函數(shù)的方差,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本分析中一般由兩個(gè)階段組成,第一個(gè)階段是在沒有監(jiān)督的過程中形成的一種樣本,而第二個(gè)階段是在有監(jiān)督的過程中形成的,兩者學(xué)習(xí)規(guī)則和構(gòu)成存在一定的差距,能夠根據(jù)一定的學(xué)習(xí)規(guī)則調(diào)整網(wǎng)絡(luò)的值域[2]。
粗集理論主要是在信息系統(tǒng)的分類能力下實(shí)施的一種時(shí)間約簡(jiǎn)方式,并根據(jù)此種方法分析導(dǎo)出問題的分類原則和方法,它主要應(yīng)用于信息表描述域中有關(guān)數(shù)據(jù)模型的分析,在分析的過程中首先將粗糙集看做是一個(gè)二維表,然后根據(jù)信息表中的對(duì)象、屬性以及實(shí)例分析等,對(duì)粗糙集進(jìn)行多個(gè)屬性的綜合分析,然后再此基礎(chǔ)上根據(jù)對(duì)屬性的描述進(jìn)行集合分析,最后將分析結(jié)果整理為信息表。
將 RBF神經(jīng)網(wǎng)絡(luò)和粗糙集這兩種方法進(jìn)行優(yōu)勢(shì)互補(bǔ),在RBF神經(jīng)網(wǎng)絡(luò)及粗糙集機(jī)制下提出一種算法分析形式:采用一種網(wǎng)絡(luò)結(jié)構(gòu)形式預(yù)測(cè)信息表的原始數(shù)據(jù)和規(guī)則,并將真實(shí)決策與預(yù)測(cè)結(jié)果值進(jìn)行詳細(xì)的對(duì)比,并在去除干擾數(shù)據(jù)的基礎(chǔ)上進(jìn)行分析,然后再利用屬性離散分析法來數(shù)據(jù)處理,使之滿足粗燥集挖掘的要求,并進(jìn)行簡(jiǎn)約分析和規(guī)則提取。根據(jù)以上分析的思路,可得圖1所示RBF神經(jīng)網(wǎng)絡(luò)迭加粗糙集算法步驟圖:
圖11:RBF神經(jīng)網(wǎng)絡(luò)迭加粗糙生的算法步驟圖
5.1預(yù)處理數(shù)據(jù)
以安徽省各地級(jí)市在萬眾創(chuàng)新大眾創(chuàng)業(yè)的大環(huán)境下各種民營(yíng)、私營(yíng)企業(yè)(包括家庭式作坊,但不包括大型國(guó)有企業(yè))的相關(guān)數(shù)據(jù)為例進(jìn)行數(shù)據(jù)分析,各地級(jí)市發(fā)展不同所以各自數(shù)據(jù)信息不同但均有一定的屬性關(guān)系,為此采用神經(jīng)元結(jié)構(gòu)的數(shù)據(jù)預(yù)處理方式進(jìn)行處理,首先提取出具有代表性的地區(qū),而后對(duì)數(shù)據(jù)進(jìn)行泛化操作和屬性刪除,進(jìn)一步分析數(shù)據(jù)信息的分析其屬性值。
5.2數(shù)據(jù)處理
利用RBF神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行處理分析,首先將信息表的條件屬性當(dāng)做其訓(xùn)練樣本,而后建立一個(gè)相關(guān)的RBF神經(jīng)網(wǎng)絡(luò)函數(shù)模型,最后對(duì)數(shù)據(jù)實(shí)施歸一化處理,調(diào)節(jié)數(shù)值分析,確定 spread值。然后建立網(wǎng)絡(luò)曲線圖對(duì)數(shù)據(jù)進(jìn)行估計(jì)分析。比較數(shù)據(jù)精度值,由于數(shù)據(jù)比較多,刪除前后數(shù)據(jù)的精度值,利用RBF神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理分析,提高系統(tǒng)泛化能力。
5.3數(shù)據(jù)挖掘分析
在數(shù)據(jù)挖掘分析的過程中為了使數(shù)據(jù)挖掘效果更加精確,我們?cè)谶@里采用粗燥集理論對(duì)數(shù)據(jù)信息實(shí)施處理、分析,首先對(duì)數(shù)據(jù)進(jìn)行離散分析,數(shù)據(jù)離散的方法比較多,比如等頻離散法、等距離離散法等,在這里我們利用等距離離散法進(jìn)行數(shù)據(jù)屬性分析。
5.4屬性簡(jiǎn)化分析和規(guī)則抽取
利用神經(jīng)網(wǎng)絡(luò)和粗糙集理論進(jìn)行數(shù)據(jù)分析的過程中,首先利用相關(guān)軟件對(duì)信息進(jìn)行處理,并對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)約處理,然后進(jìn)行規(guī)則抽取,并將得到的規(guī)則應(yīng)用于樣本分析中,這時(shí)我們會(huì)得到一個(gè)相關(guān)信息為:處理后的測(cè)試精度高于未進(jìn)行數(shù)據(jù)預(yù)處理的分析數(shù)據(jù)精度值。所以說RBF神經(jīng)網(wǎng)絡(luò)迭加粗糙集的數(shù)據(jù)處理更加精確,減少不可靠數(shù)據(jù)對(duì)數(shù)據(jù)挖掘的影響,提高數(shù)據(jù)精確度。
在數(shù)據(jù)分析中先利用 RBF神經(jīng)網(wǎng)絡(luò)所具有較強(qiáng)的數(shù)據(jù)分析和泛化能力,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和分析,通過簡(jiǎn)約化處理和規(guī)則抽取分析,得到一個(gè)相對(duì)比較可靠的數(shù)據(jù)信息,再利用粗糙集所具備的并行處理、較強(qiáng)魯棒性和效率高的特點(diǎn)進(jìn)行數(shù)據(jù)處理,這樣能夠發(fā)揮粗糙集和RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的雙重優(yōu)勢(shì),提高信息精確度,同時(shí)能夠使優(yōu)化后的數(shù)據(jù)降低錯(cuò)誤率,提高數(shù)據(jù)挖掘的精確度和準(zhǔn)確性。
參考文獻(xiàn):
[1]儲(chǔ)兵,吳陳,楊習(xí)貝等.基于RBF神經(jīng)網(wǎng)絡(luò)與粗糙集的數(shù)據(jù)挖掘算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(7):87-91.
[2]楊志超,張成龍,吳奕等.基于粗糙集和 RBF 神經(jīng)網(wǎng)絡(luò)的變壓器故障診斷方法研究[J].電測(cè)與儀表,2014,(21):34-39.
(責(zé)任編輯:雷 君)
中圖分類號(hào):C37
文獻(xiàn)標(biāo)識(shí)碼:A
doi:10.3969/j.issn.1672-7304.2016.01.080
文章編號(hào):1672–7304(2016)01–0172–02
*基金項(xiàng)目:皖北旱地小麥秸稈腐化劑選擇及直接還田配套技術(shù)的研究(KJ2014A254)。
作者簡(jiǎn)介:查道貴(1975-),男,安徽安慶人,講師,研究方向:計(jì)算機(jī)應(yīng)用。
Data Mining Algorithm Based on Rough Sets Superposed upon RBF Neural Network
ZHA Dao-gui,XU Cai-fang
(Computer Information Department Suzhou Vocational Technical College, Suzhou,Anhui 234101)
Abstract:In this thesis, the status of data mining technology and algorithm is reported, the classic models of rough sets theory and RBF neural network theory are studied and the merits and faults of the two theories are compared and analyzed. In order to improve the accuracy and of data mining algorithm, the idea of data mining algorithm based on rough sets superposed upon RBF neural network is put forward. The research results show that good data mining effect can be achieved by way of constraining and extracting the rules using rough sets after optimizing the data using RBF neural network.
Keywords:RBF neural network; Rough set; Data mining algorithms