李雨沛 王新利
摘? 要: 提出了一種改進(jìn)的ReliefF-BPNN分類模型。該模型使用ReliefF算法和交互增益權(quán)重,來(lái)最大程度地保留相關(guān)特征與交互特征;同時(shí)在BP神經(jīng)網(wǎng)絡(luò)模型的誤差函數(shù)中加入正則化項(xiàng)防止過(guò)擬合。實(shí)驗(yàn)表明,改進(jìn)的ReliefF-BPNN在大多數(shù)數(shù)據(jù)集上的分類準(zhǔn)確率高于90%,其精度相對(duì)于其他傳統(tǒng)模型更高。
關(guān)鍵詞: 特征選擇; ReliefF算法; 交互增益; BP神經(jīng)網(wǎng)絡(luò);分類
中圖分類號(hào):TP181? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2023)06-20-05
Improved ReliefF-BPNN classification model
Li Yupei, Wang Xinli
(College of Science, University of Shanghai for Science and Technology, Shanghai 200093, China)
Abstract: In this paper, an improved ReliefF-BPNN classification model is proposed. It uses the ReliefF algorithm and interaction gain weights to maximize the retention of correlation and interaction features. Meanwhile, a regularization term is added to the error function of BP neural network model to prevent overfitting. Experiments show that the classification accuracy of the improved ReliefF-BPNN is higher than 90% on most data sets, and its accuracy is higher than that of other traditional models.
Key words: feature selection; ReliefF algorithm; interaction gain; BP neural network; classification
0 引言
近年來(lái),各種數(shù)據(jù)的爆發(fā)式增長(zhǎng),影響了數(shù)據(jù)的準(zhǔn)確分類。面對(duì)高維的數(shù)據(jù),特征選擇是一個(gè)行之有效的方法。
特征選擇有三種常用的方法,分別是包裹法、嵌入法、過(guò)濾法[1]。其中,過(guò)濾法評(píng)價(jià)準(zhǔn)則簡(jiǎn)單、運(yùn)算效率高,應(yīng)用范圍廣[2]。ReliefF算法作為過(guò)濾法的一種,具有權(quán)重計(jì)算更簡(jiǎn)單且運(yùn)行效率更高的優(yōu)點(diǎn),被廣泛應(yīng)用于特征選擇[3]。另一方面,BP神經(jīng)網(wǎng)絡(luò)模型有諸多優(yōu)點(diǎn),如強(qiáng)自適應(yīng)性,魯棒性、非線性映射等,是一種使用面很廣的分類模型,但是當(dāng)模型的訓(xùn)練數(shù)據(jù)過(guò)少或數(shù)據(jù)存在噪聲時(shí)會(huì)使分類模型產(chǎn)生過(guò)擬合現(xiàn)象[4]。許多研究者對(duì)BP神經(jīng)網(wǎng)絡(luò)的參數(shù)做出優(yōu)化來(lái)避免這一現(xiàn)象[5],例如將模擬退火算法和元啟發(fā)式算法混合調(diào)整參數(shù)[6]、將自適應(yīng)遺傳算法應(yīng)用于優(yōu)化參數(shù)[7]等,但是應(yīng)用不同的算法對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化往往計(jì)算復(fù)雜度高,實(shí)驗(yàn)難度大。
盡管ReliefF算法計(jì)算特征權(quán)重是根據(jù)特征在同類中的差異和特征在不同類中的差異來(lái)選擇特征,合理考慮了特征與不同類別的相關(guān)性,但特征之間與類別還有一個(gè)不可忽視的關(guān)系,即特征的交互。一般來(lái)說(shuō),交互特征單獨(dú)與類別無(wú)關(guān),一旦將它們組合在一起,卻又與類別很相關(guān)。保留交互特征是有利于分類的,而ReliefF算法忽視特征之間的交互,極大地影響特征選擇的效果,進(jìn)而影響分類。利用信息度量標(biāo)準(zhǔn)的互信息方法能夠有效地度量特征之間的交互,許多特征選擇算法是使用基于互信息的方法來(lái)度量特征的交互,最大程度地保留交互特征來(lái)優(yōu)化特征選擇的效果,進(jìn)而提高分類準(zhǔn)確率[8]。
本文在上述研究的基礎(chǔ)上,提出了一種改進(jìn)的ReliefF-BP神經(jīng)網(wǎng)絡(luò)分類模型。用ReliefF算法進(jìn)行選擇,選擇出與類別相關(guān)大的特征,再使用標(biāo)準(zhǔn)化的交互增益權(quán)重,盡可能保留交互特征;然后采用加入[L1]正則化項(xiàng)的BP神經(jīng)網(wǎng)絡(luò)模型。與其他改進(jìn)相比,該模型不僅結(jié)構(gòu)簡(jiǎn)單,還能有效防止過(guò)擬合,提高分類的精度。與其他6種算法進(jìn)行對(duì)比試驗(yàn),結(jié)果表明,該模型的性能明顯優(yōu)于其他算法。
1 預(yù)備知識(shí)
1.1 ReliefF算法
ReliefF算法[9]的主要思想是,根據(jù)計(jì)算樣本點(diǎn)的最近鄰分布,計(jì)算特征權(quán)重值,選擇出權(quán)重值較大的特征。從訓(xùn)練集[M]中隨機(jī)選擇樣本[A],再?gòu)暮蜆颖綶A]同類的樣本集中找到[k]個(gè)近鄰樣本,同時(shí)在每個(gè)與[A]不同類別的樣本集中尋找[k]個(gè)近鄰樣本,然后根據(jù)以下規(guī)則更新權(quán)重:
[ωX=ωX-j=1kdiffX,Ai,Hjnk]
[+C≠ClassAPC1-PClassAi×j=1kdiffX,Ai,Mjnk] ⑴
其中,[ωX]表示特征[X]的權(quán)重,其初始值為0,[n]表示迭代次數(shù);[Ai]表示第[i]次迭代隨機(jī)選擇樣本;[k]表示選取的近鄰個(gè)數(shù);[Hj]表示樣本[Ai]同類中的最近鄰樣本;[Mj]表示樣本[Ai]不同類中的最近鄰樣本;[ClassAi]表示樣本[Ai]所在的類別;[PC]表示第[C]類的先驗(yàn)概率;[diff(X,A1,A2)]表示樣本[A1]和樣本[A2]在特征X上的差別。
1.2 特征的交互
交互信息利用互信息來(lái)度量特征之間的交互,交互信息又稱為交互增益(Interaction Gain, IG),指的是三方或者多方的交互作用,三方交互增益[10]的定義如下:
[IGfi;fj;C=Ifi,fj;C-Ifi;C-Ifj;C]? ⑵
其中,[Ifi,fj;C]表示特征[fi]和[fj]與類別C的聯(lián)合互信息。當(dāng)[IGfi;fj;C<0]或者[IGfi;fj;C=0]時(shí),說(shuō)明特征[fi]和[fj]提供了相似信息或者與類別無(wú)關(guān);當(dāng)[IGfi;fj;C>0]時(shí),表示特征[fi]和[fj]組合提供的信息量大于特征[fi]和[fj]分別提供的信息量之和,說(shuō)明特征[fi]與[fj]具有交互性。
1.3 BP神經(jīng)網(wǎng)絡(luò)模型
BP神經(jīng)網(wǎng)絡(luò)模型[11]的拓?fù)浣Y(jié)構(gòu)有三個(gè)層次,分別是輸入層、隱藏層和輸出層。輸入層的節(jié)點(diǎn)由輸入樣本的特征個(gè)數(shù)決定,輸出層的節(jié)點(diǎn)由分類結(jié)果決定。隱藏層的層數(shù)和節(jié)點(diǎn)一般由人工決定。BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。
圖1? BP神經(jīng)網(wǎng)絡(luò)拓?fù)鋱D
其中,[x1,x2,…,xn]表示輸入層神經(jīng)元節(jié)點(diǎn),即樣本的特征;[y1,y2,…,ym]表示輸出層神經(jīng)元節(jié)點(diǎn),即輸出的標(biāo)簽;[b11,b12,…,b1k]表示第一層隱藏層的節(jié)點(diǎn);[bn1,bn2,…,bnk]表示第n層隱藏層的節(jié)點(diǎn);[γ]表示輸入層節(jié)點(diǎn)到隱藏層節(jié)點(diǎn)的權(quán)值;[ω]表示隱藏層節(jié)點(diǎn)到輸出層節(jié)點(diǎn)的權(quán)值。
2 改進(jìn)的ReliefF-BPNN分類模型
2.1 基于特征交互的ReliefF算法
在⑵式的基礎(chǔ)上引入標(biāo)準(zhǔn)化的交互增益來(lái)度量特征的交互。標(biāo)準(zhǔn)化的交互增益(Standardized Interaction Gain, SIG)定義如下:
[SIGfi;fj;C=IGfi;fj;CHfi+Hfj,SIGfi;fj;C∈0,1]? ⑶
在式⑴基礎(chǔ)上,加入標(biāo)準(zhǔn)化后的交互增益權(quán)重,即為特征[Xi]的總權(quán)重公式為:
[ωXi=1Nj=1NSIGXi;Xj;C+ωXi]? ⑷
將式⑷作為權(quán)重更新的算法稱為基于特征交互的ReliefF算法,即I-ReliefF算法,其步驟如算法1所示:
[算法1 I-ReliefF算法 輸入:特征集[F=f1,f2,…,fn],類別集[C=C1,C2,…Cm],閾值[k]
輸出:特征子集S
1. 初始化特征子集[S=?];
2. Fori=0 to |F|
3. 根據(jù)公式⑶計(jì)算在所有F中特征之間的標(biāo)準(zhǔn)化交互增益權(quán)重
4. 根據(jù)公式⑴計(jì)算在所有F中特征的權(quán)重值
5. Endfor
6. For i=0 to |F|
7. 根據(jù)公式⑷計(jì)算保留特征的總權(quán)重值
8. Endfor
9. 對(duì)特征集S中保留的特征的總權(quán)重值進(jìn)行降序排列,選擇出系數(shù)值大的特征組成新的樣本數(shù)據(jù)集 ]
2.2 加入正則化項(xiàng)的BP神經(jīng)網(wǎng)絡(luò)模型
在BP神經(jīng)網(wǎng)絡(luò)的誤差函數(shù)計(jì)算公式中加入正則化項(xiàng),改進(jìn)后的誤差函數(shù)為:
[E=1Ni=1NYi∧-Yi2+αω1]? ⑸
N表示訓(xùn)練樣本的個(gè)數(shù);[Yi∧]表示第i個(gè)樣本的預(yù)測(cè)輸出值;[Yi]表示第i個(gè)樣本的實(shí)際輸出值;[α]表示正則化系數(shù);[ω]表示所有層向下層神經(jīng)元傳遞時(shí)的權(quán)值組成的矩陣。
2.3 I-ReliefF-BPNN模型的建立
基于改進(jìn)ReliefF-BP神經(jīng)網(wǎng)絡(luò)模型將簡(jiǎn)化后的數(shù)據(jù)分為70%訓(xùn)練樣本和30%測(cè)試樣本,訓(xùn)練樣本應(yīng)用于訓(xùn)練該模型,測(cè)試樣本用于檢驗(yàn)?zāi)P偷姆诸惥?。算?描述了I-ReliefF-BPNN模型的基本步驟:
[算法2 I-ReliefF-BPNN模型算法 輸入:數(shù)據(jù)集D,學(xué)習(xí)率[η]
輸出:類別C,誤差e
1.采用均值替代法對(duì)存在缺失值的數(shù)據(jù)集進(jìn)行填補(bǔ),接著做歸一化處理。再對(duì)數(shù)據(jù)集使用I-ReliefF算法進(jìn)行特征選擇,將選擇出的特征組成新的樣本數(shù)據(jù)集。
2.創(chuàng)建網(wǎng)絡(luò)
3.訓(xùn)練網(wǎng)絡(luò)
Repeat for D
正向傳播
反向傳播
Until for 達(dá)到結(jié)束條件
4.使用網(wǎng)絡(luò)
5.預(yù)測(cè)數(shù)據(jù)歸一化 ]
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集與數(shù)據(jù)集的處理
實(shí)驗(yàn)數(shù)據(jù)集:美國(guó)加州大學(xué)歐文分校提供的UCI數(shù)據(jù)庫(kù)分別是[D1](WDBC數(shù)據(jù)集)、[D2](LungCancer數(shù)據(jù)集)、[D3](HeartDisease數(shù)據(jù)集)、[D4](Cervicalcancer數(shù)據(jù)集)、[D5](Lymphography數(shù)據(jù)集)、[D6](DivorcePredictors數(shù)據(jù)集)、[D7](Sonar數(shù)據(jù)集)、[D8](Arrhythmia 數(shù)據(jù)集)、[D9](Bonemarrowtransplant:children數(shù)據(jù)集)、[D10](Dermatology數(shù)據(jù)集)、[D11](Hepatitis數(shù)據(jù)集)、[D12](HorseColic數(shù)據(jù)集)、[D13](PrimaryTumor數(shù)據(jù)集)、[D14](RiskFactorprediction of Chronic Kidney Disease數(shù)據(jù)集)、[D15](Hill-valley數(shù)據(jù)集)、[D16] (Madelon數(shù)據(jù)集)。表1介紹了16個(gè)數(shù)據(jù)集的樣本個(gè)數(shù)、特征數(shù)和類別個(gè)數(shù)。
本文采用均值替代法對(duì)存在特征值缺失的數(shù)據(jù)集進(jìn)行填補(bǔ)并做歸一化處理;對(duì)于連續(xù)數(shù)據(jù)集,將連續(xù)數(shù)據(jù)集離散化。本文使用K-means算法進(jìn)行聚類,k值根據(jù)類別個(gè)數(shù)確定,根據(jù)聚類的結(jié)果,將同一簇的記錄并合并成一組中。
3.2 實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證本文提出的模型的有效性,選取RF、SVM、BPNN、I-ReliefF-SVM、mRMR-BPNN、ReliefF-BPNN這6個(gè)分類模型與本文提出的I-ReliefF-BPNN模型進(jìn)行對(duì)比。本實(shí)驗(yàn)中BP神經(jīng)網(wǎng)絡(luò)的迭代次數(shù)設(shè)置為1000,學(xué)習(xí)率設(shè)置為0.02,權(quán)值的初始化范圍為-0.5到0.5之間。表2和表3表示16個(gè)數(shù)據(jù)集的分類準(zhǔn)確率、[F1]指數(shù)。分類準(zhǔn)確率和[F1]指數(shù)越高,分類效果越好。
如表2所示,本文提出的I-ReliefF-BPNN模型相較于6種分類模型的平均分類準(zhǔn)確率在16組數(shù)據(jù)集上有明顯提高。注意到BPNN的分類準(zhǔn)確率相較于SVM和RF分別平均高6.25%、4.24%,表明BPNN相較于傳統(tǒng)分類器分類精度更高;I-ReliefF-BPNN與mRMR-BPNN、ReliefF-BPNN相比,準(zhǔn)確率分別平均高5.83%和3.48%,表明本文提出的I-ReliefF算法相比于其他特征選擇算法,更有利于BP神經(jīng)網(wǎng)絡(luò)的分類。
如表3所示,本文提出的I-ReliefF-BPNN模型在16組數(shù)據(jù)集上[F1]指數(shù)較BPNN平均高0.0544,較ReliefF-BPNN平均高0.0673,較mRMR-BPNN平均高0.0911,較I-ReliefF-SVM平均高0.1078,較SVM平均高0.1206,較RF平均高0.1128,說(shuō)明本文提出的模型在分類上更具優(yōu)勢(shì)。
4 結(jié)論與展望
本文提出了一種改進(jìn)的ReliefF-BP神經(jīng)網(wǎng)絡(luò)模型,即I-ReliefF-BPNN模型。考慮到醫(yī)療診斷數(shù)據(jù)集中,許多診斷指標(biāo)之間存在交互,選取關(guān)于醫(yī)療診斷方面的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證。從16組數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果來(lái)看,該模型中的I-ReliefF算法與傳統(tǒng)的特征選擇方法相比,從后續(xù)的分類中可看出此算法有效提高了分類的準(zhǔn)確率;模型中改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)分類模型與其他同類型的分類方法相比,分類精度明顯提高,兩者結(jié)合其分類能力相比于其他分類模型在分類準(zhǔn)確率,[F1]指數(shù)更高。
但是,I-ReliefF-BPNN模型存在一些不足之處,主要有以下兩點(diǎn):①I-ReliefF-BPNN模型運(yùn)行時(shí)間相較于BP神經(jīng)網(wǎng)絡(luò)模型更長(zhǎng);②本文提出的模型在某些不平衡數(shù)據(jù)集上[F1]指數(shù)不高,分類效果并不理想。因此,未來(lái)仍需進(jìn)一步優(yōu)化搜索算法,縮短整個(gè)算法的運(yùn)行時(shí)間;針對(duì)不平衡數(shù)據(jù)集,考慮將不平衡數(shù)據(jù)處理方法加入本模型中,提高不平衡數(shù)據(jù)集上的分類效果。
參考文獻(xiàn)(References):
[1] Dia S, Guilermo, Cortes L, et al. A review of algorithms to
computing irreducible testors applied to feature selection[J]. Artificial Intelligence Review,2022
[2] 李郅琴,杜建強(qiáng),聶斌,等.特征選擇方法綜述[J].計(jì)算機(jī)工程
與應(yīng)用,2019,55(24):10-19
[3] Song Y ,Si W Y, Dai F F , et al .Weighted reliefF with
threshold constraints of feature selection forimbalanced data classification[J]. Concurrency and computation: practice and experience,2020,32(14)
[4] 沈波,謝兆勛,林少輝,等.醫(yī)藥衛(wèi)生領(lǐng)域人工神經(jīng)網(wǎng)絡(luò)研究中
文文獻(xiàn)可視化分析[J].海峽預(yù)防醫(yī)學(xué)雜志,2021,27(5):73-76
[5] Sofian K, MOHAMAD A, AZMI A , et al. Backpropagation
neural network optimization and software defect estimation modelling using a hybrid Salp Swarm optimizer-based Simulated Annealing Algorithm[J]. Knowledge-Based Systems,2022,244
[6] Zhang J X,Qu S R. Optimization of backpropagation
neural network under the adaptive genetic algorithm[J]. COMPLEXITY,2021
[7] Yan C R, Chen Y Z,Wan Y Q, et al. Modeling low- and
high-order feature interactions with FM and self-attention network[J]. Applied Intelligence,2020,51
[8] Chen T,Yin H Z,Zhang X L, et al.Meng. Quaternion
factorization machines: alightweight solution to intricate feature interaction modeling[J]. IEEE transactions on neural networks and learning systems,2021
[9] Fan H Y, Xue? L Y, Song Y, et al.A repetitive feature
selection method based on improved ReliefF for missing data[J]. Applied Intelligence,2022,52(14)
[10] Wang L X, Jiang S Y.A feature selection method via
analysis of relevance, redundancy,and interaction,Expert systems with applications,volume 183,2021,115365
[11] 王麗,陳基漓,謝曉蘭,等.基于混沌天牛群算法優(yōu)化的神經(jīng)
網(wǎng)絡(luò)分類模型[J].科學(xué)技術(shù)與工程,2022,22(12):4854-4863