毛鶯池 曹海 平萍 李曉芳
摘 要:在高維數(shù)據(jù)如圖像數(shù)據(jù)、基因數(shù)據(jù)、文本數(shù)據(jù)等的分析過程中,當樣本存在冗余特征時會大大增加問題分析復雜難度,因此在數(shù)據(jù)分析前從中剔除冗余特征尤為重要?;诨バ畔ⅲ∕I)的特征選擇方法能夠有效地降低數(shù)據(jù)維數(shù),提高分析結果精度,但是,現(xiàn)有方法在特征選擇過程中評判特征是否冗余的標準單一,無法合理排除冗余特征,最終影響分析結果。為此,提出一種基于最大聯(lián)合條件互信息的特征選擇方法(MCJMI)。MCJMI選擇特征時考慮整體聯(lián)合互信息與條件互信息兩個因素,兩個因素融合增強特征選擇約束。在平均預測精度方面,MCJMI與信息增益(IG)、最小冗余度最大相關性(mRMR)特征選擇相比提升了6個百分點;與聯(lián)合互信息(JMI)、最大化聯(lián)合互信息(JMIM)相比提升了2個百分點;與LW向前搜索方法(SFS-LW)相比提升了1個百分點。在穩(wěn)定性方面,MCJMI穩(wěn)定性達到了0.92,優(yōu)于JMI、JMIM、SFS-LW方法。實驗結果表明MCJMI能夠有效地提高特征選擇的準確率與穩(wěn)定性。
關鍵詞:信息熵;互信息;條件互信息;聯(lián)合互信息;特征選擇
中圖分類號: TP393.0
文獻標志碼:A
文章編號:1001-9081(2019)03-0734-08
Abstract: In the analysis process of high-dimensional data such as image data, genetic data and text data, when samples have redundant features, the complexity of the problem is greatly increased, so it is important to reduce redundant features before data analysis. The feature selection based on Mutual Information (MI) can reduce the data dimension and improve the accuracy of the analysis results, but the existing feature selection methods cannot reasonably eliminate the redundant features because of the single standard. To solve the problem, a feature selection method based on Maximum Conditional and Joint Mutual Information (MCJMI) was proposed. Joint mutual information and conditional mutual information were both considered when selecting features with MCJMI, improving the feature selection constraint. Exerimental results show that the detection accuracy is improved by 6% compared with Information Gain (IG) and minimum Redundancy Maximum Relevance (mRMR) feature selection; 2% compared with Joint Mutual Information (JMI) and Joint Mutual Information Maximisation (JMIM); and 1% compared with LW index with Sequence Forward Search algorithm (SFS-LW). And the stability of MCJMI reaches 0.92, which is better than JMI, JMIM and SFS-LW. In summary the proposed method can effectively improve the accuracy and stability of feature selection.
Key words: information entropy; Mutual Information (MI); conditional mutual information; joint mutual information; feature selection
0 引言
隨著數(shù)據(jù)時代不斷發(fā)展,大數(shù)據(jù)應用越來越彰顯出它的優(yōu)勢,如圖像數(shù)據(jù)分析、基因數(shù)據(jù)分析、文本數(shù)據(jù)分析等。高維數(shù)據(jù)能夠詳細記錄事物的屬性,同時也存在著大量冗余數(shù)據(jù),冗余數(shù)據(jù)給數(shù)據(jù)分析帶來了巨大難題。特征選擇方法能從高維數(shù)據(jù)中分析抽取出相關特征,減小數(shù)據(jù)維數(shù),降低分析復雜度?;诨バ畔⒌奶卣鬟x擇是Filter[1]類型特征選擇方法一個重要研究方向?;バ畔⒃谙嚓P性分析上有計算簡單、可解釋性強特點,因此基于互信息的特征選擇方法被廣泛應用于特征選擇。如Fleuret等[2]提出通過考慮條件互信息降低數(shù)據(jù)維數(shù)的條件互信息特征選擇方法。特征選擇效率及策略方面也有相關研究,一種貪婪向前搜索的聯(lián)合互信息特征選擇方法被提出,用于解決互信息計算過程中效率問題[3]。現(xiàn)有互信息特征選擇方法主要從3個方面展開研究:信息增益、條件互信息和聯(lián)合互信息。其中條件互信息及聯(lián)合互信息在隨著特征不斷選擇過程中計算變得復雜。針對條件互信息及聯(lián)合互信息計算復雜問題,一種啟發(fā)式方法被應用在特征選擇當中,啟發(fā)式計算方式大幅降低了互信息計算難度[4]。
基于啟發(fā)式計算互信息評判特征重要性時,不同的特征選擇方法評判標準有所不同。如信息增益方法單獨考慮每個子特征同目標分類之間相關性,未考慮特征與特征之間關系。聯(lián)合互信息考慮整體互信息大小,未考慮單個特征同目標之間的相關性?;谧畲舐?lián)合互信息考慮互信息的整體穩(wěn)定性,未考慮聯(lián)合互信息整體大小。針對現(xiàn)有聯(lián)合互信息計算方法存在的不足,本文提出基于最大聯(lián)合條件互信息的特征選擇方法(feature selection method based on Maximum Conditional and Joint Mutual Information, MCJMI)。MCJMI特性選擇方法基于聯(lián)合互信息整體穩(wěn)定性的基礎上,利用條件互信息,挑選出使整體互信息增長最顯著的特征。MCJMI特征選擇方法既保證了聯(lián)合互信息在整體上的穩(wěn)定性,同時使所選特征與分類之間的整體互信息增量最大。
1 相關工作
隨著特征選擇領域研究不斷發(fā)展,產生了各種類型的特征選擇方法?;诨バ畔⒗碚摰奶卣鬟x擇方法最終目的是從所有特征中挑選出指定個數(shù)最相關的特征降低高維分類問題復雜度[5]。
基于信息增益(Information Gain, IG)的特征選擇最早應用于特征選擇,通過IG分析特征與分類之間相關性大小從而排除冗余特征[6]。IG在特征選擇過程中計算簡單,僅考慮每個特征與分類之間的互信息大小,能在o(n)時間復雜度內完成。由于IG選擇條件簡單,為了增強冗余特征判斷, Liu等[7]提出了一種基于類別與類別之間特征分布改進的IG文本方法。
Battiti等[8]提出基于互信息的特征選擇方法(Mutual Information Feature Selection, MIFS),MIFS方法既考慮已選特征與分類之間的互信息,同時考慮已選特征與未選特征之間的相關性,MIFS不再假設特征之間獨立。其計算方式分析主要由兩部分組成,一部分為未選特征與分類之間的互信息,另一部分為未選擇特征與已選特征互信息求和。MIFS存在多個改進版本,如Hoque等[9]研究的MIFS-ND方法,Cho等[10]提出的歸一化互信息特征選擇(Normalized Mutual Information Feature Selection, NMIFS)方法其在表現(xiàn)上都優(yōu)于MIFS。
Peng等[11]將最大依賴性、最大相關性和最小冗余度準則應用到特征選擇當中,提出了基于互信息的特征選擇最大依賴性、最小冗余度和最大相關性(minimum Redundancy Maximum Relevance feature selection, mRMR)準則的特征選擇方法。mRMR特征選擇將MIFS方法中參數(shù)處理成已選特征個數(shù)的倒數(shù)使選擇標準一致。
基于聯(lián)合互信息的特征選擇方法在子特征選擇中也有廣泛應用。董澤民等[12]使用基于聯(lián)合互信息(Joint Mutual Information, JMI)的特征選擇方法。JMI加入了分類變量,在特征選擇時不僅需考慮所選特征同分類之間的關系,同時,考慮在有分類條件下子集特征與未選特征之間的互信息大小。Bennasar等[13]提出了一種基于最大化聯(lián)合互信息(Joint Mutual Information Maximisation, JMIM)的特征選擇方法,JMIM考慮聯(lián)合互信息整體穩(wěn)定性。
基于條件互信息的特征選擇同樣也有著廣泛的應用。Li等[14]提出了一種通過條件互信息改進的自適應稀疏群套索方法,改進了分塊下降方法,提高了分類選擇的精度。在互信息發(fā)展的過程中,也出現(xiàn)了類型相同的特征選擇方法,如Liu等[15]提出的LW索引向前搜索方法(LW index with Sequence Forward Search algorithm, SFS-LW)。SFS-LW特征選擇方法與上述JMIM方法在計算選擇過程相似,不同的是SFS-LW采用了基于類與類之間距離作為特征選擇的標準。
綜上,特征選擇方法根據(jù)特征與分類之間的互信息大小,作為特征選擇評判標準。在評判特征是否冗余時,考慮的標準單一,如僅考慮聯(lián)合互信息或僅考慮條件信息就造成了不同特征方法選擇結果不同。本文采用聯(lián)合互信息與條件互信息結合的方式,分析特征之間的冗余性,以提高對冗余特征的篩選效果。
4 MCJMI特征選擇方法
4.1 總體思路
MCJMI方法從聯(lián)合互信息與條件互信息兩部分考慮所選擇特征,同時結合最小最大原則作特征選擇選擇過程中涉及兩個部分:特征與分類之間的相關性分析,已選特征與未選特征之間的冗余分析。提出的方法,主要解決現(xiàn)有聯(lián)合互信息方法在特征選擇過程中出現(xiàn)的無法排除冗余及不相關特征選擇問題。最終方法在指定子集大小情況下,挑選出子集S使I(S;C)最大。
4.2 最大最小互信息
最小最大聯(lián)合互信息相似集合:通過最小聯(lián)合互信息計算得到加入不同未選特征的最小聯(lián)合互信息集合。在最小聯(lián)合互信息集合中找出最大值。若集合中存在與最大值相等或相似值時加入到最小最大聯(lián)合互信息相似集合,該集合公式表示如下:
4.3 最大聯(lián)合條件互信息
特征選擇過程中,希望每次選擇的特征能夠最大限度地提升S與分類C之間的互信息值。根據(jù)特征選擇的特點,提出了MCJMI方法。最大聯(lián)合條件互信息不僅考慮每次聯(lián)合互信息是否最大,同時考慮條件互信息是否滿足要求。條件互信息排除與子集S冗余的特征,增強了特征選擇的約束。
4.4 方法步驟
根據(jù)4.3節(jié)特征之間相關性冗余性分析,本文提出基于最小最大聯(lián)合條件互信息的特征選擇方法,計算公式如式(20)、(21)所示:
當fi滿足式(21)集合時,由最小最大聯(lián)合互信息知,當加入fi滿足了在所有特征子集中,至少存在一個特征使得聯(lián)合互信息大于其他特征。當存在多個相似值時,方法判斷其對子集特征的整體增量,通過整體互信息增量排除冗余性特征。通過增量大小方法確定最終要選擇的特征,其方法流程如下:
MCJMI方法流程。
MCJMI方法流程中,F(xiàn)為數(shù)據(jù)樣本所有特征,n表示特征量,C表示樣本對應的分類。num、m分別表示最終要選擇的特征數(shù)量與最大相似集合的大小。P表示特征輸入時的下標,方法流程中的List用來存儲每次計算的聯(lián)合互信息。方法循環(huán)計算,每次挑選出最適合的特征子集,當子集大小滿足|S|=num方法結束。MCJMI在每次計算特征互信息時間復雜性為o(|C|)。根據(jù)方法流程得出方法復雜度與需要選擇的特征數(shù)num,待選特征集合大小|F-S|相關,同JMIM方法復雜度相同。
5 實驗驗證
5.1 實驗方案
實驗數(shù)據(jù)來自UCI公開數(shù)據(jù)集[17],如表4所示,其中數(shù)據(jù)集Breast-cancer、Sonar、Parkinsons在文獻[10]使用到,使用相同數(shù)據(jù)集以達到驗證實驗結果的作用。剩余數(shù)據(jù)集則根據(jù)不同數(shù)據(jù)類型從UCI數(shù)據(jù)集挑選所得。實驗中按照數(shù)據(jù)集的樣本大小,將數(shù)據(jù)分為兩個部分具體見表4。表4中編號1~4數(shù)據(jù)集屬于較少樣本的數(shù)據(jù)集,編號5~7數(shù)據(jù)集屬于樣本較多的數(shù)據(jù)集,編號8數(shù)據(jù)為非平衡數(shù)據(jù)集。
每個數(shù)據(jù)集隨機劃分80%數(shù)據(jù)作訓練集,20%數(shù)據(jù)作測試集。實驗數(shù)據(jù)中存在離散型數(shù)據(jù)、連續(xù)型數(shù)據(jù)、離散+連續(xù)型數(shù)據(jù),為保證特征選擇模型能夠適用計算連續(xù)及離散特征數(shù)據(jù)類型,采用基于K-近鄰(K Nearest Neighbors, KNN)互信息計算方法[18]。所有數(shù)據(jù)集數(shù)據(jù)采用歸一化方法處理到0~1區(qū)間以降低特征選擇過程計算復雜度。
實驗中將MCJMI與IG、mRMR、JMI、JMIM、SFS-LW五種特征選擇方法作比較,其中SFS-LW作用對比與現(xiàn)有方法效果。為驗證特征選擇的效果,方法將已選的特征子集S輸入到KNN(n=3)及貝葉斯分類模型中作分類正確率預測得到分類精度。,通過分類的正確率評判選擇特征的合理性。為避免出現(xiàn)偶然性的實驗結果,實驗中分別對每個數(shù)據(jù)集進行5次實驗,預測結果取均值,具體實驗流程如圖1所示。
5.2 小樣本數(shù)據(jù)預測精度分析
圖2中橫坐標表示數(shù)據(jù)集上選擇的特征數(shù)量,縱坐標表示對應特征數(shù)量下,KNN與貝葉斯分類平均預測精度。圖2給出了樣本較少數(shù)據(jù)集上各個方法在特征選擇過程中預測精度變化情況。
通過Flowmeters、wine、Sonar、Parkinsons數(shù)據(jù)集上不同特征方法下分類預測精度變化圖可得出以下結論:
1)如圖2所示MCJMI在樣本較少數(shù)據(jù)集上預測結果。Flowmeters數(shù)據(jù)集上MCJMI、JMIM、JMI、mRMR、SFS-LW僅在特征選擇數(shù)5左右預測精度已經(jīng)達到最高值,分別為83%、80%、80%、75%、80%。IG在特征數(shù)達20左右才到達最大精度75%。雖然JMIM、JMI、mRMR方法在特征數(shù)5左右也都達到了最大精度,從預測精度上能夠得出MCJMI比其他方法相比精度都要高。MCJMI達到最大預測精度后,隨著選擇特征加入預測精度始終穩(wěn)定,而mRMR、IG則有較大的波動。在parkinson數(shù)據(jù)集上MCJMI也僅在特征選擇數(shù)到10左右預測精度已經(jīng)達到了92%,并且其產生的波動也較小。其主要原因在于特征選擇過程MCJMI通過條件互信息排除了冗余特征。在Sonar數(shù)據(jù)集上看出,幾種算法在特征數(shù)都無較好的穩(wěn)定性,當特征數(shù)達到30后,MCJMI預測精度達到了88%且趨于平穩(wěn)。
2)從特征不斷增加過程中預測精度變化趨勢看,特征數(shù)逐漸增加時,所有特征選擇方法在數(shù)據(jù)集上預測精度呈現(xiàn)先增加后減小的規(guī)律。這符合了隨著新特征的加入,信息量在不斷增加,冗余信息也在不斷增加的規(guī)律。圖2中MCJMI、JMI、JMIM選擇的特征加入后預測精度不斷增加,達到一定特征數(shù)量后預測精度呈現(xiàn)下降趨勢一致。從圖2可以看出,MCJMI很好地反映這一規(guī)律,而IG、mRMR這一特征表現(xiàn)并不明顯,而且出現(xiàn)預測精度上下跳躍的情況。主要原因在于IG,mRMR在特征選擇時考慮的標準單一,選擇的冗余特征加入后為分類提供的信息量較少,造成預測精度上升較慢。
3)MCJMI與SFS-LW方法在預測精度上差異較小,但根據(jù)MCJMI與SFS-LW在精度曲線變化上,可以看出 MCJMI在精度變化過程中平穩(wěn)性優(yōu)于SFS-LW。主要原因,MCJMI在每次計算過程中基于前一特征計算互信息和。而SFS-LW每當加入特征后,將會重新計算度量各個分類之間距離,降低了已選特征之間的關聯(lián)性。
從表5中不同數(shù)據(jù)集上平均精度上看,在wine數(shù)據(jù)集上平均精度MCJMI相對IG提升了56.1個百分點,相對mRMR、JMI、JMIM、SFS-LW平均預測精度無明顯大小變化;在Parkinsons數(shù)據(jù)集上MCJMI相對IG提升了43.8個百分點,相對mRMR提升了33.5個百分點,相對JMI、JMIM、SFS-LW平均預測精度無明顯大小變化;在Flowmeters數(shù)據(jù)集上MCJMI相對IG提升了55.1個百分點,相對mRMR提升了54.8個百分點,相對JMI、JMIM平均預測精度提升了1.8和2個百分點,相對SFS-LW提升了11.7個百分點;在Sonar數(shù)據(jù)集上MCJMI相對IG提升了77.8個百分點,相對mRMR提升了45.4個百分點,相對JMI、JMIM平均預測精度提升了1.5和2.5個百分點。
根據(jù)表6中達到最大精度所選特征數(shù)占比得出,IG所占總特征比例變化范圍為13.64%~83.33%,其波動區(qū)間大小為70%。同理得mRMR波動區(qū)間大小45%,JMI波動區(qū)間大小42%,JMIM波動區(qū)間大小15%,MCJMI波動區(qū)間大小38%,SFS-LW波動區(qū)間大小為38%與MCJMI相同。IG波動較大主要原因IG未考慮特征之間的相關性,特征相關性較強時為達到高的預測精度,IG特征選擇數(shù)量要多于其他方法。JMI,JMIM,MCJMI波動區(qū)間相似,而每個數(shù)據(jù)集上達到最大精度時所選特征占比上得出,MCJMI與SFS-LW選擇特征數(shù)低于JMI與JMIM。
5.3 大樣本數(shù)據(jù)預測精度分析
圖3給出樣本數(shù)量較多的數(shù)據(jù)集上分類預測精度。其中:break-cancer選擇特征選擇過程前20個特征,Isolet及semeion選取特征選取過程前50個最相關特征作分類預測。詳細預測精度見圖3。
根據(jù)圖3比較可得出以下結論:
1)數(shù)據(jù)樣本量較多時,幾種特征選擇方法在隨著特征選擇的過程中預測精度不斷增加幾種特征選擇方法在隨著特征數(shù)量增加時分類精度也在不斷增加,而SFS-LW則出現(xiàn)了預測進度上下浮動較大的情況。Breast-cancer數(shù)據(jù)集上當特征量在4時MCJMI、JMIM、JMI預測精度達到96%,SFS-LW預測精度達到94%。在之后出現(xiàn)了精度下降,主要原因在于SFS-LW每選擇一次特征后都需重新計算分類間距離,當樣本數(shù)據(jù)存在較多噪聲時,即數(shù)據(jù)非平穩(wěn)數(shù)據(jù)就存在如圖3(a)所示情況。IG、mRMR在特征4時預測精度為93%出現(xiàn)明顯下降。主要原因是IG、mRMR選擇了冗余特征,增加了數(shù)據(jù)噪聲。在Isolet數(shù)據(jù)集上特性選擇數(shù)量8左右出現(xiàn)JMIM預測精度短暫優(yōu)于MCJMI情況,在特征數(shù)量達到10以后MCJMI預測精度優(yōu)于其他幾種方法。
2)圖3(a)、(c)數(shù)據(jù)集上特征選擇預測精度曲線變化的斜率得出,MCJMI預測精度上升的速度要優(yōu)于IG、mRMR、JMI、JMIM。SFS-LW方法同樣預測精度優(yōu)于IG、mRMR、JMI、JMIM。其主要原因MCMI方法在特征選擇時考慮了條件互信息加入特征fj后,總能使I(fi,S;C)向增長速度最快的方向選擇特征,SFS-LW每次加入特征最大限度的區(qū)分類,忽略了特征選擇穩(wěn)定性。
根據(jù)表7對不同數(shù)據(jù)集上預測的平均精度對比得出,在Breast-cancers數(shù)據(jù)集上,JMI、JMIM、MCJMI最大預測精度相差不大,MCJMI相對IG提升了32.5個百分點,相對mRMR精度提升了31.3個百分點,相對SFS-LW提升了32.4個百分點;在Semeion數(shù)據(jù)集上,MCJMI相對IG提升了1014個百分點,相對mRMR提升了1919.2個百分點,相對JMI提升了33.7個百分點,相對于SFS-LW提升了11.6個百分點;在Isolet數(shù)據(jù)集,MCJMI相對IG提升了2423.6個百分點,相對mRMR提升了2423.6個百分點,相對JMI提升了43.4個百分點,相對JMIM提升了4個百分點。從平均預測精度上得出,MCJMI特征選擇預測精度整體上高于其他方法。
5.4 非平穩(wěn)數(shù)據(jù)預測精度分析
圖4給出非平衡數(shù)據(jù)集secom不同特征選擇方法的預測精度,選取前100個特征預測結果。圖5給出不同特征選擇方法在特征選擇過程時間復雜度情況。
根據(jù)圖4預測計算精度方面能夠得出:在特征數(shù)到達30之前,基于互信息的特征選擇方法在精度預測方面優(yōu)于SFS-LW;特征達到30之后,SFS-LW在預測精度明顯高于互信息的特征選擇方法。主要有以下原因:
1)基于互信息特征選擇計算過程中,互信息計算基于各類樣本所占比例。在特征選擇前期不均衡樣本,某一類樣本占比例較大,互信息所選擇的特征傾向于占比重大的分類樣本。
2)SFS-LW計算類與類之間距離,各個類之間計算距離,對樣本的比例大小敏感度不高,但當選擇特征較少時,數(shù)據(jù)噪聲對SFS-LW影響較大,正如圖4所示SFS-LW在特征到達30之前精度低于MCJIM方法。
根據(jù)圖5可以得出:在特征選擇過程中SFS-LW時間復雜度最高,SFS-LW在每次計算類與類之間距離時為組合問題;而MCJMI在特征選擇過程中,計算互信息與|C|的大小有關且在計算相似集合時消耗了較多時間;JMI、JMIM計算時間復雜度相同;mRMR時間復雜度略低于JMI與JMIM,IG時間復雜度最低。
5.5 穩(wěn)定性分析
穩(wěn)定性是評判方法泛化能力的重要指標,特征選擇結果易受樣本選擇的影響。對于同一數(shù)據(jù)集中不同數(shù)據(jù)樣本,若所選出的最優(yōu)特征子集越相似說明方法越穩(wěn)定。Chelvan等[19]提出相似特征穩(wěn)定性的評判標準。設S1,S2為同一數(shù)據(jù)集上不同樣本上所選出的兩個最優(yōu)子集,其中兩者子集中的特征個數(shù)為|S1|=|S2|記作m,|F|為總特征數(shù)n,S1,S2相交的個數(shù)r=|S1∩S2|,則穩(wěn)定性計算公式如下:
由式(22)得出當所選特征數(shù)一定時,r=|S1∩S2|交集越大則說明方法在選擇特征上越穩(wěn)定。表8中給出各個方法平均精度、穩(wěn)定性,由于穩(wěn)定性僅能夠說明算法在特征選擇上的穩(wěn)定。通過平均精度與穩(wěn)定性的比值,能夠標準化穩(wěn)定性分析結果。本文給出平均精度與穩(wěn)定性的比值,作為算法最終穩(wěn)定性評判指標,具體如表8所示。
從表8中可以看出,IG的穩(wěn)定性最高,值為0.9025,mRMR穩(wěn)定性為0.8803,MCJMI穩(wěn)定性為0.8760,SFS-LW穩(wěn)定性為0.8800。主要原因是IG所考慮的條件最少,僅存在特征與分類之間的互信息大小。JMI、JMIM穩(wěn)定性處于幾個方法中較低的水平,主要原因是JMI、JMIM在計算選擇過程中考慮的因素要多于IG與mRMR,受樣本的影響較大。而MCJMI則相對于JMI與JMIM穩(wěn)定性有所提升,MCJMI在選擇時結合了兩種方法的優(yōu)點,考慮因素相同的情況下,增加了特征選擇的約束條件。MCJMI與SFS-LW在穩(wěn)定性方面較為一致,但在平穩(wěn)性一致的情況下,MCJMI的預測精度為0.8060,高于SFS-LW預測精度。表8采用平均精度與穩(wěn)定性比值來標準化穩(wěn)定性評判標準,同時考慮精度與穩(wěn)定性兩個方面,通過比值得出MCJMI穩(wěn)定性最高達到0.92。
6 結語
本文通過比較特征選擇方法選擇出的特征,在數(shù)據(jù)集上預測的平均精度、最大預測精度、所需特征數(shù)以及穩(wěn)定性方面比較得出實驗結果。MCJMI綜合考慮聯(lián)合互信息與條件互信息,增強了特征選擇的約束性,實驗結果表明MCJMI能夠減少冗余特征的選擇。MCJMI也存在不足之處,MCJMI未考慮數(shù)據(jù)不均衡的情況,未來研究可考慮非平衡數(shù)據(jù)情況下如何改進。特征選擇不僅適用于數(shù)據(jù)冗余排除,同樣適用于因素之間的相關性分析,如物體變形影響因素、城市空氣質量影響因素等。
參考文獻 (References)
[1] GANDHI S S, PRABHUNE S S. Overview of feature subset selection algorithm for high dimensional data[C]// ICISC 2017: Proceedings of the 2017 IEEE International Conference on Inventive Systems and Control. Piscataway, NJ: IEEE, 2017: 1-6.
[2] FLEURET F. Fast binary feature selection with conditional mutual information [J]. Journal of Machine Learning Research, 2004, 5(3): 1531-1555.
[3] LIU H, DITZLER G. Speeding up joint mutual information feature selection with an optimization heuristic [C]// Proceedings of the 2017 IEEE Symposium Series on Computational Intelligence. Piscataway, NJ: IEEE, 2018: 1-8.
[4] MIN F, XU J. Semi-greedy heuristics for feature selection with test cost constraints [J]. Granular Computing, 2016, 1(3): 199-211.
[5] TSAGRIS M, LAGANI V, TSAMARDINOS I. Feature selection for high-dimensional temporal data [J]. BMC Bioinformatics, 2018, 19: 17.
[6] HUANG Z. Based on the information gain text feature selection method [J]. Computer Knowledge and Technology, 2017.
黃志艷.一種基于信息增益的特征選擇方法[J].山東農業(yè)大學學報(自然科學版), 2013,44(2): 252-256.(HUANG Z Y. Based on the information gain text feature selection method [J]. Journal of Shandong Agricultural University (Natural Science), 2013,44(2): 252-256.)
[7] 劉海峰,劉守生,宋阿羚.基于詞頻分布信息的優(yōu)化IG特征選擇方法[J].計算機工程與應用,2017,53(4):113-117.(LIU H F, LIU S S, SONG A L. Improved method of IG feature selection based on word frequency distribution [J]. Computer Engineering and Applications, 2017, 53(4): 113-117.)
[8] BATTITI R. Using mutual information for selecting features in supervised neural net learning [J]. IEEE Transactions on Neural Networks, 1994, 5(4): 537-550.
[9] HOQUE N, BHATTACHARYYA D K, KALITA J K. MIFS-ND: a mutual information-based feature selection method [J]. Expert Systems with Applications, 2014, 41(14): 6371-6385.
[10] CHO D, LEE B. Optimized automatic sleep stage classification using the Normalized Mutual Information Feature Selection (NMIFS) method [C]// Proceedings of the 2017 39th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Piscataway, NJ: IEEE, 2017: 3094-3097.
[11] PENG H, LONG F, DING C. Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1226-1238.
[12] 董澤民,石強.基于歸一化模糊聯(lián)合互信息最大的特征選擇[J].計算機工程與應用,2017,53(22):105-110.(DONG Z M, SHI Q. Feature selection using normalized fuzzy joint mutual information maximum [J]. Computer Engineering and Applications, 2017, 53(22): 105-110.)
[13] BENNASAR M, HICKS Y, SETCHI R. Feature selection using joint mutual information maximisation [J]. Expert Systems with Applications, 2015, 42(22): 8520-8532.
[14] LI J, DONG W, MENG D. Grouped gene selection of cancer via adaptive sparse group lasso based on conditional mutual information [J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2018, 15(6): 2028-2038.
[15] LIU C, WANG W, ZHAO Q, et al. A new feature selection method based on a validity index of feature subset [J]. Pattern Recognition Letters, 2017, 92: 1-8.
[16] AMARATUNGA D, CABRERA J. High-dimensional data [J]. Journal of the National Science Foundation of Sri Lanka, 2016, 44(1): 3.
[17] DUA, D. AND KARRA TANISKIDOU, E. (2017). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
DUA, D. AND KARRA TANISKIDOU, E. UCI Machine Learning Repository [DB/OL]. [2018-07-13]. http://archive.ics.uci.edu/ml.
[18] ROSS B C. Mutual information between discrete and continuous data sets [J]. PLoS One, 2014, 9(2): e87357.
[19] CHELVAN P M, PERUMAL K. A study on selection stability measures for various feature selection algorithms [C]// ICCIC 2016: Proceedings of the 2016 IEEE International Conference on Computational Intelligence and Computing Research. Piscataway, NJ: IEEE, 2017: 1-4.