国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Fisher score與模糊鄰域熵的多標(biāo)記特征選擇算法

2024-01-09 03:59:14孫林馬天嬌薛占熬
計算機應(yīng)用 2023年12期
關(guān)鍵詞:粗糙集特征選擇集上

孫林,馬天嬌,薛占熬

基于Fisher score與模糊鄰域熵的多標(biāo)記特征選擇算法

孫林1*,馬天嬌2,薛占熬2,3

(1.天津科技大學(xué) 人工智能學(xué)院,天津 300457; 2.河南師范大學(xué) 計算機與信息工程學(xué)院,河南 新鄉(xiāng) 453007; 2.智慧商務(wù)與物聯(lián)網(wǎng)技術(shù)河南省工程實驗室(河南師范大學(xué)),河南 新鄉(xiāng) 453007)(?通信作者電子郵箱sunlin@htu.edu.cn)

針對Fisher score未充分考慮特征與標(biāo)記以及標(biāo)記之間的相關(guān)性,以及一些鄰域粗糙集模型容易忽略邊界域中知識粒的不確定性,導(dǎo)致算法分類性能偏低等問題,提出一種基于Fisher score與模糊鄰域熵的多標(biāo)記特征選擇算法(MLFSF)。首先,利用最大信息系數(shù)(MIC)衡量特征與標(biāo)記之間的關(guān)聯(lián)程度,構(gòu)建特征與標(biāo)記關(guān)系矩陣;基于修正余弦相似度定義標(biāo)記關(guān)系矩陣,分析標(biāo)記之間的相關(guān)性。其次,給出一種二階策略獲得多個二階標(biāo)記關(guān)系組,以此重新劃分多標(biāo)記論域;通過增強標(biāo)記之間的強相關(guān)性和削弱標(biāo)記之間的弱相關(guān)性得到每個特征的得分,進而改進Fisher score模型,對多標(biāo)記數(shù)據(jù)進行預(yù)處理。再次,引入多標(biāo)記分類間隔,定義自適應(yīng)鄰域半徑和鄰域類并構(gòu)造了上、下近似集;在此基礎(chǔ)上提出了多標(biāo)記粗糙隸屬度函數(shù),將多標(biāo)記鄰域粗糙集映射到模糊集,基于多標(biāo)記模糊鄰域給出了上、下近似集以及多標(biāo)記模糊鄰域粗糙集模型,由此定義模糊鄰域熵和多標(biāo)記模糊鄰域熵,有效度量邊界域的不確定性。最后,設(shè)計基于二階標(biāo)記相關(guān)性的多標(biāo)記Fisher score特征選擇算法(MFSLC),從而構(gòu)建MLFSF。在多標(biāo)記K近鄰(MLKNN)分類器下11個多標(biāo)記數(shù)據(jù)集上的實驗結(jié)果表明,相較于ReliefF多標(biāo)記特征選擇(MFSR)等6種先進算法,MLFSF的平均分類精度(AP)的均值提高了2.47~6.66個百分點;同時,在多數(shù)數(shù)據(jù)集上,MLFSF在5個評價指標(biāo)上均能取得最優(yōu)值。

多標(biāo)記學(xué)習(xí);特征選擇;Fisher score;多標(biāo)記模糊鄰域粗糙集;模糊鄰域熵

0 引言

目前,維度災(zāi)難是多標(biāo)記學(xué)習(xí)面臨的重要挑戰(zhàn)之一[1]。特征選擇是大數(shù)據(jù)降維的一種有效手段,可以分為過濾法、包裹法和嵌入法等[2]。過濾法篩選特征集,使用學(xué)習(xí)算法訓(xùn)練,它的過程與學(xué)習(xí)算法無關(guān),可以快速剔除噪聲特征,計算效率較高、通用性強,所選特征子集冗余度小,適用于大規(guī)模數(shù)據(jù)集[3]。包裹法依賴于所選擇的學(xué)習(xí)算法,使用分類器性能評價特征重要程度,特征子集的分類性能較好;但是不適合處理高維數(shù)據(jù),通用性弱,計算復(fù)雜度高[4]。嵌入法結(jié)合特征選擇過程和分類器訓(xùn)練過程;但是過度依賴具體的學(xué)習(xí)算法,會出現(xiàn)過擬合現(xiàn)象,缺乏通用性[5-6]。因此,為了有效處理高維多標(biāo)記數(shù)據(jù)集,提升計算效率和避免出現(xiàn)過擬合情況,使用過濾法設(shè)計多標(biāo)記特征選擇。

Fisher score是一種經(jīng)典的過濾式特征選擇算法,主要思想是利用距離度量鑒別使類內(nèi)距離盡可能小、類間距離盡可能大的特征[7]。該算法具有可操作性強、精度高、計算成本低等優(yōu)點,目前已有較多的研究:Guyon等[8]提出了基于Fisher score的特征選擇算法應(yīng)用于基因分類;Günes等[9]采用Fisher score進行多重分類,并將得分均值作為特征選擇閾值;孫林等[10]針對非平衡數(shù)據(jù)采用Fisher score選擇高分的特征實施降維。但是,上述算法未考慮特征之間的相關(guān)性。Hancer等[11]使用ReliefF和Fisher score進行特征選擇,考慮了特征與類別標(biāo)記的相關(guān)性;吳迪等[12]結(jié)合最大信息系數(shù)和Fisher score進行特征選擇。但是,上述2種算法未考慮類之間的差異性。同時,上述5種使用Fisher score的特征選擇算法只能處理單標(biāo)記中的類別型數(shù)據(jù)。隨著Fisher score在單標(biāo)記的廣泛應(yīng)用,在多標(biāo)記方面的研究也逐漸出現(xiàn):汪正凱等[7]考慮由于極值帶來的類別中心與實際中心的偏差,提出一種結(jié)合中心偏移和多標(biāo)記集合關(guān)聯(lián)性的多標(biāo)記Fisher score特征選擇算法;但是沒有考慮特征之間的相關(guān)性。Sun等[6]構(gòu)建了正、負標(biāo)記之間的互信息以考慮標(biāo)記之間的相關(guān)性,設(shè)計了一種基于互信息的Fisher score多標(biāo)記特征選擇算法;但是標(biāo)記的正、負數(shù)通常不平衡,也沒有考慮特征與標(biāo)記的相關(guān)性。受上述研究啟發(fā),本文為了考慮標(biāo)記與特征的相關(guān)性、標(biāo)記之間的相關(guān)性,構(gòu)建了標(biāo)記之間的二階關(guān)系,與Fisher score結(jié)合,對多標(biāo)記數(shù)據(jù)進行特征選擇預(yù)處理,有效提升算法分類性能。

鄰域粗糙集作為一種過濾式策略在多標(biāo)記學(xué)習(xí)和分類中得到了廣泛的應(yīng)用[1]:段潔等[13]提出了一種處理連續(xù)數(shù)據(jù)和數(shù)值數(shù)據(jù)的多標(biāo)記鄰域粗糙集特征選擇算法,但該算法耗時,且鄰域半徑需通過手動設(shè)置步長,無法達到最優(yōu)效果;為了克服這個缺點,Lin等[14]推廣鄰域信息熵多標(biāo)記學(xué)習(xí),提出了一種基于鄰域互信息的多標(biāo)記特征選擇算法;Liu等[15]針對流式多標(biāo)記數(shù)據(jù)設(shè)計了基于鄰域粗糙集的特征選擇算法;Huang等[16]提出了一種基于鄰域粗糙集的改進的最大相關(guān)和最小冗余的多標(biāo)記特征選擇算法;Sun等[1]利用Jaccard相關(guān)系數(shù)構(gòu)建了特征權(quán)值公式,進而設(shè)計了一種基于多標(biāo)記ReliefF和鄰域互信息的多標(biāo)記特征選擇算法;Wu等[17]通過考慮標(biāo)記相關(guān)性,將相關(guān)標(biāo)記劃分為多個標(biāo)記子集,進而將標(biāo)記相關(guān)性引入鄰域粗糙集模型。然而,多標(biāo)記鄰域粗糙集使用鄰域粒近似描述決策等價類,無法描述模糊背景下實例的不確定性。Chen等[18]為處理多種類型的數(shù)據(jù),研究了基于變精度模糊鄰域粗糙集的多標(biāo)記特征選擇算法;但是,該算法仍存在鄰域半徑參數(shù)需要手動設(shè)置的問題。Sun等[19]提出了一種基于多標(biāo)記模糊鄰域粗糙集和最大相關(guān)性最小冗余度的特征選擇算法,用于處理缺失標(biāo)記的多標(biāo)記數(shù)據(jù);但該算法的求解過程需要大量的矩陣運算,時間代價較高。Xu等[20]引入模糊鄰域近似精度考慮上近似中的不確定性,建立了多標(biāo)記模糊鄰域條件熵;但該算法需要遍歷所有參數(shù),以確定每個數(shù)據(jù)集的最佳模糊鄰域半徑,且實驗數(shù)據(jù)集的維度較低。為解決上述問題,本文采用分類間隔得到自適應(yīng)的鄰域粒半徑與鄰域類,構(gòu)造多標(biāo)記鄰域上、下近似集,挖掘邊界域鄰域粒包含的不確定信息并構(gòu)造多標(biāo)記粗糙隸屬度函數(shù),構(gòu)建多標(biāo)記模糊鄰域粗糙集模型,由此基于模糊鄰域熵研究多標(biāo)記鄰域決策系統(tǒng)的不確定性度量。

本文的主要工作如下:

1)為了考慮特征與標(biāo)記以及標(biāo)記之間的相關(guān)性,利用最大信息系數(shù)衡量特征與標(biāo)記之間的關(guān)系,構(gòu)建特征與標(biāo)記關(guān)系矩陣;使用修正余弦相似度計算特征與標(biāo)記關(guān)系矩陣,建立標(biāo)記關(guān)系矩陣,分析標(biāo)記之間的相關(guān)性,進而定義一種二階策略,獲得二階標(biāo)記關(guān)系組。

2)利用二階標(biāo)記關(guān)系組,通過增強標(biāo)記之間的強相關(guān)性和削弱標(biāo)記之間的弱相關(guān)性,改進已有的多標(biāo)記Fisher score,設(shè)計基于二階標(biāo)記相關(guān)性的多標(biāo)記Fisher score特征選擇算法(Multilabel Fisher Score-based feature selection algorithm with second-order Label Correlation, MFSLC),使它初步消除原始不具有分類特性的特征,為后續(xù)算法降低時間開銷。

3)為了展現(xiàn)多標(biāo)記數(shù)據(jù)的邊界域中的不確定性,采用多標(biāo)記分類間隔定義自適應(yīng)鄰域半徑及上、下近似集,定義多標(biāo)記粗糙隸屬度函數(shù)和多標(biāo)記模糊鄰域粗糙集模型;由此構(gòu)建模糊鄰域熵和多標(biāo)記模糊鄰域熵,在MFSLC基礎(chǔ)上,構(gòu)建基于Fisher score與模糊鄰域熵的多標(biāo)記特征選擇算法(MultiLabel Feature Selection algorithm based on Fisher score and fuzzy neighborhood entropy, MLFSF),并給出外部與內(nèi)部特征重要度的計算公式,使它在預(yù)處理的基礎(chǔ)上選擇最優(yōu)特征子集。在多標(biāo)記K近鄰(Multilabel K-Nearest Neighbor,MLKNN)分類器下的11個多標(biāo)記數(shù)據(jù)集的實驗結(jié)果驗證了本文算法的有效性。

1 基礎(chǔ)理論

1.1 Fisher score

1.2 最大信系數(shù)

最大信息系數(shù)度量了兩個特征變量之間的關(guān)聯(lián)程度,相較于互信息的準(zhǔn)確度更高[21],主要思想是:如果兩個變量之間存在一定相關(guān)性,那么在這兩個變量的散點圖上進行某種網(wǎng)格劃分之后,根據(jù)這兩個變量在網(wǎng)格中的近似概率密度分布情況,可以計算這兩個變量的互信息。

其中:和是在和方向上劃分的格子數(shù);是大小為×的網(wǎng)格的上限,依據(jù)文獻[22],取樣本量的0.6次方效果較好。

1.3 多標(biāo)記鄰域粗糙集

2 多標(biāo)記特征選擇算法

2.1 多標(biāo)記Fisher score

傳統(tǒng)Fisher score未考慮特征與標(biāo)記以及標(biāo)記之間的相關(guān)性,因此基于二階標(biāo)記相關(guān)性改進多標(biāo)記Fisher score。由于在計算標(biāo)記之間相關(guān)性時,現(xiàn)有算法大多從標(biāo)記空間直接計算得到標(biāo)記相關(guān)性[23],較少考慮從原始特征空間出發(fā)。利用MIC衡量兩個變量之間的關(guān)聯(lián)程度。

標(biāo)記之間的二階策略能夠在一定程度上考慮標(biāo)記之間的相關(guān)性,故它的系統(tǒng)泛化性能較優(yōu)[26]。為了分析標(biāo)記之間的相關(guān)性,基于標(biāo)記關(guān)系矩陣提出一種新的二階策略。

由此得到二階標(biāo)記關(guān)系組,建立一個多標(biāo)記論域的劃分。

根據(jù)定義3得到的二階標(biāo)記關(guān)系組,具有強相關(guān)性和弱相關(guān)性的標(biāo)記組之間具有較大差異。為了使標(biāo)記間的強弱關(guān)系界限能夠被明顯區(qū)分,增強標(biāo)記之間的強相關(guān)性,弱化標(biāo)記之間的弱相關(guān)性,在多標(biāo)記論域劃分的基礎(chǔ)上對Fisher score進行改進,使它更適合處理多標(biāo)記數(shù)據(jù)。

2.2 多標(biāo)記模糊鄰域粗糙集

針對鄰域決策系統(tǒng)中鄰域半徑由手動設(shè)置,時間開銷大,全局共享同一鄰域半徑的局限性,使用多標(biāo)記分類間隔實現(xiàn)鄰域半徑自適應(yīng),不僅可以克服鄰域半徑手動設(shè)置的缺陷,也能解決原始分類間隔過大導(dǎo)致分類無意義的問題。

文獻[27]中給出了樣本與鄰域粗糙集之間的隸屬關(guān)系,通過構(gòu)造粗糙隸屬度函數(shù),將粗糙集轉(zhuǎn)化為模糊集,衡量粗糙集的不確定性。因此,在多標(biāo)記鄰域決策系統(tǒng)中,基于多標(biāo)記粗糙集構(gòu)建粗糙集隸屬函數(shù),捕捉邊界域鄰域粒的不確定性,進而定義多標(biāo)記粗糙隸屬度函數(shù)。

根據(jù)每個標(biāo)記下樣本情況,定義11采用普通二分類熵。

2.3 算法描述

式(22)反映了從當(dāng)前特征子集中刪去特征a后多標(biāo)記模糊鄰域熵的變化程度。在此基礎(chǔ)上,借助正向貪心搜索算法迭代地選擇具有最大重要度的特征[28],當(dāng)加入特征后,不再影響確定性規(guī)則生成時,則算法終止。

本文提出基于二階標(biāo)記相關(guān)性設(shè)計多標(biāo)記Fisher score特征選擇算法(MFSLC),如算法1所示。

算法1 MFSLC。

輸出 候選特征子集。

1) 利用式(6)計算特征與標(biāo)記關(guān)系矩陣

2) 由式(7)計算標(biāo)記關(guān)系矩陣,根據(jù)定義3設(shè)計的二階策略,進而得到多個二階標(biāo)記關(guān)系組

3) 初始化每個特征得分(f)=0

4) For每個二階標(biāo)記關(guān)系組

5) For每個f

6) 由式(10)改進Fisher score計算特征f的得分

7) End For

8) End For

9) 對每個特征得分進行排序,得到候選特征子集

10) Return候選特征子集

算法2 MLFSF。

輸出 最優(yōu)特征子集。

2) 使用MFSLC得到初始的候選特征子集

4) For每個x

5) 根據(jù)式(12)與式(13)得到x的鄰域半徑與鄰域類

6) End For

7) For每個特征a∈-

11) End If

14) End For

19) Else返回最優(yōu)特征子集

20) End If

21) End For

22) Return最優(yōu)特征子集

在算法2中,假設(shè)根據(jù)MFSLC得到的候選特征子集個數(shù)為,7)~14)計算多標(biāo)記模糊鄰域熵,它的計算復(fù)雜度為();15)~22)進行多標(biāo)記模糊鄰域熵的特征選擇,假設(shè)最終約簡的特征子集數(shù)為,它的計算復(fù)雜度為,約為,因此算法2的總計算復(fù)雜度為。最終算法1與算法2的總計算復(fù)雜度為(2+2lb+)。

2.4 算法異同點

為了加強MLFSF與其他相關(guān)算法的異同點的分析討論,選用5種相關(guān)的對比算法:PMU(Pairwise Multi-label Utility algorithm)[30]、MUCO(MUltilabel feature selection algorithm with label COrrelation)[31]、MDDM(Multi-label Dimensionality reduction algorithm via Dependence Maximization)[32]、MFSMR (Multilabel Feature Selection for missing labels using Maximum relevance minimum Redundancy)[19]和基于改進ReliefF的多標(biāo)記特征選擇算法(Multilabel Feature Selection algorithm based on improved ReliefF, MFSR)[33]。表1列出了上述5種對比算法的異同點及計算復(fù)雜度。

表1MLFSF與5種對比算法的異同點和計算復(fù)雜度

Tab.1 Similarities and differences and computational complexities between MLFSF and five comparative algorithms

3 實驗結(jié)果與分析

3.1 實驗準(zhǔn)備

為了測試MLFSF的有效性,從MuLan數(shù)據(jù)庫(http:// mulan.sourceforge.net/datasets.html)中選擇了11個多標(biāo)記數(shù)據(jù)集,如表2所示。采用MLKNN[3]和5個評價指標(biāo):平均分類精度(Average Precision, AP)[34]、漢明損失(Hamming Loss, HL)[35]、排序損失(Ranking Loss, RL)[34]、1-錯誤率(One Error, OE)[34]、覆蓋率(CoVerage, CV)[34],對算法性能進行分析,并使用選擇的特征數(shù)(Number of selected Features, FN)展示特征選擇的結(jié)果。所有實驗的硬件環(huán)境為64位Windows 7操作系統(tǒng)、內(nèi)存32 GB、處理器Intel Core i7-7700CPU @ 3.60 GHz,軟件為Matlab R2016。

表2多標(biāo)記數(shù)據(jù)集的詳細信息

Tab.2 Details of multilabel datasets

3.2 實驗結(jié)果對比

為了檢驗算法的有效性,將MLFSF與6種算法進行比較,對比算法主要包括:PMU[30]、MUCO[31]、MDDM-proj[32]、MDDM-spc[32]、MFSMR[19]和MFSR[33],在11個數(shù)據(jù)集上通過5個指標(biāo)評估算法的分類性能。其中對比的4種算法(PMU、MUCO、MDDM-proj和MDDM-spc)的實驗數(shù)據(jù)出自文獻[36]。為了保證實驗的一致性,實驗參數(shù)均按照文獻[36],設(shè)置MLKNN分類器的平滑參數(shù)=1,近鄰數(shù)=10,并采用五折交叉驗證。為了給每個數(shù)據(jù)集選擇合適的FN且更直觀地觀察指標(biāo)的變化情況,圖1展示了7種算法在11個多標(biāo)記數(shù)據(jù)集上的AP指標(biāo)的變化曲線對比。由于篇幅限制,其余4個指標(biāo)的變化曲線不再詳細敘述。

從圖1可知,在Birds、Cal500、Emotion、Enron、Image、Medical、Recreation、Reference、Scene和Yeast這10個數(shù)據(jù)集上,MLFSF均達到最優(yōu)。對于Computer數(shù)據(jù)集,MLFSF整體不如MUCO和PMU,處于中等水平,但指標(biāo)上升趨勢明顯,原因可能是忽略了重要特征,導(dǎo)致最終預(yù)測的標(biāo)記數(shù)與實際存在差別;對于Emotion數(shù)據(jù)集,在FN=10和FN>30時,MLFSF高于其他6種算法;對于Enron數(shù)據(jù)集,在FN<100時,MLFSF整體低于MFSR,當(dāng)FN>100,MLFSF優(yōu)于其他6種算法;對于Image數(shù)據(jù)集,當(dāng)FN>80時,MLFSF取得了最優(yōu)值,其余范圍均低于MFSMR;對于Recreation數(shù)據(jù)集,在FN<50時,AP遠高于其他6種算法,并取得最優(yōu)AP,當(dāng)FN>50時,AP逐漸降低,居于MUCO之下,說明當(dāng)FN<50時,該部分特征具有重要信息,達到了少而優(yōu)的目的。因此,結(jié)合FN和AP這2種指標(biāo)的評價結(jié)果,在大多數(shù)情況下,相較于其他6種算法MLFSF在AP上具有良好的分類效果。

為了更具體地展示MLFSF的分類效果,根據(jù)圖1以AP指標(biāo)的最優(yōu)值指定7種算法在每個數(shù)據(jù)集上的FN,如表3所示。對表3分析可知,與其他7種算法相比,MLFSF在給定的7個數(shù)據(jù)集Birds、Computer、Medical、Recreation、Reference、Scene和Yeast上的FN指標(biāo)均為最優(yōu);在剩余4個數(shù)據(jù)集Cal500、Emotion、Enron和Image上,MLFSF與其他算法差距較小,依次與最優(yōu)值相差13、13、51和36。對于多標(biāo)記數(shù)據(jù),F(xiàn)N與其余5個指標(biāo)(AP、HL、RL、OE和CV)在特征選擇過程中是同等重要的,因此需要綜合考慮各個指標(biāo)來評價算法的分類性能。表4為8種算法在11個多標(biāo)記數(shù)據(jù)集上的5個指標(biāo)的實驗結(jié)果,其中,MLKNN表示使用MLKNN分類器對原始多標(biāo)記數(shù)據(jù)集進行處理的分類結(jié)果。

圖1 7種算法在11個多標(biāo)記數(shù)據(jù)集上的AP(↑)指標(biāo)比較

表37種算法在11個多標(biāo)記數(shù)據(jù)集上的FN(↓)指標(biāo)比較

Tab.3 Comparison of seven algorithms on eleven multilabel datasets in terms of FN(↓)

分析表4的實驗結(jié)果可知,對于AP,與其他7種算法相比,MLFSF在10個數(shù)據(jù)集Birds、Cal500、Emotion、Enron、Image、Medical、Recreation、Reference、Scene和Yeast上表現(xiàn)最優(yōu)。其中,在Medical數(shù)據(jù)集上表現(xiàn)突出,比次優(yōu)算法MUCO高5.96個百分點,結(jié)合表3中的FN,在Medical數(shù)據(jù)集上的FN也最優(yōu);在Computer數(shù)據(jù)集上,MLFSF的AP高于MLKNN與MFRS,低于其他5種算法,但是根據(jù)表3中的FN,MLFSF的FN最少。因此,結(jié)合FN和AP這2個指標(biāo),MLFSF表現(xiàn)較好。對于HL,與其他7種算法相比,MLFSF在給定的10個數(shù)據(jù)集Birds、Cal500、Computer、Emotion、Enron、Image、Medical、Recreation、Reference和Scene上表現(xiàn)最優(yōu),在Yeast數(shù)據(jù)集上比最優(yōu)算法MDDM-spc差0.000 3。其中,在Emotion數(shù)據(jù)集上,MLFSF比次優(yōu)MFSR低1.37個百分點,但是它的FN比MFSR更有優(yōu)勢;在Image數(shù)據(jù)集上,MLFSF與次優(yōu)算法MFSMR相差1.18個百分點;在Scene數(shù)據(jù)集上,MLFSF與MDDM-spc均為最優(yōu),但對比表3的FN發(fā)現(xiàn),MDDM-spc在FN上沒有優(yōu)勢,與MLFSF相差較大。因此,結(jié)合FN和HL這2個指標(biāo),MLFSF表現(xiàn)較好。對于RL,與其他7種算法相比,MLFSF在給定的10個數(shù)據(jù)集Birds、Cal500、Emotion、Enron、Image、Medical、Recreation、Reference、Scene和Yeast上均為最優(yōu)。在Computer數(shù)據(jù)集上,MLFSF與最優(yōu)算法MUCO相差0.005 6,但在FN上MLFSF更占優(yōu)勢。其中,在Medical數(shù)據(jù)集上表現(xiàn)較為顯著,與次優(yōu)算法相差2.05個百分點,且FN為所有算法中最優(yōu);在Emotion數(shù)據(jù)集和Image數(shù)據(jù)集上,MLFSF分別與次優(yōu)算法MFSR和MFSMR相差1.36個百分點和1.57個百分點。因此,結(jié)合FN和RL這2個指標(biāo),MLFSF表現(xiàn)較為良好。對于OE,與其他7種算法相比,MLFSF在給定的8個數(shù)據(jù)集Birds、Emotion、Enron、Image、Medical、Recreation、Reference和Scene上表現(xiàn)最優(yōu);在Cal500數(shù)據(jù)集上,MLFSF與最優(yōu)算法MFSR相差0.002 2,但優(yōu)于其他5種算法;在Computer數(shù)據(jù)集上,與最優(yōu)算法MUCO相差0.019 6,優(yōu)于MFSR、MFSMR與MLKNN;在Reference數(shù)據(jù)集上,MLFSF與MUCO最優(yōu),優(yōu)于其他6種算法;在Yeast數(shù)據(jù)集上,MLFSF與最優(yōu)PMU相差0.002 0,優(yōu)于其他6種算法,但它在表3中的FN為最小。對于CV指標(biāo),與其他7種算法相比,MLFSF在給定的10個數(shù)據(jù)集Birds、Cal500、Emotion、Enron、Image、Medical、Recreation、Reference、Scene和Yeast上表現(xiàn)最優(yōu);在Computer數(shù)據(jù)集上,MLFSF的CV與最優(yōu)MUCO相差0.183 0,但是MLFSF在該數(shù)據(jù)集上的FN最小;在Medical數(shù)據(jù)集上,比次優(yōu)MDDM-proj低0.960 0且在該數(shù)據(jù)集上的FN最小。因此,結(jié)合FN指標(biāo),MLFSF在CV和OE這2個指標(biāo)均表現(xiàn)良好。

根據(jù)表4的5個指標(biāo)的整體結(jié)果,MLFSF在11個數(shù)據(jù)集上整體表現(xiàn)最佳且均值最優(yōu)。其中,在AP的均值上,MLFSF比次優(yōu)算法MUCO高了2.47個百分點,比最差算法MFRS高了6.66個百分點。具體地,MLFSF在Birds、Emotion、Enron、Image、Medical、Recreation、Reference和Scene這8個數(shù)據(jù)集上5個指標(biāo)表現(xiàn)均是最優(yōu)值,這些數(shù)據(jù)集是特征空間分布稠密的連續(xù)型數(shù)據(jù)或離散型數(shù)值的數(shù)據(jù),相較于分布稀疏的特征空間中每一維特征的重要度都小,不易去除特征,而MLFSF中的多標(biāo)記模糊鄰域熵過濾準(zhǔn)則能夠篩選特征重要度較大特征,更適合特征空間分布稠密的數(shù)據(jù)集,因此MLFSF在這些數(shù)據(jù)集上效果表現(xiàn)優(yōu)異。在Cal500數(shù)據(jù)集上,MLFSF只在OE指標(biāo)上未取得最優(yōu)值,排名第3,但與最優(yōu)值相差較小,故整體表現(xiàn)良好;在Yeast數(shù)據(jù)集上,共擁有3個評價指標(biāo)的最優(yōu)值A(chǔ)P、RL和CV,上述分析中,在HL和OE指標(biāo)中與最優(yōu)值僅有略微差距,但選擇特征數(shù)最少,所以部分重要的特征未被選中影響了最終的分類性能;在Computer數(shù)據(jù)集上,只在HL指標(biāo)上表現(xiàn)最優(yōu),其余指標(biāo)上表現(xiàn)一般,觀察發(fā)現(xiàn),在該數(shù)據(jù)集選擇特征數(shù)較小,導(dǎo)致重要特征被漏掉,另一方面,在該數(shù)據(jù)集的特征空間分布上,數(shù)值分布較為稀疏,雖然算法考慮特征之間的相關(guān)性,但忽略了同等重要的特征也會成為冗余,造成最終結(jié)果不佳??傮w地,雖然在個別數(shù)據(jù)集上選擇出的特征子集存在冗余信息,但在大部分?jǐn)?shù)據(jù)集上MLNIF能夠帶來較好的分類效果。

表48種算法在11個多標(biāo)記數(shù)據(jù)集上的5個評價指標(biāo)比較

Tab.4 Comparison of eight algorithms on eleven multilabel datasets in terms of five metrics

注:“↑”表示值越大越好,“↓”表示值越小越好;粗體表示最佳結(jié)果,下畫線表示次優(yōu)結(jié)果。

3.3 統(tǒng)計分析

為了分析所有算法在每個評價指標(biāo)上的統(tǒng)計性能,采用Friedman測試和Nemenyi測試[4]。Friedman統(tǒng)計量表示如下:

其中:和分別為數(shù)據(jù)集和算法的數(shù)量;R(=1,2,…,)表示第個算法在所有數(shù)據(jù)集上的平均排序。這里的臨界值域(Critical Difference, CD)的計算公式為:

其中:q表示測試的臨界列表值,為顯著性級別。采用CD圖可視化顯示所有比較算法之間的差異性[4]。如果兩個算法的平均排名差在一個誤差之內(nèi),則使用連線將它們連接起來;否則在統(tǒng)計學(xué)上認(rèn)為它們之間具有顯著差異,其中不同顏色的連線是為了區(qū)分不同的兩種算法之間存在顯著差異[16]。

圖2 7種算法在5個指標(biāo)上的Nemenyi檢驗結(jié)果

表57種算法的5個評價指標(biāo)的統(tǒng)計結(jié)果

Tab.5 Statistical results of five metrics for seven algorithms

4 結(jié)語

現(xiàn)有的多標(biāo)記Fisher score易忽略特征與標(biāo)記之間以及標(biāo)記之間相關(guān)性,導(dǎo)致分類性能下降,且使用多標(biāo)記鄰域粗糙集進行約簡時會忽略邊界域的不確定性信息。為解決上述問題,提出了一種基于Fisher score與模糊鄰域熵的多標(biāo)記特征選擇算法。首先,為了衡量標(biāo)記與特征之間的相關(guān)性,通過MIC得到特征與標(biāo)記關(guān)系矩陣,在此基礎(chǔ)上使用修正余弦相似度計算特征與標(biāo)記關(guān)系矩陣,進一步得到標(biāo)記關(guān)系矩陣,給出一種標(biāo)記相關(guān)性的二階策略,從而得到二階標(biāo)記關(guān)系組;其次,為了增強標(biāo)記之間的強相關(guān)性與削弱標(biāo)記之間的弱相關(guān)性,改進傳統(tǒng)Fisher score,從而對多標(biāo)記數(shù)據(jù)進行預(yù)處理;再次,利用分類間隔得到自適應(yīng)的鄰域半徑構(gòu)建多標(biāo)記鄰域上、下近似集,為了挖掘邊界域的知識粒度的不確定性,構(gòu)造多標(biāo)記粗糙隸屬度函數(shù),得到新的多標(biāo)記模糊鄰域粗糙集模型,提出模糊鄰域熵和多標(biāo)記模糊鄰域熵,并給出相應(yīng)的性質(zhì)和定理;最后,設(shè)計了一種基于Fisher score與模糊鄰域熵的多標(biāo)記特征選擇算法。在11個多標(biāo)記數(shù)據(jù)集上進行測試,實驗結(jié)果驗證了所提算法是有效的。但是,通過觀察實驗結(jié)果可以看出,對于特征空間分布較稀疏的文本類多標(biāo)記數(shù)據(jù)集,MLFSF在MLKNN分類器下的分類效果提升不明顯,因而,針對此問題仍需進一步探索和研究。

[1] SUN L, YIN T, DING W, et al. Multilabel feature selection using ML-ReliefF and neighborhood mutual information for multilabel neighborhood decision systems[J]. Information Sciences, 2020, 537: 401-424.

[2] 張志浩,林耀進,盧舜,等. 缺失標(biāo)記下基于類屬屬性的多標(biāo)記特征選擇[J]. 計算機應(yīng)用, 2021, 41(10): 2849-2857.(ZHANG Z H, LIN Y J, LU S, et al. Multi-label feature selection based on label-specific feature with missing labels[J]. Journal of Computer Applications, 2021, 41(10): 2849-2857.)

[3] 孫林,黃苗苗,徐久成. 基于鄰域粗糙集和Relief的弱標(biāo)記特征選擇方法[J]. 計算機科學(xué), 2022, 49(4): 152-160.(SUN L, HUANG M M, XU J C. Weak label feature selection method based on neighborhood rough sets and Relief[J]. Computer Science, 2022, 49(4): 152-160.)

[4] 阮梓航,肖先勇,胡文曦,等. 基于多粒度特征選擇和模型融合的復(fù)合電能質(zhì)量擾動分類特征優(yōu)化[J]. 電力系統(tǒng)保護與控制, 2022, 50(14): 1-10.(RUAN Z H, XIAO X Y, HU W X, et al. Multiple power quality disturbance classification feature optimization based on multi-granularity feature selection and model fusion [J]. Power System Protection and Control, 2022, 50(14): 1-10.)

[5] 滕俊元,高猛,鄭小萌,等. 噪聲可容忍的軟件缺陷預(yù)測特征選擇方法[J]. 計算機科學(xué), 2021, 48(12): 131-139.(TENG J Y, GAO M, ZHENG X M, et al. Noise tolerable feature selection method for software defect prediction [J]. Computer Science, 2021, 48(12): 131-139.)

[6] SUN L, WANG T, DING W, et al. Feature selection using Fisher score and multilabel neighborhood rough sets for multilabel classification [J]. Information Sciences, 2021, 578: 887-912.

[7] 汪正凱,沈東升,王晨曦. 基于文本分類的Fisher Score快速多標(biāo)記特征選擇算法[J]. 計算機工程, 2022, 48(2): 113-124.(WANG Z K, SHEN D S, WANG C X. Fisher Score fast multi-label feature selection algorithm based on text classification[J]. Computer Engineering, 2022, 48(2): 113-124.)

[8] GUYON I, WESTON J, BARNHILL S, et al. Gene selection for cancer classification using support vector machines[J]. Machine Learning, 2002, 46: 389-422.

[9] GüNES S, POLAT K, YOSUNKAYA S. Multi-class f-score feature selection approach to classification of obstructive sleep apnea syndrome[J]. Expert Systems with Applications, 2010, 37(2): 998-1004.

[10] 孫林,黃金旭,徐久成. 基于鄰域容差互信息和鯨魚優(yōu)化算法的非平衡數(shù)據(jù)特征選擇[J].計算機應(yīng)用, 2023, 43(6): 1842-1854.(SUN L, HUANG J X, XU J C. Feature selection for imbalanced data based on neighborhood tolerance mutual information and whale optimization [J]. Journal of Computer Applications, 2023, 43(6): 1842-1854.)

[11] HANCER E, XUE B, ZHANG M. Differential evolution for filter feature selection based on information theory and feature ranking[J]. Knowledge-Based Systems, 2018, 140: 103-119.

[12] 吳迪,郭嗣琮. 改進的Fisher Score特征選擇方法及其應(yīng)用[J]. 遼寧工程技術(shù)大學(xué)學(xué)報(自然科學(xué)版), 2019, 38(5): 472-479.(WU D, GUO S Z. An improved Fisher Score feature selection method and its application[J]. Journal of Liaoning Technical University (Natural Science), 2019, 38(5): 472-479.)

[13] 段潔,胡清華,張靈均,等. 基于鄰域粗糙集的多標(biāo)記分類特征選擇算法[J]. 計算機研究與發(fā)展, 2015, 52(1): 56-65.(DUAN J, HU Q H, ZHANG L J, et al. Feature selection for multi-label classification based on neighborhood rough sets[J]. Journal of Computer Research and Development, 2015, 52(1): 56-65.)

[14] LIN Y, HU Q, LIU J, et al. Multi-label feature selection based on neighborhood mutual information[J]. Applied Software Computation, 2016, 38: 244-256.

[15] LIU J, LIN Y, LI Y , et al. Online multi-label streaming feature selection based on neighborhood rough set[J]. Pattern Recognition, 2018, 84: 273-287.

[16] HUANG M, SUN L, XU J, et al. Multilabel feature selection using Relief and minimum redundancy maximum relevance based on neighborhood rough sets [J]. IEEE Access, 2020, 8: 62011-62031.

[17] WU Y, LIU J, YU X, et al. Neighborhood rough set based multi-label feature selection with label correlation[J]. Concurrency and Computation: Practice and Experience, 2022, 34(22): e7162.

[18] CHEN P, LIN M, LIU J. Multi-label attribute reduction based on variable precision fuzzy neighborhood rough set [J]. IEEE Access, 2020, 8: 133565-133576.

[19] SUN L, YIN T, DING W, et al. Feature selection with missing labels using multilabel fuzzy neighborhood rough sets and maximum relevance minimum redundancy [J]. IEEE Transactions on Fuzzy Systems, 2022, 30(5): 1197-1211.

[20] XU J, SHEN K,SUN L. Multi-label feature selection based on fuzzy neighborhood rough sets [J]. Complex & Intelligent Systems, 2022, 8: 2105-2129.

[21] 張大斌,張博婷,凌立文,等.基于二次分解聚合策略的我國碳交易價格預(yù)測[J].系統(tǒng)科學(xué)與數(shù)學(xué), 2022, 42(11): 3094-3106.(ZHANG D B, ZHANG B T, LING L W, et al. Carbon price forecasting based on secondary decomposition and aggregation strategy[J]. Journal of Systems Science and Mathematical Sciences, 2022, 42(11): 3094-3106.)

[22] RESHEF D N, RESHEF Y A, FINUCANE H K, et al. Detecting novel associations in large data sets[J]. Science, 2011, 334(6062): 1518-1524.

[23] 劉琨,封碩. 加強局部搜索能力的人工蜂群算法[J]. 河南師范大學(xué)學(xué)報(自然科學(xué)版), 2021, 49(2): 15-24.(LIU K, FENG S. An improved artificial bee colony algorithm for enhancing local search ability[J]. Journal of Henan Normal University (Natural Science Edition), 2021, 49(2): 15-24.)

[24] SARWAR B, KARYPIS G, KONSTAN J, et al. Item-based collaborative filtering recommendation algorithms[C]// Proceedings of the 10th International Conference on World Wide Web. New York: ACM, 2001: 285-295.

[25] 黃劍湘,林錚,劉可真,等. 考慮換流站海量事件的關(guān)聯(lián)規(guī)則挖掘分析方法[J]. 電力系統(tǒng)保護與控制, 2022, 50(12): 117-125.(HUANG J X, LIN Z, LIU K Z, et al. Association rule mining analysis method considering massive events in a converter station [J]. Power System Protection and Control, 2022, 50(12): 117-125.)

[26] 余鷹. 多標(biāo)記學(xué)習(xí)研究綜述[J]. 計算機工程與應(yīng)用, 2015, 51(17): 20-27.(YU Y. Survey on multi-label learning[J]. Computer Engineering and Applications, 2015, 51(17): 20-27.)

[27] ZHENG T, ZHU L. Uncertainty measures of neighborhood system based rough sets[J]. Knowledge Based Systems, 2015, 86: 57-65.

[28] 劉艷,程璐,孫林. 基于K-S檢驗和鄰域粗糙集的特征選擇方法[J]. 河南師范大學(xué)學(xué)報(自然科學(xué)版), 2019, 47(2): 21-28.(LIU Y, CHENG L, SUN L. Feature selection method based on K-S test and neighborhood rough sets[J]. Journal of Henan Normal University (Natural Science Edition), 2019, 47(2): 21-28.)

[29] 姚晟,徐風(fēng),趙鵬,等. 基于改進鄰域粒的模糊熵特征選擇算法[J].南京大學(xué)學(xué)報(自然科學(xué)), 2017, 53(4): 802-814.(YAO S, XU F, ZHAO P, et al. Fuzzy entropy feature selection algorithm based on improved neighborhood granule [J]. Journal of Nanjing University (Natural Science), 2017, 53(4): 802-814.)

[30] LEE J, KIM D-W. Feature selection for multi-label classification using multivariate mutual information[J]. Pattern Recognition Letters, 2013, 34(3): 349-357.

[31] LIN Y, HU Q, LIU J, et al. Streaming feature selection for multilabel learning based on fuzzy mutual information[J]. IEEE Transactions on Fuzzy Systems, 2017, 25(6): 1491-1507.

[32] ZHANG Y, ZHOU Z-H. Multilabel dimensionality reduction via dependence maximization[J]. ACM Transactions on Knowledge Discovery from Data, 2010, 4(3): Article No. 14.

[33] 孫林,陳雨生,徐久成. 基于改進ReliefF的多標(biāo)記特征選擇算法[J]. 山東大學(xué)學(xué)報(理學(xué)版), 2022, 57(4): 1-11.(SUN L, CHEN Y S, XU J C. Multilabel feature selection algorithm based on improved ReliefF [J]. Journal of Shandong University (Natural Science), 2022, 57(4):1-11.)

[34] SCHAPIRE R E, SINGER Y. BoosTexter: a boosting-based system for text categorization[J]. Machine Learning, 2000, 39: 135-168.

[35] TSOUMAKAS G, VLAHAVAS I. Random-labelsets: an ensemble method for multilabel classification [C]// Proceedings of the 2007 European Conference on Machine Learning. Berlin: Springer, 2007: 406-417.

[36] CHEN L, CHEN D. Alignment based feature selection for multi-label learning[J]. Neural Processing Letters, 2019, 50: 2323-2344.

Multilabel feature selection algorithm based on Fisher score and fuzzy neighborhood entropy

SUN Lin1*, MA Tianjiao2, XUE Zhan’ao2,3

(1,,300457,;2,,453007,;3(),453007,)

For that Fisher score model does not fully consider feature-label and label-label relations, and some neighborhood rough set models easily neglect the uncertainty of knowledge granulations in the boundary region, resulting in the low classification performance of these algorithms, a MultiLabel feature selection algorithm based on Fisher Score and Fuzzy neighborhood entropy (MLFSF) was proposed. Firstly, by using the Maximum Information Coefficient (MIC) to evaluate the feature-label association degree, the relationship matrix between features and labels was constructed, and the correlation between labels was analyzed by the relationship matrix of labels based on the adjusted cosine similarity. Secondly, a second-order strategy was given to obtain multiple second-order label relationship groups to reclassify the multilabel domain, where the strong correlation between labels was enhanced and the weak correlation between labels was weakened to obtain the score of each feature. The Fisher score model was improved to preprocess the multilabel data. Thirdly, the multilabel classification margin was introduced to define the adaptive neighborhood radius and neighborhood class, and the upper and lower approximation sets were constructed. On this basis, the multilabel rough membership degree function was presented, and the multilabel neighborhood rough set was mapped to the fuzzy set. Based on the multilabel fuzzy neighborhood, the upper and lower approximation sets and the multilabel fuzzy neighborhood rough set model were developed. Thus, the fuzzy neighborhood entropy and the multilabel fuzzy neighborhood entropy were defined to effectively measure the uncertainty of the boundary region. Finally, the Multilabel Fisher Score-based feature selection algorithm with second-order Label Correlation (MFSLC) was designed, and then the MLFSF was constructed. The experimental results applied to 11 multilabel datasets with the Multi-Label K-Nearest Neighbor (MLKNN) classifier show that when compared with six state-of-the-art algorithms including the Multilabel Feature Selection algorithm based on improved ReliefF (MFSR), MLFSF improves the mean of Average Precision (AP) by 2.47 to 6.66 percentage points; meanwhile, MLFSF obtains optimal values for all five evaluation metrics on most datasets.

multilabel learning; feature selection; Fisher score; multilabel fuzzy neighborhood rough set; fuzzy neighborhood entropy

This work is partially supported by National Natural Science Foundation of China (62076089, 61976082).

SUN Lin, born in 1979, Ph. D., professor. His research interests include granular computing, data mining, machine learning.

MA Tianjiao, born in 1998, M. S. candidate. Her research interests include multilabel learning.

XUE Zhan’ao, born in 1963, Ph. D., professor. His research interests include granular computing, three-way decision.

TP181

A

1001-9081(2023)12-3779-11

10.11772/j.issn.1001-9081.2022121841

2022?12?09;

2023?01?29;

2023?01?31。

國家自然科學(xué)基金資助項目(62076089, 61976082)。

孫林(1979—),男,河南南陽人,教授,博士生導(dǎo)師,博士,CCF會員,主要研究方向:粒計算、數(shù)據(jù)挖掘、機器學(xué)習(xí);馬天嬌(1998—),女,河南信陽人,碩士研究生,主要研究方向:多標(biāo)記學(xué)習(xí);薛占熬(1963—),男,河南三門峽人,教授,博士,CCF高級會員,主要研究方向:粒計算、三支決策。

猜你喜歡
粗糙集特征選擇集上
基于Pawlak粗糙集模型的集合運算關(guān)系
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
復(fù)扇形指標(biāo)集上的分布混沌
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
多?;植诩再|(zhì)的幾個充分條件
雙論域粗糙集在故障診斷中的應(yīng)用
聯(lián)合互信息水下目標(biāo)特征選擇算法
兩個域上的覆蓋變精度粗糙集模型
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
盐城市| 故城县| 鲁山县| 金寨县| 祁门县| 肥乡县| 昌乐县| 沙田区| 江津市| 宁陵县| 鹿泉市| 读书| 定南县| 红河县| 新和县| 娱乐| 北辰区| 孝义市| 海原县| 横山县| 新闻| 西吉县| 纳雍县| 禹州市| 建德市| 佛学| 泌阳县| 衡水市| 武安市| 石棉县| 抚顺市| 昂仁县| 灵璧县| 陕西省| 哈巴河县| 苍梧县| 海淀区| 崇礼县| 伊宁市| 八宿县| 宁蒗|