徐洪峰 孫振強(qiáng)
摘 要:針對(duì)傳統(tǒng)的基于啟發(fā)式搜索的多標(biāo)記特征選擇算法時(shí)間復(fù)雜度高的問(wèn)題,提出一種簡(jiǎn)單快速的多標(biāo)記特征選擇(EF-MLFS)方法。首先使用互信息(MI)衡量每個(gè)維度的特征與每一維標(biāo)記之間的相關(guān)性,然后將所得相關(guān)性相加并排序,最后按照總的相關(guān)性大小進(jìn)行特征選擇。將所提方法與六種現(xiàn)有的比較有代表性的多標(biāo)記特征選擇方法作對(duì)比,如最大依賴性最小冗余性(MDMR)算法和基于樸素貝葉斯的多標(biāo)記特征選擇(MLNB)方法等。實(shí)驗(yàn)結(jié)果表明,EF-MLFS方法進(jìn)行特征選擇并分類的結(jié)果在平均準(zhǔn)確率、覆蓋率、海明損失等常見(jiàn)的多標(biāo)記分類評(píng)價(jià)指標(biāo)上均達(dá)最優(yōu);該方法無(wú)需進(jìn)行全局搜索,因此時(shí)間復(fù)雜度相較于MDMR、對(duì)偶多標(biāo)記應(yīng)用(PMU)等方法也有明顯降低。
關(guān)鍵詞: 多標(biāo)簽學(xué)習(xí);特征選擇;互信息;標(biāo)記相關(guān)性
中圖分類號(hào):TP181
文獻(xiàn)標(biāo)志碼:A
Abstract:Concerning the high time complexity of traditional heuristic search-based multi-label feature selection algorithm, an Easy and Fast Multi-Label Feature Selection (EF-MLFS) method? was proposed. Firstly, Mutual Information (MI) was used to measure the features and the correlations between the labels of each dimension; then, the obtained correlations were added up and ranked; finally, feature selection was performed according to the total correlation. The proposed method was compared to six existing representative multi-label feature selection methods such as Max-Dependency and Min-Redundancy (MDMR) algorithm, Multi-Label Naive Bayes (MLNB) method. Experimental results show that the average precision, coverage, Hamming Loss and other common multi-label classification indicators are optimal? after feature selection and classificationby using EF-MLFS method. In addition, global search is not required in the method, so the time complexity is significantly reduced compared with MDMR and Pairwise Mutli-label Utility (PMU).
Key words:? multi-label learning; feature selection; mutual information; label correlation
0 引言
在傳統(tǒng)的監(jiān)督學(xué)習(xí)任務(wù)中,每個(gè)樣本被默認(rèn)為只具有一種語(yǔ)義信息,也就是只包含一種分類標(biāo)簽。然而,這樣的假設(shè)往往與現(xiàn)實(shí)世界的真實(shí)情況不符,例如,在圖片分類任務(wù)中,一張沙灘風(fēng)景圖片往往同時(shí)包含“大?!薄拜喆薄奥淙铡钡染拔?,由此可見(jiàn),使用單一標(biāo)記無(wú)法充分表達(dá)其語(yǔ)義信息,同樣使用傳統(tǒng)的單標(biāo)記分類方法將很難對(duì)這種情況進(jìn)行準(zhǔn)確的分類。多標(biāo)記學(xué)習(xí)(Multi-label Learning)[1]應(yīng)運(yùn)而生,并在信息檢索[2]、生物信息[3]、藥物研發(fā)[4]以及傳統(tǒng)中醫(yī)診斷[5-6]等領(lǐng)域取得了出色的成果。
與傳統(tǒng)監(jiān)督學(xué)習(xí)相比,多標(biāo)記學(xué)習(xí)的輸入輸出空間維度更大。在大多數(shù)情況下,相較于單標(biāo)記數(shù)據(jù)集,為了支持多個(gè)標(biāo)記的學(xué)習(xí)任務(wù),多標(biāo)記數(shù)據(jù)的特征往往更加冗余和稀疏。然而,過(guò)高的特征維度將會(huì)導(dǎo)致維度災(zāi)難的發(fā)生,這將使得多標(biāo)記學(xué)習(xí)任務(wù)效率變得低效和困難。因此,有效地解決多標(biāo)記學(xué)習(xí)任務(wù)中的維度災(zāi)難問(wèn)題變得十分關(guān)鍵。
特征選擇方法是直接從原始特征空間選擇特征子集,因此保留了原始特征的物理含義,具有極強(qiáng)的可解釋性和易操作性,尤其在高維數(shù)據(jù)集和有限數(shù)據(jù)集的數(shù)據(jù)預(yù)處理任務(wù)中具有十分重要的地位。特征選擇方法根據(jù)一定的評(píng)價(jià)標(biāo)準(zhǔn),從原始特征空間中選擇一組最優(yōu)特征子集,從而降低特征維度,提高分類性能。目前比較常見(jiàn)的評(píng)價(jià)標(biāo)準(zhǔn)有:依賴性度量、距離度量和信息度量。同時(shí),區(qū)分多標(biāo)記學(xué)習(xí)任務(wù)與傳統(tǒng)學(xué)習(xí)框架的特點(diǎn)就是其不同標(biāo)記之間往往具有相關(guān)性,而對(duì)這些相關(guān)性的有效利用將會(huì)有效降低學(xué)習(xí)任務(wù)的難度。根據(jù)朱越等[1]的研究,目前標(biāo)記相關(guān)性可以分為一階相關(guān)性、二階相關(guān)性和三階相關(guān)性。
目前,大部分的研究工作均為對(duì)特征選擇過(guò)程中使用的“最大相關(guān)性,最小冗余性”標(biāo)準(zhǔn)中的相關(guān)性和冗余性進(jìn)行相關(guān)分析,從而導(dǎo)致了計(jì)算資源的浪費(fèi)。本文在進(jìn)行一系列實(shí)驗(yàn)時(shí)觀察到,大多數(shù)多標(biāo)記數(shù)據(jù)集由于其特征空間的高維性和稀疏性,其特征與特征之間的冗余程度往往很小。因此在多標(biāo)記特征選擇問(wèn)題當(dāng)中,冗余性的加入往往無(wú)法提升特征選擇的效果,反而會(huì)增加不必要的計(jì)算資源的浪費(fèi)。本文提出了一種簡(jiǎn)單快速的多標(biāo)記特征選擇(Easy and Fast Multi-Label Feature Selection, EF-MLFS)方法,是一種只利用特征標(biāo)記相關(guān)性的極簡(jiǎn)且效果很好的特征選擇算法。
1 相關(guān)工作
在多標(biāo)記特征選擇發(fā)展的幾十年里,涌現(xiàn)出了許多杰出的工作。為了更好地區(qū)分每種方法的相似和不同之處,相關(guān)學(xué)者對(duì)已有的特征選擇方法進(jìn)行了分類,目前廣泛認(rèn)可的分類方法有兩種:第一種分類方法從特征選擇的策略角度出發(fā),將特征選擇方法分為封裝(wrapper)方法[7]、過(guò)濾(filter)方法[8]和嵌入(embedded)方法[9];第二種分類方法從標(biāo)記利用角度出發(fā),將特征選擇方法分為有監(jiān)督(supervised)[7]、無(wú)監(jiān)督(unsupervised)[10]和半監(jiān)督(semi-supervised)[11]特征選擇方法。
本文主要利用互信息(Mutual Information, MI)和標(biāo)記相關(guān)性(Label Correlation)
進(jìn)行特征選擇。在利用信息論進(jìn)行特征選擇的眾多方法中,最經(jīng)典的兩種方法被稱為互信息特征選擇(MI Feature Selection, MIFS)[11]和 最大相關(guān)最小冗余性(maximum Relevance Minimum Redundancy, mRMR)[12]。在MIFS方法中利用互信息估計(jì)某一維特征的信息量,并利用“貪心”搜索方法選擇最優(yōu)特征子集;在mRMR方法中選擇出的特征子集具有“最大相關(guān)性,最小冗余性”的特點(diǎn)。除此之外,還有許多學(xué)者利用信息論進(jìn)行特征選擇的優(yōu)秀工作,例如Lin等[13]提出最大獨(dú)立性最小冗余性(Max-Dependency and Min-Redundancy, MDMR)算法;Lee等[14]利用多元互信息提出一種對(duì)偶多標(biāo)記應(yīng)用宋國(guó)杰等[8]提出一種基于最大熵原理特征選擇方法;朱顥東等[15]提出一種優(yōu)化的互信息特征選擇算法等。
除此之外,近幾年利用標(biāo)記信息進(jìn)行特征選擇的方法也不斷涌現(xiàn)。例如,Wang等[16]通過(guò)最大化非獨(dú)立分類信息進(jìn)行特征選擇;Brown等[17]提出一種針對(duì)信息論的聯(lián)合特征選擇框架;蔡亞萍等[18]提出一種利用局部標(biāo)記相關(guān)性的特征選擇方法;楊明等[19]提出一種結(jié)合標(biāo)記相關(guān)性的半監(jiān)督特征選擇方法;Braytee等[20]提出一種基于非負(fù)矩陣分解的特征選擇方法;Liu等[21]提出一種基于標(biāo)記相關(guān)性的加權(quán)特征選擇方法;Monard等[22]提出了一種根據(jù)原始標(biāo)記相關(guān)性進(jìn)行標(biāo)記空間重構(gòu)的方法。
2 相關(guān)知識(shí)
2.1 互信息與最大相關(guān)最小冗余性(mRMR)
信息論[23]已經(jīng)被廣泛應(yīng)用于諸多領(lǐng)域。作為信息理論的重要組成部分,互信息是一種衡量相關(guān)性的有效手段,描述了兩組變量之間信息共享的程度。例如,兩組隨機(jī)變量A和B之間的互信息可以定義如下:
其中: p(a,b)為A、B的聯(lián)合概率分布。
mRMR作為特征選擇的經(jīng)典算法,已經(jīng)演變出許多變種。
mRMR的作者認(rèn)為“前m個(gè)最好的特征不一定是最好的m個(gè)特征”,因?yàn)榍癿個(gè)特征可能存在大量相關(guān)信息,這些特征之間具有高度相關(guān)性,所以作者提出mRMR框架,并將其形式化描述為:
2.2 評(píng)價(jià)指標(biāo)
考慮與其他方法的比較,本文中選取了海明損失、One-Error、覆蓋率、排序損失和平均準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。
本文將統(tǒng)一使用yi∈L表示真實(shí)標(biāo)記, y′i表示對(duì)特征向量xi的預(yù)測(cè)標(biāo)簽,N表示樣本數(shù)量,m表示標(biāo)記維度。
其中:為異或運(yùn)算。該指標(biāo)計(jì)算的是在所有N*m個(gè)預(yù)測(cè)標(biāo)記中犯錯(cuò)的比例,其值在0~1,指標(biāo)值越小越好。該指標(biāo)計(jì)算預(yù)測(cè)結(jié)果中最可能的標(biāo)記預(yù)測(cè)錯(cuò)誤的比例,其值在0~1,指標(biāo)值越小越好。該指標(biāo)反映的是在預(yù)測(cè)的標(biāo)記序列中,要覆蓋所有的相關(guān)標(biāo)記需要的搜索深度,其值越小表示所有相關(guān)標(biāo)記均被排在比較靠前的位置。
4)排序損失(Ranking Loss, RL):其中: yi和i分別表示xi的相關(guān)標(biāo)記集和無(wú)關(guān)標(biāo)記集,該指標(biāo)計(jì)算相關(guān)與無(wú)關(guān)標(biāo)記對(duì)出現(xiàn)錯(cuò)誤的比例,指標(biāo)值越小越好。該指標(biāo)衡量的是按照預(yù)測(cè)值排序的標(biāo)記序列中,被排在相關(guān)標(biāo)記之前的標(biāo)記仍是相關(guān)標(biāo)記的情況,指標(biāo)值越大越好在多標(biāo)記特征選擇問(wèn)題中,“最大相關(guān)性,最小冗余性”是一個(gè)經(jīng)典且證實(shí)有效的特征選擇標(biāo)準(zhǔn)目前該標(biāo)準(zhǔn)的優(yōu)化算法仍然是建立在最大相關(guān)性和最小冗余性的基礎(chǔ)上。
但對(duì)主要多標(biāo)記數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)時(shí)發(fā)現(xiàn),特征間的冗余性或許并不是特征選擇過(guò)程中所必須考慮到的因素,而特征與標(biāo)記相關(guān)性衡量可能對(duì)特征選擇結(jié)果起到?jīng)Q定性作用。同時(shí),忽略特征間冗余性的影響,將會(huì)大幅簡(jiǎn)化算法運(yùn)算過(guò)程,從而提高算法性能。根據(jù)“奧卡姆剃刀”原則忽略特征冗余度的影響,不僅未降低算法性能,反而在大多數(shù)數(shù)據(jù)集上大幅提升了特征選擇的效果。
在多數(shù)的多標(biāo)記數(shù)據(jù)集中,標(biāo)記特征相關(guān)性往往可以提供重要信息,利用這些信息將有效降低學(xué)習(xí)任務(wù)的難度,同時(shí)提升學(xué)習(xí)結(jié)果的魯棒性。
在多標(biāo)記數(shù)據(jù)集中,特征往往是連續(xù)或高度離散的,同時(shí)十分稀疏。因此,無(wú)論是使用互信息,還是用歐氏距離的方法衡量特征間的冗余度,其結(jié)果可以發(fā)現(xiàn)特征與特征間的冗余性幾乎為零,其效果往往微乎其微甚至對(duì)特征標(biāo)記相關(guān)性的使用產(chǎn)生負(fù)面影響。同時(shí),多標(biāo)記的監(jiān)督學(xué)習(xí)中最重要的就是對(duì)標(biāo)簽的有效利用,
因此本文從最簡(jiǎn)單設(shè)想切入,利用互信息來(lái)衡量特征標(biāo)記相關(guān)性,同時(shí)忽略掉冗余性的影響,最后依據(jù)特征標(biāo)記相關(guān)性的大小來(lái)進(jìn)行特征選擇。
首先,使用互信息計(jì)算每一維特征標(biāo)記之間的相關(guān)性矩陣R:其中:Ri, j為相關(guān)性矩陣的每一個(gè)元素; fi表示第i維特征向量;lj表示第j維標(biāo)記向量。假設(shè)所選數(shù)據(jù)集中有N維特征向量,K維標(biāo)記向量,則矩陣R為一個(gè)N*K的矩陣。該矩陣中蘊(yùn)含的就是特征標(biāo)記相關(guān)性信息,數(shù)值越大代表特征與標(biāo)記之間的相關(guān)性越強(qiáng)。如果某一維度特征與所有標(biāo)記相關(guān)性的總和最大,則它就是最重要的特征,根據(jù)重要性進(jìn)行排序,將會(huì)得到一個(gè)特征重要性的有序向量。
根據(jù)以上假設(shè),本文將矩陣R按列相加,得到特征重要性向量I:最后根據(jù)向量I的大小從大到小進(jìn)行排序并記錄相應(yīng)的特征維度標(biāo)記,得到最后的特征重要性排序向量I-Rank。
4 實(shí)驗(yàn)與分析
為了評(píng)測(cè)EF-MLFS算法的性能,本文將在6個(gè)真實(shí)數(shù)據(jù)集上與其他6種特征選擇算法進(jìn)行對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)采用多標(biāo)記最近鄰(Multi-Label K Nearest Neighbors, ML-KNN)[24]作為分類算法對(duì)特征選擇后的數(shù)據(jù)集進(jìn)行評(píng)估,并將近鄰數(shù)量k設(shè)置為15。
對(duì)比算法的參數(shù)設(shè)置依照原論文給出的推薦參數(shù)進(jìn)行設(shè)置。ML-KNN相關(guān)代碼可以在LAMDA實(shí)驗(yàn)室主頁(yè)進(jìn)行下載(http://lamda.nju.edu.cn/CH.MainPage.ashx)。
4.1 實(shí)驗(yàn)數(shù)據(jù)及設(shè)置
本實(shí)驗(yàn)數(shù)據(jù)主要來(lái)自于公開(kāi)多標(biāo)記數(shù)據(jù)集網(wǎng)站MULAN(http://mulan.sourceforge.net),其中Arts、Business、Education、Health、Science五個(gè)網(wǎng)頁(yè)數(shù)據(jù)集屬于Yahoo數(shù)據(jù)集,每個(gè)數(shù)據(jù)集含5000個(gè)樣本,提取的特征表示不同的詞在文本中的頻率,標(biāo)記表示文本的類別信息;Yeast為生物數(shù)據(jù)集,包含2417個(gè)樣本,其特征維度是103。表1列出了所使用數(shù)據(jù)集的詳細(xì)信息。同時(shí),為比較EF-MlFS算法的性能,實(shí)驗(yàn)將與基于樸素貝葉斯的多標(biāo)記特征選擇(Multi-Label Naive Bayes, MLNB)[25]、PMU[14]、
MDDMspc(Mutli-label Dimensionality Reduction via Dependecnce Maximization with Uncorrelated Feature Constraint)[26]
、MDDMproj(Multi-label Dimension Reduction via Dependence Maximization with Uncorrelated Projection Constraint)[26]、MDMR[13]以及COMI(Convex Optimization and MI)[27]6種多標(biāo)記特征選擇算法在上述評(píng)價(jià)指標(biāo)上進(jìn)行比較,其中COMI方法[27]為L(zhǎng)im等于2017年提出的一種基于互信息與凸優(yōu)化的方法,該方法改進(jìn)了以往基于啟發(fā)式搜索的特征選擇策略,在mRMR方法的基礎(chǔ)上利用互信息計(jì)算相關(guān)性與冗余性,是目前基于互信息進(jìn)行特征選擇的眾多方法中比較有代表性的一種。
4.2 實(shí)驗(yàn)結(jié)果與分析
為對(duì)比各算法所能達(dá)到的最好分類效果,本文實(shí)驗(yàn)將最優(yōu)特征子集維度從1調(diào)整至最大并繪制得分曲線,雖然MLNB算法最大特征數(shù)量與其他算法不同,但仍具有可比性。
1)實(shí)驗(yàn)曲線在前幾個(gè)特征呈明顯上升或下降趨勢(shì),在達(dá)到最優(yōu)值后呈相反趨勢(shì)變化,說(shuō)明特征選擇算法對(duì)大多數(shù)數(shù)據(jù)集有效,并且可以選擇出效果明顯好于使用所有特征進(jìn)行分類的特征子集。
2)EF-MLFS方法在Arts、Business、Education、Health、Science、Yeast共6個(gè)數(shù)據(jù)集上的5種評(píng)價(jià)指標(biāo)均可以達(dá)到最優(yōu)的效果,同時(shí)在Arts與Health等文本數(shù)據(jù)集上效果也非常顯著,說(shuō)明本文方法泛化效果與選擇結(jié)果均優(yōu)于其他方法。
3)MDDM是一種基于矩陣分解的方法,因此其在時(shí)間性能上有明顯優(yōu)勢(shì)??紤]到EF-MLFS方法幾乎不需要任何復(fù)雜的矩陣運(yùn)算,大部分時(shí)間消耗來(lái)自于計(jì)算特征-標(biāo)記相關(guān)性矩陣,因此EF-MLFS方法相較于MDMR、MLNB、PMU三種方法在時(shí)間性能上均有三個(gè)量級(jí)的提升效果。
4)EF-MLFS方法具有最高的性能時(shí)間比,可以在提高性能的前提下,大幅提高算法效率。
5)COMI方法雖然也是一種基于互信息的多標(biāo)記特征選擇方法,但原文中并未對(duì)其數(shù)據(jù)預(yù)處理進(jìn)行詳細(xì)描述,同時(shí)其特征選擇過(guò)程中涉及到全局優(yōu)化的過(guò)程,雖然較傳統(tǒng)的啟發(fā)式搜索方法在時(shí)間性能上有較大提升,但在性能和時(shí)間上均未達(dá)到最優(yōu)效果。因此EF-MLFS方法雖然簡(jiǎn)單,但是仍可達(dá)到較優(yōu)的性能。
總體來(lái)講,EF-MLFS算法在上述對(duì)比指標(biāo)下均有不錯(cuò)的表現(xiàn),尤其EF-MLFS算法是一種快速有效的特征選擇方法,該方法具有更強(qiáng)的魯棒性和更好的泛化性,可以適應(yīng)多個(gè)應(yīng)用場(chǎng)景并找到最優(yōu)特征子集。同時(shí),上述實(shí)驗(yàn)也驗(yàn)證了第3章中關(guān)于特征空間冗余性的假設(shè)。
5 結(jié)語(yǔ)
本文在針對(duì)經(jīng)典特征選擇框架“最大相關(guān)性,最小冗余性”進(jìn)行研究時(shí)發(fā)現(xiàn),在大多數(shù)公開(kāi)的多標(biāo)記數(shù)據(jù)集中,冗余性的加入并不能有效提高多標(biāo)記特征選擇的效果,反而會(huì)加大特征選擇過(guò)程的運(yùn)算量,降低選擇效率。因此,根據(jù)“奧卡姆剃刀”的核心原則“如無(wú)必要,勿增實(shí)體”的思想,將冗余性去掉,只利用特征標(biāo)記相關(guān)性進(jìn)行多標(biāo)記特征選擇,并得到了很好的結(jié)果。
但是,本文仍有諸多不足之處,需要在未來(lái)的工作當(dāng)中進(jìn)行改進(jìn)。例如,如何有效定量驗(yàn)證數(shù)據(jù)當(dāng)中冗余性是否必要,如何更加準(zhǔn)確地衡量特征標(biāo)記相關(guān)性,以及如何更加有效地挖掘特征標(biāo)記相關(guān)性當(dāng)中蘊(yùn)含的信息。同時(shí)針對(duì)標(biāo)記相關(guān)性的研究工作也日益增多,對(duì)如何有效利用標(biāo)記之間的相關(guān)性也是未來(lái)的研究方向。
參考文獻(xiàn)(References)
[1] 朱越, 姜遠(yuǎn), 周志華. 一種基于多示例多標(biāo)記學(xué)習(xí)的新標(biāo)記學(xué)習(xí)方法[J]. 中國(guó)科學(xué): 信息科學(xué), 2018, 48(12): 1670-1680. (ZHU Y, JIANG Y, ZHOU Z H. Multi-instance multi-label new label learning[J]. Scientia Sinica (Information), 2018, 48(12): 1670-1680.)
[2] SCHAPIRE R E, SINGER Y. BoosTexter: a boosting-based system for text categorization[J]. Machine Learning, 2000, 39(2/3): 135-168.
[3] DIPLARIS S, TSOUMAKAS G, MITKAS P A, et al. Protein classification with multiple algorithms[C]// Proceedings of the 2005 Panhellenic Conference on Informatics, LNCS 3746. Berlin: Springer, 2005: 448-456.
[4] 彭利紅, 劉海燕, 任日麗, 等. 基于多標(biāo)記學(xué)習(xí)預(yù)測(cè)藥物靶標(biāo)相互作用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2017, 53(15): 260-265. (PENG L H, LIU H Y, REN R L, et al. Predicting drug-target interactions with multi-label learning[J]. Computer Engineering and Applications, 2017, 53(15): 260-265.)
[5] LIU G P, LI G Z, WANG Y L, et al. Modelling of inquiry diagnosis for coronary heart disease in traditional Chinese medicine by using multi-label learning[J]. BMC Complementary and Alternative Medicine, 2010, 10(1): No.37.
[6] DAI L, ZHANG J, LI C, et al. Multi-label feature selection with application to TCM state identification[J/OL]. Concurrency and Computation: Practice and Experience, 2018: No.e4634. [2019-01-10]. https://onlinelibrary.wiley.com/doi/abs/10.1002/cpe.4634.
[7] GUYON I, ELISSEEFF A. An introduction to variable and feature selection[J]. Journal of Machine Learning Research, 2003, 3: 1157-1182.
[8] 宋國(guó)杰, 唐世渭, 楊冬青, 等. 基于最大熵原理的空間特征選擇方法[J]. 軟件學(xué)報(bào), 2003, 14(9): 1544-1550. (SONG G J, TANG S W, YANG D Q, et al. A spatial feature selection method based on maximum entropy theory[J]. Journal of Software, 2003, 14(9): 1544-1550.)
[9] GUYON I, WESTON J, BARNHILL S, et al. Gene selection for cancer classification using support vector machines[J]. Machine Learning, 2002, 46(1/2/3): 389-422.
[10] DY J G. BRODLEY C E. Feature selection for unsupervised learning[J]. Journal of Machine Learning Research, 2004,5: 845-889.
[11] BATTITI R. Using mutual information for selecting features in supervised neural net learning[J]. IEEE Transactions on Neural Networks, 1994, 5(4): 537-550.
[12] PENG H, LONG F, DING C. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1226-1238.
[13] LIN Y, LIU J, LIU J, et al. Multi-label feature selection based on max-dependency and min-redundancy[J]. Neurocomputing, 2015, 168: 92-103.
[14] LEE J, KIM D. Feature selection for multi-label classification using multivariate mutual information[J]. Pattern Recognition Letters, 2013, 34(3): 349-357.
[15] 朱顥東, 陳寧, 李紅嬋. 優(yōu)化的互信息特征選擇方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2010, 46(26): 122-124. (ZHU H D, CHEN N, LI H C. Optimized mutual information feature selection method[J]. Computer Engineering and Applications, 2010, 46(26): 122-124.)
[16] WANG J, WEI J, YANG Z, et al. Feature selection by maximizing independent classification information[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(4): 828-841.
[17] BROWN G, POCOCK A, ZHAO M, et al. Conditional likelihood maximization: a unifying framework for information theoretic feature selection[J]. Journal of Machine Learning Research, 2012, 13: 27-66.
[18] 蔡亞萍, 楊明. 一種利用局部標(biāo)記相關(guān)性的多標(biāo)記特征選擇算法[J]. 南京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2016, 52(4): 693-704. (CAI Y P, YANG M. A multi-label feature selection algorithm by exploiting label correlations locally[J]. Journal of Nanjing University (Natural Science Edition), 2016, 52(4): 693-704.)
[19] 楊明, 蔡亞萍. 一種結(jié)合標(biāo)記相關(guān)性的半監(jiān)督多標(biāo)記特征選擇及分類方法: CN201610256462.9[P]. 2016-09-28[2019-01-10]. (YANG M, CAI Y P. A semi-supervised multi-label feature selection and classification method combined with marker correlation: CN201610256462.9[P]. 2016-09-28[2019-01-10].)
[20] BRAYTEE A, LIU W, CATCHPOOLE D R, et al. Multi-label feature selection using correlation information[C]// Proceedings of the 2017 ACM Conference on Information and Knowledge Management. New York: ACM, 2017: 1649-1656.
[21] LIU L, ZHANG J, LI P, et al. A label correlation based weighting feature selection approach for multi-label data[C]// Proceedings of the 2016 International Conference on Web-Age Information Management, LNCS 9659. Cham: Springer, 2016: 369-379.
[22] SPOLAR N, MONARD M C, TSOUMAKAS G. A systematic review of multi-label feature selection and a new method based on label construction[J]. Neurocomputing, 2016, 180: 3-15.
[23] SHANNON C E. A mathematical theory of communication[J]. Bell System Technical Journal, 1948, 27(4): 623-656.
[24] ZHANG M, ZHOU Z. ML-KNN: a lazy learning approach to multi-label learning[J]. Pattern Recognition, 2007, 40(7): 2038-2048.
[25] ZHANG M, PEA J M, ROBLES V. Feature selection for multi-label naive Bayes classification[J]. Information Sciences, 2009, 179(19): 3218-3229.
[26] ZHANG Y, ZHOU Z H. Multi-label dimensionality reduction via dependence maximization[C]//? Proceedings of the 23rd National Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2008, 3: 1503-1505.
[27] LIM H, LEE J, KIM D. Optimization approach for feature selection in multi-label classification[J]. Pattern Recognition Letters, 2017, 89: 25-30.