王 進(jìn),余 薇,孫開(kāi)偉,鄧 欣
(重慶郵電大學(xué) 數(shù)據(jù)工程與可視計(jì)算重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
多標(biāo)簽學(xué)習(xí)(multi-label learning, MLL)旨在為分配了多個(gè)類(lèi)標(biāo)簽的對(duì)象構(gòu)建分類(lèi)模型[1].多標(biāo)簽學(xué)習(xí)廣泛存在于現(xiàn)實(shí)世界的應(yīng)用程序中:文本分類(lèi),一則新聞可以涵蓋多個(gè)主題[2],包括政治、經(jīng)濟(jì)和改革;多媒體內(nèi)容注釋,1個(gè)圖像可以展示包括海灘和建筑在內(nèi)的幾個(gè)場(chǎng)景[3];生物信息學(xué),1個(gè)基因可以具有多種功能[4],包括代謝、蛋白質(zhì)合成和轉(zhuǎn)錄.
多標(biāo)簽學(xué)習(xí)算法應(yīng)用已經(jīng)取得了成功[1].由于每個(gè)類(lèi)別的標(biāo)簽應(yīng)該具有自己的特定特征,因此傳統(tǒng)的方法并不是最理想的選擇.例如,自動(dòng)圖像注釋中,在區(qū)分天空和非天空?qǐng)D像時(shí)基于顏色的特征將是首選,在區(qū)分沙漠和非沙漠圖像時(shí)基于紋理的特征將是首選,而顏色和紋理可能都是有助于區(qū)分標(biāo)簽空間中其他標(biāo)簽的首選特征.再比如,文本分類(lèi)中,在區(qū)分經(jīng)濟(jì)和非經(jīng)濟(jì)文本時(shí),與GDP、減稅、股票市場(chǎng)等詞匯相關(guān)的特征則具有相關(guān)性.由此可見(jiàn),每個(gè)類(lèi)別的標(biāo)簽均具有自己的特定特征,挖掘標(biāo)簽特定特征對(duì)多標(biāo)簽學(xué)習(xí)而言顯得至關(guān)重要.處理多標(biāo)簽學(xué)習(xí)問(wèn)題面臨的核心挑戰(zhàn)就是如何通過(guò)探索多個(gè)標(biāo)簽之間依賴關(guān)系來(lái)提高預(yù)測(cè)準(zhǔn)確性,探索標(biāo)簽間相關(guān)性的一種直接方法是為擴(kuò)展特征空間上的每個(gè)標(biāo)簽建立單獨(dú)的分類(lèi)模型,并將其他標(biāo)簽的預(yù)測(cè)值視為附加特征.這種策略簡(jiǎn)單直觀,但它可能會(huì)因?yàn)橛?xùn)練集和預(yù)測(cè)集之間附加特征值的差異導(dǎo)致預(yù)測(cè)性能的一定退化.簡(jiǎn)言之,構(gòu)建標(biāo)簽的特定特征以及挖掘樣本之間的關(guān)聯(lián)關(guān)系在多標(biāo)簽學(xué)習(xí)中都至關(guān)重要.
文獻(xiàn)[5]首次提出了一種名為multi-label lear-ning with label specific features(LIFT)的特征轉(zhuǎn)換新方法,該方法通過(guò)構(gòu)建標(biāo)簽特定特征作為輸入空間來(lái)處理多標(biāo)簽數(shù)據(jù),計(jì)算每1個(gè)原始特征到每1個(gè)標(biāo)簽原始聚類(lèi)簇中心的歐式距離,將獲得的歐式距離映射為標(biāo)簽特定特征,挖掘樣本內(nèi)部聚類(lèi)關(guān)聯(lián),但沒(méi)有考慮標(biāo)簽相關(guān)性.隨后,文獻(xiàn)[6]提出一種名為learning label-specific features(LLSF)的方法,學(xué)習(xí)每個(gè)標(biāo)簽的標(biāo)簽特定特征,假設(shè)每個(gè)標(biāo)簽僅與給定數(shù)據(jù)集原始特征集中相關(guān)特征的子集相關(guān)聯(lián),這些相關(guān)特征可以視為標(biāo)簽特定特征,但LLSF沒(méi)有尋找多標(biāo)簽樣本之間的關(guān)聯(lián)關(guān)系.文獻(xiàn)[7]和[8]提出learning label-specific features and class-dependent labels(LLSF-DL)和regularization enriched label-specific features(REEL)兩種基于標(biāo)簽特定特征的方法分別是對(duì)LLSF和LIFT算法的改進(jìn),具備更加明顯的分類(lèi)性能優(yōu)勢(shì).文獻(xiàn)[9]提出了一種稱為label-specific features and local pairwise label correlation(LF-LPLC)的標(biāo)簽特定特征方法用于多標(biāo)簽學(xué)習(xí),著重通過(guò)豐富標(biāo)簽的語(yǔ)義信息來(lái)解決不平衡的類(lèi)分布問(wèn)題.文獻(xiàn)[10]設(shè)計(jì)了1個(gè)優(yōu)化框架來(lái)學(xué)習(xí)特征的權(quán)重分配方案,并通過(guò)同時(shí)構(gòu)建附加特征來(lái)考慮標(biāo)簽之間的相關(guān)性,但模型更加復(fù)雜,時(shí)間成本也更大.
受到文獻(xiàn)[5-10]中基于標(biāo)簽特定特征工作的啟發(fā),文中著重進(jìn)行對(duì)標(biāo)簽特定特征的學(xué)習(xí)與研究,提出了基于聚類(lèi)提升樹(shù)的多標(biāo)簽學(xué)習(xí)算法(multi-label leaning based on boosting clustering trees, MLL-BCT).MLL-BCT方法首先引入聚類(lèi)特征樹(shù)挖掘數(shù)據(jù)樣本之間本身的相關(guān)性,再在新的樣本集合上構(gòu)建局部特征轉(zhuǎn)換框架,利用梯度提升樹(shù)構(gòu)建標(biāo)簽特定特征.
MLL-BCT采用區(qū)別于現(xiàn)有成熟的標(biāo)簽特定特征算法(大多是基于LIFT和LLSF的改進(jìn))的特征構(gòu)建方法,提出一種隨機(jī)局部特征抽取框架,通過(guò)特定學(xué)習(xí)局部特征集合的梯度殘差,為每個(gè)標(biāo)簽探索與該標(biāo)簽最具關(guān)聯(lián)性的特定特征集合.
為了對(duì)多標(biāo)簽學(xué)習(xí)進(jìn)行建模,探索出每個(gè)標(biāo)簽的有效特征,文中提出了基于聚類(lèi)提升樹(shù)的多標(biāo)簽學(xué)習(xí)算法MLL-BCT,算法框架包括以下兩個(gè)階段:
1)聚類(lèi)特征樹(shù):原始數(shù)據(jù)集使用CF-Tree方法進(jìn)行聚類(lèi),挖掘樣本之間的關(guān)聯(lián)關(guān)系,當(dāng)樣本聚類(lèi)為1個(gè)類(lèi)別時(shí),認(rèn)定輸出空間具有緊密的相關(guān)性.
2)標(biāo)簽特定特征:根據(jù)隨機(jī)局部特征轉(zhuǎn)換方法為每個(gè)標(biāo)簽構(gòu)建標(biāo)簽特定特征.需要根據(jù)隨機(jī)局部特征轉(zhuǎn)換構(gòu)建初始模型,利用梯度提升分類(lèi)樹(shù),計(jì)算出殘差預(yù)測(cè)值,然后標(biāo)簽的殘差預(yù)測(cè)值作為附加特征來(lái)拓展特征空間.
圖1為MLL-BCT的訓(xùn)練與預(yù)測(cè)框架.
圖1 MLL-BCT的訓(xùn)練與預(yù)測(cè)框架
如圖1所示,在訓(xùn)練階段,首先將訓(xùn)練集利用聚類(lèi)特征樹(shù)聚類(lèi)算法挖掘樣本之間的關(guān)系,聚類(lèi)結(jié)果表征了樣本在輸出空間具有相似特征;然后利用隨機(jī)局部特征轉(zhuǎn)換框架,設(shè)置梯度提升樹(shù)學(xué)習(xí)棵數(shù),以及每次需要隨機(jī)抽取的特征維數(shù),將每個(gè)標(biāo)簽對(duì)應(yīng)的若干梯度提升分類(lèi)樹(shù)的殘差預(yù)測(cè)值作為標(biāo)簽特定特征,并作為附加特征添加到原始空間中,得到最終的模型.在測(cè)試階段,與訓(xùn)練階段相同,構(gòu)建得到新的測(cè)試樣本,輸入模型獲得最終預(yù)測(cè)的結(jié)果.
1.3.1CF-Tree算法過(guò)程
聚類(lèi)特征樹(shù)即CF-Tree,樹(shù)的每1個(gè)節(jié)點(diǎn)由若干個(gè)聚類(lèi)特征(CF)組成,而每1個(gè)CF是1個(gè)三元組,可以用(N,LS,SS)表示,其中N、LS、SS分別代表了CF中樣本點(diǎn)的數(shù)量、各特征維度的和向量、各特征維度的平方和.聚類(lèi)特征樹(shù)的每個(gè)節(jié)點(diǎn)包括葉子節(jié)點(diǎn)都有若干個(gè)CF,而內(nèi)部節(jié)點(diǎn)的CF有指向孩子節(jié)點(diǎn)的指針,所有的葉子節(jié)點(diǎn)用1個(gè)雙向鏈表鏈接起來(lái).簡(jiǎn)言之,根據(jù)定義的CF三元組,通過(guò)計(jì)算三元組之間的距離閾值來(lái)判斷是否吸收該元組從而構(gòu)建1棵二叉樹(shù)的CF-Tree.
構(gòu)建好初始的CF三元組后,就可進(jìn)行聚類(lèi)特征樹(shù)構(gòu)建,也即是對(duì)樣本的聚類(lèi)過(guò)程,聚類(lèi)特征樹(shù)的偽代碼見(jiàn)算法1.
首先,定義初始種子的計(jì)算式為
(1)
數(shù)據(jù)點(diǎn)到種子的距離計(jì)算式為
(2)
聚類(lèi)簇內(nèi)間元組的平均距離計(jì)算式為
(3)
算法1輸入:數(shù)據(jù)集樣本D;輸出:聚類(lèi)特征樹(shù)模型T.其流程如下:
nroot←newNode
構(gòu)造樹(shù)模型(nroot)
T←nroot
返回 模型T
過(guò)程 構(gòu)造樹(shù)模型
輸入樣本D
階段1 建立初始化的CF-Tree,把稠密數(shù)據(jù)分成簇,稀疏數(shù)據(jù)作為孤立點(diǎn)對(duì)待
階段2 在階段1的基礎(chǔ)上,建立1個(gè)更小的CF-Tree
階段3 使用全局算法對(duì)新建立的CF-Tree全部葉節(jié)點(diǎn)進(jìn)行聚類(lèi)
階段4 使用階段3的中心點(diǎn)作為新種子,重新分配數(shù)據(jù)點(diǎn)到新種子,添加簇類(lèi)標(biāo)簽
返回 該過(guò)程
過(guò)程 根據(jù)式(1)構(gòu)建CF-Tree
從根節(jié)點(diǎn)開(kāi)始,自上而下選擇最近的孩子節(jié)點(diǎn)
到達(dá)葉子節(jié)點(diǎn)后,檢查最近的元組CFi能否吸收此數(shù)據(jù)點(diǎn)根據(jù)式(2)和(3)決定
if最近元組CFi可以吸收then
更新CF值
else判斷是否可以添加1個(gè)新元組
if是then
添加1個(gè)新的元組
else
分裂最遠(yuǎn)的一對(duì)元組,作為種子,按最近距離重新分配其他元組
if是then
添加1個(gè)新的元組
else
分裂最遠(yuǎn)的一對(duì)元組,作為種子,按最近距離重新分配其他元組
end
end
更新非葉子節(jié)點(diǎn)的CF,直到root
返回 該過(guò)程
1.3.2應(yīng)用CF-Tree挖掘多標(biāo)簽數(shù)據(jù)樣本關(guān)聯(lián)
文中通過(guò)應(yīng)用無(wú)監(jiān)督學(xué)習(xí)聚類(lèi)特征樹(shù)的方法來(lái)挖掘樣本之間的關(guān)聯(lián),也即輸出空間的相似性.如圖2所示,首先輸入多標(biāo)簽數(shù)據(jù)集等待聚類(lèi),其中NLN代表非葉子節(jié)點(diǎn),LN代表葉子節(jié)點(diǎn),樣本數(shù)為N.
圖2 聚類(lèi)特征樹(shù)聚類(lèi)實(shí)例
在多標(biāo)簽分類(lèi)中,數(shù)據(jù)樣本由特征向量和多個(gè)標(biāo)簽的輸出向量表示.假設(shè)相互依賴的標(biāo)簽在輸出空間上具有相似的特征,即樣本之間存在著一定的關(guān)聯(lián)關(guān)系.利用聚類(lèi)特征樹(shù)構(gòu)建出的樹(shù)形結(jié)構(gòu),每1個(gè)樣本的特征最終都會(huì)被分配到1個(gè)葉子節(jié)點(diǎn)上.因此,每個(gè)樣本都可以獲得表示當(dāng)前葉子節(jié)點(diǎn)的編號(hào)(如圖2中1、2、3、4所示)的聚類(lèi)簇類(lèi)別.通過(guò)聚類(lèi)特征過(guò)程獲取所有樣本的聚類(lèi)簇,添加葉子節(jié)點(diǎn)聚類(lèi)簇Xcluster擴(kuò)展原始特征空間.最終,得到1個(gè)新的訓(xùn)練集D′=(X∪Xcluster,Y),若樣本的特征Xcluster相同,表明樣本之前的關(guān)系緊密,則認(rèn)為輸出空間有相似的特性.
1.4.1隨機(jī)局部特征轉(zhuǎn)換框架
文中通過(guò)構(gòu)建隨機(jī)局部特征轉(zhuǎn)換框架來(lái)提取標(biāo)簽的特定特征.隨機(jī)局部特征轉(zhuǎn)換框架的詳細(xì)過(guò)程如圖3所示,偽代碼見(jiàn)算法2.
圖3 隨機(jī)局部特征轉(zhuǎn)換框架
算法2隨機(jī)局部特征轉(zhuǎn)換的標(biāo)簽特定特征學(xué)習(xí)中定義Trees=GradientBoostingTree(D,X,ratio,T,yi),其中輸入為訓(xùn)練數(shù)據(jù)D,原始特征集X,隨機(jī)選擇的特征維數(shù)比例ratio,樹(shù)的棵數(shù)T,標(biāo)簽yi;輸出為T(mén)rees.其流程如下:
令Trees=?
fort=1:Tdo
從原始特征集X中按比例ratio隨機(jī)選取局部特征子集At;
Trees=Trees∪Treet
計(jì)算梯度提升樹(shù)葉子節(jié)點(diǎn)的殘差預(yù)測(cè)值
返回Trees
具體而言,輸入原始的特征空間到LSF中,對(duì)于第j個(gè)標(biāo)簽yj,即在圖3中的每個(gè)LSF中,需要設(shè)置樹(shù)的棵數(shù)T值(MLL-BCT算法設(shè)置默認(rèn)T值為100,樹(shù)的數(shù)目即隨機(jī)選擇次數(shù)的累積能夠保證表達(dá)力具有區(qū)分度,故通常不應(yīng)偏小),以及設(shè)置隨機(jī)局部特征選擇維數(shù)的占比ratio值(MLL-BCT算法設(shè)置默認(rèn)ratio值為0.3,為保證每次特定地學(xué)習(xí)少量特征隱藏的信息,故通常不應(yīng)偏大).合理地設(shè)置T值和ratio值可以保障標(biāo)簽特定特征的差異性與細(xì)化能力.
(4)
式中:Xi為第i個(gè)訓(xùn)練樣本的特征向量;Xi[At]為包含由所選特征索引在Xi的特征向量;yij為第i個(gè)訓(xùn)練樣本的第j個(gè)標(biāo)簽向量.
隨機(jī)選擇局部特征能夠保證特定學(xué)習(xí)少量特征隱藏的信息,隨機(jī)選擇次數(shù)的累積保證表達(dá)力具有區(qū)分度,保障標(biāo)簽特定特征的差異性與細(xì)化能力.
1.4.2利用梯度提升樹(shù)學(xué)習(xí)殘差預(yù)測(cè)值
在1.4.1節(jié)的隨機(jī)局部特征轉(zhuǎn)換框架中,包含隨機(jī)抽取T個(gè)局部特征子集訓(xùn)練T棵梯度提升樹(shù)獲取葉子節(jié)點(diǎn)的殘差預(yù)測(cè)值過(guò)程.具體每一棵梯度提升樹(shù)學(xué)習(xí)生成負(fù)梯度殘差見(jiàn)算法3,其中輸出的葉子節(jié)點(diǎn)殘差預(yù)測(cè)值為對(duì)應(yīng)標(biāo)簽轉(zhuǎn)化的特定特征.
fori←1 totdo
end for
具體針對(duì)任意一棵樹(shù)Treet的特定特征學(xué)習(xí)過(guò)程,也即是為了增加原始特征空間的差異性,文中構(gòu)建標(biāo)簽特定特征,利用每次迭代的殘差來(lái)描述局部特征,且作為額外特征來(lái)反映特征空間中的局部信息,同時(shí)對(duì)標(biāo)簽直接建模,增加模型的表達(dá)能力,方法如下式(5)-(8)所示:
(5)
(6)
(7)
(8)
1.4.3學(xué)習(xí)標(biāo)簽特定特征
學(xué)習(xí)標(biāo)簽特定特征即是獲取所有梯度提升樹(shù)學(xué)習(xí)生成負(fù)梯度殘差的過(guò)程,示例如圖4所示.
圖4 學(xué)習(xí)標(biāo)簽特定特征的示例
對(duì)任意一棵樹(shù)輸出的葉子節(jié)點(diǎn)殘差預(yù)測(cè)值為對(duì)應(yīng)標(biāo)簽轉(zhuǎn)化的特定特征.而對(duì)于每棵樹(shù)而言,是基于原始特征空間進(jìn)行隨機(jī)選擇的特征子集來(lái)學(xué)習(xí)的,樹(shù)的棵數(shù)太少會(huì)導(dǎo)致標(biāo)簽特定特征一定的噪聲.為了避免每棵樹(shù)相似性太高,通常T取值不能偏小,同時(shí)每棵樹(shù)學(xué)習(xí)的特征子集維數(shù)采樣率ratio不應(yīng)過(guò)大.
為了對(duì)算法性能進(jìn)行全面評(píng)估,選擇了11個(gè)公開(kāi)的多標(biāo)簽數(shù)據(jù)集進(jìn)行試驗(yàn),所有的數(shù)據(jù)集均來(lái)自于Mulan(網(wǎng)址是http:∥mulan.sourceforge.net/datasets-mlc.html),數(shù)據(jù)集來(lái)源涵蓋了生物、文本、音樂(lè)、視頻、圖像多個(gè)領(lǐng)域.同時(shí),樣本數(shù)量規(guī)模選取為數(shù)百到數(shù)萬(wàn)區(qū)間(具體規(guī)模為194到43 907),包含較小樣本數(shù)目數(shù)據(jù)集如圖像領(lǐng)域的flag,以及較大樣本數(shù)目數(shù)據(jù)集如視頻領(lǐng)域的mediamill;特征維度的數(shù)量級(jí)為數(shù)十維到數(shù)萬(wàn)維,包含較低維數(shù)據(jù)集如flag、emotions,以及來(lái)自文本領(lǐng)域的較高維數(shù)據(jù)集yahoo(arts1);所選數(shù)據(jù)集對(duì)應(yīng)的最小標(biāo)簽數(shù)目為6,最大標(biāo)簽數(shù)目為374.表1為數(shù)據(jù)集詳細(xì)信息,數(shù)據(jù)集主要特征的差異保障了試驗(yàn)數(shù)據(jù)的多樣性和全面性.
表1 數(shù)據(jù)集信息表
文獻(xiàn)[10]中采用迭代優(yōu)化變量學(xué)習(xí)權(quán)重的方法相對(duì)直接構(gòu)建特定特征而言模型更加復(fù)雜,因此未進(jìn)行此算法的對(duì)比試驗(yàn).
文中參考并選取了REEL(改進(jìn)于標(biāo)簽特定特征領(lǐng)域最經(jīng)典的LIFT算法)一文的對(duì)比試驗(yàn)算法包括BR、LIFT、LLSF算法,并額外增加了基于LLSF改進(jìn)的LLSF-DL算法,同時(shí)對(duì)比REEL和LF-LPLC算法,共計(jì)6個(gè)對(duì)比算法保證試驗(yàn)的說(shuō)服力,表2給出了對(duì)比算法信息.
表2 對(duì)比算法信息表
在多標(biāo)簽分類(lèi)算法評(píng)估與分析試驗(yàn)中,對(duì)所有多標(biāo)簽數(shù)據(jù)集都采用相同的劃分方式,用50%的數(shù)據(jù)進(jìn)行訓(xùn)練,其余50%進(jìn)行測(cè)試.在計(jì)算評(píng)價(jià)指標(biāo)時(shí),將各結(jié)果取重復(fù)10次試驗(yàn)的平均值進(jìn)行統(tǒng)計(jì),文中選擇Xgboost[12]算法作為基分類(lèi)器.
試驗(yàn)結(jié)果表中評(píng)價(jià)指標(biāo)后的“↓”表示指標(biāo)取值越小性能越佳,符號(hào)“↑”表示指標(biāo)取值越大性能越佳,AveRank表示該算法的平均排名.文中主要從MLL-BCT算法分類(lèi)性能、聚類(lèi)特征樹(shù)的有效性、算法關(guān)鍵參數(shù)的選取3個(gè)方面進(jìn)行分析.
2.2.1算法分類(lèi)性能比較
表3-7為5個(gè)不同評(píng)價(jià)指標(biāo)下各個(gè)多標(biāo)簽學(xué)習(xí)算法在各多標(biāo)簽數(shù)據(jù)集上的學(xué)習(xí)性能,從各結(jié)果表中的平均排名可以知道MLL-BCT算法排名均為第1.其中Ranking-loss的性能優(yōu)勢(shì)稍弱,其余評(píng)估指標(biāo)有著顯著的優(yōu)勢(shì).
表3 不同算法的Hamming Loss↓試驗(yàn)結(jié)果(均值(排序))
表4 不同算法的Ranking Loss↓試驗(yàn)結(jié)果(均值(排序))
表5 不同算法的One-error↓試驗(yàn)結(jié)果(均值(排序))
表6 不同算法的Average Precision↑試驗(yàn)結(jié)果(均值(排序))
表7 不同算法的Micro-averaged F-Measure↑試驗(yàn)結(jié)果(均值(排序))
為了進(jìn)一步檢驗(yàn)各算法之間的性能差異,應(yīng)用Friedman檢驗(yàn)這7種算法有無(wú)顯著性差異,提出原假設(shè):這7種多標(biāo)簽分類(lèi)算法是等價(jià)的,沒(méi)有顯著性差異.表8給出了5個(gè)評(píng)價(jià)指標(biāo)的Friedman假設(shè)檢驗(yàn)結(jié)果.
由表8可見(jiàn),由于p遠(yuǎn)小于0.05,因此拒絕原假設(shè),證明這7種算法存在顯著差異性.
表8 各分類(lèi)評(píng)估指標(biāo)的Friedman檢驗(yàn)結(jié)果表
此外,表9進(jìn)一步給出了算法的相對(duì)性能比較,為方便性能得分統(tǒng)計(jì)展示,分別設(shè)定各算法的得分為A1-A7:MLL-BCT(A1), REEL(A2), LIFT(A3), LLSF-DL(A4), LLSF(A5), LF-LPLC(A6), BR-SVM(A7).
表9 各多標(biāo)簽學(xué)習(xí)算法的性能得分統(tǒng)計(jì)表
在表9中,A1>A2表示在給定的評(píng)價(jià)指標(biāo)上,基于顯著度0.05的威爾科克森符號(hào)秩檢驗(yàn),A1對(duì)應(yīng)算法的性能顯著優(yōu)于A2對(duì)應(yīng)算法.文中通過(guò)打分的方式對(duì)各學(xué)習(xí)算法的性能進(jìn)行總體評(píng)價(jià),若A1>A2,則A1的分?jǐn)?shù)加1,A2的分?jǐn)?shù)減1,比較每個(gè)算法的最終分?jǐn)?shù),可以對(duì)算法得分進(jìn)行排序,文中A1(MLL-BCT)最高.由表8和表9證明了文中算法顯著優(yōu)于其余算法.
2.2.2算法聚類(lèi)特征樹(shù)有效性的驗(yàn)證
在MLL-BCT中,提出了采用聚類(lèi)特征樹(shù)算法來(lái)挖掘樣本之間的關(guān)聯(lián)關(guān)系,為了檢驗(yàn)聚類(lèi)特征樹(shù)算法的有效性,將聚類(lèi)特征樹(shù)這一過(guò)程作為控制變量,比較MLL-BCT與替換其他聚類(lèi)方法(Kmeans、DBSCAN)以及不使用聚類(lèi)方法,但其余過(guò)程都與MLL-BCT保持一致的3種算法性能.
表10-14為5個(gè)不同評(píng)價(jià)指標(biāo)下算法在各多標(biāo)簽數(shù)據(jù)集上的學(xué)習(xí)性能,可以發(fā)現(xiàn)在各評(píng)估指標(biāo)上MLL-BCT算法平均排名均為第1,說(shuō)明MLL-BCT(CF-Tree)優(yōu)于其余算法,證明了CF-Tree的有效性.
表10 聚類(lèi)過(guò)程不同算法的Hamming Loss↓試驗(yàn)結(jié)果(均值(排序))
表11 聚類(lèi)過(guò)程不同算法的Ranking Loss↓試驗(yàn)結(jié)果(均值(排序))
表12 聚類(lèi)過(guò)程不同算法的One-error↓試驗(yàn)結(jié)果(均值(排序))
表13 聚類(lèi)過(guò)程不同算法的Average Precision↑試驗(yàn)結(jié)果(均值(排序))
表14 聚類(lèi)過(guò)程不同算法的Micro-averaged F-Measure↑試驗(yàn)結(jié)果(均值(排序))
2.2.3算法關(guān)鍵參數(shù)分析
算法MLL-BCT核心在于構(gòu)建標(biāo)簽特定特征的過(guò)程.構(gòu)建標(biāo)簽特定特征時(shí)隨機(jī)采樣特征的采樣率ratio和梯度提升樹(shù)的棵數(shù)T是算法的2個(gè)關(guān)鍵參數(shù).試驗(yàn)對(duì)比數(shù)據(jù)集較多,因此這里選取了其中4個(gè)數(shù)據(jù)集進(jìn)行關(guān)鍵參數(shù)分析的可視化.
首先研究算法MLL-BCT對(duì)參數(shù)ratio的敏感度,給定T參數(shù)值為100時(shí),對(duì)ratio值以0.2為步長(zhǎng),在0.1到0.9內(nèi)進(jìn)行試驗(yàn).圖5給出了關(guān)鍵參數(shù)ratio的可視化分析結(jié)果.
圖5 算法MLL-BCT在各指標(biāo)下的隨機(jī)采樣率參數(shù)變化結(jié)果圖
整體上綜合考量多個(gè)評(píng)價(jià)指標(biāo)的情況下看,由圖5可見(jiàn),在ratio值為0.3時(shí),可以達(dá)到最優(yōu)值.但是部分?jǐn)?shù)據(jù)集,如圖5c中的emotions,圖5e中的birds,隨著ratio的增加,性能反而會(huì)提升,可能的原因是其樣本數(shù)過(guò)少,或是特征數(shù)過(guò)少,當(dāng)模型構(gòu)建標(biāo)簽特定特征時(shí),需要一定量的特征來(lái)表征這個(gè)標(biāo)簽,因此隨著ratio值變大,分類(lèi)性能增強(qiáng).但對(duì)于大部分?jǐn)?shù)據(jù)集選取局部特征構(gòu)造特征時(shí),ratio值偏小時(shí)能保證特征子集的表達(dá)能力不同,從而保障標(biāo)簽特定特征相異性.同理,研究了算法對(duì)參數(shù)T的敏感度,給定參數(shù)ratio值為0.3時(shí),對(duì)不同的T值,以20為步長(zhǎng),在范圍從40到140內(nèi)對(duì)算法進(jìn)行試驗(yàn).
圖6給出了算法MLL-BCT在各指標(biāo)下的梯度提升樹(shù)棵樹(shù)參數(shù)變化結(jié)果.
圖6 算法MLL-BCT在各指標(biāo)下的梯度提升樹(shù)棵樹(shù)參數(shù)變化結(jié)果圖
由圖6可見(jiàn),算法整體的性能在T值為100時(shí)達(dá)到最優(yōu)值.原因在于當(dāng)ratio值偏小時(shí),用于構(gòu)建標(biāo)簽特定特征的特征子集維數(shù)偏小,則需要足夠的梯度提升樹(shù)結(jié)果來(lái)挖掘更全面的隱藏信息.存在少部分?jǐn)?shù)據(jù)集,如圖6a中的scene,圖6b中的emotions當(dāng)T增大時(shí)性能逐漸不穩(wěn)定,甚至?xí)儾?,可能的原因是原始特征空間表達(dá)能力較好,隨著T增加,標(biāo)簽特定特征數(shù)也增加,過(guò)多的標(biāo)簽特定特征會(huì)引起模型過(guò)擬合,從而導(dǎo)致預(yù)測(cè)性能變差.
綜合以上的對(duì)比分析,文中分別設(shè)置MLL-BCT算法ratio值和T值的默認(rèn)值為0.3和100.
1)利用CF-Tree挖掘可以充分挖掘樣本內(nèi)在關(guān)聯(lián),尋找輸出空間中的相似特征,性能優(yōu)于其余聚類(lèi)算法.
2)在隨機(jī)局部特征轉(zhuǎn)換框架中應(yīng)用梯度提升樹(shù)模型致力于利用局部的特征為每個(gè)標(biāo)簽構(gòu)建特定的特征,提升單個(gè)標(biāo)簽表達(dá)能力,在多標(biāo)簽分類(lèi)試驗(yàn)結(jié)果上各評(píng)估指標(biāo)對(duì)比相應(yīng)領(lǐng)域先進(jìn)的算法取得了提升.
3)文中方法主要致力于進(jìn)行特征空間的轉(zhuǎn)化以獲取與標(biāo)簽最相關(guān)的特征,雖然這些特征有效地提升了分類(lèi)性能,但引起生成的特征空間維度明顯增加,使得特征空間中可能存在著冗余信息,未來(lái)還可以基于標(biāo)簽特定特征的降維方法進(jìn)行研究.