朱昌明 高玉森
摘要:由于受限于人工成本,很多現(xiàn)實(shí)世界中的多視角數(shù)據(jù)集是由少量有標(biāo)簽樣本和大量無(wú)標(biāo)檢樣本組成的。當(dāng)前傳統(tǒng)的多視角矩陣分類器無(wú)法有效處理這類數(shù)據(jù)集。為了處理這個(gè)問(wèn)題,將Universum學(xué)習(xí)引入多視角矩陣分類器中,提出基于信息增強(qiáng)的多視角矩陣分類器。由于Universum學(xué)習(xí)可以生成額外的無(wú)標(biāo)簽樣本,這類樣本雖然沒(méi)有被指定類別標(biāo)簽,但是包含了部分有標(biāo)簽樣本的信息,所以Universum學(xué)習(xí)可以增強(qiáng)有效樣本信息。實(shí)驗(yàn)表明,相比于傳統(tǒng)的多視角矩陣分類器,本文提出的基于信息增強(qiáng)的多視角矩陣分類器具有更好的分類性能。
關(guān)鍵詞:
Universum學(xué)習(xí); 多視角; 矩陣分類器
中圖分類號(hào):? TP391.4
文獻(xiàn)標(biāo)志碼:? A
Information enhancement-based multi-view matrix classifier design
ZHU Changming, GAO Yusen
(Information Engineering College, Shanghai Maritime University, Shanghai 201306, China)
Abstract:
Due to the limitation of labor cost, many real-world multi-view datasets are composed of a small number of labeled samples and a large number of unlabeled samples. At present, the traditional multi-view matrix classifier cannot deal with this kind of datasets effectively. In order to deal with this problem, Universum learning is introduced into the multi-view matrix classifier, and an information enhancement-based multi-view matrix classifier is proposed. Because Universum learning can generate additional unlabeled samples that contain some information of labeled samples, Universum learning can enhance the effective sample information. Experimental results show that, the proposed information enhancement-based multi-view matrix classifier is of better classification performance than the traditional multi-view matrix classifiers.
Key words:
Universum learning; multi-view; matrix classifier
收稿日期: 2020-05-10
修回日期: 2020-06-23
基金項(xiàng)目: 中國(guó)博士后基金(2019M651576);上海市晨光計(jì)劃(18CG54)
作者簡(jiǎn)介:
朱昌明(1988—),男,上海人,副教授,博士,研究方向?yàn)槎嘁暯菍W(xué)習(xí)、模式識(shí)別,(E-mail)cmzhu@shmtu.edu.cn
0 引 言
多視角數(shù)據(jù)集普遍存在于圖像處理、視頻追蹤、網(wǎng)頁(yè)分類等領(lǐng)域。數(shù)據(jù)集多由矩陣型樣本組成,因此通常采用多視角矩陣分類器(如改進(jìn)的基于Nystrm的多核修正型Ho-Kashyap算法[1](INMKMHKS)、雙重局部化多矩陣學(xué)習(xí)機(jī)[2](DFLMMLM)、具有5方面樣本信息的多矩陣學(xué)習(xí)機(jī)[3](MMLMFAPI)等)處理。隨著國(guó)際貿(mào)易發(fā)展、生活節(jié)奏變快,越來(lái)越多的樣本呈現(xiàn)出大批量產(chǎn)生的特征,但受限于人力成本,僅有一小部分樣本獲得了標(biāo)記。換句話說(shuō),當(dāng)前的大多數(shù)多視角數(shù)據(jù)集是由少量有標(biāo)簽樣本和大量無(wú)標(biāo)簽樣本構(gòu)成的。這類數(shù)據(jù)集稱為半監(jiān)督多視角數(shù)據(jù)集。傳統(tǒng)的多視角矩陣分類器無(wú)法有效處理這類數(shù)據(jù)集。
增強(qiáng)有效的樣本信息是處理這個(gè)問(wèn)題的一種方式。眾所周知,有標(biāo)簽樣本可以提供有利于分類器設(shè)計(jì)的有效樣本信息,而無(wú)標(biāo)簽樣本能提供的這類有效的樣本信息很少。若可以以有標(biāo)簽樣本為基礎(chǔ)生成一些樣本,則這類樣本可以提供有效的樣本信息,從而增強(qiáng)有利于分類器設(shè)計(jì)的樣本信息,并進(jìn)一步提升分類器的性能。目前,Universum學(xué)習(xí)就是這樣的一種解決方式[4]。Universum學(xué)習(xí)通過(guò)生成包含有利于分類器設(shè)計(jì)的先驗(yàn)知識(shí)和信息的額外無(wú)標(biāo)簽樣本(即Universum樣本),并選擇其中的一部分加入原始數(shù)據(jù)集,來(lái)增強(qiáng)有效樣本信息并指導(dǎo)分類器設(shè)計(jì)。比如,對(duì)于有0、1、2、3、4、5、6、7、8、9總共10個(gè)數(shù)字的1 000多張圖片,要分類5和8,既可以用0、1、2、3、4、6、7、9這8個(gè)數(shù)字的圖片作為Universum樣本,也可以利用這些圖片來(lái)擬合生成一些包含了關(guān)于5和8的先驗(yàn)知識(shí)的新圖片(這些新圖片雖然不能被歸為任務(wù)一類,但是它們?cè)谏蓵r(shí)涉及了5和8的相關(guān)信息,因此這些圖片也可以被認(rèn)為是Universum樣本)。
經(jīng)典的Universum樣本生成及選擇方法在CHEN等[5]和ZHU[6]的工作中有所涉及,即通過(guò)選取任意兩個(gè)不同類的有標(biāo)簽多視角樣本,平均化它們的特征信息,從而構(gòu)建一個(gè)新的無(wú)標(biāo)簽樣本。新的無(wú)標(biāo)簽樣本由于是通過(guò)有標(biāo)簽樣本生成的,所以包含一定的先驗(yàn)知識(shí)和信息。朱昌明等[7]把該樣本生成算法用于結(jié)構(gòu)風(fēng)險(xiǎn)最小化問(wèn)題中以驗(yàn)證其在理論上的有效性。劉鴻等[8]將Universum樣本生成算法用于度量學(xué)習(xí),以更真實(shí)地刻畫(huà)樣本之間的距離,提高分類和聚類的精度。此外,相關(guān)學(xué)者更從降維、模糊學(xué)習(xí)等角度驗(yàn)證了Universum學(xué)習(xí)的兩大優(yōu)點(diǎn):①充分利用整個(gè)數(shù)據(jù)分布的域知識(shí);②可獲取更多的有效樣本信息。[9-10]這些有效樣本信息對(duì)于指導(dǎo)分類器的構(gòu)建有著重要的作用,可以提升分類器的性能。
為克服傳統(tǒng)多視角矩陣分類器的不足,本文以傳統(tǒng)的矩陣分類器(即基于矩陣樣本的修正型Ho-Kashyap算法(MatMHKS))[11]為基礎(chǔ),引入U(xiǎn)niversum學(xué)習(xí),并拓展到多視角領(lǐng)域,提出一個(gè)基于信息增強(qiáng)的多視角矩陣分類器(information enhancement-based multi-view MatMHKS, IMMatMHKS)。
1 IMMatMHKS
IMMatMHKS設(shè)計(jì)方法包含兩個(gè)步驟:第一步,通過(guò)Universum學(xué)習(xí)生成更多有用的Universum樣本;第二步,把這些模式用到多視角MatMHKS中,構(gòu)建一個(gè)基于信息增強(qiáng)的多視角矩陣分類器設(shè)計(jì)方法,即IMMatMHKS。為此,本節(jié)由兩部分組成:第一部分描述Universum學(xué)習(xí)和生成Universum樣本,第二部分給出IMMatMHKS的訓(xùn)練和優(yōu)化步驟。
1.1 CIBU算法
為生成合適的Universum樣本,并增強(qiáng)有效的樣本信息,本文使用CIBU(creating in-between Universum)算法。
假設(shè)有一個(gè)多視角矩陣集Tmat={(A1,φ1),(A2,φ2),…,(AN,φN)},φp∈[0,c]是類標(biāo)簽(p=1,2,…,N),其中N和c分別表示有標(biāo)簽樣本的數(shù)量和類別的數(shù)量。φp=0表示相應(yīng)的樣本沒(méi)有標(biāo)記,即該樣本為無(wú)標(biāo)簽樣本;φp≠0表示相應(yīng)的樣本為有標(biāo)簽樣本。
先根據(jù)所有樣本的信息建立近鄰矩陣G。矩陣G第i行第j列的元素Gij由式(1)計(jì)算:
Gij=Ai-Aj22,Ai∈Nk(Aj)或Aj∈Nk(Ai)
+∞,其他
(1)
式中:Nk(Aj)或Nk(Ai)是Ai或Aj的k個(gè)最近鄰樣本的集合,Ai和Aj是兩個(gè)不同的樣本。
隨后,分別針對(duì)兩個(gè)不同的樣本Ai和Aj(其中至少有一個(gè)是有標(biāo)簽樣本),根據(jù)其Gij進(jìn)行判斷。若Gij的值不為無(wú)窮大,則由Ai和Aj得到一個(gè)Universum樣本A*k,其計(jì)算方式如下:
A*k=(Ai+Aj)/2
(2)
最后,在生成的Universum樣本集中選擇最小的UAk個(gè)Gij所對(duì)應(yīng)的Universum樣本參與后續(xù)分類器的訓(xùn)練。之所以選擇最小的UAk個(gè)Gij所對(duì)應(yīng)的Universum樣本,是因?yàn)镚ij越小,Ai與Aj之間的相似度越高,生成的Universum樣本所具有的先驗(yàn)知識(shí)和有效樣本信息越多。至此,CIBU算法就完成了。
1.2 IMMatMHKS訓(xùn)練與優(yōu)化
假設(shè)有一個(gè)包含N個(gè)多視角向量樣本的集合Tvec={(x1,φ1),(x2,φ2),…,(xN,φN)},其中樣本xp∈Rd,φp∈[0,c]為相應(yīng)的類標(biāo)簽,p=1,2,…,N。Tvec可以通過(guò)參考文獻(xiàn)[11]中給出的矩陣化技術(shù)被矩陣化到相應(yīng)的多視角矩陣集Tmat={(A1,φ1),(A2,φ2),…,(AN,φN)}中,其中Ap∈Rd,d=n1×n2,p=1,2,…,N。另外,T*vec={x*1,x*2,…,x*M}是生成并選擇的用于訓(xùn)練的M個(gè)Universum樣本
的集合,其被矩陣化后的
形式是T*mat=(A*1,A*2,…,A*M)。IMMatMHKS的目標(biāo)函數(shù)為
min J|J(u,,v0,bp,b*q)=
Np=1(φp(uTAp+v0)-1-bp)2/2+
C(uTS1u+TS2)/2+
DMq=1((uTA*q+v0)-1-b*q)2/2
(3)
式中:u、分別為左、右權(quán)向量;v0為偏置;bp為樣本Ap的松弛量;b*q為樣本A*q的松弛量;C和D為正則化參數(shù),其作用是調(diào)節(jié)模型復(fù)雜度與分類誤差之間的平衡。
為求解式(3),令:Y=(y1,y2,…,yN)T,yp=φp(uTAp,1)T,p=1,2,…,N;v=(T,v0)T;b=(b1,b2,…,bN)T;IN×1=(1,1,…,1)T;Y*=(y*1,y*2,…,y*M),y*q=(uTA*q,1)T,q=1,2,…,M;b*=(b*1,b*2,…,b*M)T;I*M×1=(1,1,…,1)T。IMMatMHKS的目標(biāo)函數(shù)可重寫(xiě)為
min J|J(u,v,bp,b*q)=
(Yv-I-b)T(Yv-I-b)/2+
C(uTS1u+vTS~2v)/2+
D(Y*v-I*-b*)T(Y*v-I*-b)/2
(4)
式中S~2=S2000。由式(3)或式(4)無(wú)法直接獲取參數(shù)u、v、b、b*的最優(yōu)值,因此采用梯度下降法對(duì)式(4)進(jìn)行迭代求解。
先由式(4)對(duì)u、v、b、b*求偏導(dǎo)數(shù),再令所求得的偏導(dǎo)數(shù)為0,得到權(quán)向量u和以及偏置v0的迭代結(jié)果。設(shè)定迭代終止條件,當(dāng)?shù)K止時(shí)會(huì)得到最優(yōu)的權(quán)向量u和以及偏置v0,即權(quán)向量un和n以及偏置v0n,隨后便可利用這些最優(yōu)值對(duì)測(cè)試樣本進(jìn)行分類。
2 實(shí)驗(yàn)分析
2.1 實(shí)驗(yàn)設(shè)置
為驗(yàn)證所提出的IMMatMHKS的有效性,選擇3個(gè)多視角數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),見(jiàn)表1~3。針對(duì)這些數(shù)據(jù)集,隨機(jī)選擇10%、20%、30%、40%、50%、60%的樣本作為訓(xùn)練樣本,其余的樣本用于測(cè)試。另外,在訓(xùn)練樣本中隨機(jī)選擇10%、20%、30%、40%、50%、60%、70%、80%、90%的樣本作為有標(biāo)簽訓(xùn)練樣本,其余的樣本作為無(wú)標(biāo)簽訓(xùn)練樣本。
選擇INMKMHKS、DFLMMLM和MMLMFAPI這3個(gè)傳統(tǒng)方法作為對(duì)比。這些方法的參數(shù)由相應(yīng)的參考文獻(xiàn)可知。而對(duì)于本文提出的IMMatMHKS,其大部分參數(shù)設(shè)置可以參考文獻(xiàn)[11]。IMMatMHKS中的參數(shù)k和UAk設(shè)置如下:k=5;UAk為所有樣本數(shù)量的3倍。實(shí)際上,
k和UAk這兩個(gè)參數(shù)設(shè)置的不同,會(huì)影響IMMatMHKS的性能,但是通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),由于Universum學(xué)習(xí)的引入,這兩個(gè)參數(shù)在大部分情況下都會(huì)使分類器的性能提高,因此本文中僅給出如上設(shè)置的實(shí)驗(yàn)結(jié)果。
為獲得最佳參數(shù),采用十重交叉驗(yàn)證的方法:針對(duì)每組參數(shù)組合,將所使用的數(shù)據(jù)集的訓(xùn)練樣本分為10份,每次取9份進(jìn)行訓(xùn)練,1份進(jìn)行驗(yàn)證,然后獲得一個(gè)分類性能;10次實(shí)驗(yàn)之后,便得到一個(gè)平均結(jié)果;以平均結(jié)果最好的情況下的參數(shù)為最佳參數(shù),對(duì)測(cè)試樣本進(jìn)行測(cè)試實(shí)驗(yàn)。
2.2 分類性能比較
為體現(xiàn)IMMatMHKS的有效性,采用準(zhǔn)確率、真陽(yáng)率、真陰率和F值(相應(yīng)的指標(biāo)概念可參考文獻(xiàn)[12])等4個(gè)指標(biāo)描述其性能。從表4可知:①就準(zhǔn)確率、真陽(yáng)率、真陰率來(lái)說(shuō),IMMatMHKS可以帶來(lái)相對(duì)較好的性能;②從F值的結(jié)果來(lái)看,IMMatMHKS的性能優(yōu)勢(shì)并沒(méi)有明顯偏向正類和負(fù)類,具有普適性??傮w而言,由于本文提出的IMMatMHKS引入了Universum學(xué)習(xí),可以在識(shí)別同一個(gè)數(shù)據(jù)集時(shí),通過(guò)信息的增強(qiáng)使更多的有效樣本信息參與分類器的訓(xùn)練,所以IMMatMHKS比INMKMHKS、DFLMMLM、MMLMFAPI具有更好的分類性能。
2.3 時(shí)間性能比較
表5給出了在最佳參數(shù)的情況下,4種方法的訓(xùn)練時(shí)間和測(cè)試時(shí)間。由表5可知,隨著Universum學(xué)習(xí)的引入,分類器的訓(xùn)練需要更多的時(shí)間,但是由于增加的時(shí)間不超過(guò)10%,所以結(jié)合IMMatMHKS的性能優(yōu)勢(shì),這一現(xiàn)象是可以接受的。另外,從測(cè)試時(shí)間來(lái)看,在同一個(gè)數(shù)據(jù)集中,IMMatMHKS所需要的測(cè)試時(shí)間也不一定是最多的。當(dāng)然,應(yīng)當(dāng)注意的是,對(duì)于一般的識(shí)別問(wèn)題而言,時(shí)間上的差距可以通過(guò)硬件來(lái)彌補(bǔ),而識(shí)別率上的差異則需要通過(guò)算法來(lái)彌補(bǔ),因此IMMatMHKS在時(shí)間上的額外開(kāi)銷并不會(huì)過(guò)多地影響其性能優(yōu)勢(shì)。
2.4 顯著度分析
為驗(yàn)證IMMatMHKS的優(yōu)勢(shì)是顯著的,下面進(jìn)行顯著度分析,即p值比較[13]。p值最早由FISHER提出,按照FISHER的理論,p值越小,兩種方法在同一個(gè)數(shù)據(jù)集上的差異越顯著。一般來(lái)說(shuō),當(dāng)p>0.05時(shí)可以認(rèn)為兩種方法在一個(gè)數(shù)據(jù)集上的差異是不顯著的,當(dāng)p∈[0.01,0.05]時(shí)可以認(rèn)為兩種方法在一個(gè)數(shù)據(jù)集上的差異是顯著的,而當(dāng)p<0.01時(shí)可以認(rèn)為兩種方法在一個(gè)數(shù)據(jù)集上的差異非常顯著。
為更好地表明IMMatMHKS的有效性,用表6表示在不同的評(píng)價(jià)指標(biāo)下IMMatMHKS與參與對(duì)比的方法在不同數(shù)據(jù)集上的p值。
由表6可以明顯地看到,相對(duì)于其他對(duì)比方法,特別是INMKMHKS,本文提出的IMMatMHKS具有顯著的優(yōu)勢(shì)。
2.5 訓(xùn)練樣本和有標(biāo)簽樣本比例的影響
由于在實(shí)驗(yàn)中針對(duì)訓(xùn)練樣本和有標(biāo)簽樣本選擇了不同的比例,本文也給出樣本比例不同的情況下IMMatMHKS性能的變化。為簡(jiǎn)化說(shuō)明,本文只給出在不同的訓(xùn)練樣本比例和有標(biāo)簽訓(xùn)練樣本比例的情況下
IMMatMHKS在Mfeat數(shù)據(jù)集上準(zhǔn)確率的變化。盡管沒(méi)有給出IMMatMHKS在其他數(shù)據(jù)集和其他分類性能指標(biāo)下的變化,但是這并不會(huì)影響結(jié)果。從表7可知,訓(xùn)練樣本和有標(biāo)簽訓(xùn)練樣本的比例越高,IMMatMHKS在Mfeat數(shù)據(jù)集上的準(zhǔn)確率越高,這也證明隨著信息的增強(qiáng),有效樣本信息越多,可以更容易指導(dǎo)分類器的設(shè)計(jì),從而提升分類器的性能。
3 總結(jié)與未來(lái)工作
在當(dāng)前的模式識(shí)別領(lǐng)域中,多視角學(xué)習(xí)問(wèn)題普遍存在。盡管已有學(xué)者提出一系列多視角矩陣分類器處理此類問(wèn)題,但是受限于人工成本,現(xiàn)實(shí)世界中大多數(shù)多視角數(shù)據(jù)是由少量有標(biāo)簽樣本和大量無(wú)標(biāo)簽樣本組成的,傳統(tǒng)的多視角矩陣分類器對(duì)于此類問(wèn)題的處理存在一定的困難。
本文在矩陣分類器中引入U(xiǎn)niversum學(xué)習(xí),通過(guò)CIBU算法增強(qiáng)有效的樣本信息,并提出一個(gè)基于信息增強(qiáng)的多視角矩陣分類器(IMMatMHKS)。通過(guò)在Mfeat、Reuters、Corel等3個(gè)典型的多視角數(shù)據(jù)集上的實(shí)驗(yàn),驗(yàn)證IMMatMHKS具有更高的分類性能且性能優(yōu)勢(shì)顯著,只是訓(xùn)練時(shí)間略有增加。本文的工作也驗(yàn)證了隨著訓(xùn)練樣本或有標(biāo)簽訓(xùn)練樣本比例的增加,矩陣分類器的性能也會(huì)增強(qiáng)。
除Universum學(xué)習(xí)外,還有很多其他的方法可以生成額外的樣本,如對(duì)抗網(wǎng)絡(luò)。由于本文的研究目的是驗(yàn)證信息增強(qiáng)后分類器性能會(huì)提高,而Universum學(xué)習(xí)的時(shí)間開(kāi)銷比對(duì)抗網(wǎng)絡(luò)的小,所以本文研究采用了Universum學(xué)習(xí)。未來(lái)工作會(huì)采用對(duì)抗網(wǎng)絡(luò)等方式加以深入研究,以更好地增強(qiáng)樣本信息。
參考文獻(xiàn):
[1]ZHU Changming, GAO Daqi. Improved multi-kernel classification machine with Nystrm approximation technique[J]. Pattern Recognition, 2015, 48(4): 1490-1509. DOI: 10.1016 / j.patcog.2014.10.029.
[2]ZHU Changming, WANG Zhe, GAO Daqi, et al. Double-fold localized multiple matrixized learning machine[J]. Information Sciences, 2015, 295: 196-220. DOI: 10.1016/j.ins.2014.10.024.
[3]ZHU Changming, GAO Daqi. Multiple matrix learning machine with five aspects of pattern information[J]. Knowledge-Based Systems, 2015,? 83: 13-31. DOI: 10.1016/j.knosys.2015.03.004.
[4]WESTON J, COLLOBERT R, SINZ F, et al. Inference with the Universum[C]//Proceedings of the 23rd International Conference on Machine Learning. ICML, 2006: 1009-1016. DOI: 10.1145/1143844.1143971.
[5]CHEN Xiaohong, YIN Hujun, JIANG Fan, et al. Multi-view dimensionality reduction based on Universum learning[J]. Neurocomputing, 2018, 275: 2279-2286. DOI: 10.1016/j.neucom.2017.11.006.
[6]ZHU Changming. Improved multi-kernel classification machine with Nystrm approximation technique and Universum data[J]. Neurocomputing, 2016, 175: 610-634. DOI: 10.1016/j.neucom.2015.10.102.
[7]朱昌明, 梅成就, 周日貴, 等. 基于Universum的多視角全局和局部結(jié)構(gòu)風(fēng)險(xiǎn)最小化模型[J]. 上海海事大學(xué)學(xué)報(bào), 2018, 39(3): 91-102. DOI: 10.13340/j.jsmu.2018.03.017.
[8]劉鴻, 陳曉紅, 張恩豪. 融入U(xiǎn)niversum學(xué)習(xí)的度量學(xué)習(xí)算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(13): 158-164, 238.
[9]CHEN Xiaohong, YIN Hujun, JIANG Fan, et al. Multi-view dimensionality reduction based on Universum learning[J]. Neurocomputing, 2018, 275: 2279-2286. DOI: 10.1016/j.neucom.2017.11.006.
[10]TENCER L, REZNAKOVA M, CHERIET M. UFuzzy: fuzzy models with Universum[J]. Applied Soft Computing, 2016, 59: 1-18. DOI: 10.1016/j.asoc.2016.05.041.
[11]CHEN Songcan, WANG Zhe, TIAN Yongjun. Matrix-pattern-oriented Ho-Kashyap classifier with regularization learning[J]. Pattern Recognition, 2016, 40(5): 1533-1543. DOI: 10.1016/j.patcog.2006.09.001.
[12]BERGER A, GUDA S. Threshold optimization for F measure of macro-averaged precision and recall[J]. Pattern Recognition, 2020, 102: 107250. DOI: 10.1016/j.patcog.2020.107250.
[13]TANG Shijie, TSUI KW. Distributional properties for the generalized p-value for the Behrens-Fisher problem[J]. Statistics & Probability Letters, 2007, 77(11): 1-8. DOI: 10.1016/j.spl.2006.05.005.
(編輯 賈裙平)