王凱明 李榮鵬 肖玉柱 宋學(xué)力
(長(zhǎng)安大學(xué)理學(xué)院 陜西 西安 710064)
在大數(shù)據(jù)時(shí)代,伴隨著信息技術(shù)的快速發(fā)展和數(shù)據(jù)獲取手段的多樣化,產(chǎn)生了大量的多模態(tài)高維數(shù)據(jù)。多模態(tài)高維數(shù)據(jù)的關(guān)聯(lián)分析實(shí)現(xiàn)模態(tài)間信息的互補(bǔ),可提高數(shù)據(jù)的使用價(jià)值。然而在進(jìn)行多模態(tài)高維數(shù)據(jù)關(guān)聯(lián)分析時(shí),對(duì)不同模態(tài)數(shù)據(jù)進(jìn)行簡(jiǎn)單的整合并不能保證挖掘任務(wù)的有效性,且經(jīng)常出現(xiàn)過(guò)擬合現(xiàn)象。因此,研究有效的模型在防止過(guò)擬合的同時(shí)實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的關(guān)聯(lián)分析,然后得到多模態(tài)高維數(shù)據(jù)中的重要信息,支撐后續(xù)的決策、預(yù)測(cè),具有重要的現(xiàn)實(shí)意義,也是現(xiàn)階段大數(shù)據(jù)研究關(guān)注的重要課題之一[1-2]。
在統(tǒng)計(jì)學(xué)習(xí)中,線(xiàn)性回歸(Linear Regression,LR)和典型相關(guān)分析(Canonical Correlation Analysis,CCA)是研究變量間關(guān)系的兩個(gè)常用統(tǒng)計(jì)模型。其中,線(xiàn)性回歸主要針對(duì)單模態(tài)數(shù)據(jù),研究變量組與響應(yīng)變量之間的線(xiàn)性依賴(lài)關(guān)系;而典型相關(guān)分析主要針對(duì)兩模態(tài)數(shù)據(jù),通過(guò)典型變量的相關(guān)性來(lái)刻畫(huà)變量之間相關(guān)性[3]。然而,現(xiàn)實(shí)任務(wù)中的單模態(tài)或者多模態(tài)數(shù)據(jù),經(jīng)常會(huì)存在樣本特征維度(或?qū)傩跃S度)遠(yuǎn)大于樣本數(shù)的現(xiàn)象,這會(huì)導(dǎo)致統(tǒng)計(jì)學(xué)習(xí)的嚴(yán)重過(guò)擬合或者維數(shù)災(zāi)難問(wèn)題,所以需要從樣本的高維特征空間里提取或者選擇較少的“重要”的特征來(lái)解決或者緩解過(guò)擬合問(wèn)題以及維數(shù)災(zāi)難問(wèn)題。利用某些向量范數(shù)(如l1范數(shù))的稀疏性能,通過(guò)對(duì)目標(biāo)進(jìn)行正則懲罰來(lái)實(shí)現(xiàn)特征選擇,是近年來(lái)研究者們常用的方法[4-5]。稀疏線(xiàn)性回歸(Sparse Linear Regression,SLR)[4]和稀疏典型相關(guān)分析(Sparse Canonical Correlation Analysis,SCCA)[5]就是基于這個(gè)思想發(fā)展的具有特征提取功能和統(tǒng)計(jì)分析功能的新模型。針對(duì)已知響應(yīng)變量數(shù)據(jù)的多模態(tài)數(shù)據(jù),兼顧響應(yīng)變量的監(jiān)督作用和兩模態(tài)數(shù)據(jù)的關(guān)聯(lián)性背景,結(jié)合SLR與SCCA進(jìn)行多模態(tài)數(shù)據(jù)的特征選擇[6-7]可以實(shí)現(xiàn)有監(jiān)督的多模態(tài)數(shù)據(jù)特征提取以及相關(guān)關(guān)系研究。文獻(xiàn)[6]組合了SLR與SCCA模型得到協(xié)同回歸模型(Collaborative Regression,CoReg),并用于乳腺癌多模態(tài)數(shù)據(jù)的特征選擇,得到與乳腺癌多模態(tài)數(shù)據(jù)及其響應(yīng)變量保持一致的重要特征。文獻(xiàn)[7]組合上述兩個(gè)模型得到多任務(wù)協(xié)同回歸模型(Multi-Task Collaborative Regression,MT-CoReg),并應(yīng)用于精神分裂癥多模態(tài)數(shù)據(jù)的特征選擇,該模型對(duì)變量進(jìn)行分組,在多模態(tài)數(shù)據(jù)之間,以及多模態(tài)數(shù)據(jù)與響應(yīng)變量之間進(jìn)行“強(qiáng)迫”回歸,提高了特征選擇的準(zhǔn)確度。值得注意的是,在CoReg模型和MT-CoReg模型中均假設(shè)所有樣本數(shù)據(jù)分布規(guī)律相同,然而實(shí)際問(wèn)題中,數(shù)據(jù)往往來(lái)自不同狀態(tài)的樣本,并且不同狀態(tài)的樣本數(shù)據(jù)之間存在顯著的差異[8](例如:來(lái)自不同疾病狀態(tài)病人的數(shù)據(jù)分布不同;來(lái)自不同年齡段個(gè)體的數(shù)據(jù)分布亦可能存在顯著差異)。因此,在模型中考慮不同類(lèi)樣本數(shù)據(jù)的分布差異性更適合實(shí)際數(shù)據(jù)的分布規(guī)律,也有利于類(lèi)相關(guān)特征選擇。一種簡(jiǎn)單的想法就是對(duì)樣本分類(lèi),對(duì)每一類(lèi)樣本單獨(dú)處理。這樣可進(jìn)行類(lèi)相關(guān)信息的選擇,但是導(dǎo)致可用的樣本數(shù)量較少,增加了學(xué)習(xí)難度并且容易忽略不同類(lèi)樣本數(shù)據(jù)之間的共同信息的選擇,使得其實(shí)際應(yīng)用受到限制。因此,本文考慮對(duì)不同種類(lèi)樣本進(jìn)行聯(lián)合分析,通過(guò)多類(lèi)多模態(tài)數(shù)據(jù)信息的互補(bǔ)實(shí)現(xiàn)類(lèi)相關(guān)特征選擇。
針對(duì)上述問(wèn)題,本文考慮Fused lasso[9]的融合作用,在文獻(xiàn)[6]中模型的基礎(chǔ)上加入Fused lasso懲罰構(gòu)建本文的模型。文獻(xiàn)[9]中Fused lasso懲罰通過(guò)對(duì)回歸系數(shù)中相鄰元素之差進(jìn)行l(wèi)1懲罰達(dá)到回歸系數(shù)融合的目的,可保證回歸系數(shù)具有光滑性。本文考慮對(duì)不同類(lèi)樣本的典型向量進(jìn)行Fused lasso懲罰,使得不同的典型向量之差具有稀疏性,不同典型向量中相同坐標(biāo)分量之間具有光滑性。就是通過(guò)Fused lasso懲罰實(shí)現(xiàn)了K類(lèi)樣本的聯(lián)合。
本文首先構(gòu)建聯(lián)合協(xié)同回歸模型(Joint Collaborative Regression,Joint-CoReg),其主要思想為:根據(jù)先驗(yàn)信息(如年齡、疾病狀態(tài)等)將樣本分為K類(lèi),通過(guò)協(xié)同回歸模型進(jìn)行變量之間以及變量與標(biāo)簽之間的相關(guān)性分析,然后使用Fused lasso實(shí)現(xiàn)K類(lèi)樣本之間的聯(lián)合作用,最后使用l1范數(shù)得到類(lèi)相關(guān)的稀疏典型向量。求解其中一模態(tài)數(shù)據(jù)的一個(gè)典型向量,另一模態(tài)數(shù)據(jù)的K個(gè)不同典型向量有兩方面的原因。一方面,考慮模型在實(shí)際問(wèn)題中的應(yīng)用。例如影像遺傳學(xué)研究中,通常采集腦圖像數(shù)據(jù)和基因數(shù)據(jù)來(lái)研究某些疾病(如精神分裂癥、阿爾茨海默病等),研究人員希望找到與疾病相關(guān)的共同病變腦區(qū)和導(dǎo)致不同疾病狀態(tài)的不同致病基因[10],此時(shí)共同病變腦區(qū)和不同致病基因正好分別對(duì)應(yīng)我們模型中的一模態(tài)數(shù)據(jù)的一個(gè)典型向量和另一模態(tài)數(shù)據(jù)的K個(gè)不同典型向量。另一方面,限制其中一模態(tài)數(shù)據(jù)屬于共同類(lèi)克服了多類(lèi)樣本直接組合的數(shù)據(jù)不匹配問(wèn)題,提高了模型求解的穩(wěn)定性。
設(shè)X=[X1;X2;…;Xn]與Z=[Z1;Z2;…;Zn]為已標(biāo)準(zhǔn)化的兩模態(tài)樣本數(shù)據(jù),其中Xi∈R1×p,Zi∈R1×q表示樣本的第i個(gè)分量數(shù)據(jù),i=1,2,…,n;Y∈Rn為樣本的響應(yīng)變量數(shù)據(jù)。
數(shù)據(jù)X與其響應(yīng)變量數(shù)據(jù)Y之間的回歸模型可以表示為:
在Xω和Zν方差確定的條件下,兩模態(tài)數(shù)據(jù)X和Z的典型相關(guān)分析模型可以表示為:
然而,對(duì)于常見(jiàn)的高維度、小樣本的問(wèn)題,以上模型通常會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,導(dǎo)致模型無(wú)法求解。文獻(xiàn)[5,8]考慮l1范數(shù)的稀疏作用,在上述模型中加入l1范數(shù)稀疏懲罰,構(gòu)造基于稀疏懲罰的回歸模型和典型相關(guān)分析模型。
數(shù)據(jù)X與其響應(yīng)變量數(shù)據(jù)Y之間的稀疏回歸模型可以表示為:
式中:λ為待定參數(shù)。通過(guò)求解稀疏回歸系數(shù)ω挖掘數(shù)據(jù)X和Y之間的稀疏線(xiàn)性關(guān)系。
在Xω和Zν方差確定的條件下,兩模態(tài)數(shù)據(jù)X和Z的稀疏典型相關(guān)分析模型可以表示為:
文獻(xiàn)[6]結(jié)合稀疏回歸模型和稀疏典型相關(guān)分析模型提出協(xié)同回歸模型,其目標(biāo)函數(shù)如下:
該模型在響應(yīng)變量數(shù)據(jù)Y的監(jiān)督下得到兩模態(tài)數(shù)據(jù)X和Z之間具有最大相關(guān)性的稀疏典型向量,但是忽略了不同類(lèi)樣本數(shù)據(jù)的分布信息性,增加了類(lèi)相關(guān)特征選擇的難度。
考慮包含多類(lèi)樣本的兩模態(tài)數(shù)據(jù)X∈Rn×p,Z∈Rn×q。按樣本種類(lèi)將數(shù)據(jù)分為X=[X1;X2;…;XK],Z=[Z1;Z2;…;ZK],Xk∈Rnk×p,Zk∈Rnk×q表示第k類(lèi)樣本,k=1,2,…,K。對(duì)X、Z、Y進(jìn)行聯(lián)合協(xié)同回歸,建立目標(biāo)函數(shù):
(1)
式中:ω∈Rp×1,υk∈Rq×1,k=1,2,…,K,分別是X和Zk對(duì)應(yīng)的典型向量,a、λ1、λ2為可調(diào)參數(shù),λ1、λ2用于調(diào)節(jié)ω、υk的稀疏程度。通過(guò)求解目標(biāo)函數(shù)分別得到關(guān)于X和Zk(k=1,2,…,K)的典型相關(guān)變量。
不同類(lèi)樣本之間的聯(lián)合,使用以下Fused lasso懲罰項(xiàng)實(shí)現(xiàn):
Fused lasso懲罰項(xiàng)對(duì)不同類(lèi)的典型向量之差進(jìn)行稀疏懲罰,保證不同典型向量的相同分量之間具有光滑性。通過(guò)Fused lasso懲罰和l1范數(shù)懲罰得到類(lèi)相關(guān)稀疏典型向量。參數(shù)a控制υk(k=1,2,…,K)之間的融合程度。特別地,當(dāng)a=0時(shí),各類(lèi)樣本之間無(wú)融合作用,此時(shí)模型等價(jià)于對(duì)K類(lèi)樣本分別協(xié)同回歸;當(dāng)a=∞時(shí),所有類(lèi)別的樣本被視為一類(lèi),其對(duì)應(yīng)的典型向量υk完全相同,此時(shí)模型等價(jià)于將K類(lèi)樣本作為整體協(xié)同回歸。
為了保證聯(lián)合協(xié)同回歸模型(1)解的唯一性,我們對(duì)典型向量ω、νk的范數(shù)(或長(zhǎng)度)加以約束,將優(yōu)化問(wèn)題(1)轉(zhuǎn)化為以下約束優(yōu)化問(wèn)題:
(2)
將式(2)中的l2范數(shù)按照向量?jī)?nèi)積展開(kāi),去掉展開(kāi)式中常數(shù)項(xiàng)(常數(shù)項(xiàng)不含決策變量,不影響優(yōu)化問(wèn)題求解最小值),優(yōu)化問(wèn)題轉(zhuǎn)化為如下形式:
(3)
(4)
(5)
(6)
(7)
式中:c為非負(fù)參數(shù),當(dāng)c=0時(shí)標(biāo)簽數(shù)據(jù)變?yōu)?,此時(shí)模型只進(jìn)行協(xié)變量(多模態(tài)數(shù)據(jù))之間的相關(guān)性分析,模型相當(dāng)于聯(lián)合典型相關(guān)分析模型[8]。隨著c的增大,T中絕對(duì)值較大的元素變化幅度較大。因此在參數(shù)選擇中選擇合適的c有利于樣本中較重要特征的選擇[14]。
由以上推導(dǎo),式(2)的求解可以轉(zhuǎn)化為式(5)求解(當(dāng)K=2時(shí),使用式(7)代替式(5))。式(5)(或式(7))中ω、vk為決策變量,固定ω,式(5)(或式(7))為另一決策變量vk的凸函數(shù),反之亦然??梢允褂脡K坐標(biāo)下降法對(duì)式(5)(或式(7))分式(8)-式(9)兩步進(jìn)行迭代求解:
(8)
(9)
為求解式(8)和式(9),引入如下引理。
(10)
(11)
式(10)為Fused lasso信號(hào)逼近的一種特殊情況。通過(guò)融合、稀疏和正則化三步對(duì)其進(jìn)行求解,由文獻(xiàn)[15]得到式(10)求解算法。優(yōu)化問(wèn)題(8)和問(wèn)題(9)可分別應(yīng)用引理1和引理2得以求解。下面給出聯(lián)合協(xié)同回歸模型詳細(xì)求解算法[6,13],如算法1所示。
算法1Joint-CoReg算法
輸入:標(biāo)準(zhǔn)化數(shù)據(jù):X∈Rn×p,Xk∈Rnk×p,Zk∈Rnk×q,Y∈Rn×1,可調(diào)參數(shù)a,λ1,λ2
輸出:ω和υk
(1) 初始化ω∈Rp×1,υk∈Rq×1,k=1,2,…,K
(9) 重復(fù)步驟(2)-步驟(8),直到算法收斂
多模態(tài)高維數(shù)據(jù)關(guān)聯(lián)分析模型,在防止高維數(shù)據(jù)過(guò)擬合的同時(shí),通過(guò)模態(tài)間信息的互補(bǔ)挖掘數(shù)據(jù)中隱藏的價(jià)值,具有重要的現(xiàn)實(shí)意義。本文建立聯(lián)合協(xié)同回歸模型,該模型可有效地防止過(guò)擬合,且進(jìn)行多模態(tài)數(shù)據(jù)的關(guān)聯(lián)分析,最終得到數(shù)據(jù)的重要信息。數(shù)據(jù)的重要信息在模型中則表現(xiàn)為稀疏典型變量中非零元素。通過(guò)數(shù)據(jù)的重要信息可以進(jìn)一步進(jìn)行分類(lèi)、預(yù)測(cè)等諸多任務(wù),其應(yīng)用范圍非常廣泛。
為了驗(yàn)證本文模型得到的重要信息有效性,將模型用于特征選擇,直接對(duì)比本文模型求得的實(shí)驗(yàn)結(jié)果和真值,二者越接近說(shuō)明模型越有效。
式中:I為示性函數(shù);m1為給定閾值;Sωi為選擇特征的集合。對(duì)于Zk的典型向量,給定閾值m2,利用同樣的方法進(jìn)行特征選擇。
考慮包含兩類(lèi)樣本的兩模態(tài)數(shù)據(jù),每一類(lèi)樣本包含n個(gè)樣例。數(shù)據(jù)構(gòu)造方法與文獻(xiàn)[5,8]中數(shù)據(jù)構(gòu)造方法相類(lèi)似。首先構(gòu)造潛變量hk={hki|i=1,2,…,n},hk∈Rn×1,hki~N(μk,δ)(k=1,2,…,K),不同的μk來(lái)構(gòu)造不同類(lèi)別的樣本;其次產(chǎn)生X和Yk的典型向量α和βk,α∈R1×p,βk∈R1×q,α和βk中分別包含m和r個(gè)非零的元素,其中非零元素為需要選擇的特征;最后得到Xk和Zk:Xk=hkα,Zk=hkβk。不失一般性,此處給定兩類(lèi)樣本,且μ1=-1,μ2=1,n=100,特征數(shù)p=q=500,典型向量的稀疏度m=r=150。
該模型有四個(gè)可調(diào)參數(shù)λ1、λ2、a、c(兩類(lèi)樣本的情況考慮參數(shù)c),其中λ1,λ2控制典型向量的稀疏程度,a控制各Zk的典型向量的相似程度,c的大小反映響應(yīng)變量數(shù)據(jù)的重要程度。為了保證模型的穩(wěn)定性,本文分兩步進(jìn)行參數(shù)選擇:第一步,根據(jù)文獻(xiàn)[16]指出的參考解的稀疏程度進(jìn)行參數(shù)選取。本文根據(jù)需要保留的特征數(shù)量指導(dǎo)λ1、λ2的選取。第二步:在參數(shù)λ1、λ2確定的情況下,給定a和c的備選區(qū)間[10-2,10-1,100,101,102],使用自助法(bootstrapping)從已有的樣本中產(chǎn)生M組不同的訓(xùn)練樣本和測(cè)試樣本,用網(wǎng)格搜索的方法,選擇使得測(cè)試集和訓(xùn)練集相關(guān)系數(shù)平均絕對(duì)誤差取得最小值的一組參數(shù)a和c,作為參數(shù)a和c的最優(yōu)值,模型使用的參數(shù)值在實(shí)驗(yàn)部分均給出。測(cè)試集和訓(xùn)練集相關(guān)系數(shù)平均絕對(duì)誤差計(jì)算公式如下:
式中:corrtrain為訓(xùn)練集上的Pearson相關(guān)系數(shù),corrtest為測(cè)試集上的Pearson相關(guān)系數(shù)。
聯(lián)合協(xié)同回歸模型在保證典型變量之間有較高相關(guān)性的前提下通過(guò)典型向量選擇重要特征,本文在實(shí)驗(yàn)部分從典型變量的相關(guān)性和特征選擇準(zhǔn)確率兩方面驗(yàn)證模型的有效性。其中典型變量之間的相關(guān)性使用Pearson相關(guān)系數(shù)描述,特征選擇準(zhǔn)確性使用ROC曲線(xiàn)來(lái)描述。給定特征向量的稀疏度(λ1、λ2給定),研究參數(shù)a和c對(duì)典型變量的相關(guān)性和特征選擇準(zhǔn)確率的影響(不同參數(shù)a和c將模型轉(zhuǎn)化為其他模型,相當(dāng)于對(duì)比實(shí)驗(yàn))。
表2給定最優(yōu)參數(shù)λ1、λ2、a,研究參數(shù)c的變化對(duì)典型變量相關(guān)性的影響,c分別取值0、50、100、150。實(shí)驗(yàn)結(jié)果表明,c取值為50和100時(shí)相關(guān)性略高于c取值為0和150時(shí)的相關(guān)性,但是在四個(gè)取值下所得相關(guān)性相差不大。表3給定參數(shù)λ1、λ2、c,研究參數(shù)a的變化對(duì)典型變量相關(guān)性的影響。a分別取值0、10、20、1 000,實(shí)驗(yàn)結(jié)果表明a取值為0時(shí)取得最大的相關(guān)性,在a的四個(gè)取值下所得相關(guān)性相差不大。所以,表1和表2表明特征選擇稀疏度給定(λ1、λ2給定)的情況典型變量相關(guān)性對(duì)參數(shù)a、c不敏感,說(shuō)明本文模型可以保證多模態(tài)數(shù)據(jù)之間(協(xié)變量之間)的相關(guān)性。
表1 參數(shù)c對(duì)數(shù)據(jù)相關(guān)性影響對(duì)比
表2 參數(shù)a對(duì)數(shù)據(jù)相關(guān)性影響對(duì)比
ROC曲線(xiàn)反映了在不同參數(shù)下模型選擇特征的準(zhǔn)確度,其中ROC曲線(xiàn)越靠近(0,1)點(diǎn),說(shuō)明特征選擇準(zhǔn)確率越高。圖1給定最優(yōu)參數(shù)λ1、λ2、a,研究參數(shù)c的變化對(duì)樣本數(shù)據(jù)X的特征選擇準(zhǔn)確性的影響,ROC圖像表明c=50和c=100時(shí)模型選擇特征的準(zhǔn)確度明顯高于c=50和c=150時(shí)特征選擇的準(zhǔn)確性。c=0時(shí)響應(yīng)變量的取值為零,此時(shí)去掉了表型變量數(shù)據(jù)對(duì)特征選擇影響,特征選擇準(zhǔn)確率降低,由此說(shuō)明在表型變量數(shù)據(jù)的監(jiān)督下可提高模型特征選擇的準(zhǔn)確性;c=100時(shí)加大了響應(yīng)變量數(shù)據(jù)的作用,減小了協(xié)變量的影響,降低了Joint-CoReg模型特征選擇的準(zhǔn)確率。圖1說(shuō)明響應(yīng)變量數(shù)據(jù)在一定程度上影響特征選擇的準(zhǔn)確率,對(duì)響應(yīng)變量數(shù)據(jù)給定合適的權(quán)重可以提高模型特征選擇的準(zhǔn)確率。
圖1 不同參數(shù)c對(duì)應(yīng)數(shù)據(jù)X中特征選擇的ROC曲線(xiàn)
圖2和圖3反映了在最優(yōu)參數(shù)λ1、λ2、c下,不同的參數(shù)a對(duì)樣本數(shù)據(jù)Z的特征選擇的準(zhǔn)確性的影響??梢钥闯鯽=10和a=20時(shí)特征選擇的準(zhǔn)確度相差不大,a=0和a=1 000時(shí)模型的特征選擇準(zhǔn)確性明顯低于a=10和a=20的準(zhǔn)確度。a=0時(shí)Joint-CoReg模型對(duì)各類(lèi)樣本的典型向量無(wú)融合作用,此時(shí)模型相當(dāng)于對(duì)各類(lèi)樣本分別協(xié)同回歸,a=1 000時(shí)Joint-CoReg模型使得各樣本的典型向量完全融合為一類(lèi),此時(shí)相當(dāng)于將所有樣本數(shù)據(jù)視為同類(lèi),圖2和圖3說(shuō)明Joint-CoReg模型特征選擇準(zhǔn)確率高于CoReg模型特征選擇準(zhǔn)確率,Joint-CoReg模型具有選擇類(lèi)特征信息的能力。
圖2 不同參數(shù)a對(duì)應(yīng)變量Z1特征選擇的ROC曲線(xiàn)
圖3 不同參數(shù)a對(duì)應(yīng)變量Z2特征選擇的ROC曲線(xiàn)
本文建立了聯(lián)合協(xié)同回歸模型用于多模態(tài)高維數(shù)據(jù)的關(guān)聯(lián)分析。 該模型在協(xié)同回歸模型中加入Fused lasso懲罰來(lái)實(shí)現(xiàn)多類(lèi)樣本之間的聯(lián)合作用, 實(shí)驗(yàn)結(jié)果中類(lèi)相關(guān)特征的選擇表明Fused lasso可以有效地實(shí)現(xiàn)多類(lèi)樣本的聯(lián)合作用。模型求解部分對(duì)模型進(jìn)行必要的簡(jiǎn)化,得到高效的迭代求解算法,該簡(jiǎn)化過(guò)程可保證模型的有效性,對(duì)于高維數(shù)據(jù)的模型求解具有重要參考意義。實(shí)驗(yàn)構(gòu)造模擬數(shù)據(jù),通過(guò)特征選擇的準(zhǔn)確率驗(yàn)證模型有效性,使用ROC曲線(xiàn)對(duì)比不同模型特征選擇的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,Joint-CoReg模型在保證變量相關(guān)性的同時(shí)實(shí)現(xiàn)了類(lèi)相關(guān)特征選擇,較CoReg模型有更高的特征選擇準(zhǔn)確率。模型建立過(guò)程中,在標(biāo)簽變量數(shù)據(jù)引入?yún)?shù),并在實(shí)驗(yàn)部分討論該參數(shù)變化對(duì)模型的影響,通過(guò)對(duì)比實(shí)驗(yàn)得出結(jié)論:對(duì)標(biāo)簽變量數(shù)據(jù)給定合適權(quán)重可提高模型性能。