基于LPP-RF的基因表達數(shù)據(jù)分類

2018-03-16 06:35:26楊浩宇南曉斐柴玉梅

計算機工程與設計 2018年2期

楊浩宇，南曉斐，柴玉梅

(鄭州大學信息工程學院，河南鄭州 450001)

0 引言

基因表達數(shù)據(jù)分類問題[1]的研究目前已取得一些成果。Das等[2]使用支持向量機(support vector machine，SVM)對基因表達數(shù)據(jù)進行分類，通過實驗對比了不同核函數(shù)下的分類準確率并取得了良好的分類效果。然而，當樣本類別很大時，SVM計算復雜度高，且其核函數(shù)與參數(shù)設置缺乏理論指導[3]；文獻[4]提出了極限學習機的相異性集成算法，在基因表達數(shù)據(jù)分類上表現(xiàn)良好，但極限學習機的隱層節(jié)點個數(shù)需要先驗知識并手工設置這些參數(shù)，節(jié)點個數(shù)不同對分類精度也會產(chǎn)生影響；文獻[5]采用7個基因表達數(shù)據(jù)集將隨機森林算法(random forests，RF)與很多傳統(tǒng)的機器學習分類算法(如k近鄰分類器、SVM以及線性判別分析等)進行比較，得出RF算法分類性能優(yōu)于其它分類算法的結論。

RF算法在基因表達數(shù)據(jù)分類方面已經(jīng)有了不錯的性能，但是RF算法中的決策樹只能產(chǎn)生平行于坐標軸的超巨形決策面[6]。在基因表達數(shù)據(jù)中構建決策樹，通常會使得決策樹龐大，對數(shù)據(jù)敏感，且分類效果也不好，因此RF算法在基因表達數(shù)據(jù)分類方面還有性能提升空間。本文受Zhang等[7]提出的集成特征空間的隨機森林算法啟發(fā)，將局部保持映射(locality preserving projections，LPP)與RF算法中決策樹每個節(jié)點的屬性空間相結合，提出基于LPP的RF算法。該算法通過LPP將決策樹節(jié)點數(shù)據(jù)映射到新的屬性空間中，在該屬性空間中選擇第一個屬性就可使數(shù)據(jù)得到較好的劃分結果。在9個基因表達數(shù)據(jù)集上的實驗對比結果表明，本文提出的算法在分類準確率上比傳統(tǒng)RF算法高出17%，運行時間比傳統(tǒng)RF算法縮短了7倍，其它性能指標如Recall、Precision、G-mean等指標均有提高。

1 相關知識

1.1 隨機森林算法

Bremain結合Bagging方法[8]和隨機子空間劃分[9]的策略，提出了RF算法。該算法是由多棵決策樹組成的集成算法。在構造每棵決策樹的過程中，先對樣本集采用Bootstrap抽樣方法，從樣本總量為N的數(shù)據(jù)集中抽取N個樣本，每次抽樣均采取有放回的隨機抽樣方法，并將這N個樣本作為該決策樹訓練時的樣本集。在決策樹的每個節(jié)點分裂過程中，RF算法隨機選取mtry個屬性(0

通過隨機重采樣和隨機屬性選取，使得RF算法具有以下幾個特點[5,10-12]：①不易出現(xiàn)過擬合問題；②并行化程度高；③對噪聲和異常點容忍度高；④適用于高維小樣本數(shù)據(jù)；⑤適用于二分類和多分類任務?；虮磉_數(shù)據(jù)具有樣本小、維數(shù)高、噪聲多等特點。這些優(yōu)點使得RF算法在基因表達數(shù)據(jù)分類上表現(xiàn)突出。

1.2 LPP算法

對于基因表達數(shù)據(jù)這樣的高維非線性數(shù)據(jù)，通常要先采取非線性降維方法對數(shù)據(jù)進行預處理。常用的非線性降維方法是基于核的方法[13]和非線性流形學習的方法[14]。但前者需要人們憑經(jīng)驗選取核函數(shù)，找到合適參數(shù)需要花費較高的人工成本，且對測試樣本沒有清晰的映射函數(shù)。后者雖能夠保持原始數(shù)據(jù)的結構特征，但與基于核的方法一樣沒有提供對測試樣本的清晰映射函數(shù)。He等提出了LPP算法[15]，該算法近似于非線性拉普拉斯特征映射。作為線性算法，相比核的方法和非線性流形學習的方法，該算法善于發(fā)現(xiàn)高維非線性數(shù)據(jù)中已有的低維流形結構，找到映射關系并提供清晰的映射函數(shù)。因此，LPP算法可以很好的應用于非線性數(shù)據(jù)降維問題中。

LPP原理是通過一定的性能目標去尋找變換矩陣A，以實現(xiàn)對高維數(shù)據(jù)的降維。變換矩陣A可以通過最小化以下目標函數(shù)得到[15]

(1)

其中，xi和xj是樣本集中的單個樣本，W可通過如下式子進行定義

(2)

式中：t是一個控制相似性度量范圍的常量，超出該范圍的數(shù)據(jù)點之間的相似性逐級遞減。對式(1)進行簡單的代數(shù)變換，目標函數(shù)可以轉化為

(3)

D為對角矩陣，Dii=∑jWij,L=D-W是一個拉普拉斯矩陣。因此求解式(1)的最小化目標函數(shù)問題可以通過求解下式的廣義特征向量得到

XLXTA=λXDXTA

(4)

變換矩陣A由式(4)的l個最小非0特征值所對應的特征向量構成。

本文提出基于LPP的RF算法(random forest based on LPP，LPP-RF)，將LPP算法應用在決策樹的每個節(jié)點中，可以解決RF算法中決策樹對于基因表達數(shù)據(jù)不能產(chǎn)生良好決策面的問題。

2 LPP-RF算法

2.1 決策樹最佳分裂屬性選取

在決策樹中每一次節(jié)點進行分裂之前，先通過變換矩陣A將該節(jié)點數(shù)據(jù)映射到新的屬性空間中，實現(xiàn)對高維數(shù)據(jù)的降維。變換矩陣A也可以通過求解式(5)的廣義特征向量得到[16]

XWXTA=λXDXTA

(5)

式(5)的l個最大非0特征值所對應的特征向量構成變換矩陣A=[a1,a2,…,al]。式(5)與式(4)不同的是將求解最小特征值問題轉化為求解最大特征值問題，這樣便于在新的映射空間中進行基尼指數(shù)計算。

由于在基因表達數(shù)據(jù)中，屬性數(shù)量遠大于樣本數(shù)量，導致XDXT為奇異矩陣，此時無法對式(5)進行廣義特征向量求解。經(jīng)研究發(fā)現(xiàn)，將X進行奇異值分解[17]，可以避免XDXT為奇異矩陣。X通過奇異值分解為

X=UEVT

(6)

其中，將X的奇異值根據(jù)大小降序排列，構成對角矩陣E中對角線上的元素，U和V都是正交矩陣。

由于基因表達數(shù)據(jù)具有高維和噪聲多雙重特性，在進行奇異值分解以后將數(shù)據(jù)進行降維，設置閾值為β，刪除E中與最大值比值小于β的奇異值和對應的奇異向量。

然后令B=EUTA，將式(6)帶入式(5)得

XWXTA=λXDXTA?UEVTWVEUTA=
λUEVTDVEUTA?UEVTWVB=
λUEVTDVB?VTWVB=λVTDVB

(7)

其中，VTDV為非奇異矩陣，假設B為該式求得的特征向量矩陣，則

A=UE-1B

(8)

求得變換矩陣A以后，對X進行映射構成新的數(shù)據(jù)集H

H=ATX

(9)

對式(8)進行求解以后，變換矩陣A中的特征向量是根據(jù)特征值大小降序排列，特征值可以表明該屬性的重要性，在決策樹算法中，節(jié)點的分裂是根據(jù)屬性的重要性由大到小依次進行分裂的，因此在數(shù)據(jù)集H中只計算第一個屬性的基尼指數(shù)，求出該屬性的最佳分裂屬性值并劃分數(shù)據(jù)集H。然后根據(jù)數(shù)據(jù)集H的劃分情況將數(shù)據(jù)集X進行同等劃分，本次節(jié)點分裂完成。

算法1描述了LPP-RF算法中決策樹的生成過程：首先判斷數(shù)據(jù)集S是否為葉節(jié)點，如果是葉節(jié)點，則構建葉節(jié)點并返回類別標簽(步驟(1))；如果不是葉節(jié)點，則從數(shù)據(jù)集S中隨機選擇mtry個樣本屬性構成數(shù)據(jù)集Z(步驟(2))；并將類別標簽加入Z中以方便計算W的值(步驟(3))；對于Z中相同類別標簽的樣本zm和zn，求出zm與zn之間的歐式距離(步驟(6))和wmn(步驟(7))，對于Z中不同類別標簽的樣本zm和zn，wmn等于0(步驟(9))；得到權值矩陣W以后求出對角矩陣D(步驟(12))；此時判斷Z中屬性個數(shù)和樣本個數(shù)之間的大小，如果屬性個數(shù)大于樣本個數(shù)，需將Z進行奇異值分解(步驟(14))，在奇異值分解的過程中對Z進行降維(步驟(15)-(17))；然后計算特征值與特征向量(步驟(18))及求出變換矩陣A(步驟(19))；如果Z中的屬性個數(shù)小于樣本個數(shù)，可以直接計算求出A(步驟(23))；構建屬性空間Z1并計算最佳分裂屬性值CFA(步驟(25)-(26))；將計算得到的結果保存在當前節(jié)點中便于節(jié)點分裂及測試數(shù)據(jù)使用(步驟(27))；根據(jù)最佳分裂屬性值CFA對Z1進行分裂形成左右兩個子節(jié)點，根據(jù)Z1的分裂結果將S進行同等劃分(步驟(29))；對S劃分完的兩個子節(jié)點進行遞歸構建，最后返回整棵決策樹(步驟(30)-(32))。

算法1： Lpp_Rftree(S,mtry)

輸入：訓練數(shù)據(jù)集S，節(jié)點抽取屬性個數(shù)mtry

輸出：單棵決策樹tree

(1) if is Node(S) return Tag(S)

(2)Z= Choice (S(:,1:end-1))

(3)Z=[Z,S(end)]

(4) for eachzm,zn∈ rowZ

(5) if Tag(zm)==Tag(zn)

(6)oc=sqrt(zn.*zn+zn.*zm-2*zm*zn)

(7)Wmn=exp(-oc/(2*t^2))

(8) else

(9)Wmn=0

(10) end if

(11)end for

(12)D=full(Culation_sum(W, 2))

(13) if lenght(Z,2)>lenght(Z,1)

(14) [B,I,P]=Culation_SVD(Z(:,1:end-1))

(15)LI=find_max(I)

(16)In=search(I/LI<1e-12)

(17) Delete(B(In)),Delete(I(:,In)),Delete(P(In))

(18) [C,～]=Culation_eig(P′*W*V,P′*D*P);

(19)A=BI-1C

(20) else

(21) [A,ag]=Culation_eig(S′*W*Z,Z*D*Z′);

(22) [～,cl]=reorder(ag)

(23)A=A(:,cl(1:l))

(24) end if

(25)Z1=ATZ(:,1:end-1)

(26) CFA=ChoiceBestAttribute(Z1(:,1))

(27) H=saveMessage(S,A,CFA)

(28) for eachi∈branchCount(CFA)

(29)Si=split(s,Z1,CFA,i)

(30)tree.childi=Lpp_Rftree(Si,mtry)

(31) end for

(32) returntree

由于基因表達數(shù)據(jù)具有高維非線性特征，直接在原始屬性空間中尋找節(jié)點最優(yōu)分裂標準，需要對基因表達數(shù)據(jù)中每個屬性中全部可能的最佳分裂屬性值進行測試，然而基因表達數(shù)據(jù)具有上千維的屬性，依次計算會產(chǎn)生較大的時間開銷。在算法1中只需要測試第一個屬性中可能的最佳分裂屬性值，很大程度上縮短了構建決策樹的時間。同時LPP算法使映射后的數(shù)據(jù)不僅保持了原有數(shù)據(jù)結構，而且還使得同類之間數(shù)據(jù)更緊湊，不同類之間數(shù)據(jù)更分散，使得決策樹在分裂時能夠產(chǎn)生良好的決策面，提高決策樹的性能。

2.2 LPP-RF算法描述

在LPP-RF算法中每一次的Bootstrap抽樣之后，約有36%的樣本數(shù)據(jù)不在抽樣之后的樣本集中，這些數(shù)據(jù)被稱為袋外數(shù)據(jù)[18]。袋外數(shù)據(jù)可以用來估計LPP-RF算法的泛化誤差，也可以用來測試單棵決策樹的分類準確率。在本文中，采用后者，通過袋外數(shù)據(jù)測試單棵決策樹的分類準確率，將分類準確率作為該決策樹加權投票時的權值。使得在LPP-RF分類器預測時，對決策樹性能差的分類結果賦予較低的權重，性能好的分類結果賦予較高的權重，以此來增加LPP-RF算法的分類準確率。同時也彌補了每次構建決策樹之后有部分數(shù)據(jù)未被使用的不足。

算法2描述了LPP-RF算法訓練階段的構建過程：首先對訓練樣本集S進行有放回的隨機抽樣得到新數(shù)據(jù)集Si(步驟(2))；將未被抽到的數(shù)據(jù)集作為袋外數(shù)據(jù)Bi(步驟(3))；在Si上執(zhí)行算法1進行決策樹生成(步驟(4))；并利用Bi測試該棵決策樹的分類準確率得到權值vi(步驟(5))；保存決策樹模型以及權值vi(步驟(6));將步驟(2)-(6)重復k次，得到LPP-RF模型LPP_RFModel(步驟(8))。

算法2： lpp_RfTrain(S,k,mtry)

輸入：訓練數(shù)據(jù)集S，決策樹數(shù)量k，節(jié)點抽取屬性個數(shù)mtry

輸出：LLP-RF模型LPP_RFModel

(1) for eachi∈k

(2)Si=Bootstrap(S)

(3)Bi=S-Si

(4)treei=lppRf_treeTrain(Si,mtry)

(5)vi= lppRf_predict(Bi,treei)

(6) LPP_RFMode=saveTree(treei,Yi)

(7) end for

(8) return LPP_RFModel

由于決策樹的每個節(jié)點數(shù)據(jù)在劃分之前，先通過變換矩陣A進行映射，在映射以后的屬性空間中尋找最佳分裂屬性。因此對于測試數(shù)據(jù)，每經(jīng)過決策樹的一個節(jié)點，需要將數(shù)據(jù)按照該節(jié)點分裂時使用的變換矩陣A進行變換。對于最終分類結果采用加權投票法求出，可以表示為

(10)

其中，H(x)為算法對測試數(shù)據(jù)的最終分類結果，vi表示第i棵決策樹的權值，hi(x)表示第i棵決策樹測試數(shù)據(jù)的分類結果，Y為類別標簽，I(·)為示性函數(shù)。

RF算法性能主要取決于單棵決策樹性能和各個決策樹之間的差異性[12]，單棵決策樹性能越好或各個決策樹之間差異性越大，則RF算法的分類準確率就越高。在LPP-RF算法中，決策樹每個節(jié)點都是在不同屬性空間中進行數(shù)據(jù)劃分，提高了決策樹之間的差異性以及單個決策樹的分類準確率，同時也提高了決策樹之間的差異性，最終達到提高原始RF算法分類準確率的效果。

LPP-RF算法在決策樹中每個節(jié)點的分裂都需要計算D、W以及變換矩陣A，一定程度上增加了時間開銷，但在計算最佳分裂屬性值時，只需計算第一個屬性的基尼指數(shù)便可求出，又大幅縮短了時間開銷，最后通過實驗分析得出LPP-RF算法的時間少于原始RF算法。

3 實驗與分析

本節(jié)將通過9個公開的基因表達分類數(shù)據(jù)集來進行實驗驗證LPP-RF算法的性能，這些數(shù)據(jù)集被國內外學者大量引用，具有一定標準性。所選取數(shù)據(jù)集的情況見表1，數(shù)據(jù)來源于文獻[19]，其中含有5個多分類數(shù)據(jù)集和4個二分類數(shù)據(jù)集。

表1 基因表達數(shù)據(jù)集

為了驗證LPP-RF算法分類準確率和運行時間的性能，實驗將LPP-RF算法與RF算法以及Zhang文獻中的PCA-RF[7]算法進行對比分析。實驗采用15倍的10折交叉驗證方法，將10折交叉驗證運行15次，得到150個分類結果，將平均值作為各個算法的最終分類準確率，并計算其方差。實驗硬件為 Intel 2.3 GHz和8.0 GB內存，所有算法用MATLAB實現(xiàn)。由于RF算法的并行化程度高，很容易并行實現(xiàn)，所以在算法中決策樹的生成采用了4個并行池并行生成的策略進行實驗。

在RF算法中，決策樹每個節(jié)點抽取屬性個數(shù)mtry的取值通常為log2p(p為樣本總屬性的個數(shù))[6]。森林規(guī)模即決策樹的數(shù)目分別取k={1,10,50,100,200,500,1000}。表2記錄了9個數(shù)據(jù)集在不同的森林規(guī)模下，LPP-RF算法、PCA-RF算法和RF算法的分類準確率和方差。

圖1和圖2展示了在數(shù)據(jù)集Brain和Nci中分類結果的誤差棒圖，橫坐標為不同決策樹的個數(shù)，縱坐標為分類準確率,每個點上豎形線段的長短為方差。為了能夠更清晰顯示出方差大小，將圖中RF算法折線向左平移了0.1個單位，PCA-RF算法折線向右平移了0.1個單位。

從表2中可以看出，當算法中決策樹的個數(shù)為1時，LPP-RF的分類準確率在絕大多數(shù)數(shù)據(jù)集上都高于另外兩個算法，證明LPP-RF算法提高了單棵決策樹的分類精度。隨著決策樹個數(shù)的增多，這3個算法的分類準確率都有提高，但LPP-RF算法的分類準確率穩(wěn)定高于另外兩個算法。在分類準確率的方差上，隨著森林規(guī)模的增加，LPP-RF的方差在絕大多數(shù)數(shù)據(jù)集上都低于PCA-RF、RF算法，所以，LPP-RF算法具有較好的穩(wěn)定性。從圖1和圖2中可以看出，RF、PCA-RF和LPP-RF算法的準確率隨著森林規(guī)模的增加而增加，并在森林規(guī)模為100時趨于穩(wěn)定。

圖3顯示了當樹的規(guī)模為100時這3種算法所消耗的時間情況。

由圖3可以看出，LPP-RF算法的運行時間遠低于另外

表2 不同森林規(guī)模下10個數(shù)據(jù)集上3個算法分類準確率及方差

圖1 Brain數(shù)據(jù)集分類結果誤差

圖2 Nci數(shù)據(jù)集分類結果誤差

圖3 3種算法在各數(shù)據(jù)集運行時間對比

兩個算法。通過對比可以發(fā)現(xiàn)LPP-RF算法比另外兩個算法最多縮短了7倍的運行時間。

基因表達數(shù)據(jù)往往還有類不平衡的特性，針對類不平衡的數(shù)據(jù)集，往往單靠一個分類準確率不能準確的反映出一個分類器的好壞，例如，在癌癥檢測中，只有少數(shù)人患有癌癥，正確識別出少數(shù)癌癥患者是非常有意義的，傳統(tǒng)分類算法經(jīng)常將稀有類實例被誤分為負類實例[20]，這時候需要將召回率(recall)、真負率(Acc-)、幾何平均數(shù)(G-mean)、精確率(precision)、召回率(recall)和F度量(F-measure)當作性能評價指標。

在分類準確率對比實驗中可以得出當森林規(guī)模為100時，各個算法的性能趨于穩(wěn)定，因此本次實驗中森林規(guī)模為k=100。在實驗中選取了上述數(shù)據(jù)集中類不平衡度最大的兩個數(shù)據(jù)集進行實驗，分別為Colon和Leukemia。Colon數(shù)據(jù)集中一共有62個樣本，其中正類樣本(樣本少的一類)含有22個樣本，占整個數(shù)據(jù)集的35.4%，Leukemia數(shù)據(jù)集一共有38個樣本，其中正類樣本含有11個樣本，占整個數(shù)據(jù)集的28.9%。通過15倍的10折交叉驗證法進行實驗。

表3記錄了RF，PCA-RF，LPP-RF這3個算法在這兩個數(shù)據(jù)集下的Recall、Acc-、Precision、F-measure和G-mean的值。

表3 Colon數(shù)據(jù)集和Leukemia數(shù)據(jù)集性能

由表3可以看出，LPP-RF算法在沒有降低Acc-的情況下提升了基因表達數(shù)據(jù)集中Recall、Precision、F-mea-sure和G-mean的值，這說明了LPP算法對基因表達數(shù)據(jù)中正類樣本準確率低的問題也有一定改善。

為更直觀的對這兩個算法進行比較，圖4和圖5繪制了受試者工作特征曲線(receiver operating characteristic curve，ROC)[21]，ROC曲線是以真正率為縱坐標，假正率

圖4 Leukemia數(shù)據(jù)集ROC

圖5 Colon數(shù)據(jù)集ROC

為橫坐標，通過設置一系列的閾值，可以得到多個不同的真正率與假正率的值，這些值都是ROC曲線上的點。ROC曲線與坐標軸所圍成的面積越大，性能越好。

通過圖4和圖5可知，LPP-RF算法的ROC曲線與坐標軸所圍成的面積大于RF和PCA-RF算法，說明LPP-RF算法的性能優(yōu)于另外兩種算法。

4 結束語

本文通過結合LPP與RF算法的優(yōu)點，提出基于LPP的RF算法(LPP-RF)，提高了RF算法在基因表達數(shù)據(jù)分類方面的性能。該算法對RF算法中每棵決策樹的節(jié)點數(shù)據(jù)先進行LPP映射，然后在映射后的空間中以第一個屬性作為最佳分裂屬性，并根據(jù)分裂結果將原始空間中的數(shù)據(jù)進行同等劃分，最后對測試樣本使用加權投票法進行分類。與原始RF和PCA-RF算法相比，本文算法提高了基因表達數(shù)據(jù)的分類準確率及縮短了運行時間，并對基因表達數(shù)據(jù)中正類樣本準確率低的問題也有一定改善。下一步的研究將針對不平衡數(shù)據(jù)集中正類樣本準確率低的問題，對本文算法繼續(xù)進行研究與改進，進一步提高正類樣本的分類準確率。

[1]Liu JX,Xu Y,Zheng CH,et al.RPCA-based tumor classification using gene expression data[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2015,12(4):964-970.

[2]Das SR,Das K,Mishra D,et al.An Empirical comparison study on kernel based support vector machine for classification of gene expression data set[J].Procedia Engineering,2012,38(5):1340-1345.

[3]LU Huijuan.A study of tumor classification algorithms using gene expression data[D].Xuzhou:China University of Mi-ning and Technology,2012:1-111(in Chinese).[陸慧娟.基于基因表達數(shù)據(jù)的腫瘤分類算法研究[D].徐州:中國礦業(yè)大學,2012:1-111.]

[4]LU Huijuan,AN Chunlin,MA Xiaoping,et al.Disagreement measure based ensemble of extreme learning machine for gene expression data classification[J].Chinese Journal of Compu-ters,2013,36(2):341-348(in Chinese).[陸慧娟,安春霖,馬小平,等.基于輸出不一致測度的極限學習機集成的基因表達數(shù)據(jù)分類[J].計算機學報,2013,36(2):341-348.]

[5]Chen X,Ishwaran H.Random forests for genomic data analysis[J].Genomics,2012,99(6):323-329.

[6]Wickramarachchi DC,Robertson BL,Reale M,et al.HHCART:An oblique decision tree[J].Computational Statistics & Data Analysis,2016,96(C):12-23.

[7]Zhang L,Suganthan PN.Random forests with ensemble of feature spaces[J].Pattern Recognition,2014,47(10):3429-3437.

[8]Galar M,Fernandez A,Barrenechea E,et al.A review on ensembles for the class imbalance problem:Bagging,boosting,and hybrid-based approaches[J].IEEE Transactions on Systems,Man,and Cybernetics,Part C(Applications and Reviews),2012,42(4):463-484.

[9]YAO Xu,WANG Xiaodan,ZHANG Yuxi,et al.A self-ada-ption ensemble algorithm based on random subspace and AdaBoost[J].Chinese Journal of Electronic,2013,41(4):810-814(in Chinese).[姚旭,王曉丹,張玉璽,等.基于隨機子空間和AdaBoost的自適應集成方法[J].電子學報,2013,41(4):810-814.]

[10]Ali J,Khan R,Ahmad N,et al.Random forests and decision trees[J].International Journal of Computer Science Issues,2012,9(5):272-278.

[11]Qi Y.Random forest for bioinformatics[M].Ensemble machine learning.Springer US,2012:307-323.

[12]XIE Jianbin.Visual machine learning 20[M].Beijing:Tsin-ghua University Press,2015:1-239(in Chinese).[謝劍斌.視覺機器學習20講[M].北京:清華大學出版社有限公司,2015:1-239.]

[13]Zhu X,Huang Z,Shen HT,et al.Dimensionality reduction by mixed kernel canonical correlation analysis[J].Pattern Recognition,2012,45(8):3003-3016.

[14]Qiao H,Zhang P,Wang D,et al.An explicit nonlinear mapping for manifold learning[J].IEEE Transactions on Cybernetics,2013,43(1):51-63.

[15]Xiaogang D,Xuemin T.Sparse kernel locality preserving projection and its application in nonlinear process fault detection[J].Chinese Journal of Chemical Engineering,2013,21(2):163-170.

[16]Cai D,Chen X.Large scale spectral clustering via landmark-based sparse representation[J].IEEE Transactions on Cybernetics,2015,45(8):1669-1680.

[17]Makbol NM,Khoo BE.Robust blind image watermarking scheme based on redundant discrete wavelet transform and singular value decomposition[J].AEU-International Journal of Electronics and Communications,2013,67(2):102-112.

[18]Boulesteix AL,Janitza S,Kruppa J,et al.Overview of random forest methodology and practical guidance with emphasis on computational biology and bioinformatics[J].Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2012,2(6):493-507.

[19]Deng H,Runger G.Gene selection with guided regularized random forest[J].Pattern Recognition,2013,46(12):3483-3489.

[20]GUO Huaping,DONG Yadong,MAO Haitao,et al.Logistic discrimination based rare-class classification method[J].Journal of Chinese Computer Systems,2016,37(1):140-145(in Chinese).[郭華平,董亞東,毛海濤,等.一種基于邏輯判別式的稀有類分類方法[J].小型微型計算機系統(tǒng),2016,37(1):140-145.]

[21]Hajian-Tilaki K.Receiver operating characteristic (ROC) curve analysis for medical diagnostic test evaluation[J].Caspian Journal of Internal Medicine,2013,4(2):627-635.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡