楊浩宇,南曉斐,柴玉梅
(鄭州大學 信息工程學院,河南 鄭州 450001)
基因表達數(shù)據(jù)分類問題[1]的研究目前已取得一些成果。Das等[2]使用支持向量機(support vector machine,SVM)對基因表達數(shù)據(jù)進行分類,通過實驗對比了不同核函數(shù)下的分類準確率并取得了良好的分類效果。然而,當樣本類別很大時,SVM計算復雜度高,且其核函數(shù)與參數(shù)設置缺乏理論指導[3];文獻[4]提出了極限學習機的相異性集成算法,在基因表達數(shù)據(jù)分類上表現(xiàn)良好,但極限學習機的隱層節(jié)點個數(shù)需要先驗知識并手工設置這些參數(shù),節(jié)點個數(shù)不同對分類精度也會產(chǎn)生影響;文獻[5]采用7個基因表達數(shù)據(jù)集將隨機森林算法(random forests,RF)與很多傳統(tǒng)的機器學習分類算法(如k近鄰分類器、SVM以及線性判別分析等)進行比較,得出RF算法分類性能優(yōu)于其它分類算法的結論。
RF算法在基因表達數(shù)據(jù)分類方面已經(jīng)有了不錯的性能,但是RF算法中的決策樹只能產(chǎn)生平行于坐標軸的超巨形決策面[6]。在基因表達數(shù)據(jù)中構建決策樹,通常會使得決策樹龐大,對數(shù)據(jù)敏感,且分類效果也不好,因此RF算法在基因表達數(shù)據(jù)分類方面還有性能提升空間。本文受Zhang等[7]提出的集成特征空間的隨機森林算法啟發(fā),將局部保持映射(locality preserving projections,LPP)與RF算法中決策樹每個節(jié)點的屬性空間相結合,提出基于LPP的RF算法。該算法通過LPP將決策樹節(jié)點數(shù)據(jù)映射到新的屬性空間中,在該屬性空間中選擇第一個屬性就可使數(shù)據(jù)得到較好的劃分結果。在9個基因表達數(shù)據(jù)集上的實驗對比結果表明,本文提出的算法在分類準確率上比傳統(tǒng)RF算法高出17%,運行時間比傳統(tǒng)RF算法縮短了7倍,其它性能指標如Recall、Precision、G-mean等指標均有提高。
Bremain結合Bagging方法[8]和隨機子空間劃分[9]的策略,提出了RF算法。該算法是由多棵決策樹組成的集成算法。在構造每棵決策樹的過程中,先對樣本集采用Bootstrap抽樣方法,從樣本總量為N的數(shù)據(jù)集中抽取N個樣本,每次抽樣均采取有放回的隨機抽樣方法,并將這N個樣本作為該決策樹訓練時的樣本集。在決策樹的每個節(jié)點分裂過程中,RF算法隨機選取mtry個屬性(0 通過隨機重采樣和隨機屬性選取,使得RF算法具有以下幾個特點[5,10-12]:①不易出現(xiàn)過擬合問題;②并行化程度高;③對噪聲和異常點容忍度高;④適用于高維小樣本數(shù)據(jù);⑤適用于二分類和多分類任務?;虮磉_數(shù)據(jù)具有樣本小、維數(shù)高、噪聲多等特點。這些優(yōu)點使得RF算法在基因表達數(shù)據(jù)分類上表現(xiàn)突出。 對于基因表達數(shù)據(jù)這樣的高維非線性數(shù)據(jù),通常要先采取非線性降維方法對數(shù)據(jù)進行預處理。常用的非線性降維方法是基于核的方法[13]和非線性流形學習的方法[14]。但前者需要人們憑經(jīng)驗選取核函數(shù),找到合適參數(shù)需要花費較高的人工成本,且對測試樣本沒有清晰的映射函數(shù)。后者雖能夠保持原始數(shù)據(jù)的結構特征,但與基于核的方法一樣沒有提供對測試樣本的清晰映射函數(shù)。He等提出了LPP算法[15],該算法近似于非線性拉普拉斯特征映射。作為線性算法,相比核的方法和非線性流形學習的方法,該算法善于發(fā)現(xiàn)高維非線性數(shù)據(jù)中已有的低維流形結構,找到映射關系并提供清晰的映射函數(shù)。因此,LPP算法可以很好的應用于非線性數(shù)據(jù)降維問題中。 LPP原理是通過一定的性能目標去尋找變換矩陣A,以實現(xiàn)對高維數(shù)據(jù)的降維。變換矩陣A可以通過最小化以下目標函數(shù)得到[15] (1) 其中,xi和xj是樣本集中的單個樣本,W可通過如下式子進行定義 (2) 式中:t是一個控制相似性度量范圍的常量,超出該范圍的數(shù)據(jù)點之間的相似性逐級遞減。對式(1)進行簡單的代數(shù)變換,目標函數(shù)可以轉化為 (3) D為對角矩陣,Dii=∑jWij,L=D-W是一個拉普拉斯矩陣。因此求解式(1)的最小化目標函數(shù)問題可以通過求解下式的廣義特征向量得到 XLXTA=λXDXTA (4) 變換矩陣A由式(4)的l個最小非0特征值所對應的特征向量構成。 本文提出基于LPP的RF算法(random forest based on LPP,LPP-RF),將LPP算法應用在決策樹的每個節(jié)點中,可以解決RF算法中決策樹對于基因表達數(shù)據(jù)不能產(chǎn)生良好決策面的問題。 在決策樹中每一次節(jié)點進行分裂之前,先通過變換矩陣A將該節(jié)點數(shù)據(jù)映射到新的屬性空間中,實現(xiàn)對高維數(shù)據(jù)的降維。變換矩陣A也可以通過求解式(5)的廣義特征向量得到[16] XWXTA=λXDXTA (5) 式(5)的l個最大非0特征值所對應的特征向量構成變換矩陣A=[a1,a2,…,al]。式(5)與式(4)不同的是將求解最小特征值問題轉化為求解最大特征值問題,這樣便于在新的映射空間中進行基尼指數(shù)計算。 由于在基因表達數(shù)據(jù)中,屬性數(shù)量遠大于樣本數(shù)量,導致XDXT為奇異矩陣,此時無法對式(5)進行廣義特征向量求解。經(jīng)研究發(fā)現(xiàn),將X進行奇異值分解[17],可以避免XDXT為奇異矩陣。X通過奇異值分解為 X=UEVT (6) 其中,將X的奇異值根據(jù)大小降序排列,構成對角矩陣E中對角線上的元素,U和V都是正交矩陣。 由于基因表達數(shù)據(jù)具有高維和噪聲多雙重特性,在進行奇異值分解以后將數(shù)據(jù)進行降維,設置閾值為β,刪除E中與最大值比值小于β的奇異值和對應的奇異向量。 然后令B=EUTA,將式(6)帶入式(5)得 XWXTA=λXDXTA?UEVTWVEUTA= (7) 其中,VTDV為非奇異矩陣,假設B為該式求得的特征向量矩陣,則 A=UE-1B (8) 求得變換矩陣A以后,對X進行映射構成新的數(shù)據(jù)集H H=ATX (9) 對式(8)進行求解以后,變換矩陣A中的特征向量是根據(jù)特征值大小降序排列,特征值可以表明該屬性的重要性,在決策樹算法中,節(jié)點的分裂是根據(jù)屬性的重要性由大到小依次進行分裂的,因此在數(shù)據(jù)集H中只計算第一個屬性的基尼指數(shù),求出該屬性的最佳分裂屬性值并劃分數(shù)據(jù)集H。然后根據(jù)數(shù)據(jù)集H的劃分情況將數(shù)據(jù)集X進行同等劃分,本次節(jié)點分裂完成。 算法1描述了LPP-RF算法中決策樹的生成過程:首先判斷數(shù)據(jù)集S是否為葉節(jié)點,如果是葉節(jié)點,則構建葉節(jié)點并返回類別標簽(步驟(1));如果不是葉節(jié)點,則從數(shù)據(jù)集S中隨機選擇mtry個樣本屬性構成數(shù)據(jù)集Z(步驟(2));并將類別標簽加入Z中以方便計算W的值(步驟(3));對于Z中相同類別標簽的樣本zm和zn,求出zm與zn之間的歐式距離(步驟(6))和wmn(步驟(7)),對于Z中不同類別標簽的樣本zm和zn,wmn等于0(步驟(9));得到權值矩陣W以后求出對角矩陣D(步驟(12));此時判斷Z中屬性個數(shù)和樣本個數(shù)之間的大小,如果屬性個數(shù)大于樣本個數(shù),需將Z進行奇異值分解(步驟(14)),在奇異值分解的過程中對Z進行降維(步驟(15)-(17));然后計算特征值與特征向量(步驟(18))及求出變換矩陣A(步驟(19));如果Z中的屬性個數(shù)小于樣本個數(shù),可以直接計算求出A(步驟(23));構建屬性空間Z1并計算最佳分裂屬性值CFA(步驟(25)-(26));將計算得到的結果保存在當前節(jié)點中便于節(jié)點分裂及測試數(shù)據(jù)使用(步驟(27));根據(jù)最佳分裂屬性值CFA對Z1進行分裂形成左右兩個子節(jié)點,根據(jù)Z1的分裂結果將S進行同等劃分(步驟(29));對S劃分完的兩個子節(jié)點進行遞歸構建,最后返回整棵決策樹(步驟(30)-(32))。 算法1: Lpp_Rftree(S,mtry) 輸入: 訓練數(shù)據(jù)集S,節(jié)點抽取屬性個數(shù)mtry 輸出:單棵決策樹tree (1) if is Node(S) return Tag(S) (2)Z= Choice (S(:,1:end-1)) (3)Z=[Z,S(end)] (4) for eachzm,zn∈ rowZ (5) if Tag(zm)==Tag(zn) (6)oc=sqrt(zn.*zn+zn.*zm-2*zm*zn) (7)Wmn=exp(-oc/(2*t^2)) (8) else (9)Wmn=0 (10) end if (11)end for (12)D=full(Culation_sum(W, 2)) (13) if lenght(Z,2)>lenght(Z,1) (14) [B,I,P]=Culation_SVD(Z(:,1:end-1)) (15)LI=find_max(I) (16)In=search(I/LI<1e-12) (17) Delete(B(In)),Delete(I(:,In)),Delete(P(In)) (18) [C,~]=Culation_eig(P′*W*V,P′*D*P); (19)A=BI-1C (20) else (21) [A,ag]=Culation_eig(S′*W*Z,Z*D*Z′); (22) [~,cl]=reorder(ag) (23)A=A(:,cl(1:l)) (24) end if (25)Z1=ATZ(:,1:end-1) (26) CFA=ChoiceBestAttribute(Z1(:,1)) (27) H=saveMessage(S,A,CFA) (28) for eachi∈branchCount(CFA) (29)Si=split(s,Z1,CFA,i) (30)tree.childi=Lpp_Rftree(Si,mtry) (31) end for (32) returntree 由于基因表達數(shù)據(jù)具有高維非線性特征,直接在原始屬性空間中尋找節(jié)點最優(yōu)分裂標準,需要對基因表達數(shù)據(jù)中每個屬性中全部可能的最佳分裂屬性值進行測試,然而基因表達數(shù)據(jù)具有上千維的屬性,依次計算會產(chǎn)生較大的時間開銷。在算法1中只需要測試第一個屬性中可能的最佳分裂屬性值,很大程度上縮短了構建決策樹的時間。同時LPP算法使映射后的數(shù)據(jù)不僅保持了原有數(shù)據(jù)結構,而且還使得同類之間數(shù)據(jù)更緊湊,不同類之間數(shù)據(jù)更分散,使得決策樹在分裂時能夠產(chǎn)生良好的決策面,提高決策樹的性能。 在LPP-RF算法中每一次的Bootstrap抽樣之后,約有36%的樣本數(shù)據(jù)不在抽樣之后的樣本集中,這些數(shù)據(jù)被稱為袋外數(shù)據(jù)[18]。袋外數(shù)據(jù)可以用來估計LPP-RF算法的泛化誤差,也可以用來測試單棵決策樹的分類準確率。在本文中,采用后者,通過袋外數(shù)據(jù)測試單棵決策樹的分類準確率,將分類準確率作為該決策樹加權投票時的權值。使得在LPP-RF分類器預測時,對決策樹性能差的分類結果賦予較低的權重,性能好的分類結果賦予較高的權重,以此來增加LPP-RF算法的分類準確率。同時也彌補了每次構建決策樹之后有部分數(shù)據(jù)未被使用的不足。 算法2描述了LPP-RF算法訓練階段的構建過程:首先對訓練樣本集S進行有放回的隨機抽樣得到新數(shù)據(jù)集Si(步驟(2));將未被抽到的數(shù)據(jù)集作為袋外數(shù)據(jù)Bi(步驟(3));在Si上執(zhí)行算法1進行決策樹生成(步驟(4));并利用Bi測試該棵決策樹的分類準確率得到權值vi(步驟(5));保存決策樹模型以及權值vi(步驟(6));將步驟(2)-(6)重復k次,得到LPP-RF模型LPP_RFModel(步驟(8))。 算法2: lpp_RfTrain(S,k,mtry) 輸入: 訓練數(shù)據(jù)集S,決策樹數(shù)量k,節(jié)點抽取屬性個數(shù)mtry 輸出:LLP-RF模型LPP_RFModel (1) for eachi∈k (2)Si=Bootstrap(S) (3)Bi=S-Si (4)treei=lppRf_treeTrain(Si,mtry) (5)vi= lppRf_predict(Bi,treei) (6) LPP_RFMode=saveTree(treei,Yi) (7) end for (8) return LPP_RFModel 由于決策樹的每個節(jié)點數(shù)據(jù)在劃分之前,先通過變換矩陣A進行映射,在映射以后的屬性空間中尋找最佳分裂屬性。因此對于測試數(shù)據(jù),每經(jīng)過決策樹的一個節(jié)點,需要將數(shù)據(jù)按照該節(jié)點分裂時使用的變換矩陣A進行變換。對于最終分類結果采用加權投票法求出,可以表示為 (10) 其中,H(x)為算法對測試數(shù)據(jù)的最終分類結果,vi表示第i棵決策樹的權值,hi(x)表示第i棵決策樹測試數(shù)據(jù)的分類結果,Y為類別標簽,I(·)為示性函數(shù)。 RF算法性能主要取決于單棵決策樹性能和各個決策樹之間的差異性[12],單棵決策樹性能越好或各個決策樹之間差異性越大,則RF算法的分類準確率就越高。在LPP-RF算法中,決策樹每個節(jié)點都是在不同屬性空間中進行數(shù)據(jù)劃分,提高了決策樹之間的差異性以及單個決策樹的分類準確率,同時也提高了決策樹之間的差異性,最終達到提高原始RF算法分類準確率的效果。 LPP-RF算法在決策樹中每個節(jié)點的分裂都需要計算D、W以及變換矩陣A,一定程度上增加了時間開銷,但在計算最佳分裂屬性值時,只需計算第一個屬性的基尼指數(shù)便可求出,又大幅縮短了時間開銷,最后通過實驗分析得出LPP-RF算法的時間少于原始RF算法。 本節(jié)將通過9個公開的基因表達分類數(shù)據(jù)集來進行實驗驗證LPP-RF算法的性能,這些數(shù)據(jù)集被國內外學者大量引用,具有一定標準性。所選取數(shù)據(jù)集的情況見表1,數(shù)據(jù)來源于文獻[19],其中含有5個多分類數(shù)據(jù)集和4個二分類數(shù)據(jù)集。 表1 基因表達數(shù)據(jù)集 為了驗證LPP-RF算法分類準確率和運行時間的性能,實驗將LPP-RF算法與RF算法以及Zhang文獻中的PCA-RF[7]算法進行對比分析。實驗采用15倍的10折交叉驗證方法,將10折交叉驗證運行15次,得到150個分類結果,將平均值作為各個算法的最終分類準確率,并計算其方差。實驗硬件為 Intel 2.3 GHz和8.0 GB內存,所有算法用MATLAB實現(xiàn)。由于RF算法的并行化程度高,很容易并行實現(xiàn),所以在算法中決策樹的生成采用了4個并行池并行生成的策略進行實驗。 在RF算法中,決策樹每個節(jié)點抽取屬性個數(shù)mtry的取值通常為log2p(p為樣本總屬性的個數(shù))[6]。森林規(guī)模即決策樹的數(shù)目分別取k={1,10,50,100,200,500,1000}。表2記錄了9個數(shù)據(jù)集在不同的森林規(guī)模下,LPP-RF算法、PCA-RF算法和RF算法的分類準確率和方差。 圖1和圖2展示了在數(shù)據(jù)集Brain和Nci中分類結果的誤差棒圖,橫坐標為不同決策樹的個數(shù),縱坐標為分類準確率,每個點上豎形線段的長短為方差。為了能夠更清晰顯示出方差大小,將圖中RF算法折線向左平移了0.1個單位,PCA-RF算法折線向右平移了0.1個單位。 從表2中可以看出,當算法中決策樹的個數(shù)為1時,LPP-RF的分類準確率在絕大多數(shù)數(shù)據(jù)集上都高于另外兩個算法,證明LPP-RF算法提高了單棵決策樹的分類精度。隨著決策樹個數(shù)的增多,這3個算法的分類準確率都有提高,但LPP-RF算法的分類準確率穩(wěn)定高于另外兩個算法。在分類準確率的方差上,隨著森林規(guī)模的增加,LPP-RF的方差在絕大多數(shù)數(shù)據(jù)集上都低于PCA-RF、RF算法,所以,LPP-RF算法具有較好的穩(wěn)定性。從圖1和圖2中可以看出,RF、PCA-RF和LPP-RF算法的準確率隨著森林規(guī)模的增加而增加,并在森林規(guī)模為100時趨于穩(wěn)定。 圖3顯示了當樹的規(guī)模為100時這3種算法所消耗的時間情況。 由圖3可以看出,LPP-RF算法的運行時間遠低于另外 表2 不同森林規(guī)模下10個數(shù)據(jù)集上3個算法分類準確率及方差 圖1 Brain數(shù)據(jù)集分類結果誤差 圖2 Nci數(shù)據(jù)集分類結果誤差 圖3 3種算法在各數(shù)據(jù)集運行時間對比 兩個算法。通過對比可以發(fā)現(xiàn)LPP-RF算法比另外兩個算法最多縮短了7倍的運行時間。 基因表達數(shù)據(jù)往往還有類不平衡的特性,針對類不平衡的數(shù)據(jù)集,往往單靠一個分類準確率不能準確的反映出一個分類器的好壞,例如,在癌癥檢測中,只有少數(shù)人患有癌癥,正確識別出少數(shù)癌癥患者是非常有意義的,傳統(tǒng)分類算法經(jīng)常將稀有類實例被誤分為負類實例[20],這時候需要將召回率(recall)、真負率(Acc-)、幾何平均數(shù)(G-mean)、精確率(precision)、召回率(recall)和F度量(F-measure)當作性能評價指標。 在分類準確率對比實驗中可以得出當森林規(guī)模為100時,各個算法的性能趨于穩(wěn)定,因此本次實驗中森林規(guī)模為k=100。在實驗中選取了上述數(shù)據(jù)集中類不平衡度最大的兩個數(shù)據(jù)集進行實驗,分別為Colon和Leukemia。Colon數(shù)據(jù)集中一共有62個樣本,其中正類樣本(樣本少的一類)含有22個樣本,占整個數(shù)據(jù)集的35.4%,Leukemia數(shù)據(jù)集一共有38個樣本,其中正類樣本含有11個樣本,占整個數(shù)據(jù)集的28.9%。通過15倍的10折交叉驗證法進行實驗。 表3記錄了RF,PCA-RF,LPP-RF這3個算法在這兩個數(shù)據(jù)集下的Recall、Acc-、Precision、F-measure和G-mean的值。 表3 Colon數(shù)據(jù)集和Leukemia數(shù)據(jù)集性能 由表3可以看出,LPP-RF算法在沒有降低Acc-的情況下提升了基因表達數(shù)據(jù)集中Recall、Precision、F-mea-sure和G-mean的值,這說明了LPP算法對基因表達數(shù)據(jù)中正類樣本準確率低的問題也有一定改善。 為更直觀的對這兩個算法進行比較,圖4和圖5繪制了受試者工作特征曲線(receiver operating characteristic curve,ROC)[21],ROC曲線是以真正率為縱坐標,假正率 圖4 Leukemia數(shù)據(jù)集ROC 圖5 Colon數(shù)據(jù)集ROC 為橫坐標,通過設置一系列的閾值,可以得到多個不同的真正率與假正率的值,這些值都是ROC曲線上的點。ROC曲線與坐標軸所圍成的面積越大,性能越好。 通過圖4和圖5可知,LPP-RF算法的ROC曲線與坐標軸所圍成的面積大于RF和PCA-RF算法,說明LPP-RF算法的性能優(yōu)于另外兩種算法。 本文通過結合LPP與RF算法的優(yōu)點,提出基于LPP的RF算法(LPP-RF),提高了RF算法在基因表達數(shù)據(jù)分類方面的性能。該算法對RF算法中每棵決策樹的節(jié)點數(shù)據(jù)先進行LPP映射,然后在映射后的空間中以第一個屬性作為最佳分裂屬性,并根據(jù)分裂結果將原始空間中的數(shù)據(jù)進行同等劃分,最后對測試樣本使用加權投票法進行分類。與原始RF和PCA-RF算法相比,本文算法提高了基因表達數(shù)據(jù)的分類準確率及縮短了運行時間,并對基因表達數(shù)據(jù)中正類樣本準確率低的問題也有一定改善。下一步的研究將針對不平衡數(shù)據(jù)集中正類樣本準確率低的問題,對本文算法繼續(xù)進行研究與改進,進一步提高正類樣本的分類準確率。 [1]Liu JX,Xu Y,Zheng CH,et al.RPCA-based tumor classification using gene expression data[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2015,12(4):964-970. [2]Das SR,Das K,Mishra D,et al.An Empirical comparison study on kernel based support vector machine for classification of gene expression data set[J].Procedia Engineering,2012,38(5):1340-1345. [3]LU Huijuan.A study of tumor classification algorithms using gene expression data[D].Xuzhou:China University of Mi-ning and Technology,2012:1-111(in Chinese).[陸慧娟.基于基因表達數(shù)據(jù)的腫瘤分類算法研究[D].徐州:中國礦業(yè)大學,2012:1-111.] [4]LU Huijuan,AN Chunlin,MA Xiaoping,et al.Disagreement measure based ensemble of extreme learning machine for gene expression data classification[J].Chinese Journal of Compu-ters,2013,36(2):341-348(in Chinese).[陸慧娟,安春霖,馬小平,等.基于輸出不一致測度的極限學習機集成的基因表達數(shù)據(jù)分類[J].計算機學報,2013,36(2):341-348.] [5]Chen X,Ishwaran H.Random forests for genomic data analysis[J].Genomics,2012,99(6):323-329. [6]Wickramarachchi DC,Robertson BL,Reale M,et al.HHCART:An oblique decision tree[J].Computational Statistics & Data Analysis,2016,96(C):12-23. [7]Zhang L,Suganthan PN.Random forests with ensemble of feature spaces[J].Pattern Recognition,2014,47(10):3429-3437. [8]Galar M,Fernandez A,Barrenechea E,et al.A review on ensembles for the class imbalance problem:Bagging,boosting,and hybrid-based approaches[J].IEEE Transactions on Systems,Man,and Cybernetics,Part C(Applications and Reviews),2012,42(4):463-484. [9]YAO Xu,WANG Xiaodan,ZHANG Yuxi,et al.A self-ada-ption ensemble algorithm based on random subspace and AdaBoost[J].Chinese Journal of Electronic,2013,41(4):810-814(in Chinese).[姚旭,王曉丹,張玉璽,等.基于隨機子空間和AdaBoost的自適應集成方法[J].電子學報,2013,41(4):810-814.] [10]Ali J,Khan R,Ahmad N,et al.Random forests and decision trees[J].International Journal of Computer Science Issues,2012,9(5):272-278. [11]Qi Y.Random forest for bioinformatics[M].Ensemble machine learning.Springer US,2012:307-323. [12]XIE Jianbin.Visual machine learning 20[M].Beijing:Tsin-ghua University Press,2015:1-239(in Chinese).[謝劍斌.視覺機器學習20講[M].北京:清華大學出版社有限公司,2015:1-239.] [13]Zhu X,Huang Z,Shen HT,et al.Dimensionality reduction by mixed kernel canonical correlation analysis[J].Pattern Recognition,2012,45(8):3003-3016. [14]Qiao H,Zhang P,Wang D,et al.An explicit nonlinear mapping for manifold learning[J].IEEE Transactions on Cybernetics,2013,43(1):51-63. [15]Xiaogang D,Xuemin T.Sparse kernel locality preserving projection and its application in nonlinear process fault detection[J].Chinese Journal of Chemical Engineering,2013,21(2):163-170. [16]Cai D,Chen X.Large scale spectral clustering via landmark-based sparse representation[J].IEEE Transactions on Cybernetics,2015,45(8):1669-1680. [17]Makbol NM,Khoo BE.Robust blind image watermarking scheme based on redundant discrete wavelet transform and singular value decomposition[J].AEU-International Journal of Electronics and Communications,2013,67(2):102-112. [18]Boulesteix AL,Janitza S,Kruppa J,et al.Overview of random forest methodology and practical guidance with emphasis on computational biology and bioinformatics[J].Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2012,2(6):493-507. [19]Deng H,Runger G.Gene selection with guided regularized random forest[J].Pattern Recognition,2013,46(12):3483-3489. [20]GUO Huaping,DONG Yadong,MAO Haitao,et al.Logistic discrimination based rare-class classification method[J].Journal of Chinese Computer Systems,2016,37(1):140-145(in Chinese).[郭華平,董亞東,毛海濤,等.一種基于邏輯判別式的稀有類分類方法[J].小型微型計算機系統(tǒng),2016,37(1):140-145.] [21]Hajian-Tilaki K.Receiver operating characteristic (ROC) curve analysis for medical diagnostic test evaluation[J].Caspian Journal of Internal Medicine,2013,4(2):627-635.1.2 LPP算法
2 LPP-RF算法
2.1 決策樹最佳分裂屬性選取
λUEVTDVEUTA?UEVTWVB=
λUEVTDVB?VTWVB=λVTDVB2.2 LPP-RF算法描述
3 實驗與分析
4 結束語