基于Spark和NRSCA策略的并行深度森林算法

2024-02-18 23:40:14毛伊敏劉紹芬

計算機應用研究 2024年1期

毛伊敏劉紹芬

摘要：針對并行深度森林在大數(shù)據(jù)環(huán)境下存在冗余及無關(guān)特征過多、兩端特征利用率過低、模型收斂速度慢以及級聯(lián)森林并行效率低等問題，提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先，該算法提出了基于鄰域粗糙集和Fisher score的特征選擇策略（FS-NRS），通過衡量特征的相關(guān)性和冗余度，對特征進行過濾，有效減少了冗余及無關(guān)特征的數(shù)量；其次，提出了一種隨機選擇和等距提取的掃描策略（S-RSEE），保證了所有特征能夠同概率被利用，解決了多粒度掃描兩端特征利用率低的問題；最后，結(jié)合Spark框架，實現(xiàn)級聯(lián)森林并行化訓練，提出了基于重要性指數(shù)的特征篩選機制（FFM-II），篩選出非關(guān)鍵性特征，平衡增強類向量與原始類向量維度，從而加快模型收斂速度，同時設計了基于SCA的任務調(diào)度機制（TSM-SCA），將任務重新分配，保證集群負載均衡，解決了級聯(lián)森林并行效率低的問題。實驗表明，PDF-SNRSCA算法能有效提高深度森林的分類效果，且對深度森林并行化訓練的效率也有大幅提升。

關(guān)鍵詞：并行深度森林算法； Spark框架；鄰域粗糙集；正弦余弦算法；多粒度掃描

中圖分類號：TP181?? 文獻標志碼：A?? 文章編號：1001-3695（2024）01-019-0126-08

doi：10.19734/j.issn.1001-3695.2023.05.0196

Parallel deep forest algorithm based on Spark and NRSCA strategy

Abstract：Aiming to address several issues encountered by parallel deep forest algorithms in big data environments， such as excessive redundancy and irrelevant features， low utilization rate of features at both ends， slow model convergence speed， and low parallel efficiency of cascading forests， this paper proposed a parallel deep forest algorithm based on Spark and NRSCA strategy （PDF-SNRSCA）. Firstly， the algorithm proposed a feature selection strategy （FS-NRS） based on neighborhood rough sets and Fisher score， which measured the correlation and redundancy of features to effectively reduce the number of redundant and irrelevant features. Secondly， it proposed a scanning strategy based on random selection and equidistant extraction （S-RSEE） to ensure that all features were utilized with the same probability and solved the problem of low utilization rate of two ends in multi-granularing scanning. Finally， combining with the Spark framework， the algorithm realized the parallel trai-ning of cascading forests， and it proposed a feature filtering mechanism based on the importance index （FFM-II） to balance the dimensions of enhanced class vectors and original class vectors， thereby accelerating the model convergence speed. Meanwhile， the algorithm designed a task scheduling mechanism based on SCA （TSM-SCA） to redistribute tasks and ensure load balancing in the cluster， which solved the problem of low parallel efficiency of cascading forests. Experiments show that the PDF-SNRSCA algorithm can effectively improve the classification performance of deep forests and greatly enhance the efficiency of parallel training of deep forests.

Key words：parallel deep forest algorithm; Spark framework; neighborhood rough sets; sine cosine algorithm; multi-granularing scanning

0 引言

深度森林［1］是基于森林的集成學習方法，其超參數(shù)較少，具有良好的表征學習能力，被廣泛應用于圖像識別［2，3］、故障診斷［4］、指標預測［5］等各個領(lǐng)域。然而隨著大數(shù)據(jù)時代的到來，各個領(lǐng)域的數(shù)據(jù)量和特征量呈指數(shù)級增長，深度森林面對數(shù)據(jù)量和特征量的增長，其訓練代價明顯增加，訓練效果下降。因此，改進深度森林訓練模型，提高其并行化效率刻不容緩。

針對大數(shù)據(jù)規(guī)模龐大且計算復雜等問題，谷歌公司開發(fā)的Spark［6］計算速度快，通用性強，易于使用，并且支持多種語言，受到了廣大學者的青睞。目前已有基于Spark框架的并行深度森林算法投入到實際應用當中。例如文獻［7］在潛在客戶離網(wǎng)預測系統(tǒng)中，提出了基于Spark的并行深度森林算法（pa-rallel deep forest algorithm based on Spark，PDFS），該算法提出了基于索引的多粒度掃描算法和隨機采樣構(gòu)造隨機森林的方法，以解決多粒度掃描階段存儲空間占用大的問題。文獻［8］提出了一種基于并行深度森林的網(wǎng)絡入侵檢測算法（network intrusion detection algorithm based on parallel deep forest，NID-PDF），該算法使用效率排序和分區(qū)完整性檢查的方式優(yōu)化了RDD緩存替換策略，從而提高了并行作業(yè)效率。為了進一步提高并行深度森林的效率，文獻［9］提出了基于Spark框架的并行深度森林算法（bag of little bootstraps-gcForset，BLB-gcForest），該算法使用了自助采樣機制，減少了大量數(shù)據(jù)樣本在級聯(lián)森林層中的傳輸，并且提出自適應子森林劃分算法，提高了各節(jié)點的利用率。以上三種改進的深度森林算法在分類效果和訓練效率上相比原始深度森林算法有了一定的提升，但是仍存在以下不足：a）在特征選擇階段，沒有對原始數(shù)據(jù)的特征進行有效劃分和篩選，導致級聯(lián)森林訓練過程中存在冗余特征過多的問題;b）在多粒度掃描階段，原始掃描方法采用滑動方式會導致兩端特征利用率過低;c）在模型并行化訓練階段，原始類向量和增強類向量維度相差過大，使得增強類向量淹沒在原始類向量中，導致模型收斂速度慢，并且任務調(diào)度不均衡將造成集群負載不均衡，級聯(lián)森林并行化效率低下的情況。

針對以上問題，本文提出了基于鄰域粗糙集改進的并行深度森林算法——PDF-SNRSCA，算法的主要工作如下：

a）在特征選擇階段，提出了基于鄰域粗糙集和Fisher score的特征選擇策略（feature selection strategy based on neighborhood rough sets and Fisher score，F(xiàn)S-NRS），通過衡量特征的相關(guān)性和冗余度，篩選出信息量較大的特征，解決冗余及無關(guān)特征過多的問題。

b）在多粒度掃描階段，提出了一種隨機選擇和等距提取的掃描策略（scanning strategy for random selection and equidistant extraction，S-RSEE），替代原始的多粒度掃描策略，解決多粒度掃描兩端特征利用率低的問題。

c）在模型并行化訓練階段，提出了基于重要性指數(shù)的特征篩選機制（feature filtering mechanism based on importance index，F(xiàn)FM-II），以此平衡增強類向量與原始類向量維度，解決了模型收斂速度慢的問題；同時設計了基于SCA的任務調(diào)度機制（task scheduling mechanism based on SCA，TSM-SCA），將任務重新分配，保證集群負載均衡，提高了級聯(lián)森林并行化效率。

1 相關(guān)概念介紹

1.1 鄰域粗糙集

鄰域粗糙集［10］是粗糙集的鄰域近似擴展，是在δ鄰域的基礎(chǔ)上建立基于距離度量函數(shù)的鄰域關(guān)系，其研究對象是鄰域信息系統(tǒng)。

定義1 鄰域信息系統(tǒng)［11］。設一個數(shù)據(jù)樣本集U={x1，x2，…，xn}，其中F={f1，f2，…，fm}是它的特征屬性集， C={c1，c2，…，ca}是它的標簽屬性集，則三者構(gòu)成的系統(tǒng)NS=〈U，F(xiàn)，C〉即為鄰域信息系統(tǒng)。

a）在NS=〈U，F(xiàn)，C〉中，對于任意樣本xi，xj∈U，xi在IF下的鄰域集可表示為

δI（xi）={xj∈U|disI（xi，xj）≤δ}（1）

其中：δI（xi）表示樣本xi在特征子集I下，以δ大小為半徑的鄰域信息粒;dis為距離函數(shù)。樣本xi和xj在屬性fp∈I下的絕對距離可表示為

disI（xi，xj）=∑|I|i=1|H（xi，fp）-H（xj，fp）|（2）

其中：H（x，fp）為樣本x在屬性fp上的取值。

b）在NS=〈U，F(xiàn)，C〉中，令鄰域半徑為δ，特征子集IF在U上確定的鄰域關(guān)系為NI，對于近似對象集XU關(guān)于NI的鄰域下近似集和領(lǐng)域上近似集可分別表示為

定義2 鄰域信息熵［12］。給定鄰域信息系統(tǒng)NS=〈U，F(xiàn)，C〉，令鄰域半徑為δ，當f∈F，f的鄰域信息熵定義為

其中：δf（xi）是樣本xi根據(jù)屬性f在U上的鄰域關(guān)系計算得到的鄰域集;NHδ（f）度量特征中信息量的大小，NHδ（f）越大，信息量越大。

定義3 鄰域互信息［12］。給定鄰域決策信息系統(tǒng)NS=〈U，F(xiàn)，C〉，令鄰域半徑為δ，當f∈F， f與C的鄰域互信息定義為

其中：δC（xi）， δf（xi）， δf∪C（xi）是樣本xi根據(jù)屬性集f;C在U上的鄰域關(guān)系計算得到的鄰域集;NHδ（f;C）度量特征與標簽之間的相關(guān)性，NHδ（f;C）越大，特征與標簽相關(guān)性越強。

定義4 鄰域?qū)ΨQ不確定性［13］。給定鄰域決策信息系統(tǒng)NS=〈U，F(xiàn)，C〉，令鄰域半徑為δ，當f∈F，f與C的鄰域不確定性定義為

其中：NHδ（f;C）表示f和C的鄰域互信息;NHδ（f）表示f的鄰域信息熵;NHδ（C）表示C的鄰域信息熵;SUδ（f，C）度量特征與標簽之間的相關(guān)性，SUδ（f，C）越大，特征與標簽的相關(guān)性越強。

1.2 Fisher score

Fisher score［14］是通過衡量特征在同一類別和不同類別的取值差異來衡量特征的重要性，F(xiàn)isher score的值越高，表明特征在不同類別之間的差異性越大，在同一類別中的差異性越小，特征越重要。假設有特征i和類別j，則其Fisher score FSi的定義為

其中：μij和ρij分別是特征i在類別j中的均值和方差;μi為特征i的均值;nj為類別j中的樣本數(shù)。

1.3 正余弦算法

正余弦算法（sine cosine algorithm，SCA）［15］利用正弦函數(shù)和余弦函數(shù)的數(shù)學性質(zhì)，通過自適應改變正弦函數(shù)和余弦函數(shù)的振幅來平衡算法在搜索過程中的全局探索和局部開發(fā)能力，并最終找到全局最優(yōu)解。其主要步驟為：

a）初始化種群。初始化種群數(shù)量為M，Xi=（xi1，xi2，…，xiN）表示第i（i=1，2，…，M）個個體，個體的搜索空間維度為N，每個個體的初始位置為

xij=xmin，j+r（0，1）×（xmax，j－xmin，j）（9）

其中：xmax，j和xmin，j分別為個體在維度j上的上下限；r（0，1）為（0，1）內(nèi)的隨機量。

b）定義個體的適應度函數(shù)。當各節(jié)點的負載率與平均負載率方差最小時，表明達到均衡狀態(tài)，因此，本文定義個體適應度函數(shù)如下：

其中：ηi表示節(jié)點Ni（i=1，2，…，n）當前的負載率;η0表示達到平衡時各節(jié)點的平均負載率。

c）更新個體位置。通過目標函數(shù)，計算個體的適應度，尋找全局最優(yōu)解，最優(yōu)解表示為Pg=（pg1，p2，…，pgN），并且迭代更新個體的位置，更新可通過下式計算得出

其中：xt+1ij為個體i在維度j上的更新位置； xtij為個體i在維度j上的原位置； pgj為當前全局最優(yōu)解的j維位置；r2、r3和r4為三個服從均勻分布的隨機數(shù)，r2∈［0，2π］，r3∈［－2，2］，r4∈［0，1］；r1為振幅控制參數(shù)，其表達式為

d）種群迭代。重復步驟c），直到滿足設定條件，輸出全局最優(yōu)的個體Pg。

2 PDF-SNRSCA算法

PDF-SNRSCA算法主要包含特征預處理、多粒度掃描、級聯(lián)森林并行化訓練三個階段。a）特征預處理階段提出FS-NRS策略，通過衡量特征的相關(guān)性和冗余度，過濾冗余及無關(guān)特征；b）多粒度掃描階段設計S-RSEE策略，利用隨機掃描和等距提取相結(jié)合的方法，使得特征同概率被選取，解決了兩端特征利用率過低的問題;c）級聯(lián)森林并行化訓練階段首先結(jié)合Spark框架搭建并行森都森林模型，提出FFM-II機制，通過模型的訓練準確率計算特征的重要性指數(shù)，剔除非關(guān)鍵特征，平衡增強類向量與原始類向量維度，加快模型收斂速度；同時設計TSM-SCA機制，通過SCA算法來迭代尋找最優(yōu)的調(diào)度方案，實現(xiàn)負載均衡，提高并行化效率。

2.1 特征預處理

針對原始特征集中冗余及無關(guān)特征過多的問題，提出了FS-NRS的特征選擇策略，該策略主要包含兩個步驟：

a）篩選無關(guān)特征。為了準確篩選出原始特征集中存在的大量無關(guān)特征，提出了特征分割參數(shù)FSP將原始特征集劃分為無關(guān)特征集和候選特征集。其劃分過程如下：首先計算出每個特征Fisher score FSf和SUδ（f，C）；然后根據(jù)FSf和SUδ（f，C）計算原始特征集中每個特征的特征分割參數(shù)FSP，并且根據(jù)FSP的大小進行降序排序；最后按照FSP值，從高到低將原始特征集劃分為候選特征集合和無關(guān)特征集合兩部分。

定義5 特征分割參數(shù)FSP。已知樣本集合中，類別數(shù)量為k，特征f的特征分割參數(shù)FSP為

FSP=FSfSUδ（f，C）（13）

其中

證明根據(jù)鄰域?qū)ΨQ不確定性定義可知， SUδ（f，C）可以衡量當前特征f和標簽集C的相關(guān)性，當SUδ（f，C）較大時，表明當前特征f和標簽集C的相關(guān)性越大；根據(jù)Fisher score定義可知，F(xiàn)Sf可以衡量特征f的重要性，F(xiàn)Sf越大，表明特征f的重要性越高。FSP設定成鄰域?qū)ΨQ不確定性與Fisher score的乘積，同時考慮了特征相關(guān)性和特征重要性，當所選特征與標簽具有高相關(guān)性且特征重要性越高時，F(xiàn)SP的值越大，重要特征被選出，因此可用FSP作為特征分割，證畢。

b）過濾冗余特征。經(jīng)過無關(guān)特征的初步過濾后，候選特征集合依舊存在著大量的冗余特征，因此提出了冗余系數(shù)RF，對候選特征集進行過濾，進一步篩選出大量冗余特征，獲取優(yōu)質(zhì)特征集。該過程如下：首先計算特征與標簽間的鄰域互信息NHδ（fi;C）以及特征間的鄰域不確定性SUδ（fi，fj）；然后利用NHδ（fi;C）和SUδ（fi，fj）計算特征間的冗余系數(shù)RF，并且根據(jù)冗余系數(shù)和閾值比較，進一步消除冗余特征，獲取優(yōu)質(zhì)特征集。

定義6 冗余系數(shù)RF。已知存在特征fi、fj，則兩個特征的冗余系數(shù)RFi，j為

證明 SUδ（fi，fj）為特征和特征之間的鄰域?qū)ΨQ不確定性，根據(jù)鄰域?qū)ΨQ不確定性可知，SUδ（fi，fj）可以度量特征和特征之間的相關(guān)性程度，SUδ（fi，fj）越大，表示特征與特征之間的相關(guān)性越大，特征間信息的冗余程度越大； NHδ（fi;C）為特征和標簽之間的鄰域互信息，根據(jù)鄰域互信息可知，NHδ（fi;C）可以度量特征和標簽之間的相關(guān)程度，NHδ（fi;C）越大，表示特征與標簽之間的相關(guān)信息量越大。當SUδ（fi，fj）越大，NHδ（fi;C）越小時，表明特征fi、fj之間重疊的信息量越大，特征fi與標簽C相關(guān)度越小，此時SUδ（fi，fj）/NHδ（fi;C）比值越大，特征之間存在巨大冗余，因此冗余系數(shù)RF可以衡量特征冗余信息量的大小，證畢。

算法1 FS-NMI策略

輸入：樣本集合U，標簽集合C，特征集合F={f1，f2，…，fm}，參數(shù)θ和η。

輸出：特征子集L。

1）篩選無關(guān)特征

//Q表示中間數(shù)據(jù)集合，用來暫時存儲已計算FSP值的特征

Q=；

//θ表示劃分的比例系數(shù)

determine the division ratio：θ;

for k=1 to m do

calculate FSfk for fk in the sample set;

calculate FSP=FSfkSUδ（fk，C）for in the sample set;

Q=Q+{fk}

end for

order Q in descending FSP value;

//根據(jù)θ將中間數(shù)據(jù)集合Q劃分為無關(guān)特征集合和候選特征集合

divide the Q into two parts at the ratio θ：independent feature set，candidate feature set L;

output feature subset L;

2）過濾冗余特征

//η表示閾值

defined threshold：η；

//fi表示第一候選特征

for fi∈L

calculate NHδ（fi;C）;

//fj表示第二候選特征

for fj∈L－{fi}

calculate SUδ（fi，fj）;

calculate RFi，j;

if RFi，j>η

L=L－{fj};

end for

output feature subset L；

2.2 多粒度掃描

經(jīng)過特征預處理階段獲取的優(yōu)質(zhì)特征集，被送入多粒度掃描階段處理，然而傳統(tǒng)多粒度掃描存在兩端特征利用率過低的問題，為此提出S-RSEE的特征掃描策略。該策略具體流程如下：

a）隨機掃描。特征預處理階段得到特征集合L，其大小為x，類別數(shù)為y，從L中隨機抽取h個特征組成一個特征片段，重復抽取b次，共生成b個特征片段，將每個特征片段導入到隨機森林中訓練，得到b個y維的類向量。

b）等距提取。將特征集合L等分為b個特征片段，每份大小為x/b」，將每個特征片段導入到完全隨機森林中訓練，同樣得到b個y維的類向量。

c）初始化類向量。重復上述兩個階段z次，將z次訓練后得到的類向量進行拼接，最后得到2zby維的原始類向量E。

算法2 S-RSEE策略

輸入：特征子集L，子集大小為x，類別數(shù)為y，參數(shù)h、b、z。

輸出：原始類向量E。

initialization parameters h，b，z;

/*h表示隨機抽取特征的數(shù)量，b表示重復抽取的次數(shù)，z表示重復兩個階段的次數(shù)*/

define variable H，W，B1，B2;

/*H用來存儲隨機抽取的特征，W表示等距劃分后，特征片段的大小，B1存儲隨機掃描訓練后的類向量，B2存儲等距提取訓練后的類向量*/

for k=1 to z do

//隨機掃描階段

for i=1 to b do

randomly sample h features from the original feature set L;

combine feature h features into a feature segment H;

get one y-dim class vector from random forest （H）;

end for

B1=B1 + Get b y-dim class vectors;

//等距提取階段

divide the feature set L equally into b parts， each of size W=x/b」;

for i=1 to B2 do

get one y-dim class vector from complete random forest （W）;

end for

B2=B2+get b y-dim class vectors;

end for

//初始化類向量階段

merge B1 and B2 into the original class vector E

2.3 級聯(lián)森林并行化訓練

針對并行訓練過程中模型收斂速度慢、級聯(lián)森林并行訓練效率低的問題，本文結(jié)合Spark對每層級聯(lián)森林模型進行并行化訓練，該過程分為兩個階段：a）并行構(gòu)建級聯(lián)森林，利用Spark框架搭建并行深度森林，提出了FFM-II的特征篩選機制，根據(jù)級聯(lián)森林訓練得出的準確率剔除非關(guān)鍵特征，平衡增強類向量和原始類向量維度;b）負載均衡，設計了TSM-SCA的任務調(diào)度機制，利用SCA算法計算出最優(yōu)的任務分配方案，然后Spark集群按照方案分配任務。

2.3.1 并行構(gòu)建級聯(lián)森林

在利用Spark構(gòu)建并行級聯(lián)森林過程中，由于級聯(lián)森林訓練得到的增強類向量維度遠低于原始類向量維度，導致模型收斂速度慢，因此提出FFM-II的特征篩選機制，通過模型的訓練準確率計算特征的重要性指數(shù)，以此剔除部分非關(guān)鍵特征，平衡增強類向量和原始類向量維度，從而加快模型收斂速度，該策略過程如下：

a）過濾特征。首先根據(jù)當前層級聯(lián)森林的訓練準確率，計算每個特征的重要性指數(shù)G（f），并根據(jù)G（f）的值對原始類向量中的特征從低到高排序；然后提出自適應比例系數(shù)QDF，按照當前原始類向量的特征數(shù)量計算自適應比例系數(shù)QDF；最后根據(jù)QDF值將排好序的原始類向量E分為非關(guān)鍵類向量和有效類向量，將非關(guān)鍵類向量放入到非關(guān)鍵類向量集合R。

b）合并類向量。首先拼接前面所有層級聯(lián)森林訓練得到的增強類向量，得到總的增強類向量D;然后將總的增強類向量D與下一層級聯(lián)森林的原始類向量E′進行拼接；最后從拼接后的類向量中刪除非關(guān)鍵類向量集合R中包含的特征，獲取輸入到下一層級聯(lián)森林的類向量ED。

定義7 重要性指數(shù)G（f）。假設在當前層級森林中，決策樹權(quán)重為μi，子森林權(quán)重為εj，特征f的重要性在第j個子森林的第i棵決策樹中為Gi（f），則在當前層級聯(lián)森林中，特征f重要性指數(shù)為

其中：Pi是第j個子森林中第i棵決策樹的準確率;Qj是第j個子森林的準確率。

證明假設每層級聯(lián)森林中含有s個子森林，每個森林中含有r棵決策樹，其中，第j個子森林中第i棵決策樹的準確率為Pi，第j個子森林的準確率為Qj，準確率可以衡量決策樹和子森林的分類能力。Pi與∑ri=1Pi的比值表示單個決策樹預測準確率與子森林總準確率歸一化權(quán)重，其值越大說明該決策樹分類能力越強，在子森林中越重要。同理，Qj與∑sj=1Qj的比值反映了Qj在本層級聯(lián)森林總準確率∑sj=1Qj的權(quán)重，其值越大則說明該子森林分類能力越強，在本層級聯(lián)森林中越重要。Gi（f）表示特征f在第i棵決策樹中的重要性，Gi（f）的值只能衡量特征在當前決策樹中的重要性，若想要衡量特征f在當前層級聯(lián)森林中的重要性，需要計算特征在當前層所有決策樹中的重要程度，所以在當前層級聯(lián)森林中，特征f重要性指數(shù)為

G（f）=∑sj=1∑ri=1εj×μi×Gi（f）（20）

定義8 自適應比例系數(shù)QDF。假設第λ層級聯(lián)森林中，原始類向量的特征數(shù)量為Nλ，則第λ層的自適應比例系數(shù)QDF為

證明當λ=1時，第1層級聯(lián)森林原始向量的特征數(shù)量為Nλ，令QλDF=1/［2×（λ+1/log2Nλ）］，此時QDF<0.25，則QλDF1/log2Nλ，Qλ+1DF

綜上QDF是一個可以根據(jù)級聯(lián)森林的層數(shù)和特征數(shù)量來動態(tài)調(diào)整劃分比例的系數(shù)，且級聯(lián)森林的層數(shù)越多，劃分比例越小。

算法3 FFM-II機制

輸入：當前層的原始類向量E，下一層的原始類向量E′，前面所有層的增強類向量之和D，前面所有層的冗余類向量之和R;當前層的訓練結(jié)果Pi和Qj。

輸出：下一層類向量ED。

for i=1 to r do

//計算決策樹的權(quán)重

calculate weight μi=Pi/∑ri=1Pi for each decision tree;

end for

for j=1 to s do

//計算子森林的權(quán)重

calculate εj=Qj/∑sj=1Qj for child forest;

end for

//計算特征的重要性指數(shù)

for j=1 to s do

for i=1 to r do

calculate the importance of each feature Gi（f） in each decision tree;

Gj（f）=∑r－1i=1μi×Gi（f）;

end for

G（f）=∑s－1j=1εj×Gj（f）;

end for

order E in descending G（f） value;

//QDF表示自適應比例系數(shù)

calculate the ratio QDF=1/［2×（λ+1/log2Nλ）］ according to the number of features;

divide the E into two parts at the ratio QDF：valid vectors E，redundant vectors R;

//合并類向量

ED=E′+D－R;

output ED;

2.3.2 負載均衡

針對Spark各節(jié)點計算能力偏差造成的集群負載不均衡，導致級聯(lián)森林并行化效率低下的問題，設計了TSM-SCA的任務調(diào)度機制，通過SCA算法求解最優(yōu)的調(diào)度方案，重新分配任務，使節(jié)點達到負載均衡的狀態(tài)，從而提高并行化效率。具體步驟如下：

a）初始化SCA種群。初始化種群數(shù)量為k，Xi=（xi1，xi2，…，xiN）表示第i（i=1，2，…，k）個個體，根據(jù)集群節(jié)點數(shù)量設置搜索空間維度為N。

b）更新個體的位置。提出基于慣性因子ω的位置更新函數(shù)W（x）來替代式（10），以此提升個體的全局搜索能力，加快算法收斂。

c）更新振幅控制參數(shù)r1。式（11）中r1是線性遞減的，前期和后期遞減速度相同，導致前期全局搜索不充分，后期算法無法快速收斂。為了獲得更好的穩(wěn)定性和更高的尋優(yōu)能力，對控制參數(shù)r1提出一種基于正切函數(shù)的曲線自適應振幅調(diào)整策略，來保證解的優(yōu)質(zhì)性。

d）判斷當前最優(yōu)個體是否滿足解條件。若滿足條件或者設定的迭代次數(shù)達到上限，則輸出當前最優(yōu)個體Pg，不滿足則重復b）c）。

e）任務分配。集群根據(jù)得到的任務調(diào)度方案Pg=（pg1，pg2，…，pgN）進行任務分配，實現(xiàn)集群的負載平衡。

定義9 位置更新函數(shù)W（x）。假設xtij為個體i在維度j上的原位置，xt+1ij為個體i在維度j上的更新位置，pgj為當前全局最優(yōu)解的j維位置，ω（t）為慣性因子，位置更新函數(shù)為

其中：T為最大迭代次數(shù);ωmax為初始慣性因子，即最大值；ωmin為迭代結(jié)束時的慣性因子，即最小值。

證明根據(jù)慣性因子的迭代定理［15］可知，在迭代早期，較大慣性因子可以提升全局搜索能力，在迭代晚期，較小慣性因子可以增強局部開發(fā)能力，加速算法收斂。當前迭代次數(shù)t和最大迭代次數(shù)T的比值t/T表示當前迭代所處的時間段， t與T的比值在［0，1］，因為函數(shù)f（t）=1－（t/T）2在t/T∈［0，1］先緩慢遞減，后快速遞減，且當t/T→0時，ω→ωmax，t/T→1時，ω→ωmin，所以慣性因子ω在早期取值較大，在后期取值較小，ω（t）滿足了慣性因子的迭代定理。因此，使用W（t）可以提升全局搜索能力，加快算法收斂，證畢。

定義10 r1自適應振幅調(diào)整策略。假設T為最大迭代次數(shù)，a為常數(shù)，則在t次迭代時，控制參數(shù)r1為

證明當前迭代次數(shù)t和最大迭代次數(shù)T的比值t/T表示當前迭代所處的時間段，t與T的比值在［0，1］，因為函數(shù)f（t）=1－tan［（π/4）×（t/T）］在t/T∈［0，1］區(qū)間先緩慢遞減，后快速遞減，所以r1∈［0，a］的遞減速率先慢后快。在前期r1遞減緩慢，保證了前期的迭代次數(shù)比原始SCA算法更多，可以相對增加全局搜索能力，有助于在更大空間內(nèi)搜尋最優(yōu)解；在后期r1加速遞減，加快算法收斂，可以提升SCA的尋優(yōu)精度和收斂速度。因此，r1（t）可以增加全局搜索能力，加快收斂速度，提升解的精度，證畢。

算法4 TSM-SCA機制

輸入：節(jié)點數(shù)Ni（i=1，2，…，n）的負載能力Li，實時負載Ri，任務數(shù)Ti（i=1，2，…，m）。

輸出：最優(yōu)調(diào)度方案Pg=（pg1，pg2，…，pgN）。

//k表示種群數(shù)量，T表示最大迭代次數(shù)

initialize population individual k the maximum number of iterations T

for t=1 to T do

//Xi表示第i個個體

for each individual Xi do

calculate fitness （Xi）;

//Pg表示當前最優(yōu)個體

update the current best candidate solution Pg

update ω（t）=ωmin+（ωmax－ωmin）［1－（t/T）2］;

if （r4<0.5）{

xt+1ij=ω（t）×xtij+r1×sin r2×|r3pgj－xtij|;

}

else {

xt+1ij=ω（t）×xtij+r1×cos r2×|r3pgj－xtij|;

}

update r1（t）=a×［1－tan（π/4×t/T）］;

end for

//得到滿足條件的最優(yōu)個體

output the task scheduling scheme Pg=（pg1，pg2，…，pgN）

//按照最優(yōu)個體分配任務

assign tasks according to the task scheduling scheme Pg

2.4 PDF-SNRSCA算法的并行流程

PDF-SNRSCA算法的并行化流程具體實現(xiàn)步驟如下：

a）從分布式文件系統(tǒng)HDFS中讀取數(shù)據(jù)，調(diào)用FS-NRS策略對數(shù)據(jù)集進行特征降維，獲取得到優(yōu)質(zhì)的特征集。

b）調(diào)用textFile（）將優(yōu)質(zhì)的特征集轉(zhuǎn)換為RDD形式，利用S-RSEE策略對優(yōu)質(zhì)的特征集進行訓練，獲取原始類向量，并調(diào)用saveAsTextFile（）將其存入HDFS中。

c）集群中mapper節(jié)點從HDFS中讀取原始類向量，將原始類向量的數(shù)據(jù)集轉(zhuǎn)換為RDD數(shù)據(jù)，針對每個RDD的分區(qū)分別搭建子森林，訓練子森林，調(diào)用ResultTask計算子森林的準確率，調(diào)用ShuffleMapTask得到每個子森林，訓練得到類向量，將類向量寫入到ShuffleWriter。

d）利用TSM-SCA機制，將每個RDD分區(qū)產(chǎn)生的類向量進行分組聚合操作，得到當前層的增強類向量。

e）從每個任務收集子森林的準確率并匯總結(jié)果，判斷當前結(jié)果是否滿足訓練終止條件，若滿足則停止計算，不滿足則利用FFM-II機制得到下一層級的原始類向量且重復步驟c）～e）。

算法整體流程如圖1所示。

2.5 算法時間復雜度分析

PDFS［7］、NID-PDF［8］和BLB-gcForest［9］等都是基于Spark框架設計的并行深度森林算法，并且采用不同的策略提高了算法性能。例如PDFS算法采用了基于索引的多粒度掃描算法，節(jié)省了存儲空間，提高了訓練效率；NID-PDF算法優(yōu)化了RDD緩存替換策略，提高了并行效率；BLB-gcForest算法采用自助采樣機制，減少了樣本在級聯(lián)森林層的傳輸，并且提出了自適應子森林劃分算法，進一步提高了并行效率。因此選取它們與PDF-SNRSCA算法進行時間復雜度分析和實驗對比。

PDF-SNRSCA算法的時間復雜度主要由特征預處理、多粒度掃描和級聯(lián)并行化訓練三部分組成，分別記為T1、T2、T3。

a）特征預處理階段。該階段的時間復雜度主要由篩選無關(guān)特征和過濾冗余特征兩部分組成。假設當前數(shù)據(jù)樣本數(shù)量為p，特征數(shù)量為c，則篩選無關(guān)特征階段時間復雜度為O（c×p），過濾冗余特征階段時間復雜度為O（c2）；綜上，特征預處理階段的時間復雜度T1為

T1=O（c×p）+O（c2）（25）

b）多粒度掃描階段。該階段的時間復雜度主要由隨機掃描和等距提取兩部分組成。假設樣本數(shù)量為p，隨機掃描規(guī)模為h，次數(shù)為b次，則隨機掃描階段的時間復雜度為O（b×h），等距提取階段的時間復雜度為O（b）；假設兩個階段迭代的次數(shù)為z次，則特征掃描階段的時間復雜度T2為

T2=O（z×b×h）+O（z×b）+O（z）（26）

c）級聯(lián)并行化訓練階段。該階段的時間復雜度主要由并行構(gòu)建級聯(lián)森林和負載均衡兩部分組成。假設傳入到級聯(lián)森林的原始特征個數(shù)為v，樣本數(shù)量為w，每一層森林的個數(shù)為s，每個森林包含r棵樹，級聯(lián)森林的層數(shù)為q，每個森林可劃分為u子森林，則并行構(gòu)建級聯(lián)森林階段的時間復雜度為O（w×s×r×q/u）+O（v×w+u）；假設迭代次數(shù)為Iter，SCA算法初始化的個體數(shù)量為k，集群中節(jié)點個數(shù)為n，任務個數(shù)為m，則負載均衡階段的時間復雜度為O（Iter×k×n+m）。綜上，則級聯(lián)森林并行化階段的時間復雜度T3為

T3=O（w×s×r×q/u）+O（v×w+u）+O（Iter×k×n+m）（27）

綜上所述，PDF-SNRSCA算法的時間復雜度為T=T1+T2+T3。在大數(shù)據(jù)環(huán)境下輸入數(shù)據(jù)量十分龐大，且深度森林模型的時間復雜度主要由傳入級聯(lián)森林訓練時的特征數(shù)量以及停止訓練所需的層數(shù)決定，即算法的時間復雜度T中T3的v和q決定。對于特征v，由于算法PDFS、NID-PDF、BLB-gcForest都沒有進行特征預處理，導致vPDFS>>vIPDF-NRS，vNID-DF>>vIPDF-NRS， vBLB-gcForest>>vIPDF-NRS；對于層數(shù)q，由于本文采用FFM-II策略加快了模型的收斂速度，使得所需的層數(shù)減少，從而使得qPDFS>>qIPDF-NRS，qNID-DF>>qIPDF-NRS，qBLB-gcForest>>qIPDF-NRS。因此，相比于其他三種算法，PDF-SNRSCA算法具有更低的時間復雜度。

3 實驗結(jié)果與分析

3.1 實驗環(huán)境

為了驗證PDF-SNRSCA算法的性能，本文設計了相關(guān)實驗。在硬件方面，本實驗設置了8個計算節(jié)點，其中包含了1個master節(jié)點和7個slaver節(jié)點。各節(jié)點的配置均為Intel CoreTM i7-12700H CPU、16 GB DDR4 RAM、1TB SSD，且各節(jié)點處于同一局域網(wǎng)內(nèi)，并通過1 Gbps以太網(wǎng)進行通信。在軟件方面，每個計算節(jié)點上的軟件配置均為Ubuntu 18.04.6、JDK 1.8.0、Apache Hadoop 2.7.7。各節(jié)點具體配置如表1所示。

3.2 實驗數(shù)據(jù)

本文采用的實驗數(shù)據(jù)為四個來自UCI公共數(shù)據(jù)庫的數(shù)據(jù)集，分別為Nomao、TV news channel commercial detection（TNCCD）、FMA、MicroMass。Nomao是一個記錄地點信息的數(shù)據(jù)集；TNCCD是一個記錄電視新聞頻道商業(yè)廣告信息的數(shù)據(jù)集；FMA是一個記錄各類歌曲信息的數(shù)據(jù)集；MicroMass是用于探索從質(zhì)譜數(shù)據(jù)中識別微生物的數(shù)據(jù)集。各數(shù)據(jù)集的詳細信息如表2所示。

3.3 評價指標

1）加速比加速比是指同一個任務在串行系統(tǒng)和并行系統(tǒng)中執(zhí)行所需時間的比率，用來衡量模型在并行系統(tǒng)下的性能提升，其定義為

其中：T1表示在串行系統(tǒng)下算法的執(zhí)行時間;Tp表示在并行系統(tǒng)下算法的執(zhí)行時間。

2）準確率準確率是指分類模型正確分類的樣本數(shù)與總樣本數(shù)的比值，用來衡量模型的分類效果，其定義為

其中：TP、TN、FP、FN分別對應混淆矩陣中將正類樣本預測為正類的樣本數(shù)、將正類樣本預測為負類的樣本數(shù)、將負類樣本預測為正類的樣本數(shù)與將負類樣本預測為正類的樣本數(shù)。準確率的值越大，代表該分類模型的分類效果越好。

3.4 消融對比實驗

為了驗證PDF-SNRSCA算法中各策略的有效性，本文以算法的加速比和準確率為評價標準，使用深度森林作為基礎(chǔ)模型，在MicroMass、Nomao、TNCCD和FMA數(shù)據(jù)集上進行消融實驗。為了保證結(jié)果的可靠性，將算法在各個數(shù)據(jù)集上運行了5次，取5次的平均值作為最終結(jié)果，集群中節(jié)點的數(shù)目為8，森林中樹的個數(shù)為200。實驗結(jié)果如表3所示。

從表3可以看出，PDF-SNRSCA算法中不同的策略對算法加速比和準確率的影響不同，其中TSM-SCA和FFM-II策略對算法加速比的提升效果最為明顯，F(xiàn)S-NRS策略次之，而S-RSEE策略對其無明顯影響。當處理樣本少特征多的數(shù)據(jù)集MicroMass時，使用TSM-SCA、FFM-II和FS-NRS策略分別比不使用這些策略時，算法加速比提升了9.87%，5.07%，1.60%，而使用S-RSEE策略比不使用這些策略時，算法加速比基本無明顯變化；當處理樣本多特征多的數(shù)據(jù)集FMA時，使用TSM-SCA、FFM-II和FS-NRS策略分別比不使用這些策略時，算法加速比提升了16.11%、10.15%、3.82%，而使用S-RSEE策略比不使用這些策略時，算法加速比同樣基本無明顯變化。產(chǎn)生這樣結(jié)果的原因是：a）FFM-II機制可以平衡增強向量和原始向量的維度，加快了模型收斂速度，提高了算法的加速比；b）TSM-SCA機制能夠?qū)ふ易顑?yōu)的調(diào)度方案，實現(xiàn)負載均衡，進一步提高了并行化效率；c）FS-NRS策略過濾了原始數(shù)據(jù)集中大量的冗余和不相關(guān)特征，減少了冗余和不相關(guān)特征的計算，因此對加速比的提升有一定的幫助；d）S-RSEE策略只是提高了兩端特征的利用率，并沒有過濾特征、平衡向量的維度和重新分配集群中的任務，所以其對提升模型的并行處理能力影響不大。

對算法準確率影響較大的是FS-NRS和S-RSEE策略，F(xiàn)FM-II策略次之，而TSM-SCA策略對其無明顯影響。當處理樣本少特征多的數(shù)據(jù)集MicroMass時，使用FS-NRS、S-RSEE、FFM-II分別比不使用這些策略時，算法準確率提升了1.11%、0.63%、0.31%，而使用TSM-SCA策略比不使用這些策略時，算法準確率基本無明顯變化；當處理樣本多特征多的數(shù)據(jù)集FMA時，使用FS-NRS、S-RSEE、FFM-II分別比不使用這些策略時，算法準確率提升了1.56%、1.04%、0.48%，而使用TSM-SCA策略比不使用這些策略時，算法準確率同樣基本無明顯變化。產(chǎn)生這些結(jié)果的原因是：a）FS-NRS策略通過過濾冗余及不相關(guān)特征，極大地提升了算法精度；b）S-RSEE策略使得特征同概率被選取，提高了兩端特征利用率，進而提高了算法的準確率；c）FFM-II策略通過重要性指數(shù)的特征篩選機制，篩選出非關(guān)鍵性特征，對提升算法準確率有一定的幫助；d）TSM-SCA策略將集群中的任務進行重新分配，但對算法結(jié)構(gòu)沒有進行優(yōu)化，因此對算法的準確率沒有影響。

由此可得，F(xiàn)S-NRS、S-RSEE、FFM-II和TSM-SCA策略在大數(shù)據(jù)環(huán)境下具有良好的可行性與有效性。

3.5 算法性能比較分析

1）算法準確率比較分析

為了驗證PDF-SNRSCA的分類效果，本節(jié)以準確率作為評價指標，在上述四個數(shù)據(jù)集上對PDF-SNRSCA、PDFS、NID-PDF和BLB-gcForest算法分別進行了5次測試，并取5次準確率的均值作為最終的實驗結(jié)果，如圖2所示。

從圖2可以看出，隨著森林中決策樹的增加，各個算法的準確率也在不斷提升，但本算法在四個數(shù)據(jù)集上的準確率，均高于其他三個算法。其中，當森林中決策樹數(shù)量為200時，在處理MicroMass數(shù)據(jù)集時，PDF-SNRSCA算法的準確率比其他三個算法分別高出了0.38%、0.83%、0.95%；在處理Nomao數(shù)據(jù)集時，PDF-SNRSCA算法的準確率、其他三個算法分別高出了0.83%、1.22%、1.55%；在處理TNCCD數(shù)據(jù)集時，PDF-SNRSCA算法的準確率比其他三個算法分別高出了0.81%、1.45%、1.67%；在處理FMA數(shù)據(jù)集時，PDF-SNRSCA算法的準確率比其他三個算法分別高出了1%、1.5%、1.93%。產(chǎn)生上述結(jié)果的原因如下：a）PDF-SNRSCA算法設計了FS-NRS策略，對特征進行篩選，消除了原始特征集合中大量的冗余及無關(guān)特征，提高了準確率；b）PDF-SNRSCA算法設計了S-RSEE策略，使得特征同概率被選取，解決了兩端特征利用率過低的問題，提高了整個模型的準確率；c）FFM-II策略通過重要性指數(shù)的特征篩選機制，篩選出非關(guān)鍵性特征，也對提升算法準確率有一定的幫助。實驗結(jié)果由此表明，PDF-SNRSCA算法在大數(shù)據(jù)環(huán)境下具有良好的分類性能。

2）算法運行時間實驗分析

為了驗證PDF-SNRSCA算法的時間復雜度，本文在上述四個數(shù)據(jù)集上對PDF-SNRSCA、PDFS、NID-PDF和BLB-gcForest算法分別進行了5次測試，并取5次運行時間的均值作為最終的實驗結(jié)果，如圖3所示。

從圖3中可以看出，在處理四個數(shù)據(jù)集時，PDF-SNRSCA算法所需要的運行時間都是最低的，并且在處理特征數(shù)量多的數(shù)據(jù)集時，PDF-SNRSCA算法相較于其他三種算法具有更好的優(yōu)勢。其中，在處理特征數(shù)量較多的MicroMass時，PDF-SNRSCA算法的運行時間比其他三種算法，分別縮短了13.46%、11.12%、22.23%；在處理特征數(shù)量較少TNCCD時，PDF-SNRSCA算法的運行時間比其他三種算法分別縮短了3.23%、4.43%、9.78%。出現(xiàn)上述現(xiàn)象的主要原因為：a）PDF-SNRSCA算法設計了FS-NRS策略，對特征進行篩選，消除了原始特征集合中大量的冗余及無關(guān)特征，從而加快了訓練速度；b）PDF-SNRSCA算法提出了FFM-II機制，促進了增強類向量和原始類向量的平衡，加快了模型的收斂速度。由此表明，PDF-SNRSCA算法在處理大數(shù)據(jù)問題時具有出色的性能。

3）算法加速比實驗分析

為了評估PDF-SNRSCA算法在大數(shù)據(jù)環(huán)境下的并行性能，本文在上述四個數(shù)據(jù)集上對PDF-SNRSCA、PDFS、NID-PDF和BLB-gcForest算法分別進行了5次測試，并用5次運行時間的均值來計算各算法在不同計算節(jié)點個數(shù)下的加速比。實驗結(jié)果如圖4所示。

從圖4可以看出，在處理MicroMass、Nomao、TNCCD和FMA四個數(shù)據(jù)集時，各算法在四個數(shù)據(jù)集上的加速比隨著節(jié)點數(shù)量的增加而逐漸上升，并且隨著數(shù)據(jù)規(guī)模的逐步擴大，PDF-SNRSCA算法在各數(shù)據(jù)集上的加速比遠超其他三種算法。例如，在處理數(shù)據(jù)規(guī)模較小的數(shù)據(jù)集MicroMass時，當節(jié)點為8時（圖4（a）），PDF-SNRSCA算法的加速比相較于其他三種算法分別增加了0.111、0.201、0.32；在處理數(shù)據(jù)規(guī)模較大的數(shù)據(jù)集TNCCD和FMA時，當節(jié)點為8時（圖4（c）（d）），PDF-SNRSCA算法在TNCCD數(shù)據(jù)集上的加速比，相較于其他三個算法分別高了0.479、0.928、1.054，PDF-SNRSCA算法在FMA數(shù)據(jù)集上的加速比，相較于其他三個算法分別高了0.345、0.803、0.678。出現(xiàn)上述現(xiàn)象的原因為：a）當數(shù)據(jù)規(guī)模較小時，節(jié)點通信時間占總運行時間過長，通過并行計算提升的時間有限，不足以彌補通信所消耗的時間；b）當數(shù)據(jù)規(guī)模較大時，TSM-SCA機制將任務重新進行分配，實現(xiàn)了節(jié)點之間的負載平衡，提升了模型的并行化效率，使得算法在處理數(shù)據(jù)時具有更高的加速比。以上實驗表明，PDF-SNRSCA算法在處理大數(shù)據(jù)問題時，相比其他算法具有更高的加速比。

4 結(jié)束語

為了克服在大數(shù)據(jù)環(huán)境下深度森林算法的不足，本文提出了PDF-SNRSCA算法。首先，該算法提出了FS-NRS策略，對特征進行篩選，有效減少了冗余及無關(guān)特征的數(shù)量；其次，設計S-RSEE策略，替代傳統(tǒng)的多粒度掃描，解決了兩端特征利用率過低的問題；然后，提出了FFM-II特征篩選機制，以此促進增強類向量與原始類向量之間的平衡，解決了模型收斂速度慢的問題；最后，提出了TSM-SCA任務調(diào)度機制，將節(jié)點的任務重新進行分配，解決了級聯(lián)森林并行效率低的問題。為了驗證本文算法性能，將其與PDFS、NID-PDF和BLB-gcForest等算法在Nomao、 TNCCD、FMA、MicroMass上進行比較驗證，最終實驗結(jié)果表明，PDF-SNRSCA算法可以有效處理大規(guī)模的數(shù)據(jù)集合，并且具有很好的分類效果。雖然PDF-SNRSCA算法在大數(shù)據(jù)環(huán)境下表現(xiàn)出良好的訓練效果，但其仍有一些不足：a）特征預處理階段計算時間過長；b）級聯(lián)森林并行化階段中，級聯(lián)森林的并行粒度較低。所以未來的工作重點在于如何更加有效地進行特征篩選，以及如何進一步對深度森林進行劃分，使得并行粒度和節(jié)點通信開銷達到一個新的平衡。

參考文獻：

[1]Zhou Zhihua， Feng Ji. Deep forest［J］.National Science Review，2019，6（1）：74-86.

［2]Mou Luntian， Mao Shasha， Xie Haitao， et al. Structured behaviour prediction of on-road vehicles via deep forest［J］.Electronics Letters，2019，55（8）：452-455.

［3]Yaakoub B， Mohamed F， Imed R F. Remote sensing scene classification using convolutional features and deep forest classifier［J］.IEEE Geoscience and Remote Sensing Letters，2019，16（12）：1944-1948.

［4]Hu Guangzheng， Li Huifang， Xia Yuanqing， et al. A deep Boltzmann machine and multi-grained scanning forest ensemble collaborative method and its application to industrial fault diagnosis［J］.Computers in Industry，2018，100：287-296.

［5]陳呂鵬，殷林飛，余濤，等.基于深度森林算法的電力系統(tǒng)短期負荷預測［J］.電力建設，2018，39（11）：42-50.（Chen Lyupeng， Yin Linfei， Yu Tao， et al. Short-term power load forecasting based on deep forest algorithm［J］.Electric Power Construction，2018，39（11）：42-50.）

［6]毛伊敏，甘德瑾，廖列法，等.基于Spark框架和ASPSO的并行劃分聚類算法［J］.通信學報，2022，43（3）：148-163.（Mao Yimin， Gan Dejin， Liao Liefa， et al. Parallel division clustering algorithm based on Spark framework and ASPSO［J］.Journal on Communications，2022，43（3）：148-163.）

［7]Li Xuebing， Sun Ying， Zhuang Fuzhen， et al. Potential off-grid user prediction system based on Spark［J］.ZTE Communications，2019，17（2）：26-37.

［8]Liu Zhenpeng， Su Nan， Qin Yiwen， et al. A deep random forest model on Spark for network intrusion detection［J］.Mobile Information Systems.（2020-01-01）.https：//doi.org/10.1155/2020/6633252.

［9]Chen Zexi， Wang Ting， Cai Haibin， et al. BLB-gcForest：a high-performance distributed deep forest with adaptive sub-forest splitting［J］.IEEE Trans on Parallel and Distributed Systems，2022，33（11）：3141-3152.

［10]Yin Tengyu， Chen Hongmei， Yuan Zhong， et al. Noise-resistant multilabel fuzzy neighborhood rough sets for feature subset selection［J］.Information Sciences，2022，621：200-226.

［11]Pang Jing， Yao Bingxue， Li Lingqiang. Generalized neighborhood systems-based pessimistic rough sets and their applications in incomplete information systems［J］.Journal of Intelligent & Fuzzy Systems，2022，42（3）：2713-2725.

［12]Sun Lin， Yin Tengyu， Ding Weiping， et al. Multilabel feature selection using ML-ReliefF and neighborhood mutual information for multi-label neighborhood decision systems［J］.Information Sciences，2020，537：401-424.

［13]Zhang Di， Zhu Ping. Variable radius neighborhood rough sets and attribute reduction［J］.International Journal of Approximate Reasoning，2022，150：98-121.

［14]Xu Sixiang， Damien M， Alain T. Sparse coding and normalization for deep Fisher score representation［J］.Computer Vision and Image Understanding，2022，220：103436-103439.

［15]Li Changlun， Liang Ke， Chen Yuan， et al. An exploitation-boosted sine cosine algorithm for global optimization［J］.Engineering Applications of Artificial Intelligence，2023，117：105620-105630.

計算機應用研究2024年1期

計算機應用研究的其它文章: 多策略融合的蛇優(yōu)化算法及其應用; 基于子空間學習的快速自適應局部比值和判別分析; 基于相似圖投影學習的多視圖聚類; HHUIM：一種新的啟發(fā)式高效用項集挖掘方法; 基于專家反饋的廣義孤立森林異常檢測算法; 基于多通道時空編碼器的交通流量預測模型

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Spark和NRSCA策略的并行深度森林算法