国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

CHAID-RF:基于CHAID決策樹的集成學習方法

2024-10-31 00:00:00聶斌靳???/span>李歡陳裕鳳張玉超鄭學鵬
現(xiàn)代信息科技 2024年17期

摘 要:針對卡方自動交互診斷(CHAID)決策樹易過擬合的問題,提出CHAID隨機森林方法(CHAID Random Forest, CHAID-RF)。該方法采用隨機采樣、隨機選擇特征以及集成的策略,將CHAID決策樹作為基分類器,形成CHAID-RF。為了驗證CHAID-RF的有效性,選取CART、CHAID、SVM、RF作為對比算法,以準確率、加權(quán)查準率、加權(quán)查全率、加權(quán)F值作為分類模型評價指標,以均方根誤差作為回歸模型評價指標,采用10個分類數(shù)據(jù)集和7個回歸數(shù)據(jù)集進行驗證。實驗結(jié)果表明CHAID-RF可行有效。

關鍵詞:CHAID;隨機森林;CHAID-RF;分類;回歸

中圖分類號:TP399 文獻標志碼:A 文章編號:2096-4706(2024)17-0028-09

0 引 言

決策樹算法最早于1966年被提出,常用于分類和回歸分析。經(jīng)典的決策樹算法有ID3、C4.5、CART、CHAID、Quest,之后的決策樹主要關注最佳結(jié)點的選擇問題進行決策樹構(gòu)造、改進和優(yōu)化[1-4]。現(xiàn)有決策樹算法的最佳結(jié)點函數(shù)選擇,主要偏向于信息熵、統(tǒng)計檢驗、基尼指數(shù)、粗糙集理論四個方面[5-6]。其中,CHAID(Chi-Squared Automatic Interaction Detector)是Kass等人于1980年提出的決策樹算法[7],具有數(shù)據(jù)類型適用范圍廣、可建立多叉樹、從統(tǒng)計顯著性檢驗角度確定最佳分割變量的優(yōu)點,已經(jīng)被廣泛用于許多分類和回歸應用。卻存在容易過擬合的缺點。目前,CHAID方法在社會調(diào)查[8]、市場研究[9]、醫(yī)學[10]等領域廣泛應用。車敏詩等[11]提出一種基于混沌特征及優(yōu)化CHAID決策樹的情緒識別方法,優(yōu)化后的CHAID決策樹的情緒識別率和結(jié)果置信度等各項指標明顯高于優(yōu)化前的CHAID決策樹。高多多等[12]人運用CHAID方法分析某縣農(nóng)村居民生活方式的影響因素。楊友星[13]對CHAID算法進行了改進,提出了一種使自變量間交互作用較為公平的FCHAID算法,并應用在信用風險分析中。

CHAID算法雖然具有諸多優(yōu)點,但同其他決策樹算法一樣易過擬合。隨機森林作為一種主流的集成學習算法,因其算法簡單、泛化能力強、抗過擬合能力強等優(yōu)點[14]。本文為改進CHAID算法的缺點,提出CHAID隨機森林算法(CHAID Random Forest, CHAID-RF)。以CHAID決策樹作為隨機森林的基分類器,采用隨機采樣、隨機選擇特征以及集成的策略,生成CHAID-RF。

1 方法介紹

1.1 CHAID決策樹

卡方自動交互診斷[7](Chi-squared Automatic Interaction Detector, CHAID)是一種基于統(tǒng)計學方法的決策樹算法。CHAID算法相當于一個逐步的過程:首先,為每個自變量找到最好的分區(qū)。然后,對自變量的卡方檢驗值(分類問題)或F統(tǒng)計量(回歸問題)進行比較,選出最佳分割變量。根據(jù)最佳分割變量的新區(qū)間,對數(shù)據(jù)進行細分。每一個新區(qū)間都被獨立地重新分析,以產(chǎn)生進一步的細分。

CHAID決策樹的特點有:一是自變量和因變量均可以是分類型或數(shù)值型;二是能夠建立多叉樹;三是從統(tǒng)計顯著性檢驗角度確定最佳分組變量和分割點,考慮了自變量與因變量之間的相關性。但是,CHAID存在易過擬合的問題。

1.2 隨機森林

隨機森林(Random Forest, RF)是一種基于Bagging理論的集成算法,2001年由Leo Breiman提出[15]。RF的最大特點在于隨機選擇樣本和隨機選擇特征。首先,隨機森林對原始數(shù)據(jù)采取有放回隨機抽樣方法產(chǎn)生k個子訓練集;然后,對每個訓練子集隨機抽取若干個(一般為,M為特征總數(shù))特征;最后,構(gòu)建k棵決策樹形成隨機森林。

經(jīng)典隨機森林的基分類器是分類回歸樹(Classification and Regression Tree, CART),隨機選擇樣本和隨機選擇特征彌補了單棵決策樹不穩(wěn)定和容易過擬合的2個主要缺點。因此,RF具有預測準確率高、泛化性強、訓練速度快等優(yōu)點。但在處理不平衡數(shù)據(jù)時,隨機森林模型的性能會大幅度下降。

1.3 CHAID-RF模型

1.3.1 CHAID-RF模型理論分析

CART決策樹是隨機森林最常用的基分類器,分類和回歸任務均能實現(xiàn),是典型的二叉樹。在處理二分類問題中,CART決策樹具有較好的分類性能,但在處理多分類問題中,CART決策樹的結(jié)構(gòu)會變得復雜。因為,CART決策樹在每次節(jié)點分割時,只能二分化,把多分類問題轉(zhuǎn)化成多個二分類問題解決,樹的深度會增大。

CHAID決策樹是一種數(shù)據(jù)應用范圍較廣的多叉樹,與CART算法的顯著區(qū)別在于,其最佳分組變量的是當前與輸出變量相關性最大的輸入變量,而不是使輸出變量取值的差異性下降最快的變量。CHAID決策樹和其他決策樹算法一樣,存在泛化能力差的缺陷。采用隨機采樣和隨機選擇特征的策略,將CHAID決策樹作為基分類器,形成CHAID-RF。CHAID-RF方法保留了CHAID決策樹的優(yōu)點,且解決了單棵決策樹的缺陷。CHAID-RF算法思想如下:

輸入:訓練集D,待測樣本

輸出:待測樣本的類別(輸出變量是分類型)或擬合值(輸出變量是數(shù)值型)

1)采用自助抽樣法(Bootstrap)從訓練集D中隨機抽取k個子訓練集,并且每個子訓練集的樣本量需與原始訓練集中樣本量保持一致。

2)構(gòu)建每棵樹之前隨機抽取特征生成特征子集。

3)運用卡方檢驗(輸出變量是分類型)或方差分析的F檢驗(輸出變量是數(shù)值型)得出最佳分裂特征,并生長出子節(jié)點。

4)遞歸循環(huán)步驟2至步驟3,直到滿足停止條件,決策樹構(gòu)建完畢。

5)集成k棵決策樹,形成隨機森林。

6)對于待測樣本,k棵決策樹得出k個結(jié)果。

7)對k個結(jié)果進行投票(輸出變量是分類型)或取平均值(輸出變量是數(shù)值型)得到結(jié)果。

1.3.2 CHAID-RF分類模型

當輸出變量是分類型時,CHAID-RF是一個分類模型。分類任務中,每棵CHAID決策樹會得到一個分類結(jié)果,CHAID-RF將所有決策樹分類結(jié)果的眾數(shù)作為待測樣本的最終結(jié)果。CHAID-RF分類模型結(jié)構(gòu)如圖1所示。

1.3.3 CHAID-RF回歸模型

當輸出變量是數(shù)值型時,CHAID-RF是一個回歸模型。回歸任務中,每棵CHAID決策樹會得到一個回歸值,CHAID-RF將所有決策樹回歸結(jié)果取平均作為待測樣本的最終結(jié)果。CHAID-RF回歸模型結(jié)構(gòu)如圖2所示。

2 實驗結(jié)果

2.1 實驗數(shù)據(jù)

分類任務的10組數(shù)據(jù)集、回歸任務的7組數(shù)據(jù)集均來自UCI數(shù)據(jù)庫(http://archive.ics.uci.edu)。10組分類數(shù)據(jù)集的具體信息如表1所示。回歸任務的7組數(shù)據(jù)集的具體信息如表2所示。

本文通過計算自變量之間的互信息判斷其冗余性的大小,并對每個數(shù)據(jù)集的互信息值做歸一化處理,參考相關系數(shù)的范圍劃分,當互信息大于等于0.4時為中度相關或者高度相關,故設互信息閾值為0.4,小于0.4的互信息值以白色覆蓋。根據(jù)相關結(jié)果,將數(shù)據(jù)分為3類:

1)含有大量冗余變量的數(shù)據(jù)集:Real Estate Valuation、Concert、Wisconsin Prognostic Breast Cancer、Forest Fires。

2)含有部分冗余變量的數(shù)據(jù)集:SCADI、Letter、Dermatology、Mushroom、Coil2000、Insurance Company Benchmark、Airfoil Self-Noise。

3)不含或含有極少冗余變量的數(shù)據(jù)集:CNAE-9、Nursery、Chess、Car、SPECT、Servo。

以下展示了這3類情況中經(jīng)典數(shù)據(jù)集歸一化后的結(jié)果圖:其中圖3是Real Estate Valuation數(shù)據(jù)集熱力圖,圖4是Airfoil Self-Noise數(shù)據(jù)集熱力圖,圖5是Nursery數(shù)據(jù)集熱力圖。

2.2 評價指標

準確率(A)常用于評價分類模型的整體性能,但它在評價不平衡數(shù)據(jù)集時會對分類結(jié)果產(chǎn)生誤導。因此,常添加查準率(P)、查全率(R)和F值對算法進行有效驗證。然而,查準率、查全率和F值僅適用二分類任務,對多分類任務不再適用,常用的多分類指標有Kappa系數(shù)[16]、海明距離[17]、杰卡德相似系數(shù)[18]等。為了使評價指標能同時適用于二分類和多分類任務,本文選用加權(quán)查準率(Weight Precision, WP)、加權(quán)查全率(Weight Recall, WR)和加權(quán)F值(Weight F, WF)值將多分類問題轉(zhuǎn)化為多個二分類問題進行評價。為了更直觀地給出這些評價指標的計算公式,需要用到的混淆矩陣如表3所示。

基于表3的混淆矩陣,各評價指標的計算公式如下所示:

(1)

(2)

(3)

(4)

(5)

(6)

(7)

其中,c為類別數(shù),sum為樣本總數(shù),wi為類別i的樣本數(shù),Pi、Ri、Fi分別為類別i的查準率、查全率、F值。

采用均方根誤差(RMSE)評價回歸模型的擬合效果。

2.3 實驗結(jié)果和分析

為驗證本文提出的CHAID隨機森林方法的分類以及回歸效果,設置了CART、CHAID、支持向量機(SVM)和隨機森林(RF)4種對比算法。本文實驗環(huán)境為Win 10操作系統(tǒng)(64位)、Intel Core i5-3470 CPU @3.20 GHz、8.00 GB內(nèi)存,使用Python語言編寫算法,IDE為PyCharm 2020.2.3。實驗過程中,顯著水平a設為0.05,隨機抽取的特征數(shù)為,父節(jié)點樣本數(shù)最小為2,葉節(jié)點樣本數(shù)最小為1,RF和CHAID-RF中決策樹的數(shù)量均為100。

2.3.1 分類實驗結(jié)果與分析

本文通過十組分類數(shù)據(jù)集,通過十折交叉驗證準確率、加權(quán)查準率、加權(quán)查全率、加權(quán)F值,比較CART、CHAID、SVM、RF和CHAID-RF這5種算法的分類性能,實驗結(jié)果如表4、表5和圖6所示。

具體分析如下:

1)5種算法實驗結(jié)果綜合分析。由表4、表5和圖6可知:一是Coil2000數(shù)據(jù)集上,SVM、RF、CHAID-RF這3種方法的4種評價指標結(jié)果相同,但加權(quán)查準率、加權(quán)查全率、加權(quán)F值低于CART決策樹的結(jié)果。Coil2000數(shù)據(jù)集大類含9 236個樣本,小類僅含586個樣本,因此,該結(jié)果可能是Coil2000數(shù)據(jù)集類別不平衡導致的。二是SVM算法在數(shù)據(jù)集CNAE-9、Letter、Dermatology、SPECT的4種評價指標結(jié)果均優(yōu)于其他算法,原因可能是SVM適用于小樣本學習,并且它的最終分類結(jié)果由少量支持向量決定,對異常值不敏感,具有較好的魯棒性。三是SCADI、Chess、Car數(shù)據(jù)集上CART方法的分類效果最佳,Mushroom數(shù)據(jù)集中CHAID和CART方法的分類準確率都是1,Nursery數(shù)據(jù)集中CHAID方法分類性能最佳。

2)CHAID-RF與CHAID實驗結(jié)果分析。由表4、表5和圖6可知,CHAID-RF算法在Letter數(shù)據(jù)集中的分類性能高于CHAID。CHAID-RF和CHAID算法在SCADI、Dermatology、SPECT、Coil2000數(shù)據(jù)集中分類性能相近。CHAID算法在CNAE-9、Nursery、Chess、Mushroom、Car這5個數(shù)據(jù)集中分類性能更佳。結(jié)合數(shù)據(jù)集的特點分析發(fā)現(xiàn):當數(shù)據(jù)集中含有部分或大量冗余變量,且自變量的數(shù)量較多時,CHAID-RF算法的分類效果和CHAID算法差不多,甚至優(yōu)于CHAID算法。

3)CHAID-RF與RF實驗結(jié)果分析。由表4、表5和圖6可知,CHAID-RF算法在數(shù)據(jù)集CNAE-9、SCADI、Letter的4種評價指標均高于RF算法。CHAID-RF和RF算法在Dermatology、Mushroom、Coil2000中的4種評價指標結(jié)果相近。CHAID-RF算法在數(shù)據(jù)集Nursery、Chess、SPECT的4種評價指標均低于RF算法。

綜上所述,本文提出的CHAID-RF算法具有較好的分類效果,CHAID-RF在CNAE-9、SCADI、Letter這3個多分類數(shù)據(jù)集上分類效果也優(yōu)于傳統(tǒng)隨機森林。

4)穩(wěn)定性分析。為了探究子決策樹規(guī)模對CHAID-RF算法性能的影響,進行穩(wěn)定性對比實驗。本文設定森林中初始決策樹的棵數(shù)為5,步長為5,依次遞增直到100棵決策樹為止。以十折交叉驗證的準確率為評價指標,將本文提出的CHAID-RF算法和RF算法的實驗結(jié)果進行對比,在10組分類數(shù)據(jù)集的實驗結(jié)果如圖7所示。

圖7中有10張子圖,每張子圖代表一個數(shù)據(jù)集的CHAID-RF和RF的十折交叉準確率與決策樹棵數(shù)的變化關系。其中,橫坐標代表樹的棵數(shù),縱坐標代表十折交叉準確率。由圖7分析可知:

1)隨決策樹的棵數(shù)的增加,CHAID-RF和RF的十折交叉準確率有上升趨勢,當樹的棵數(shù)達100時,10組數(shù)據(jù)集的十折交叉驗證準確率都穩(wěn)定。

2)在CNAE-9、SCADI、Letter這3個數(shù)據(jù)集中CHAID-RF算法的分類準確率明顯優(yōu)于RF。

3)CHAID-RF與RF的收斂速度相近。

2.3.2 回歸實驗結(jié)果與分析

本文通過7組回歸數(shù)據(jù)集,通過十折交叉驗證RMSE,比較CART、CHAID、SVM、RF和CHAID-RF這5種算法的回歸性能,實驗結(jié)果如表6所示。

具體分析如下:

1)5種算法實驗結(jié)果綜合分析。由表6可知,CHAID-RF在數(shù)據(jù)集Insurance Company Benchmark、Wisconsin Prognostic Breast Cancer上的均方根誤差最小;RF在數(shù)據(jù)集Real Estate Valuation的均方根誤差小于其他算法;SVM在數(shù)據(jù)集Forest Fires的均方根誤差最小;CART在數(shù)據(jù)集Airfoil Self-Noise、Concrete Compressive Strength、Servo的均方根誤差最小。

2)CHAID-RF與CHAID實驗結(jié)果分析。由表6可知,Insurance Company Benchmark、Airfoil Self-Noise、Real Estate Valuation、Concrete Compressive Strength、Wisconsin Prognostic Breast Cancer、Forest Fires這6個數(shù)據(jù)集中CHAID-RF的均方根誤差小于CHAID。Servo數(shù)據(jù)集中CHAID的均方根誤差小于CHAID-RF,可能是Servo數(shù)據(jù)集的特征個數(shù)太少,造成CHAID-RF的單棵決策樹在建立過程中學習內(nèi)容不足,進而影響CHAID-RF的回歸效果。結(jié)合數(shù)據(jù)集的特點分析發(fā)現(xiàn):當數(shù)據(jù)集中含有部分或大量冗余變量且自變量的數(shù)量較多時,CHAID-RF算法的擬合效果優(yōu)于CHAID算法。

3)CHAID-RF與RF實驗結(jié)果分析。由表6可知,Insurance Company Benchmark、Wisconsin Prognostic Breast Cancer、Forest Fires這3個數(shù)據(jù)集中CHAID-RF的均方根誤差小于RF。Airfoil Self-Noise、Real Estate Valuation、Concrete Compressive Strength、Servo這4個數(shù)據(jù)集中RF的均方根誤差小于CHAID-RF。實驗結(jié)果表明,CHAID-RF同RF一樣可用于回歸分析,并且在某些數(shù)據(jù)集中CHAID-RF擬合效果優(yōu)于RF。

綜上所述,本文提出的CHAID-RF算法亦可實現(xiàn)回歸任務,并且在Insurance Company Benchmark、Wisconsin Prognostic Breast Cancer數(shù)據(jù)集上擬合效果最優(yōu)。

4)穩(wěn)定性分析。為了探究子決策樹規(guī)模對CHAID-RF算法性能的影響,進行穩(wěn)定性對比實驗。本文設定森林中初始決策樹的棵數(shù)為5,步長為5,依次遞增直到100棵決策樹為止。以十折交叉驗證的RMSE為評價指標,將本文提出的CHAID-RF算法和RF算法的實驗結(jié)果進行對比,在7組分類數(shù)據(jù)集的實驗結(jié)果如圖8所示。

圖8中有7張子圖,每張子圖代表一個數(shù)據(jù)集的CHAID-RF和RF的十折交叉RMSE與決策樹棵數(shù)的變化關系。其中,橫坐標代表樹的棵數(shù),縱坐標代表十折交叉RMSE。圖8分析可知:

1)隨決策樹的棵數(shù)的增加,CHAID-RF和RF的十折交叉RMSE有下降趨勢,當樹的棵數(shù)達100時,7組數(shù)據(jù)集的十折交叉驗證RMSE均穩(wěn)定。

2)在數(shù)據(jù)集Insurance Company Benchmark、Wisconsin Prognostic Breast Cancer、Forest Fires這3個數(shù)據(jù)集CHAID-RF算法的擬合效果優(yōu)于RF。

3)CHAID-RF與RF的收斂速度相近。

3 結(jié) 論

針對CHAID算法容易過擬合的缺陷,本文提出CHAID-RF算法。CHAID-RF方法的基分類器是CHAID決策樹,當CHAID決策樹規(guī)模達到一定數(shù)量后,CHAID-RF的評價指標保持在穩(wěn)定的范圍內(nèi)。通過10個分類數(shù)據(jù)集和7個回歸數(shù)據(jù)集實驗,實驗結(jié)果表明,CHAID隨機森林方法具有較好的分類和回歸效果。但是,本文提出的CHAID-RF算法在樣本不平衡的數(shù)據(jù)中的結(jié)果會偏向于訓練集中樣本量多的類別,在后期工作中,將進一步深入研究。

參考文獻:

[1] LAWRENCE R L,WRIGHT A. Rule-Based Classification Systems Using Classification and Regression Tree (CART) Analysis [J].Photogrammetric Engineering and Remote Sensing,2001,67(10):1137-1142.

[2] 謝鑫,張賢勇,楊霽琳.融合信息增益與基尼指數(shù)的決策樹算法 [J].計算機工程與應用,2022,58(10):139-144.

[3] 王川杭.消除隨機一致性的決策樹及深度森林方法 [D].太原:山西大學,2021.

[4] HAYES T,USAMI S,JACOBUCCI R,et al. Using Classification and Regression Trees (CART) and Random Forests to Analyze Attrition: Results from Two Simulations [J].Psychology and Aging,2015,30(4):911-929.

[5] CAMPBELL P R J,F(xiàn)ATHULLA H,AHMED F. FuzzyCART: A Novel Fuzzy Logic based Classification & Regression Trees Algorithm [C]//2009 International Conference on Innovations in Information Technology (IIT).Al Ain:IEEE,2009:175-179.

[6] 姚岳松,張賢勇,陳帥,等.基于屬性純度的決策樹歸納算法 [J].計算機工程與設計,2021,42(1):142-149.

[7] 薛薇,陳歡歌.SPSS Modeler數(shù)據(jù)挖掘方法及應用:第2版 [M].北京:電子工業(yè)出版社,2014.

[8] 程國柱,程瑞,徐亮.公路小半徑曲線段外側(cè)車道路側(cè)事故概率預測 [J].哈爾濱工業(yè)大學學報,2021,53(3):178-185.

[9] 程可.基于CHAID模型的P2P網(wǎng)貸平臺財務預警研究 [D].太原:山西財經(jīng)大學,2018.

[10] 趙巧燕,浮志坤,陳健超,等.冠狀動脈搭橋術(shù)后醫(yī)院感染風險預測模型構(gòu)建 [J].中華醫(yī)院感染學雜志,2021,31(2):296-300.

[11] 車敏詩,聶春燕,范如俊,等.一種基于混沌特征及優(yōu)化CHAID決策樹的情緒識別方法 [J].計算機應用研究,2020,37(S2):105-107.

[12] 高多多,張愛蓮,任雯娟.基于CHAID模型的某縣農(nóng)村居民生活方式影響因素分析 [J].中國衛(wèi)生統(tǒng)計,2020,37(5):659-663.

[13] 楊友星.CHAID算法并行化及其在信用風險分析中的應用 [D].長春:長春工業(yè)大學,2016.

[14] 徐精誠,陳學斌,董燕靈,等.融合特征選擇的隨機森林DDoS攻擊檢測 [J].計算機應用,2023,43(11):3497-3503.

[15]陳志添.基于決策樹的診斷相關組分類研究 [D].廣州:華南理工大學,2018.

[16]徐樹良,王俊紅.基于Kappa系數(shù)的數(shù)據(jù)流分類算法 [J].計算機科學,2016,43(12):173-178.

[17]譚吉玉,朱傳喜,張小芝,等.基于海明距離和TOPSIS的直覺模糊數(shù)排序法 [J].統(tǒng)計與決策,2015(19):94-96.

[18]于海平,林曉麗.基于增強雙邊濾波的圖像分割模型及應用 [J].計算機工程與設計,2019,40(4):1064-1069.

作者簡介:聶斌(1972—),男,漢族,江西吉安人,教授,研究生導師,CCF會員,博士研究生在讀,研究方向:數(shù)據(jù)挖掘、中醫(yī)藥信息學、中藥學;靳??疲?999—),女,漢族,山西晉城人,碩士研究生在讀,研究方向:數(shù)據(jù)挖掘;李歡(1995—),女,漢族,江西萍鄉(xiāng)人,助教,碩士研究生,研究方向:數(shù)據(jù)挖掘;陳裕鳳(1996—),女,漢族,江西南昌人,助教,碩士研究生,研究方向:數(shù)據(jù)挖掘;張玉超(1998—),男,漢族,重慶墊江人,碩士研究生在讀,研究方向:數(shù)據(jù)挖掘;鄭學鵬(1997—),男,漢族,廣東汕尾人,碩士研究生在讀,研究方向:數(shù)據(jù)挖掘。

收稿日期:2024-03-04

DOI:10.19850/j.cnki.2096-4706.2024.17.007

基金項目:國家自然科學基金項目(82260849,61562045);江西省教育廳科技計劃研究項目(GJJ211256);江西中醫(yī)藥大學校級科技創(chuàng)新團隊發(fā)展計劃(CXTD22015)

CHAID-RF: Ensemble Learning Method Based on CHAID Decision Tree

NIE Bin, JIN Haike, LI Huan, CHEN Yufeng, ZHANG Yuchao, ZHENG Xuepeng

(College of Computer Science, Jiangxi University of Chinese Medicine, Nanchang 330004, China)

Abstract: Aiming at the problem that CHAID Decision Tree is easy to overfitting, CHAID-RF is proposed. In this method, CHAID Decision Tree is used as the base classification to form CHAID-RF by random sampling, random feature selection and integration strategies. CART, CHAID, SVM, and RF are selected as the comparison algorithm to verify the effectiveness of CHAID-RF, accuracy, Weighted Precision Ratio, Weighted Recall Ratio, and Weighted F-measure are used as evaluation index of classification model, and Root Mean Square Error is used as evaluation index of regression model, 10 classification data sets and 7 regression data sets are used for validation. The experimental results show that CHAID-RF is feasible and effective.

Keywords: CHAID; Random Forest; CHAID-RF; classification; regression

长治市| 抚远县| 吉水县| 宜良县| 祁连县| 东丰县| 怀安县| 普宁市| 巨鹿县| 墨竹工卡县| 合阳县| 五常市| 淮南市| 陆河县| 神木县| 岑巩县| 合阳县| 永福县| 莱阳市| 梓潼县| 台山市| 远安县| 进贤县| 伊宁县| 涟源市| 通辽市| 扶风县| 潍坊市| 都兰县| 布拖县| 曲沃县| 会理县| 安西县| 永州市| 大荔县| 杭锦旗| 大石桥市| 新沂市| 滦南县| 弥渡县| 绥江县|