融合人類知識(shí)的隨機(jī)森林特征選擇方法研究

2022-08-02 01:44戴貴洋綦秀利余曉晗

計(jì)算機(jī)技術(shù)與發(fā)展 2022年7期

戴貴洋，綦秀利，余曉晗

(陸軍工程大學(xué) 指揮控制工程學(xué)院，江蘇南京 210007)

0 引言

特征選擇算法通過(guò)剔除冗余和不重要的特征，從原始特征空間中選擇出最具分辨力的特征子集，以幫助分類器提高分類精度。主流的特征選擇方法大部分是基于機(jī)器學(xué)習(xí)模型的方法，有些機(jī)器學(xué)習(xí)方法本身就具有對(duì)特征進(jìn)行打分的機(jī)制，因而很容易被運(yùn)用到特征選擇任務(wù)中，如回歸模型、SVM、決策樹和隨機(jī)森林等?，F(xiàn)實(shí)生活中，特征選擇算法已經(jīng)廣泛地應(yīng)用于各個(gè)領(lǐng)域，如數(shù)據(jù)挖掘[1-3]、信息融合[4-5]、模式識(shí)別[6-8]等。

在大多數(shù)已有研究中，特征選擇算法是基于原始數(shù)據(jù)集進(jìn)行特征篩選，算法的本質(zhì)更關(guān)注數(shù)據(jù)中隱含的特征之間關(guān)系。熊熙等人[9]提出一種稱為FOAD(fuzzy-option based attribute discriminant method)的基于模糊選項(xiàng)關(guān)系的關(guān)鍵特征選擇方法，通過(guò)數(shù)據(jù)獲取、模糊選項(xiàng)的選擇與約簡(jiǎn)以及關(guān)鍵特征的排序與提取對(duì)每個(gè)參與者樣本包含的若干特征進(jìn)行篩選，為每個(gè)特征都選擇一個(gè)程度選項(xiàng)，從而提取出關(guān)聯(lián)度更高的特征。孫廣路等人[10]發(fā)現(xiàn)最大信息系數(shù)(maximum information coefficient，MIC)可以對(duì)特征變量間的線性和非線性關(guān)系，以及非函數(shù)依賴關(guān)系進(jìn)行有效度量，并提出了一種評(píng)價(jià)各維特征間相關(guān)性的度量標(biāo)準(zhǔn)，基于新度量標(biāo)準(zhǔn)又提出近似馬爾可夫毯特征選擇方法，刪除冗余特征。這些算法對(duì)數(shù)據(jù)集中包含的信息更為關(guān)注，然而在一些應(yīng)用中，人類專家積累了有關(guān)特征關(guān)聯(lián)關(guān)系的經(jīng)驗(yàn)，這些經(jīng)驗(yàn)并不一定會(huì)體現(xiàn)到數(shù)據(jù)集中，因此常常與數(shù)據(jù)集中的信息有較高的獨(dú)立性，對(duì)特征選擇幫助較大。例如，在汽油提純過(guò)程中，通過(guò)多年積累的專家經(jīng)驗(yàn)可知?dú)溆捅仍礁?，辛烷值損失越少等。這些信息無(wú)法直接由一般的特征選擇算法學(xué)習(xí)得到，因此應(yīng)用到特征選擇上時(shí)會(huì)起到意想不到的效果。由此，該文嘗試搭建一個(gè)框架將人類知識(shí)引入特征選擇任務(wù)中，從而篩選出更具代表性的關(guān)鍵特征。

在隨機(jī)森林特征選擇模型中，設(shè)計(jì)了引入人類知識(shí)提升特征選擇效果的方法，通過(guò)基于模糊系統(tǒng)對(duì)人類知識(shí)建模，建立了人類主觀知識(shí)和客觀數(shù)據(jù)集的聯(lián)系，完成了對(duì)數(shù)據(jù)集特征的二次篩選，從大量特征中更好地篩選出關(guān)鍵特征。通過(guò)實(shí)驗(yàn)驗(yàn)證，較單一的隨機(jī)森林特征選擇算法，該方法在關(guān)鍵特征選擇問(wèn)題上具有更高的可靠性。

1 汽油提純特征選擇問(wèn)題描述

現(xiàn)實(shí)生活中，汽油燃燒產(chǎn)生的尾氣排放是污染大氣環(huán)境的重要因素，汽油清潔化工作長(zhǎng)期受到各個(gè)國(guó)家的高度重視。為了有效利用重油資源，必須對(duì)催化裂化汽油進(jìn)行精制處理，以滿足對(duì)汽油質(zhì)量的要求。辛烷值(RON)是反映汽油燃燒性能的最重要指標(biāo)，某石化企業(yè)積累了大量歷史數(shù)據(jù)，其中對(duì)辛烷值損失和產(chǎn)品硫含量有影響的特征變量包括7個(gè)原料性質(zhì)、2個(gè)待生吸附劑性質(zhì)、2個(gè)再生吸附劑性質(zhì)、2個(gè)產(chǎn)品性質(zhì)等變量以及另外354個(gè)操作變量(共計(jì)367個(gè)特征變量)。這些特征變量中，大部分特征變量對(duì)辛烷值損失及產(chǎn)品硫含量影響較小，少量特征變量是針對(duì)催化裂化汽油進(jìn)行脫硫和降烯烴過(guò)程中的關(guān)鍵特征變量，然而，各個(gè)特征變量之間又可能相互作用，相互影響，這使得特征變量之間耦合性較高。為了工程方便，提高汽油提純工作效率，需要對(duì)367個(gè)特征變量進(jìn)行關(guān)鍵特征選擇。一般來(lái)說(shuō)，常見(jiàn)的特征選擇算法在處理大量耦合的非線性數(shù)據(jù)中，很難選擇出少部分關(guān)鍵變量。

在汽油提純過(guò)程中，一般的特征選擇算法，如隨機(jī)森林算法通常根據(jù)決策樹的投票來(lái)選擇最優(yōu)的特征變量，每個(gè)特征都試圖代表局部最優(yōu)解，這些算法通常只關(guān)注數(shù)據(jù)集的本身，容易受到數(shù)據(jù)采樣方式的影響，從而疏漏關(guān)鍵變量。研究發(fā)現(xiàn)，影響辛烷值變化除了反映在客觀數(shù)據(jù)中，還會(huì)積累到專家經(jīng)驗(yàn)中，例如，氫油比含量越高，辛烷值損失越少，產(chǎn)品中硫含量越低；反應(yīng)器溫度控制在421℃左右時(shí)，辛烷值損失少，產(chǎn)品中硫含量低。這些專家經(jīng)驗(yàn)往往不容易在數(shù)據(jù)采樣中被捕捉，可以作為基于數(shù)據(jù)集特征選擇算法的補(bǔ)充，提升獲取關(guān)鍵特征的精準(zhǔn)度。

像汽油提純這樣有可用專家知識(shí)的實(shí)際問(wèn)題還有很多，在面臨此類問(wèn)題時(shí)，也可以使用客觀數(shù)據(jù)和主觀知識(shí)相結(jié)合的方法進(jìn)行更有效的關(guān)鍵特征選擇。

2 融合人類知識(shí)的隨機(jī)森林特征選擇算法

本節(jié)提出了一種融合人類知識(shí)的特征選擇方法，先利用隨機(jī)森林對(duì)特征進(jìn)行初選，然后借助模糊系統(tǒng)建模人類知識(shí)實(shí)現(xiàn)特征的進(jìn)一步篩選。

2.1 隨機(jī)森林特征初選

在現(xiàn)有的大部分?jǐn)?shù)據(jù)集中存在大量的樣本信息，每個(gè)樣本中又有大量描述樣本的特征，這些特征之間具有高度非線性和強(qiáng)耦合的關(guān)系，特征之間相互制約，并且高維度的數(shù)據(jù)可能導(dǎo)致分類結(jié)果精確度不足，這使得在特征選擇方法上，應(yīng)該保證算法在適合處理非線性特征的基礎(chǔ)上，又可以篩選出更具影響性的關(guān)鍵特征。傳統(tǒng)的線性特征選擇方法，如主成分分析、相關(guān)性分析，無(wú)法直接用于非線性特征變量的篩選，隨機(jī)森林(random forest，RF)算法較其他特征選擇算法，在過(guò)擬合問(wèn)題影響相對(duì)較小，因此選擇隨機(jī)森林算法對(duì)特征進(jìn)行初步選擇。

隨機(jī)森林算法如圖1所示。

圖1 隨機(jī)森林算法

在數(shù)據(jù)集D中隨機(jī)抽取N個(gè)子樣本集(有放回隨機(jī)抽樣選擇，迭代N次)，每個(gè)子樣本集對(duì)應(yīng)一棵決策樹，每棵決策樹都是一個(gè)分類器，那么對(duì)于一個(gè)輸入樣本，N棵樹會(huì)有N個(gè)分類結(jié)果，根據(jù)每棵樹的分類結(jié)果計(jì)算所有特征得分，并給定本棵決策樹中最具影響的特征，即為本棵決策樹的投票結(jié)果。通過(guò)隨機(jī)森林集成所有決策樹的投票結(jié)果，將投票次數(shù)最多的特征輸出為關(guān)鍵特征。

具體來(lái)說(shuō)，隨機(jī)森林算法流程如下:

(1)在原始數(shù)據(jù)集D中，采取有放回的抽樣方法隨機(jī)選擇N個(gè)樣本集，N個(gè)樣本集中，每個(gè)樣本集對(duì)應(yīng)一棵決策樹，由此構(gòu)建K棵決策樹，每次未被抽到的樣本組成K個(gè)袋外數(shù)據(jù)(out-of-bag，OOB)以用于之后的無(wú)偏估計(jì)。

(2)每個(gè)樣本中包含M個(gè)輸入特征，每棵樹的每個(gè)節(jié)點(diǎn)在M個(gè)輸入特征中隨機(jī)選取m個(gè)子特征(m?M)，計(jì)算每個(gè)子特征所含的信息量，在m個(gè)特征中選擇一個(gè)最具分類能力的節(jié)點(diǎn)進(jìn)行分裂。

(3)按照每棵樹盡最大程度生長(zhǎng)原則，對(duì)這棵樹進(jìn)行分枝生長(zhǎng)，并且沒(méi)有剪枝過(guò)程，直到這棵樹可以按照制定標(biāo)準(zhǔn)分類數(shù)據(jù)集或所有屬性都被使用過(guò)。根據(jù)分類結(jié)果，每棵決策樹計(jì)算所有特征得分。

(4)將生成的多棵決策樹集成隨機(jī)森林，根據(jù)每棵樹的投票結(jié)果(決策樹最高得分特征)輸出投票最高的特征即為關(guān)鍵特征。

(5)對(duì)于由多棵決策樹構(gòu)成的隨機(jī)森林來(lái)說(shuō)，就像一個(gè)黑盒子，無(wú)法控制模型內(nèi)部的運(yùn)行，只能在不同的參數(shù)和隨機(jī)種子之間進(jìn)行嘗試，這會(huì)使很多相似的決策樹掩蓋了部分真實(shí)的結(jié)果，在特征選擇上可能選擇了部分非關(guān)鍵特征，對(duì)于小數(shù)據(jù)或者低維數(shù)據(jù)，容易產(chǎn)生較差的分類效果。為了選擇出更優(yōu)的特征，該文融入人類專家知識(shí)對(duì)特征進(jìn)一步篩選，從而盡量多地排除非關(guān)鍵特征。

2.2 融合人類知識(shí)的特征選擇

2.2.1 人類知識(shí)建模

為了對(duì)經(jīng)隨機(jī)森林算法初選的特征進(jìn)一步篩選，需要將人類專家知識(shí)融入模型。作為人類專家知識(shí)模型的代表，模糊系統(tǒng)(fuzzy system，F(xiàn)S)[12]可以將輸入、輸出和狀態(tài)變量定義在模糊集上，模糊系統(tǒng)抓住了人腦思維的模糊性特點(diǎn)，模仿人的綜合推斷來(lái)處理常規(guī)數(shù)學(xué)方法難以解決的模糊信息處理問(wèn)題，較好地解決非線性問(wèn)題。該文采用Mamdani型模糊系統(tǒng)[13]作為關(guān)鍵特征篩選的人類知識(shí)模型。Mamdani型模糊系統(tǒng)結(jié)構(gòu)如圖2所示，由模糊器、知識(shí)庫(kù)、推理機(jī)和解模糊器四部分構(gòu)成。

圖2 模糊系統(tǒng)框架

首先模糊器將輸入x模糊化成模糊集，然后推理機(jī)基于知識(shí)庫(kù)對(duì)這些模糊集進(jìn)行推理，最后解模糊器將推導(dǎo)出的模糊集轉(zhuǎn)換為輸出y。知識(shí)庫(kù)是模糊系統(tǒng)的核心部分，主要包含數(shù)據(jù)庫(kù)(data base，DB)和規(guī)則庫(kù)(rule base，RB)，其中DB包含語(yǔ)言規(guī)則中考慮的語(yǔ)言術(shù)語(yǔ)集和定義語(yǔ)言標(biāo)簽語(yǔ)義的隸屬函數(shù)，RB由IF-THEN形式的規(guī)則組成[14]。組成Mamdani型模糊系統(tǒng)規(guī)則庫(kù)的規(guī)則形式如下：

在模糊系統(tǒng)中，模糊規(guī)則是專家根據(jù)數(shù)據(jù)集中的人類知識(shí)搭建的推理方式，它可以基于初步選擇的特征變量，并通過(guò)模糊系統(tǒng)推理給定初步選擇特征中每個(gè)特征的最終得分。汽油提純問(wèn)題中，其核心目的在于改變其他特征變量(如氫油比、反應(yīng)器上部溫度、反應(yīng)器底部壓力等)可使產(chǎn)品較少提高硫含量的同時(shí)更高降低辛烷值損失。以氫油比特征變量為例，可以根據(jù)專家知識(shí)給出如下模糊規(guī)則以篩選關(guān)鍵特征變量：

如果氫油比是高，辛烷值損失是高，那么氫油比的影響因素高。

如果氫油比是低，辛烷值損失是高，那么氫油比的影響因素低。

如果氫油比是高，辛烷值損失是低，那么氫油比的影響因素低。

如果氫油比是低，辛烷值損失是低，那么氫油比的影響因素高。

這里，模糊系統(tǒng)的輸出會(huì)給定此特征變量在汽油提存問(wèn)題中的影響效果得分。一般情況下，模糊變量對(duì)應(yīng)的隸屬度函數(shù)由專家直接給出標(biāo)準(zhǔn)隸屬度函數(shù)，其論域取值為0～1之間。

同樣的，針對(duì)同時(shí)與產(chǎn)品硫含量和辛烷值損失有關(guān)的特征，仍然可以搭建類似模糊系統(tǒng)評(píng)判特征變量的影響效果，例如搭建模糊規(guī)則如下(以氫油比、產(chǎn)品硫含量和辛烷值損失三個(gè)模糊變量中的一條規(guī)則為例)：

數(shù)據(jù)可視化的基本思想，是將數(shù)據(jù)庫(kù)中的每一個(gè)數(shù)據(jù)項(xiàng)看作是一個(gè)獨(dú)立的圖形元素，從而將大量的數(shù)據(jù)集合構(gòu)成圖像，使得用戶可以發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的信息并可進(jìn)行交互式處理的方法、理論和技術(shù)。從而將復(fù)雜的數(shù)據(jù)信息得以更加直觀地表達(dá)出來(lái)。

如果氫油比是高，產(chǎn)品硫含量是高，辛烷值損失是高，那么氫油比的影響因素高。

模糊系統(tǒng)可以利用大量人類知識(shí)進(jìn)行建模，從而使用人類知識(shí)指導(dǎo)特征變量的篩選，接下來(lái)將描述如何搭建合適的模糊系統(tǒng)對(duì)特征進(jìn)一步篩選。

2.2.2 融合人類知識(shí)的隨機(jī)森林特征提取方法

為了更好地排除非關(guān)鍵屬性帶來(lái)的影響，將人類知識(shí)引入隨機(jī)森林特征選擇中，搭建一個(gè)良好的模糊系統(tǒng)，有效地在特征初選之后進(jìn)一步篩選出關(guān)鍵特征，也就是將隨機(jī)森林算法和模糊系統(tǒng)進(jìn)行融合。融合人類知識(shí)的隨機(jī)森林特征提取方法流程如圖3所示。

圖3 融合人類知識(shí)的隨機(jī)森林特征提取方法流程

由于原始數(shù)據(jù)中大部分特征變量數(shù)據(jù)正常，但數(shù)據(jù)集中少量數(shù)據(jù)可能出現(xiàn)數(shù)據(jù)不完整、數(shù)據(jù)缺失等問(wèn)題，需要對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)處理才能使用，因此，首先需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。面對(duì)特征數(shù)據(jù)過(guò)量冗余的原始特征，隨機(jī)森林算法中的N棵決策樹對(duì)輸入的原始特征進(jìn)行投票，經(jīng)過(guò)n次迭代給出n個(gè)初步篩選后的特征。根據(jù)n個(gè)初步選擇的特征變量分別搭建模糊系統(tǒng)，將人類專家知識(shí)指導(dǎo)特征變量的進(jìn)一步選擇，同樣以汽油提純問(wèn)題中的氫油比特征變量的模糊規(guī)則為例：

如果氫油比是高，辛烷值損失是高，那么氫油比的影響因素高。

這里將氫油比特征在汽油提純中的影響效果通過(guò)人類專家知識(shí)進(jìn)行建模，如果許多數(shù)據(jù)樣本都體現(xiàn)出“氫油比高則辛烷值損失就高”的規(guī)律，那么氫油比這個(gè)特征的影響因素就相應(yīng)很高，相反樣本不能體現(xiàn)這個(gè)規(guī)則，氫油比特征就沒(méi)有那么重要。將數(shù)據(jù)樣本輸入到所有模糊系統(tǒng)中就能確定每個(gè)特征的影響因素得分，根據(jù)排名，取其前m個(gè)特征變量作為最終的關(guān)鍵特征。

接下來(lái)設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證融合人類知識(shí)的隨機(jī)森林特征提取模型的有效性。

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)集介紹及數(shù)據(jù)處理

原始數(shù)據(jù)采集來(lái)自于中石化高橋石化實(shí)時(shí)數(shù)據(jù)庫(kù)(霍尼韋爾PHD)及LIMS實(shí)驗(yàn)數(shù)據(jù)庫(kù)。其中操作變量數(shù)據(jù)來(lái)自于實(shí)時(shí)數(shù)據(jù)庫(kù)，采集時(shí)間為2017年4月至2020年5月，采集操作位點(diǎn)數(shù)共354個(gè)。2017年4月至2019年9月，數(shù)據(jù)采集頻次為每3分鐘1次；2019年10月至2020年5月，數(shù)據(jù)采集頻次為每6分鐘1次。原料、產(chǎn)品和催化劑數(shù)據(jù)來(lái)自于LIMS實(shí)驗(yàn)數(shù)據(jù)庫(kù)，數(shù)據(jù)時(shí)間范圍為2017年4月至2020年5月。其中原料及產(chǎn)品的辛烷值是重要的建模變量，該數(shù)據(jù)采集頻次為每周2次。依據(jù)從催化裂化汽油精制裝置采集的325個(gè)數(shù)據(jù)樣本(每個(gè)數(shù)據(jù)樣本都有354個(gè)特征變量)，通過(guò)選擇關(guān)鍵特征建立汽油辛烷值(RON)損失的預(yù)測(cè)模型，并根據(jù)模型預(yù)測(cè)驗(yàn)證該融合人類知識(shí)的隨機(jī)森林特征提取方法的有效性。

原始數(shù)據(jù)中，大部分變量數(shù)據(jù)正常，但每套裝置的數(shù)據(jù)均有部分位點(diǎn)存在問(wèn)題：部分變量只含有部分時(shí)間段的數(shù)據(jù)，部分變量的數(shù)據(jù)全部為空值或部分?jǐn)?shù)據(jù)為空值。因此對(duì)原始數(shù)據(jù)進(jìn)行處理后才可以使用。數(shù)據(jù)處理方法如下：

(1)對(duì)于只含有部分時(shí)間點(diǎn)的位點(diǎn)，如果其殘缺數(shù)據(jù)較多，無(wú)法補(bǔ)充，將此類位點(diǎn)刪除；

(2)刪除325個(gè)樣本中數(shù)據(jù)全部為空值的位點(diǎn)；

(3)對(duì)于部分?jǐn)?shù)據(jù)為空值的位點(diǎn)，空值處用其前后兩個(gè)小時(shí)數(shù)據(jù)的平均值代替；

(4)根據(jù)工藝要求與操作經(jīng)驗(yàn)，總結(jié)出原始數(shù)據(jù)變量的操作范圍，然后采用最大最小的限幅方法剔除一部分不在此范圍的樣本；

(5)根據(jù)拉依達(dá)準(zhǔn)則(3σ準(zhǔn)則)去除異常值。

3σ準(zhǔn)則：設(shè)對(duì)被測(cè)量變量進(jìn)行等精度測(cè)量，得到x1,x2,…,xn，算出其算術(shù)平均值x及剩余誤差vi=xi-x(i=1,2,…,n)，并按貝塞爾公式算出標(biāo)準(zhǔn)誤差σ，若某個(gè)測(cè)量值xb的剩余誤差vb(1≤b≤n)，滿足|vb|=|xb-x|>3σ，則認(rèn)為xb是含有較大誤差值的壞值，應(yīng)予剔除。貝塞爾公式如下：

3.2 特征提取

實(shí)驗(yàn)中，在保證汽油產(chǎn)品脫硫效果(歐六和國(guó)六標(biāo)準(zhǔn)均為不大于10 μg/g，但為了給企業(yè)裝置操作留有空間，要求產(chǎn)品硫含量不大于5 μg/g)的前提下，盡量降低汽油辛烷值損失在30%以上，針對(duì)此問(wèn)題搭建融合人類知識(shí)的隨機(jī)森林二元回歸模型。

基于訓(xùn)練好的隨機(jī)森林特征選擇方法算出每一個(gè)特征的重要性得分，并對(duì)這些特征進(jìn)行排序，在所有特征中初選出重要性得分排名前30的特征。這里，將隨機(jī)森林算法中子決策樹個(gè)數(shù)設(shè)置為81，最大特征數(shù)設(shè)置為6。隨機(jī)森林算法篩選的30個(gè)特征如下：

辛烷值RON、精制汽油出裝置硫含量、混氫點(diǎn)氫氣流量、D-113頂放空線流量、ME-115過(guò)濾器壓差、D-124壓力、ME-103反吹氣總管壓力、煙氣出輻射室溫度、R-102底噴頭壓差、D121液面、D-124液位、S_ZORB AT-0004、D104液面、D-107下部松動(dòng)風(fēng)流量、R102轉(zhuǎn)劑線壓差、反吹氫氣壓力、R-102床層吸附劑料位密度、D-110底部、D-107底壓力、加熱爐氧含量、R-102下部壓力、氫油比、D-202液位、P-101A入口過(guò)濾器差壓、精制汽油出裝置溫度、穩(wěn)定塔頂回流流量、D-201含硫污水液位、芳烴、D-110蒸汽盤管入口流量、D-201含硫污水排量。

通過(guò)專家知識(shí)經(jīng)驗(yàn)對(duì)變量進(jìn)一步篩選是關(guān)鍵步驟，為了同時(shí)滿足汽油辛烷值損失在30%以上，且產(chǎn)品硫含量不大于5 μg/g，搭建如表1所示的模糊系統(tǒng)(以氫油比特征變量為例)。

表1 滿足辛烷值損失和硫含量條件下對(duì)關(guān)鍵變量提取的模糊系統(tǒng)

這里，由隨機(jī)森林給定的30個(gè)特征變量，分別由專家給出對(duì)應(yīng)的30個(gè)模糊系統(tǒng)，經(jīng)過(guò)模糊系統(tǒng)給定30個(gè)特征變量最后得分，取其排名前19的關(guān)鍵特征變量，即最終關(guān)鍵特征變量，如表2所示。

表2 融合人類知識(shí)的關(guān)鍵變量提取

3.3 不同預(yù)測(cè)模型對(duì)關(guān)鍵特征變量的驗(yàn)證

在模型預(yù)測(cè)過(guò)程中，分別選用訓(xùn)練好的隨機(jī)森林回歸[15]、K近鄰回歸[16]和線性回歸[17]三種方法來(lái)驗(yàn)證通過(guò)融合人類知識(shí)的隨機(jī)森林算法在關(guān)鍵特征提取中的有效性。

為了能夠通過(guò)降低模型在一次數(shù)據(jù)分割中性能表現(xiàn)上的方差來(lái)保證模型性能的穩(wěn)定性，并且可以用于選擇調(diào)節(jié)參數(shù)，比較模型性能差別，該文采用十折交叉驗(yàn)證方法將所有數(shù)據(jù)切分成10個(gè)子樣本，每個(gè)子樣本輪流作為測(cè)試集，其他9個(gè)樣本作為訓(xùn)練集，重復(fù)10次，將10個(gè)結(jié)果進(jìn)行平均最終得到一個(gè)單一的估計(jì)值，實(shí)驗(yàn)結(jié)果如表3所示。

表3 實(shí)驗(yàn)結(jié)果

由表3可以看出，在未經(jīng)過(guò)特征選擇任務(wù)中，隨機(jī)森林回歸算法、K近鄰回歸算法和線性回歸算法的表現(xiàn)得分偏低，K近鄰回歸算法得分甚至出現(xiàn)負(fù)數(shù)，但隨機(jī)森林回歸算法較比其他兩種回歸算法表現(xiàn)較優(yōu)，這說(shuō)明隨機(jī)森林回歸算法在處理過(guò)度冗余的數(shù)據(jù)中有較好表現(xiàn)。經(jīng)過(guò)隨機(jī)森林初步選擇之后的30個(gè)特征，在三種回歸算法中的表現(xiàn)均有一定的提高，其中，K近鄰回歸算法在初步篩選之后的特征中有較大的提升。將人類專家知識(shí)融入到隨機(jī)森林特征選擇后篩選出的19個(gè)關(guān)鍵特征中，在通過(guò)融合人類知識(shí)的隨機(jī)森林算法提取的關(guān)鍵特征上的表現(xiàn)得分和經(jīng)過(guò)隨機(jī)森林初步特征選擇的表現(xiàn)得分對(duì)比，可以看出三種回歸算法性能有明顯增強(qiáng)，且較未經(jīng)過(guò)特征選擇的原始特征上，三種回歸算法表現(xiàn)得分顯著提高。表明了人類專家知識(shí)在特征變量選擇上的重要性，同時(shí)也證明了融合人類專家知識(shí)的隨機(jī)森林算法在特征選擇上較比單一的隨機(jī)森林特征選擇方法更優(yōu)。

4 結(jié)束語(yǔ)

模式識(shí)別和數(shù)據(jù)挖掘中的一個(gè)重要問(wèn)題是使用特征選擇或特征提取進(jìn)行降維，特別是在信息爆炸式增長(zhǎng)的情況下，更需要降維處理。該文提出了一種新的特征選擇方法，基于模糊系統(tǒng)建模，將人類專家知識(shí)整合到基于隨機(jī)森林的特征選擇方法中。通過(guò)隨機(jī)森林算法對(duì)特征初步提取后，利用人類專家知識(shí)再對(duì)特征進(jìn)一步篩選，從而得到關(guān)鍵特征。最后，通過(guò)與其他相關(guān)回歸算法的比較，驗(yàn)證了該方法在真實(shí)數(shù)據(jù)集上具有更好的效果。通過(guò)這些研究和實(shí)驗(yàn)，證明了融合人類知識(shí)的隨機(jī)森林特征選擇方法在降維問(wèn)題中的有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡