国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

鑄坯質(zhì)量缺陷預(yù)測(cè)的特征降維方法研究

2020-09-24 03:18李文深容芷君但斌斌
關(guān)鍵詞:鑄坯降維特征選擇

李文深,容芷君,但斌斌

(1. 武漢科技大學(xué)冶金裝備及其控制教育部重點(diǎn)實(shí)驗(yàn)室,湖北 武漢,430081;2. 武漢科技大學(xué)機(jī)械傳動(dòng)與制造工程湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢,430081)

連鑄生產(chǎn)過(guò)程中,及時(shí)在線(xiàn)預(yù)報(bào)和檢測(cè)鑄坯質(zhì)量,對(duì)于確保生產(chǎn)連續(xù)性、提高產(chǎn)品質(zhì)量以及降低生產(chǎn)成本具有重要意義[1]。當(dāng)前對(duì)鑄坯質(zhì)量預(yù)測(cè)的研究主要有專(zhuān)家系統(tǒng)、專(zhuān)家系統(tǒng)與智能算法結(jié)合、數(shù)據(jù)挖掘等方法,隨著大數(shù)據(jù)技術(shù)的發(fā)展,基于數(shù)據(jù)挖掘技術(shù)進(jìn)行鑄坯質(zhì)量預(yù)測(cè)成為研究熱點(diǎn)[1-2]。

數(shù)據(jù)挖掘通過(guò)提取影響鑄坯質(zhì)量的各類(lèi)因素,將之作為模型的輸入特征,利用機(jī)器學(xué)習(xí)算法找到輸入特征與鑄坯質(zhì)量之間的映射關(guān)系,進(jìn)而輸出鑄坯質(zhì)量缺陷的預(yù)測(cè)結(jié)果。當(dāng)前,針對(duì)鑄坯質(zhì)量缺陷問(wèn)題的數(shù)據(jù)挖掘,多數(shù)研究首先根據(jù)冶金原理分析鑄坯質(zhì)量缺陷的影響因素,將其作為模型輸入特征,然后利用神經(jīng)網(wǎng)絡(luò)[3]、隨機(jī)森林[4]、模糊模式識(shí)別[5]等算法來(lái)實(shí)現(xiàn)鑄坯質(zhì)量缺陷預(yù)測(cè),研究重點(diǎn)在于鑄坯質(zhì)量缺陷預(yù)測(cè)模型算法的選擇與改進(jìn),而關(guān)于對(duì)模型輸入特征處理的研究還不多見(jiàn)。雖然,基于冶金原理的研究方法保證了特征集中包含用于預(yù)測(cè)的所有重要信息,但煉鋼是一個(gè)工序復(fù)雜、過(guò)程周期長(zhǎng)、冷熱變化劇烈的過(guò)程,所涉及工藝參數(shù)眾多,各工序之間互相影響且影響機(jī)理復(fù)雜。因此,僅通過(guò)冶金原理分析往往會(huì)得到很多無(wú)關(guān)特征和冗余特征,這增加了機(jī)器學(xué)習(xí)的時(shí)間和空間復(fù)雜度,嚴(yán)重影響了模型的預(yù)測(cè)準(zhǔn)確性和運(yùn)行效率,還會(huì)帶來(lái)所謂的“維數(shù)災(zāi)難”[6]。由此可見(jiàn),選擇合適方法消除無(wú)關(guān)特征和冗余特征的影響,對(duì)于準(zhǔn)確預(yù)測(cè)鑄坯質(zhì)量尤為重要。

數(shù)據(jù)挖掘任務(wù)中,面對(duì)高維情形下數(shù)據(jù)集中無(wú)關(guān)特征和冗余特征的影響,一般通過(guò)特征融合或特征選擇來(lái)對(duì)特征集進(jìn)行降維。特征選擇主要是通過(guò)挖掘特征與類(lèi)別間的內(nèi)在聯(lián)系,保留最有利于分類(lèi)的有效特征和去除與類(lèi)別無(wú)關(guān)的特征來(lái)實(shí)現(xiàn)降維[7]。主成分分析(PCA)是一種特征的主成分提取方法,該方法通過(guò)計(jì)算樣本協(xié)方差矩陣的特征矢量,將輸入空間的特征線(xiàn)性映射到低維特征空間中[8]。

鑒于現(xiàn)有方法局限性,本文根據(jù)某鋼鐵企業(yè)連鑄生產(chǎn)過(guò)程中的參數(shù)構(gòu)建數(shù)據(jù)集,提出了一種基于最大信息系數(shù)和主成分分析的兩階段特征降維方法,應(yīng)用該方法對(duì)模型輸入特征進(jìn)行處理,并利用隨機(jī)森林算法對(duì)模型的分類(lèi)準(zhǔn)確率進(jìn)行驗(yàn)證,以期為后續(xù)提高鑄坯質(zhì)量缺陷預(yù)測(cè)模型的準(zhǔn)確率提供依據(jù)。

1 兩階段特征降維方法

本文對(duì)基于冶金原理得到的特征集進(jìn)行兩階段降維處理,方法框圖如圖1所示。由圖1可知,第一階段主要是消除無(wú)關(guān)特征影響,即相關(guān)性分析階段?;谔卣髋c鑄坯質(zhì)量缺陷之間的相關(guān)性進(jìn)行特征選擇,利用最大信息系數(shù)(maximum information coefficient,MIC)度量各維特征與鑄坯質(zhì)量缺陷的相關(guān)性,根據(jù)相關(guān)性大小對(duì)特征進(jìn)行排序,刪除相關(guān)性較弱的特征,得到的特征子集作為第二階段的輸入。第二階段是消除冗余特征影響,即冗余性分析階段?;谥鞒煞址治?PCA)方法,將第一階段得到的特征變換作為線(xiàn)性獨(dú)立的各主成分,根據(jù)前k個(gè)主成分的累計(jì)方差貢獻(xiàn)率,選擇合適的主成分?jǐn)?shù)量。

圖1 兩階段特征降維方法框圖Fig.1 Block diagram of two-stage feature dimensionality reduction method

1.1 第一階段:特征選擇

1.1.1 特征選擇方法分析

常見(jiàn)的特征選擇方法大致分為過(guò)濾法、包裝法和嵌入法三類(lèi)[6]。包裝法與機(jī)器學(xué)習(xí)相結(jié)合,需要多次訓(xùn)練模型,有時(shí)間復(fù)雜度高等問(wèn)題;嵌入法則將特征選擇與機(jī)器學(xué)習(xí)算法訓(xùn)練放在同一過(guò)程中進(jìn)行,所以必須要考慮特定模型算法是否適用于特定問(wèn)題;過(guò)濾法不依賴(lài)于特定的機(jī)器學(xué)習(xí)方法,具有運(yùn)行效率高的特點(diǎn),適用于解決高維數(shù)據(jù)中的特征選擇問(wèn)題[9],故本文使用過(guò)濾法進(jìn)行特征選擇。

過(guò)濾法中特征與標(biāo)簽之間的相關(guān)性越強(qiáng),特征對(duì)標(biāo)簽的分類(lèi)能力就越強(qiáng),亦即該特征越重要,所以關(guān)鍵在于找到合適的指標(biāo)來(lái)度量特征與標(biāo)簽間的相關(guān)性。常用的一些統(tǒng)計(jì)學(xué)指標(biāo)如pearson系數(shù)、最小二乘回歸誤差等只能用來(lái)度量線(xiàn)性關(guān)系,但考慮到煉鋼過(guò)程的復(fù)雜性,鑄坯質(zhì)量與各影響因素之間存在不確定性,即往往是非線(xiàn)性關(guān)系,故上述指標(biāo)并不適用。雖然基于距離的度量指標(biāo)ReliefF[10]和基于信息論的度量指標(biāo)信息增益(IG)[11]能用于度量線(xiàn)性和非線(xiàn)性關(guān)系,但其無(wú)法有效衡量變量間的非函數(shù)依賴(lài)關(guān)系。

考慮到上述算法的局限性,本文使用最大信息系數(shù)來(lái)度量各特征與夾雜類(lèi)缺陷的相關(guān)性,并根據(jù)相關(guān)性大小進(jìn)行排序,來(lái)選擇期望維數(shù)。最大信息系數(shù)不僅可以對(duì)大量數(shù)據(jù)中變量間的線(xiàn)性與非線(xiàn)性關(guān)系進(jìn)行度量,而且還能廣泛地挖掘出變量間的非函數(shù)依賴(lài)關(guān)系[12]。

1.1.2 最大信息系數(shù)

最大信息系數(shù)利用互信息和網(wǎng)格劃分方法進(jìn)行計(jì)算,對(duì)于任意特征X={xi,i=1,2,…,n}和標(biāo)簽Y={yi,i=1,2,…,n},n表示數(shù)據(jù)集樣本個(gè)數(shù),互信息定義為:

(1)

式中:p(x,y)表示特征X、標(biāo)簽Y的聯(lián)合概率分布函數(shù),p(x)、p(y)分別是特征X、標(biāo)簽Y的邊緣概率分布函數(shù)。

定義D={X,Y},將特征X、標(biāo)簽Y的值域分別劃分為a、b部分,定義G為a×b的網(wǎng)格,可知網(wǎng)格G有多種形式,在每種網(wǎng)格形式內(nèi)部計(jì)算互信息值,取最大值作為網(wǎng)格G的互信息值,記為MI(D,a,b)。改變a、b值,可得D在不同劃分下的MI值,并進(jìn)行歸一化處理,取最大值作為D的最大信息系數(shù),定義為:

(2)

式中:ab≤B(n),B(n)為網(wǎng)格a×b的上限值,一般取B(n)=n0.6。

1.2 第二階段:主成分分析降維

主成分分析(PCA)方法的步驟如下:

步驟1原始數(shù)據(jù)標(biāo)準(zhǔn)化,消除量綱影響。假設(shè)有n個(gè)樣本m個(gè)特征的數(shù)據(jù)集,對(duì)于第i個(gè)樣本的第j個(gè)特征xij有:

(3)

步驟2計(jì)算樣本矩陣的協(xié)方差矩陣,并算得其特征值和特征向量,即:

(4)

式中:X*為標(biāo)準(zhǔn)后的數(shù)據(jù)矩陣。求得協(xié)方差矩陣C的特征值λ1≥λ2≥…≥λm及相應(yīng)的特征向量(μ1,μ2,…,μm)。

步驟3確定主成分個(gè)數(shù)。前k個(gè)較大的特征值λ1≥λ2≥…≥λk代表前k個(gè)主成分的方差,前k個(gè)主成分的累計(jì)方差貢獻(xiàn)率為:

(5)

若η(k)超過(guò)90%,則認(rèn)為前k個(gè)主成分特征可反映原來(lái)高維特征的信息。

步驟4計(jì)算主成分。k個(gè)主成分對(duì)應(yīng)的特征向量U=[μ1,μ2,…,μk],由此得到特征的主成分矩陣,壓縮后的特征數(shù)據(jù)為:

(6)

2 特征集構(gòu)造

本文收集了某鋼鐵企業(yè)第三煉鋼廠(chǎng)1月~5月的生產(chǎn)數(shù)據(jù),經(jīng)整理共獲得數(shù)據(jù)131 676條,包含42項(xiàng)紀(jì)錄,其中41項(xiàng)為工藝參數(shù)、設(shè)備參數(shù)、生產(chǎn)記錄等(見(jiàn)表1),剩下1項(xiàng)是鑄坯質(zhì)量缺陷細(xì)分類(lèi)記錄,該記錄共含4669條數(shù)據(jù)。工廠(chǎng)將鑄坯質(zhì)量缺陷細(xì)分為22種,經(jīng)統(tǒng)計(jì)可知,夾雜類(lèi)質(zhì)量缺陷占比為63.35%,高于其他類(lèi)質(zhì)量缺陷的總和,故本文以鑄坯夾雜類(lèi)缺陷為研究對(duì)象。

表1 鑄坯生產(chǎn)過(guò)程參數(shù)Table 1 Process parameters of billet production

首先,剔除與鑄坯夾雜類(lèi)質(zhì)量缺陷明顯無(wú)關(guān)的記錄(如熔煉號(hào)、日期等)?;趯?duì)夾雜類(lèi)質(zhì)量缺陷成因的相關(guān)研究[13-14]并結(jié)合煉鋼廠(chǎng)的實(shí)際生產(chǎn)經(jīng)驗(yàn),最終確定夾雜類(lèi)質(zhì)量缺陷的22個(gè)影響因素,構(gòu)成質(zhì)量預(yù)測(cè)特征集,見(jiàn)表2。鑄坯產(chǎn)生夾雜類(lèi)質(zhì)量問(wèn)題僅有2958條數(shù)據(jù),為保證樣本均衡性,采取下采樣策略,即在正常鑄坯數(shù)據(jù)中隨機(jī)抽取2958條,與前者組成了一個(gè)含5916個(gè)樣本的數(shù)據(jù)集。數(shù)據(jù)集的前22列代表22個(gè)特征,最后一列代表標(biāo)簽,標(biāo)簽有兩種值,分別為“正?!焙汀皧A雜”。

表2 鑄坯夾雜類(lèi)質(zhì)量缺陷預(yù)測(cè)特征集Table 2 Feature set for predicting inclusion-related quality defects of billet

該組數(shù)據(jù)主要存在的問(wèn)題是存在缺失值。對(duì)于連續(xù)型變量的缺失,采用均值填補(bǔ);對(duì)于鋼種、配水方式等定類(lèi)變量的缺失,使用眾數(shù)填補(bǔ);對(duì)字符型變量進(jìn)行數(shù)值化編碼。另外,為了消除數(shù)據(jù)量綱影響以及提高算法的運(yùn)行效率,特對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

3 結(jié)果與分析

3.1 特征選擇方法比較

通常使用分類(lèi)器的準(zhǔn)確率來(lái)評(píng)價(jià)特征選擇方法所選特征子集的好壞[15]。為了驗(yàn)證MIC算法在鑄坯質(zhì)量缺陷預(yù)測(cè)問(wèn)題中的適用性,本文還利用RelieF、IG算法對(duì)特征集進(jìn)行降維,應(yīng)用隨機(jī)森林分類(lèi)器對(duì)降維后的數(shù)據(jù)集進(jìn)行處理,將分類(lèi)準(zhǔn)確率作為特征子集選擇的評(píng)價(jià)標(biāo)準(zhǔn),所有數(shù)據(jù)均是通過(guò)10折交叉驗(yàn)證取均值后獲得。采用這3種度量指標(biāo)均可以得到每維特征與鑄坯夾雜類(lèi)質(zhì)量缺陷的相關(guān)性,根據(jù)相關(guān)性大小對(duì)特征進(jìn)行排序,得到基于3種算法的特征相關(guān)性排序結(jié)果如圖2所示。

(a) MIC

(b) ReliefF

(c) IG圖2 基于三種不同算法的特征排序Fig.2 Feature ordering based on different algorithms

應(yīng)用隨機(jī)森林分類(lèi)器對(duì)3種度量指標(biāo)進(jìn)行評(píng)價(jià)時(shí),依次刪除相關(guān)性較小的特征,直至剩下一維特征為止,不同算法的分類(lèi)準(zhǔn)確率隨刪除特征數(shù)量(即數(shù)據(jù)集維度)的變化如圖3所示。由圖3可以看出,伴隨著相關(guān)性較小特征的刪除,3種算法的分類(lèi)準(zhǔn)確率與起點(diǎn)處相比均有所提升,而當(dāng)相關(guān)性較高特征被刪除時(shí),模型的分類(lèi)準(zhǔn)確率則隨之下降。

由圖3還可見(jiàn),采用MIC算法時(shí),在刪除8維特征時(shí)分類(lèi)準(zhǔn)確率最高可達(dá)89.0%,與未進(jìn)行特征選擇的情況相比,分類(lèi)準(zhǔn)確率提高了約4.2%;使用ReliefF算法,在刪除4維特征時(shí)準(zhǔn)確率最高為88.1%;使用IG算法,在刪除5維特征時(shí)準(zhǔn)確率最高為86.4%。綜合來(lái)看,使用MIC度量指標(biāo)進(jìn)行特征選擇,可以選出維度更低、分類(lèi)準(zhǔn)確率更高的特征,特征選擇效果優(yōu)于其他兩類(lèi)度量指標(biāo)。

圖3 三種算法于不同維度下的分類(lèi)準(zhǔn)確率Fig.3 Classification accuracies of three algorithms at different dimensionalities

因此,根據(jù)MIC算法的特征選擇結(jié)果,刪除相關(guān)性較小的8維特征后,保留與鑄坯夾雜類(lèi)質(zhì)量缺陷相關(guān)的14個(gè)特征為:鋼種、廢鋼加入量、結(jié)晶器渣類(lèi)型、吹氧量、長(zhǎng)水口廠(chǎng)家、中包渣類(lèi)型、斷面寬度、配水方式、精煉方式、水表號(hào)、鋼水節(jié)奏、中包噸位、中包溫度和拉速落差。

3.2 基于特征選擇的主成分分析

為驗(yàn)證特征選擇(MIC)結(jié)合主成分分析方法的有效性,分別對(duì)原始特征集和經(jīng)特征選擇后的特征集進(jìn)行主成分分析,結(jié)果發(fā)現(xiàn),前兩個(gè)主成分的累計(jì)方差貢獻(xiàn)率可達(dá)95%以上,后面的主成分對(duì)方差貢獻(xiàn)率很小,所以確定將特征集降至兩維,即原始特征集由5916×22(表示5916個(gè)樣本、22個(gè)特征,下同)減小為5916×2,經(jīng)特征選擇后的特征集由5916×14降至5916×2。

圖4所示為特征選擇前后兩類(lèi)樣本點(diǎn)的分布情況。由圖4可見(jiàn),經(jīng)過(guò)特征選擇后再降維,兩類(lèi)樣本點(diǎn)更容易區(qū)分開(kāi)。為進(jìn)一步衡量主成分分析算法的降維效果,先將降維后數(shù)據(jù)進(jìn)行歸一化處理,然后用類(lèi)內(nèi)散布矩陣的跡表示類(lèi)內(nèi)距,用類(lèi)間散布矩陣的跡表示類(lèi)間距,降維后類(lèi)間距與類(lèi)內(nèi)距的比值越大,表明降維效果越好,具體數(shù)值列于表3中。由表3可見(jiàn),經(jīng)過(guò)特征選擇后再降維,類(lèi)間距增大了0.0013,類(lèi)內(nèi)距減少了0.0089,兩者比值增大了24.1%,由此可見(jiàn),先對(duì)數(shù)據(jù)集進(jìn)行特征選擇(MIC)可以明顯提升主成分分析算法的降維效果。

(a)未經(jīng)特征選擇

(b)經(jīng)特征選擇圖4 特征選擇前后基于PCA算法的降維效果Fig.4 Dimensionality reduction effects of PCA algorithm with and without feature selection

表3 基于PCA算法的降維效果比較Table 3 Comparison of dimensionality reduction effects based on PCA algorithm

3.3 效果驗(yàn)證

利用隨機(jī)森林分類(lèi)器對(duì)不同特征處理算法的分類(lèi)精度進(jìn)行評(píng)估,結(jié)果如表4所示,所有分類(lèi)準(zhǔn)確率均是通過(guò)10折交叉驗(yàn)證取均值后獲得。由表4可見(jiàn),與未處理的數(shù)據(jù)集相比,基于MIC、PCA及MIC+PCA的特征降維方法均能提高模型的分類(lèi)準(zhǔn)確率,其中兩階段降維算法比單獨(dú)使用MIC和PCA算法的分類(lèi)精度更高,相比于未處理數(shù)據(jù)集和單獨(dú)使用MIC、PCA算法處理后的數(shù)據(jù)集,兩階段降維算法的分類(lèi)準(zhǔn)確率依次提高了8.1%、3.7%和5.2%,由此可見(jiàn),本文提出的基于最大信息系數(shù)和主成分分析的兩階段特征降維方法,可以應(yīng)用于鑄坯夾雜類(lèi)質(zhì)量缺陷的預(yù)測(cè)模型。

表4 不同特征處理方法的分類(lèi)準(zhǔn)確率Table 4 Classification accuracies of different feature processing methods

4 結(jié)論

(1)與使用ReliefF、IG算法相比,使用最大信息系數(shù)(MIC)作為特征選擇的度量標(biāo)準(zhǔn),選出的特征維度更低,分類(lèi)準(zhǔn)確率提升明顯。由此可見(jiàn),在鑄坯夾雜類(lèi)質(zhì)量缺陷預(yù)測(cè)問(wèn)題中,使用MIC算法能較準(zhǔn)確地度量各影響因素與鑄坯夾雜類(lèi)質(zhì)量缺陷間的相關(guān)性。

(2)與單獨(dú)使用(MIC)特征選擇和單獨(dú)使用主成分分析(PCA)算法相比,基于最大信息系數(shù)和主成分分析的兩階段特征降維方法可獲得最佳的分類(lèi)準(zhǔn)確率,表明本文提出的兩階段降維方法有利于提高鑄坯夾雜質(zhì)量缺陷預(yù)測(cè)模型的預(yù)測(cè)精度。

猜你喜歡
鑄坯降維特征選擇
混動(dòng)成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
基于數(shù)據(jù)降維與聚類(lèi)的車(chē)聯(lián)網(wǎng)數(shù)據(jù)分析應(yīng)用
基于鄰域區(qū)間擾動(dòng)融合的無(wú)監(jiān)督特征選擇算法框架
Q335B板坯外弧角裂紋成因研究及控制
以點(diǎn)破面解難題
低碳鋁鎮(zhèn)靜鋼鑄坯長(zhǎng)度方向上T.O和夾雜物的分布規(guī)律研究
大氣腐蝕數(shù)據(jù)降維最優(yōu)維度研究
降維打擊
基于詞向量的文本特征選擇方法研究
基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測(cè)
昌平区| 察隅县| 富阳市| 饶河县| 花莲县| 新乡县| 娱乐| 巴东县| 丁青县| 仙游县| 桃源县| 遵义县| 南宫市| 海阳市| 治县。| 昂仁县| 和硕县| 鄂温| 惠州市| 龙山县| 开化县| 赞皇县| 聂拉木县| 贡嘎县| 金寨县| 武强县| 凤山县| 姜堰市| 习水县| 徐汇区| 陇川县| 海安县| 封开县| 罗江县| 石柱| 阜宁县| 泰顺县| 方城县| 惠安县| 济阳县| 兰西县|