徐靜林,黃麗霞,張雪英,李鳳蓮,杜海文,于麗君,馬 秀
(1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,太原 030024;2.山西省中電科新能源技術(shù)有限公司,太原 030024)
隨著光伏行業(yè)的迅猛發(fā)展,多晶硅電池憑借其較高的性價(jià)比一直占據(jù)著光伏市場(chǎng)的主導(dǎo)地位[1]。鑄造多晶硅是多晶硅電池制作過程中的一個(gè)重要環(huán)節(jié),提高多晶硅的鑄造質(zhì)量是保證電池質(zhì)量的關(guān)鍵。目前多晶硅鑄造生產(chǎn)工藝已經(jīng)相對(duì)成熟,所以生產(chǎn)工藝對(duì)最終多晶硅生產(chǎn)質(zhì)量的影響相對(duì)較小,而配料在高效多晶硅鑄錠生產(chǎn)過程中起著決定性的作用,對(duì)高效多晶硅鑄錠的電學(xué)性能有著至關(guān)重要的影響,同時(shí)有效合理的配料工藝對(duì)成本也有著關(guān)鍵性的影響。所以,對(duì)多晶硅鑄錠配料數(shù)據(jù)的分析有較大的工業(yè)價(jià)值。
20世紀(jì)80年代以前一般都是靠人工對(duì)多晶硅鑄錠質(zhì)量進(jìn)行分析,這種方法效率低且準(zhǔn)確率不高。隨著大數(shù)據(jù)技術(shù)的發(fā)展,許多新的數(shù)據(jù)分析方法開始用于工業(yè)生產(chǎn)中。例如文獻(xiàn)[2]利用核主元分析(KPCA)提取特征向量,將提取后的主元作為SVM的輸入,對(duì)故障進(jìn)行診斷和分類。文獻(xiàn)[3]提出一種DB小波與RBP神經(jīng)網(wǎng)絡(luò)的方法對(duì)短期電力負(fù)荷預(yù)測(cè),但訓(xùn)練樣本過大時(shí),訓(xùn)練速度會(huì)很慢。文獻(xiàn)[4]提出將鄰域粗糙集與支持向量機(jī)結(jié)合,進(jìn)行固結(jié)系數(shù)預(yù)測(cè),減輕了SVM的訓(xùn)練負(fù)擔(dān),但由于實(shí)際數(shù)據(jù)中,數(shù)據(jù)變化較大,鄰域半徑取值及分類器參數(shù)基本是憑經(jīng)驗(yàn)和反復(fù)實(shí)驗(yàn)來確定,所以如何準(zhǔn)確快速得到鄰域半徑及SVM分類器中懲罰系數(shù)c與核函數(shù)參數(shù)g的取值,在工業(yè)生產(chǎn)分析的實(shí)用性方面有很大的研究意義?;谝陨戏治觯疚奶岢鲆环N鄰域粗糙集-支持向量機(jī)模型與遺傳算法相結(jié)合的兩階段遺傳算法(NRS-SVM-GA),該算法通過遺傳算法優(yōu)化NRS-SVM參數(shù),并將遺傳算法分兩個(gè)階段進(jìn)行,根據(jù)每個(gè)階段的目的提出相應(yīng)的適應(yīng)度函數(shù)及終止條件。第一階段在代數(shù)觀點(diǎn)下的鄰域近似質(zhì)量和約簡(jiǎn)集合長(zhǎng)度基礎(chǔ)上,提出了新的約簡(jiǎn)性能評(píng)價(jià)函數(shù),并將其作為遺傳算法第一階段的適應(yīng)度函數(shù),通過搜索鄰域半徑參數(shù)得到該適應(yīng)度函數(shù)下最佳的約簡(jiǎn)集合;其次,在SVM的分類精度及第一階段約簡(jiǎn)結(jié)果基礎(chǔ)上提出第二階段適應(yīng)度函數(shù),通過調(diào)整懲罰系數(shù)c及核函數(shù)參數(shù)g訓(xùn)練出準(zhǔn)確率較高的分類模型。該方法不僅克服了以往根據(jù)經(jīng)驗(yàn)或?qū)嶒?yàn)選擇參數(shù)的弊端,而且避免了通過分類器來評(píng)價(jià)約簡(jiǎn)性能所帶來的時(shí)間消耗,且實(shí)現(xiàn)了NRS-SVM快速自動(dòng)化特征提取及分類預(yù)測(cè)。
粗糙集作為一種屬性約簡(jiǎn)方法,能夠有效地分析低維且不完備的工業(yè)生產(chǎn)數(shù)據(jù)。但Pawlak粗糙集定義在經(jīng)典等價(jià)關(guān)系和等價(jià)類基礎(chǔ)之上[5],只適合處理名義型變量,對(duì)于實(shí)際生活中普遍存在的數(shù)值型變量卻不能直接處理。胡清華等[6]將鄰域概念引入到粗糙集中,克服了經(jīng)典粗糙集不能直接處理數(shù)值型數(shù)據(jù)的缺陷,但鄰域半徑的取值一般采用經(jīng)驗(yàn)值或者通過反復(fù)實(shí)驗(yàn)獲得,極大限制了工業(yè)應(yīng)用的自動(dòng)化程度,且會(huì)導(dǎo)致輸出結(jié)果不穩(wěn)定。因此,本文對(duì)鄰域半徑參數(shù)進(jìn)行優(yōu)化,提高其在工業(yè)應(yīng)用中自動(dòng)化程度。鄰域粗糙集相關(guān)原理如下:
給定一個(gè)鄰域決策系統(tǒng)NDT(U,C∩D,V,f),其中U為對(duì)象的非空無限集合,稱為論域,C為條件屬性,D為決策屬性,V為各屬性值的集合,f是信息函數(shù),表示樣本、屬性和屬性值之間的映射關(guān)系。
定義1[6]對(duì)于任意的xi∈U,B?C,xi在屬性子集B上的σ-鄰域定義為:
σB(xi)=|xjxi∈U,ΔB(xi,xj)≤σ| .
(1)
式中:σ≥0,ΔB為兩樣本點(diǎn)之間歐式距離。
由于在實(shí)際工業(yè)生產(chǎn)中,決策屬性大多都為數(shù)值型數(shù)據(jù),在進(jìn)行屬性約簡(jiǎn)時(shí)仍需將其離散化處理,本文將鄰域粒度概念擴(kuò)展到?jīng)Q策屬性中,重新定義了論域U對(duì)決策屬性D的劃分,這樣不需要再對(duì)數(shù)值型決策進(jìn)行離散化處理,且相比離散化處理細(xì)化了決策對(duì)論域的劃分。
定義2 給定一個(gè)決策系統(tǒng)NDT(U,C∩D,V,f),xi在決策屬性D上的決策劃分情況為:
D(xi)=|xixi∈U,ΔD(xi,xj)≤σ| .
(2)
定義3 給定一個(gè)決策系統(tǒng)NDT(U,C∩D,V,f),B?C生成U上的鄰域關(guān)系NB,σB(xi)表示對(duì)象xi在屬性B下的鄰域,決策屬性集D關(guān)于條件屬性B的下近似和上近似分別為:
NBDi=|xiσB∈Di,xi∈U| .
(3)
(4)
那么數(shù)據(jù)的邊界域定義為:
(5)
定義4[7]給定一個(gè)決策系統(tǒng)NDT(U,C∩D,V,f),對(duì)?B?C,決策屬性D關(guān)于條件屬性B的鄰域近似質(zhì)量可以定義為:
(6)
式中:正域POSB(D)=NBD.
支持向量機(jī)作為一種有效的分類模型,可以在一定程度上檢驗(yàn)鄰域粗糙集屬性約簡(jiǎn)結(jié)果的可靠性,且常作為屬性約簡(jiǎn)評(píng)價(jià)指標(biāo)之一。其原理是先將所有的訓(xùn)練向量映射到一高維空間中,然后在這個(gè)空間中構(gòu)建一個(gè)最大間隔超平面。支持向量機(jī)的核函數(shù)主要分為4種:線性核、RBF(radial basis function,徑向基)核、多項(xiàng)式核和Sigmoid核。本文采用RBF核。
如果要構(gòu)建一個(gè)SVM,就需要先選擇SVM的懲罰因子c及核函數(shù)參數(shù)g.懲罰因子c控制學(xué)習(xí)復(fù)雜度,理論上隨著c的增大復(fù)雜度逐漸增高,但當(dāng)c大到一定程度,超過空間復(fù)雜度的最大值時(shí),對(duì)支持向量機(jī)的性能就不會(huì)再產(chǎn)生影響。核函數(shù)參數(shù)g的改變實(shí)質(zhì)上是支持向量機(jī)向高維度投影的特征空間的復(fù)雜度改變,當(dāng)核參數(shù)增大時(shí),投影空間復(fù)雜度降低,線性可分程度也降低;而當(dāng)核參數(shù)趨于0時(shí),特征空間的復(fù)雜度會(huì)趨于無窮,此時(shí)雖然將任意數(shù)據(jù)映射為線性可分,但會(huì)造成過擬合現(xiàn)象。因此需要針對(duì)數(shù)據(jù)集設(shè)置合理的懲罰因子c及核函數(shù)參數(shù)g,從而獲得較好的分類效果。但在實(shí)際工業(yè)數(shù)據(jù)分析中,對(duì)于參數(shù)c、g的尋優(yōu)會(huì)耗費(fèi)大量時(shí)間,影響分析效率。本文針對(duì)屬性約簡(jiǎn)后的多晶硅配料數(shù)據(jù),對(duì)SVM參數(shù)進(jìn)行優(yōu)化,減少其訓(xùn)練時(shí)間。
NRS-SVM模型已經(jīng)廣泛應(yīng)用于數(shù)據(jù)的特征提取及分類預(yù)測(cè)[8],雖然目前針對(duì)SVM參數(shù)尋優(yōu)問題已有相對(duì)成熟的尋優(yōu)算法,但對(duì)于鄰域半徑參數(shù)往往使用經(jīng)驗(yàn)值或者多次試驗(yàn)獲得,最終通過對(duì)比不同鄰域半徑取值下分類器的分類精度來得到相對(duì)較好的鄰域半徑取值,這樣會(huì)造成大量由分類器所帶來的時(shí)間消耗,同時(shí)也極大限制了工業(yè)應(yīng)用中NRS-SVM的自動(dòng)化程度。NRS-SVM模型標(biāo)準(zhǔn)遺傳算法通過分類器分類精度及約簡(jiǎn)集合長(zhǎng)度來綜合評(píng)價(jià)約簡(jiǎn)性能,當(dāng)搜索鄰域半徑取值時(shí)會(huì)產(chǎn)生多個(gè)約簡(jiǎn)結(jié)果,需要對(duì)每個(gè)約簡(jiǎn)結(jié)果都進(jìn)行分類,產(chǎn)生巨大時(shí)間消耗。因此,本文提出NRS-SVM兩階段遺傳算法。
針對(duì)NRS-SVM模型參數(shù)問題,采用遺傳算法對(duì)其進(jìn)行參數(shù)尋優(yōu)。遺傳算法(genetic algorithm,GA)起源于對(duì)生物系統(tǒng)研究的計(jì)算機(jī)模擬研究,是模擬生物界遺傳形式和參考生物進(jìn)化理論而形成的一種可以并行隨機(jī)搜索的優(yōu)化方法,它把自然界生物自然選擇優(yōu)秀個(gè)體的方法引入到優(yōu)化參數(shù)問題形成的串聯(lián)編碼群體中,參照自然界適者生存的選擇辦法,按照所選擇的適應(yīng)度函數(shù)對(duì)個(gè)體進(jìn)行測(cè)試和選擇,通過選擇、交叉和變異等步驟對(duì)個(gè)體進(jìn)行篩選,使適應(yīng)度好的個(gè)體得以保留[9]。近年來,遺傳算法作為一種模擬生物進(jìn)化和遺傳規(guī)律搜索尋優(yōu)方法,具有通用性強(qiáng)、全局最優(yōu)、搜索速度快等優(yōu)點(diǎn),目前已成為解決各種復(fù)雜問題的有力工具[10]。
本文提出基于NRS-SVM的兩階段遺傳算法(NRS-SVM-GA),即采用兩個(gè)階段標(biāo)準(zhǔn)的遺傳算法,每個(gè)階段的不同在于適應(yīng)度函數(shù)和終止條件設(shè)置不同。第一階段的目的是尋找到較優(yōu)的約簡(jiǎn)集合,第二階段的目的是訓(xùn)練出準(zhǔn)確率較高的分類模型。這樣,第一階段通過搜索最佳鄰域半徑參數(shù)λ(本文采用標(biāo)準(zhǔn)差下的鄰域半徑δ=Dst/λ)來保證數(shù)據(jù)較高的鄰域近似質(zhì)量和相對(duì)較少的配料特征個(gè)數(shù),進(jìn)而將第一階段約簡(jiǎn)結(jié)果作為第二階段SVM的輸入。由于以往都是通過分類器下的分類精度來評(píng)價(jià)約簡(jiǎn)性能,而本文第一階段屬性約簡(jiǎn)的適應(yīng)度函數(shù)沒有用SVM分類精度作為約簡(jiǎn)性能評(píng)價(jià)指標(biāo),所以不用再對(duì)第一階段得出的每個(gè)約簡(jiǎn)集合都進(jìn)行SVM分類,極大減少了運(yùn)算量;第二階段直接使用第一階段的約簡(jiǎn)結(jié)果,通過搜索最佳懲罰因子c及核函數(shù)參數(shù)g來訓(xùn)練出較高的分類模型。算法流程如圖1所示。算法中各參數(shù)設(shè)置如表1所示。
2.1.1第一階段適應(yīng)度函數(shù)
適應(yīng)度函數(shù)為兩階段遺傳算法的核心部分,一個(gè)好的適應(yīng)度函數(shù)既可以滿足所要達(dá)到的目的,同時(shí)也可以減少算法的復(fù)雜程度。本文所提算法NRS-SVM-GA中,第一階段的目的是通過尋找最佳鄰域半徑來準(zhǔn)確地刻畫基本信息粒子,從而保證數(shù)據(jù)較高的鄰域近似質(zhì)量且保留相對(duì)較小的約簡(jiǎn)集合,由式(3)-式(6)可看出,較高的鄰域近似質(zhì)量可以保證數(shù)據(jù)較高的正域,正域越大,邊界域越小,知識(shí)的不確定性越小,數(shù)據(jù)的分類性能就越好。根據(jù)以上目的,提出第一階段適應(yīng)度函數(shù):
圖1 算法流程圖Fig.1 Algorithm flow chart
表1 算法參數(shù)設(shè)置Table 1 Algorithm parameter setling
(7)
式中:l為約簡(jiǎn)集合長(zhǎng)度;T為所有條件屬性個(gè)數(shù);γB(λ)為鄰域近似質(zhì)量。為了防止在某些λ取值下約簡(jiǎn)集合個(gè)數(shù)過少致使核屬性被約簡(jiǎn),導(dǎo)致數(shù)據(jù)的分類性能嚴(yán)重下降,所以,通過(l(λ)-T/3)來保證最終約簡(jiǎn)集合長(zhǎng)度不少于總長(zhǎng)度的1/3,若小于1/3則適應(yīng)度為負(fù)數(shù),直接淘汰。這在一定程度上防止了核屬性被約簡(jiǎn)的情況,且為了減少其對(duì)最終適應(yīng)度大小的影響,將其比上本身的絕對(duì)值使其大小歸為±1;(1-l(λ)/T)來保證約簡(jiǎn)集合長(zhǎng)度越小越好的原則;μ為鄰域近似質(zhì)量與約簡(jiǎn)集合長(zhǎng)度的可信度參數(shù);同時(shí)為了使遺傳算法收斂更快,采用指數(shù)函數(shù)。
由式(7)可以看出可信度參數(shù)μ的取值決定了適應(yīng)度函數(shù)對(duì)約簡(jiǎn)集合長(zhǎng)度或鄰域近似質(zhì)量的側(cè)重度,所以可信度參數(shù)取值直接影響最終約簡(jiǎn)結(jié)果。對(duì)于可信度參數(shù)μ,取[0,1]之間以0.1為步長(zhǎng)的10組數(shù)字,采用多晶硅G6和G7產(chǎn)品配料數(shù)據(jù),比較不同μ下的鄰域近似質(zhì)量和約簡(jiǎn)集合長(zhǎng)度來衡量可信度取值。實(shí)驗(yàn)結(jié)果如下圖所示:
圖2 兩類多晶硅產(chǎn)品在不同μ下的鄰域近似質(zhì)量比較Fig.2 Field approximation mass comparison of two polysilicon products under diflerent reliability parameters
圖3 兩種多晶硅產(chǎn)品在不同μ下的約簡(jiǎn)集合長(zhǎng)度比較Fig.3 Comparison of approximately combined set lengths of two kinds of polysilicon products under different reliability parameters
由圖2和圖3可以看出當(dāng)可信度為0.7時(shí),G6和G7數(shù)據(jù)的鄰域近似質(zhì)量達(dá)到相對(duì)較大值且趨于穩(wěn)定,且都可以保持相對(duì)較小的約簡(jiǎn)集合長(zhǎng)度4.同時(shí)考慮實(shí)際需求,對(duì)于工業(yè)數(shù)據(jù)的屬性約簡(jiǎn),約簡(jiǎn)結(jié)果的可靠性往往更加值得關(guān)注,所以本文的可信度取0.7.
2.1.2第二階段適應(yīng)度函數(shù)
將第一階段輸出的約簡(jiǎn)集合作為第二階段的輸入。第二階段的目的是通過尋找最佳的懲罰因子c及核函數(shù)參數(shù)g來訓(xùn)練出準(zhǔn)確率較高的分類模型。所以將第二階段的適應(yīng)度函數(shù)設(shè)置為測(cè)試集的預(yù)測(cè)精度(accuracy),且為了綜合評(píng)價(jià)NRS-SVM-GA模型,將第一階段得到的約簡(jiǎn)集合長(zhǎng)度(l)的適應(yīng)值也寫入適應(yīng)度函數(shù)中,并設(shè)置其權(quán)重各占0.5,第二階段適應(yīng)度函數(shù)為:
(8)
同時(shí)本文采取k-折交叉驗(yàn)證(KCV),首先將原始數(shù)據(jù)隨機(jī)地分成k個(gè)互不相交的子集,每個(gè)子集的大小大致相等。用其中的一個(gè)子集作為測(cè)試集,其余子集的合集作為訓(xùn)練集,共進(jìn)行k次訓(xùn)練和測(cè)試,每次選擇不同的測(cè)試集,這樣會(huì)得到k個(gè)模型,并用k個(gè)模型最終測(cè)試結(jié)果評(píng)價(jià)指標(biāo)的平均數(shù)作為此KCV下的性能指標(biāo)[11]。此外,在分類訓(xùn)練時(shí)對(duì)特征類別做標(biāo)簽化處理,按照工廠標(biāo)準(zhǔn)認(rèn)為少子壽命值大于5.8 ms為合格類,小于5.8 ms為不合格類。
由于算法兩個(gè)階段的目標(biāo)不同,所以設(shè)置的終止條件也不同。
第一階段的目標(biāo)是得到較短的約簡(jiǎn)集合和較大的鄰域近似質(zhì)量,所以終止條件設(shè)為:當(dāng)鄰域近似質(zhì)量大于某個(gè)峰值且約簡(jiǎn)集合長(zhǎng)度為當(dāng)前種群中的最小值時(shí)算法終止,根據(jù)大量多晶硅實(shí)際數(shù)據(jù)實(shí)驗(yàn),這里將鄰域近似質(zhì)量峰值設(shè)為0.8;但在傳代過程中可能出現(xiàn)無法滿足上述終止條件的情況,所以如果滿足連續(xù)傳代個(gè)體最佳適應(yīng)度保持N次不變或達(dá)到最大傳代次數(shù)時(shí)算法也終止,考慮到算法的效率,將N設(shè)為5.
第二階段的目的是訓(xùn)練出較好的分類模型,即較高的分類精度。所以直接將終止條件設(shè)為:當(dāng)連續(xù)傳代個(gè)體最佳適應(yīng)度N次不變或達(dá)到最大傳代次數(shù)時(shí)算法終止,同樣考慮算法效率將N設(shè)為5.
針對(duì)多晶硅鑄錠生產(chǎn)的配料數(shù)據(jù)集,分別從運(yùn)行時(shí)間和最終適應(yīng)度兩方面來對(duì)比標(biāo)準(zhǔn)遺傳算法與兩階段遺傳算法。
本實(shí)驗(yàn)采用中電科2019年下半年多晶硅鑄錠生產(chǎn)配料數(shù)據(jù),其中包含G6和G7兩種產(chǎn)品,每種產(chǎn)品包含8個(gè)配料類別,分別為免洗原生多晶塊料、非免洗原生多晶塊料、碎多晶鋪底、碎片、中料、循環(huán)料、提純錠芯(自產(chǎn))、提純錠芯(外購(gòu)),屬性值為配料質(zhì)量,最終評(píng)價(jià)指標(biāo)為少子壽命值,屬性值為其壽命值。其中G6產(chǎn)品有500個(gè)樣本,G7產(chǎn)品有520個(gè)樣本。G6與G7產(chǎn)品由于生產(chǎn)工藝及原料質(zhì)量存在差異,導(dǎo)致少子壽命值評(píng)價(jià)標(biāo)準(zhǔn)不同,G6產(chǎn)品為少子壽命值大于5.8合格,G7產(chǎn)品為少子壽命值大于6.2合格。表2為G6產(chǎn)品的部分?jǐn)?shù)據(jù)示例。
表2 G6多晶硅生產(chǎn)配料部分?jǐn)?shù)據(jù)Table 2 Some date of polysilicon G6 production ingredients part of data
為了確保實(shí)驗(yàn)具有可比性,標(biāo)準(zhǔn)遺傳算法參數(shù)與表1設(shè)置相同,由于標(biāo)準(zhǔn)遺傳算法要同時(shí)滿足得到較短約簡(jiǎn)集合和較高的分類精度,所以適應(yīng)度函數(shù)設(shè)為兩階段遺傳算法的第二階段適應(yīng)度函數(shù):
(9)
終止條件與兩階段遺傳算法第二階段終止條件相同。
由于多晶硅鑄錠生產(chǎn)的配料數(shù)據(jù)集中在G6和G7兩種產(chǎn)品上,因此本文分別使用標(biāo)準(zhǔn)遺傳算法和兩階段遺傳算法進(jìn)行約簡(jiǎn)和分類,每種算法都進(jìn)行20次實(shí)驗(yàn),運(yùn)行時(shí)間和適應(yīng)度取其均值。兩種算法的運(yùn)行時(shí)間如圖4所示,適應(yīng)度如表3所示。
由圖4可以看出,兩階段遺傳算法在運(yùn)行時(shí)間上遠(yuǎn)少于標(biāo)準(zhǔn)遺傳算法,這是由于標(biāo)準(zhǔn)遺傳算法要同時(shí)進(jìn)行約簡(jiǎn)和分類兩項(xiàng)操作,每產(chǎn)生一個(gè)約簡(jiǎn)集合都要進(jìn)行一次分類訓(xùn)練,通過分類的結(jié)果來評(píng)價(jià)約簡(jiǎn)性能,這樣極大地增加了算法的運(yùn)算量。假設(shè)約簡(jiǎn)要進(jìn)行n次循環(huán),對(duì)每個(gè)約簡(jiǎn)結(jié)果的分類訓(xùn)練要進(jìn)行m次循環(huán),那么標(biāo)準(zhǔn)遺傳算法的時(shí)間復(fù)雜度為T(n)=n+mn=O(mn),而兩階段遺傳算法將約簡(jiǎn)和分類操作單獨(dú)進(jìn)行,第一階段屬性約簡(jiǎn)的適應(yīng)度函數(shù)不包含第二階段的分類結(jié)果,所以極大減少了運(yùn)算量,時(shí)間復(fù)雜度為T(n)=n+m=O(n+m).
圖4 兩種算法運(yùn)行時(shí)間對(duì)比Fig.4 Comparison of the running time of the two algorithms
由表3可以看出,標(biāo)準(zhǔn)遺傳算法的約簡(jiǎn)結(jié)果會(huì)出現(xiàn)核屬性被約簡(jiǎn)掉的情況,導(dǎo)致分類精度直線下降,但適應(yīng)度仍然較高,如產(chǎn)品G6的約簡(jiǎn)集合長(zhǎng)度為2,但分類精度降低到73.22%.這是由于標(biāo)準(zhǔn)遺傳算法的適應(yīng)度函數(shù)是為了得到較少的約簡(jiǎn)集合個(gè)數(shù)和較高的分類精度,但忽略了某些鄰域半徑參數(shù)λ值下,為了達(dá)到約簡(jiǎn)個(gè)數(shù)越小適應(yīng)度越高的目的,會(huì)使核屬性也被約簡(jiǎn)掉,導(dǎo)致數(shù)據(jù)的分類精度大幅度下降,但由于約簡(jiǎn)集合個(gè)數(shù)較少,適應(yīng)度仍然會(huì)保持較高的狀態(tài)。而兩階段遺傳算法在第一階段給出了在約簡(jiǎn)個(gè)數(shù)不能少于總個(gè)數(shù)1/3的前提下,約簡(jiǎn)個(gè)數(shù)越少越好的原則,在一定程度上防止了數(shù)據(jù)核屬性被約簡(jiǎn)掉的情況,且保證了數(shù)據(jù)整體較高的鄰域近似質(zhì)量,使邊界域變小,從而降低數(shù)據(jù)的不確定性,同時(shí)也保證了數(shù)據(jù)的可分性。
表3 標(biāo)準(zhǔn)遺傳算法與兩階段遺傳算法適應(yīng)度對(duì)比Table 3 Comparison of fitness between standard genetic algrithm and two-stage genetic algrithm
對(duì)比表3中兩種算法可以看出,兩階段遺傳算法中G6配料數(shù)據(jù)集中有12次適應(yīng)度基本保持在0.704 4左右,G7數(shù)據(jù)有15次適應(yīng)度基本保持在0.702 1左右;而標(biāo)準(zhǔn)遺傳算法G6數(shù)據(jù)集中有17次出現(xiàn)核數(shù)性被約簡(jiǎn)掉的情況,G7數(shù)據(jù)集有18次核數(shù)性被約簡(jiǎn)掉的情況。由此可見,兩階段遺傳算法的穩(wěn)定性遠(yuǎn)高于標(biāo)準(zhǔn)遺傳算法。
取兩階段遺傳算法中適應(yīng)度最高的G6和G7運(yùn)行結(jié)果作為最終的多晶硅鑄錠配料約簡(jiǎn)和分類結(jié)果,圖5以柱狀圖形式表示出G6產(chǎn)品與G7產(chǎn)品的配料對(duì)少子壽命值影響所占權(quán)重。
由圖5可見,G6產(chǎn)品中提純錠芯(外購(gòu))對(duì)少子壽命值影響最大,而G7產(chǎn)品中提純錠芯(自產(chǎn))對(duì)少子壽命值影響最大;碎片、中料和循環(huán)料對(duì)G6和G7產(chǎn)品的少子壽命值均有一定影響且影響程度基本相同;免洗原生料、非免洗原生料和碎多晶對(duì)G6和G7產(chǎn)品的少子壽命值均無影響,該結(jié)果與實(shí)際專家給定值相符。
圖5 G6和G7產(chǎn)品配料對(duì)少子壽命值影響所占權(quán)重Fig.5 The weight of G6 and G7 product ingredients on minority carrier lifetime
對(duì)于G6產(chǎn)品的屬性約簡(jiǎn)結(jié)果為碎片、中料、循環(huán)料和提純錠芯外購(gòu),并對(duì)其進(jìn)行SVM預(yù)測(cè),預(yù)測(cè)準(zhǔn)確率可達(dá)到90.88%;G7產(chǎn)品的屬性約簡(jiǎn)結(jié)果為碎片、中料、循環(huán)料、提純錠芯(自產(chǎn)),SVM的預(yù)測(cè)準(zhǔn)確率可達(dá)90.43%,對(duì)實(shí)際多晶硅生產(chǎn)有一定的指導(dǎo)意義。
傳統(tǒng)的鄰域粗糙集鄰域半徑取值采用經(jīng)驗(yàn)值或者多次實(shí)驗(yàn)的方法來獲得,往往不能快速有效地獲取鄰域半徑,大大限制了鄰域粗糙集在實(shí)際生產(chǎn)中的應(yīng)用。本文采用遺傳算法優(yōu)化NRS-SVM模型參數(shù),并將遺傳算法分為兩階段進(jìn)行,第一階段提出通過代數(shù)觀下的鄰域近似質(zhì)量及約簡(jiǎn)集合長(zhǎng)度來綜合評(píng)價(jià)約簡(jiǎn)性能,避免了以往通過分類器來評(píng)價(jià)約簡(jiǎn)性能所帶來的時(shí)間消耗;將第一階段約簡(jiǎn)結(jié)果直接作為第二階段SVM分類器的輸入,將其與標(biāo)準(zhǔn)遺傳算法對(duì)比,實(shí)驗(yàn)結(jié)果表明,該算法在多晶硅鑄錠配料數(shù)據(jù)集中平均運(yùn)行時(shí)間在5~7 min,相比標(biāo)準(zhǔn)遺傳算法平均減少了70 min,極大減少了工業(yè)數(shù)據(jù)分析中的時(shí)間消耗,且輸出結(jié)果穩(wěn)定,實(shí)現(xiàn)了NRS-SVM自動(dòng)化特征提取及分類預(yù)測(cè),為工業(yè)生產(chǎn)提供重要參考價(jià)值。