雷華歡,徐家倬,陳 平,劉麗蘭
抗拉強度是金屬由均勻塑性變形向局部集中塑性變形過度的臨界值,也是金屬在靜拉伸條件下的最大承載能力。抗拉強度是金屬產(chǎn)品是否合格的重要指標之一。某鋼廠為了提高連退產(chǎn)品帶鋼的生產(chǎn)合格率,特別對帶鋼抗拉強度的影響因素進行了分析。該企業(yè)在長期的生產(chǎn)過程中積累了豐富的產(chǎn)品性能數(shù)據(jù),為了充分利用這些數(shù)據(jù)來提高產(chǎn)品的性能,進行新產(chǎn)品新工藝的設計,從而提高企業(yè)的經(jīng)濟效益和增強企業(yè)競爭力,企業(yè)的技術人員應用數(shù)據(jù)挖掘這一技術對這些數(shù)據(jù)進行挖掘分析來得到具體影響帶鋼抗拉強度的因素及其之間的關系。
數(shù)據(jù)挖掘[1]是從大量的數(shù)據(jù)中提取隱含在其中的、實現(xiàn)不知道的、但又是潛在有用的信息和知識的過程。它是一個萃取和展現(xiàn)新知識的流程。通過分析具體數(shù)據(jù),發(fā)現(xiàn)確定有效的、新穎的、有潛在使用價值的信息,為企業(yè)的運營和決策部門做出重要決策提供幫助。其中,決策樹以其出色的數(shù)據(jù)分析效率、直觀易懂等特點,倍受青睞?;谛畔⒄摰臎Q策樹分類算法應用較為廣泛,該方法屬于從特例推導到一般規(guī)則的歸納學習方法,基本原理是用決策樹表示分類的規(guī)則。
本文基于某鋼廠的2010年帶鋼產(chǎn)品數(shù)據(jù)集,以馬克威分析系統(tǒng)4.0為平臺,采用決策樹算法挖掘數(shù)據(jù)集中的知識、規(guī)則和模式,為找到影響帶鋼抗拉強度的主要因素提供決策依據(jù)。
決策樹[2]是一種以實例(訓練集)為基礎的歸納學習方法。它著眼于從一組無秩序、無規(guī)則的實例中推理出決策樹表示形式的分類規(guī)則。采用自頂向下的遞歸方式,在內(nèi)部節(jié)點進行屬性值的比較,并根據(jù)不同的屬性值判斷從該節(jié)點向下的分支,在葉節(jié)點得到結論。
決策樹中,有兩種節(jié)點:決策節(jié)點和狀態(tài)節(jié)點。由決策節(jié)點引出若干樹枝,每個樹枝代表一個決策方案,每個方案樹枝連接到一個新的節(jié)點。這個新的節(jié)點即可能仍是一個新的決策節(jié)點,也可能是一個狀態(tài)節(jié)點。每個狀態(tài)節(jié)點表示一個具體的最終狀態(tài)。在決策樹中,與狀態(tài)節(jié)點相對應的是葉節(jié)點。決策樹用于解決分類問題時,決策節(jié)點表示待分類對象的屬性,每個樹枝表示它的一個可能取值,而狀態(tài)節(jié)點則表示分類結果。
決策樹中最上面的節(jié)點稱為根節(jié)點,是整個決策樹的開始。決策樹的每個節(jié)點子節(jié)點的個數(shù)與決策樹在用的算法有關。圖1給出了決策樹一般形式。
Node1,Node21,Node22為內(nèi)結點,各代表一個屬性;L1,L2,L3為葉子結點,分別代表一個類別;r1,r2,r3.,r4,r5分別代表屬性上的一個測試值。使用決策樹表達知識直觀簡潔。從決策樹中可以直接觀察出屬性之間的相對重要性。從決策樹的根節(jié)點開始,沿著每一條路徑向下,屬于對于分類的重要性逐漸下降。
圖1 決策樹一般表示形式
盡管所有的決策樹算法處理數(shù)據(jù)的方式都很相似,但在決定如何根據(jù)重要性對不同變量進行分組和排序時,它們采用不同的數(shù)學算法。常見的決策樹分類基本算法有ID3算法,以及其后續(xù)版本C4.5算法。本文使用的是C4.5算法。下面是對此次算法的具體介紹。
C4.5決策樹算法[3]的核心思想是利用信息熵原理,選擇信息增益率最大的屬性作為分類屬性,遞歸地構造決策樹的分枝,完成決策樹的構造。
假設向量空間中的正例集PE和反例集NE的大小分別為p和n,ID3算法基于兩個假設:1)在向量空間H上的一棵正確決策樹對任意例子的分類概率同H中的正反例的概率一致;2)一棵決策樹能對一例子做出正確類別判斷所需的信息量為
如果以屬性A作為決策樹的根,A具有V個值(v1,v2,…,vv),它將H分為v個子集(H1, H2,…, Hv),假設Hi含有Pi個正例和Ni個反例,子集Hi信息熵 E(Hi)
以屬性A為根分類的信息熵為E(A):
因此,以A為根的信息增益是G(A):
信息增益率等于信息增益對分割信息量的比值。對樣本集T,假設A有s個不同取值的離散屬性,劃分為s1, s2, …, sn共n個子集,用A分割樣本所得的信息增益的算法與ID3相同,分割信息量由以下公式給出:
信息增益率由下式給出
C4.5算法選擇G-R (A)最大的屬性A作為分支屬性,較好的解決了ID3算法的多值屬性偏向問題。
抗拉強度指材料在拉斷前承受最大應力值。當鋼材屈服到一定程度后,由于內(nèi)部晶粒重新排列,其抵抗變形能力又重新提高,此時變形雖然發(fā)展很快,但卻只能隨著應力的提高而提高,直至應力達最大值。此后,鋼材抵抗變形的能力明顯降低,并在最薄弱處發(fā)生較大的塑性變形,此處試件截面迅速縮小,出現(xiàn)頸縮現(xiàn)象,直至斷裂破壞。鋼材受拉斷裂前的最大應力值稱為強度極限或抗拉強度??估瓘姸茸鳛閹т撌欠窈细竦闹匾笜?,是連續(xù)退火爐生產(chǎn)帶鋼工藝過程中的重要加工目標之一。
以數(shù)據(jù)挖掘CRISP-DM(Cross-Industry Standard Process for Data Mining)為標準,建立帶鋼抗拉強度影響因素分析流程,如圖2所示。
圖2 帶鋼抗拉強度影響因素分析流程圖
在進行數(shù)據(jù)挖掘之前首先要了解帶鋼在連續(xù)退火爐中的加工過程,這樣才能正確的了解帶鋼抗拉強度的影響因素。
連續(xù)退火爐為立式鋼結構,共分為7個爐段,它們包括預熱爐(JPF)、加熱爐(RTF)、均熱爐(SF)、緩冷爐(SCS)、快冷爐(FC)、過時效爐(OA)、終冷爐(FCS)及水淬冷卻槽(WQ)。
帶鋼在退火過程中經(jīng)歷了晶粒恢復、再結晶、晶粒長大三個階段。預熱段主要是預熱鋼板,凈化帶鋼表面、除氧和晶?;謴蜏蕚涞倪^程;加熱段和均熱段是實現(xiàn)帶鋼再結晶的過程,該工藝段可以控制加熱模型,是保證帶鋼抗拉強度的關鍵工藝;然后是晶粒長大的過程,其中,將加熱到退火溫度的帶鋼冷卻到常溫的速度會直接影響帶鋼的力學性能和沖壓性能。
a-Fe中固溶的炭量隨溫度變化,320℃附近快速冷卻固溶炭不能完全析出,會產(chǎn)生時效硬化,所以在320℃附近必須經(jīng)過緩冷,迫使固溶炭析出,需要進行過時效處理;鋼種不同,過時效的溫度和保溫時間也有差異,一般范圍在350~450℃,保溫20~300s左右,以獲得晶粒均勻的產(chǎn)品。
由于本文主要是研究帶鋼在連退爐加熱段時影響其抗拉強度的各種因素,所以本文的數(shù)據(jù)挖掘主要立足于預熱爐、加熱爐和均熱爐中的再結晶過程。
在成分一定的情況下,鋼鐵材料的性能主要取決于組織特征,細化的晶粒組織可以在不降低材料韌性的前提下提高材料強度。鋼鐵材料在不同的加熱溫度下會形成不同的鋼鐵組織,比如珠光體、馬氏體和奧氏體等等。它們的晶粒大小、形狀、結構及成分均勻性等都不同,而這些都會影響到材料的各種性能,抗拉強度便是其中的一項。
數(shù)據(jù)預處理是數(shù)據(jù)挖掘的前期準備工作,其質量好壞直接影響到挖掘結果的優(yōu)劣。一般來講,作為數(shù)據(jù)挖掘對象的數(shù)據(jù)集有兩個顯著特征:數(shù)據(jù)比較臟(有噪聲)、樣本容量大(觀測個數(shù)多)。為了提高分類的準確性、有效性和可伸縮性,需要對數(shù)據(jù)進行以下的預處理[4]。
1)數(shù)據(jù)清理
數(shù)據(jù)清理的目的是消除或減少噪聲數(shù)據(jù)以及處理空缺值??刹捎闷交夹g消除或減少噪聲數(shù)據(jù),對于空缺值,可用該屬性最常出現(xiàn)的值,或者根據(jù)統(tǒng)計,用最可能的值代替。盡管大部分的分類算法都有處理噪聲和空缺值的機制,但經(jīng)過清理的數(shù)據(jù)將更加有助于減少學習時的混亂。
在資產(chǎn)證券化過程中,涉及的主體多,過程復雜,在這個過程中需要法律的約束。但我國資產(chǎn)證券化進程才剛剛起步,法律基礎設施建設仍不夠完善(葉方方 、賈媛,2017)。由于情況的不確定性,會有出現(xiàn)法律風險的情況,造成涉及證券化的多方利益不能夠得到保障。因此,完善法律法規(guī)可以有效規(guī)避風險,維護證券化過程中的多方利益。
2)相關性分析
數(shù)據(jù)中的許多屬性可能與分類任務不相關。例如:帶鋼入口卷號、出口卷號與其抗拉強度影響因素不相關。此外,還可能一些屬性是冗余的,如果包含這些屬性將減慢或可能誤導學習步驟。因此,需預先對數(shù)據(jù)作相關分析,刪除學習過程中不相關的或冗余的屬性。在機器學習中,這一過程稱為特征選擇。
3)數(shù)據(jù)變換
數(shù)據(jù)可以概括到較高層次的概念。例如對于連續(xù)值的屬性,“抗拉強度”的數(shù)學值可以概括到離散的區(qū)間。由于概括壓縮了原來的訓練數(shù)據(jù)集,則學習的時間將會減少。數(shù)據(jù)也可以按照某種規(guī)則進行規(guī)范化處理等。這些數(shù)據(jù)變換對分類有時是必要的。
建立模型是一個反復的過程,要在不同的模型中選擇對解決問題最有用的模型。在尋找好的模型的過程中學到的東西有可能會修改原有數(shù)據(jù),甚至改變最初對問題的定義。一旦決定了預測的類型之后(分類或回歸),就需要為這個預測選擇模型的類型。可能是一棵決策樹、神經(jīng)網(wǎng)絡、甚至傳統(tǒng)的數(shù)學統(tǒng)計。本文應用的是分類問題,采用決策樹算法即可。
在決策樹的學習算法中,除去分類的正確性應當放在第一位給予考慮之外,決策樹的復雜程度是另外一個需要考慮的重要因素。如果決策樹構造的過于復雜,那么對于用戶來說這個決策樹是難以理解的,將在很大程度上使用分類樹的構造沒有意義。簡化決策樹的方法有很多,剪枝是最常用的方法,它主要通過訓練過程中明確地控制樹的大小來簡化決策樹。當決策樹創(chuàng)建時,由于訓練數(shù)據(jù)集中的噪聲和孤立點的影響,許多分枝反映的是訓練數(shù)據(jù)中的異常。
在建立決策樹時,要選擇樹剪枝的方法,有不剪枝、預剪枝和后剪枝。本文分析首先要對如圖3所示的各種屬性及參數(shù)進行選擇。這是一種訓練的過程,在不斷的試驗的基礎上才能得到最滿意的結果。
圖3 決策樹屬性與參數(shù)選擇
原數(shù)據(jù)集中包含了16個參數(shù),數(shù)據(jù)量較大,存在許多無用數(shù)據(jù)。以下是對數(shù)據(jù)進行預處理的步驟:
1)數(shù)據(jù)清理,某鋼廠提供的數(shù)據(jù)是各加工段信息采集器采集到的數(shù)據(jù),類中繁多且數(shù)據(jù)量大。這么多的數(shù)據(jù)存在著空值或不符合實際的值,這些對分類的準確度都會有影響,所以要先對這些數(shù)據(jù)進行清理。
2)相關性分析,通過對帶鋼各項參數(shù)的研究,決定選取其中某幾項參數(shù)作為影響帶鋼抗拉強度的數(shù)據(jù)挖掘。部分數(shù)據(jù)如表1所示。
表1 部分數(shù)據(jù)表
3)數(shù)據(jù)變換,本文數(shù)據(jù)挖掘的目的是對影響抗拉強度因素的確定,由于源數(shù)據(jù)中抗拉強度的值各不相同,沒有明顯顯示出哪些是合格與不合格的抗拉強度值。根據(jù)工廠加工的不合格率1%的要求,得出抗拉強度低于277MPa的為不合格1,高于277MPa的為合格2。賦予數(shù)據(jù)源中小于277MPa的抗拉強度值1,大于277MPa的抗拉強度值2。
以上工作完成后即可運行決策樹模型得到挖掘結果。
在馬克威分析系統(tǒng)平臺上運行決策樹挖掘,以抗拉強度為目標變量,中央段速率、JPF爐溫和SF爐溫為輸入變量,得到的影響帶鋼抗拉強度的決策樹(圖4)和規(guī)則集,共4層,8個規(guī)則。從圖中可以看出,通過決策樹數(shù)據(jù)挖掘模型對帶鋼參數(shù)數(shù)據(jù)集進行了有效分類,此模型對在生產(chǎn)實踐中帶鋼抗拉強度的提高具有重要的參考價值。
決策樹模型具體挖掘過程參數(shù)如下:所處理記錄個數(shù):1000;丟棄的記錄個數(shù):0;決策樹爭取率:73.3%;分裂時一個分支的最小樣本數(shù)大于2,連續(xù)值分叉結點的最大分叉數(shù)5,生成樹方法為信息熵,樹剪枝的方法:深度剪枝,最大深度為5。
決策樹變量分類重要性如表2所示。
表2 決策樹變量分類重要性
規(guī)則表示如下:
規(guī)則1 如果:SF爐溫 屬于 [425,837] 那么:抗拉強度 ===> 2(可信度99.18%)
圖4 決策樹
規(guī)則 2 如果:SF 爐溫 屬于 >=838 并且:中央段速度 屬于 [37, 141] 并且:JPF爐溫 屬于 [232.99,307.36] 那么: 抗拉強度 ===> 2(可信度 68.42%)。
規(guī)則3 如果:SF爐溫 屬于 >=838 并且:中央段速度 屬于 [37, 141] 并且: JPF爐溫 屬于 [307.36,318.80] 那么:抗拉強度 ===> 2(可信度73.33%)。
規(guī)則4 如果:SF爐溫 屬于 >=838 并且:中央段速度 屬于 [37, 141] 并且:JPF爐溫 屬于 [318.80,335.96]那么:抗拉強度 ===> 2(可信度71.43%)。
規(guī)則5 如果:SF爐溫 屬于 >=838 并且:中央段速度 屬于 [37, 141] 并且:JPF爐溫 屬于 [335.96,364.56] 那么:抗拉強度 ===> 2(可信度60.00%)。
規(guī)則6 如果:SF爐溫 屬于 >=838 并且:中央段速度 屬于 [37, 141] 并且:JPF 爐溫 屬于 >=364.56那么:抗拉強度 ===> 1(可信度66.67%)。
規(guī)則 7 如果:SF 爐溫 屬于 >=838 并且:中央段速度 屬于 [141, 181] 那么:抗拉強度 ===> 2(可信度90.71%)。
規(guī)則 8 如果:SF 爐溫 屬于 >=838 并且:中央段速度 屬于 >=182 那么:抗拉強度 ===> 2(可信度81.97%)。
通過以上的結果,可以看出SF爐溫對帶鋼的抗拉強度的影響最大,重要性高達100%,中央段速率和JPF爐溫同樣對帶鋼的抗拉強度影響甚大。在規(guī)則6中可以看出爐溫溫度高,中央段速度低時會導致帶鋼抗拉強度過低,產(chǎn)品不合格。這一結果為提高帶鋼產(chǎn)品的合格率提供了很好的決策,技術人員在操作過程中應重點注意SF爐溫與中央段速率的值的控制。
通過利用馬克威分析系統(tǒng)提供的決策樹方法,對帶鋼產(chǎn)品的多個參數(shù)的數(shù)據(jù)集進行知識發(fā)現(xiàn),探索影響帶鋼抗拉強度因素的分類關系,建立了以帶鋼抗拉強度為目標輸入的決策樹模型,得到了理想的決策支持。
[1] 康曉東. 基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術[M]. 機械工業(yè)出版社, 2005.
[2] 邵峰晶, 于忠清.數(shù)據(jù)挖掘原理與算法[M]. 中國水利水電出版社, 2003.
[3] 黃愛輝. 決策樹C4.5算法的改進及應用[J]. 科學技術與工程, 2009.
[4] 盧東標. 基于決策樹的數(shù)據(jù)挖掘算法研究與應用. 武漢理工大學. 2008.
[5] 王恩貴. 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在鋼鐵企業(yè)中的應用. 華東師范大學. 2005
[6] Efrem G.Mallach, Decision Support and Data WareHouse Systems,McGraw-Hill, Companies, Inc, 2000.
[7] W.H. Inmon. The operational data store. PRISM Tech Topic, 1993, 1(17).