邢易 李樹(shù)枝
摘要:點(diǎn)蝕是不銹鋼點(diǎn)焊接頭最常見(jiàn)的失效形式之一。點(diǎn)蝕電位作為衡量點(diǎn)蝕行為的特征量,與焊接電流、焊接時(shí)間、電極壓力等參數(shù)有著復(fù)雜的非線性關(guān)系。針對(duì)文獻(xiàn)中不銹鋼接頭點(diǎn)蝕行為數(shù)據(jù),建立隨機(jī)森林模型,優(yōu)化的決策樹(shù)數(shù)目為1 000,通過(guò)“五折交叉驗(yàn)證”確定節(jié)點(diǎn)備選變量個(gè)數(shù)為2。預(yù)測(cè)結(jié)果表明:除29號(hào)樣本預(yù)測(cè)相對(duì)誤差較高外(-14.81%),剩余樣本的預(yù)測(cè)結(jié)果均優(yōu)于神經(jīng)網(wǎng)絡(luò)和支持向量機(jī),相對(duì)誤差的絕對(duì)值在10%以下。
關(guān)鍵詞:點(diǎn)蝕電位;隨機(jī)森林;交叉驗(yàn)證;非線性
中圖分類號(hào):TP181文獻(xiàn)標(biāo)志碼:A文章編號(hào):1001-2303(2020)05-0045-05
DOI:10.7512/j.issn.1001-2303.2020.05.09
0 前言
電阻點(diǎn)焊以其高效、低應(yīng)力、小變形以及良好的自動(dòng)化適應(yīng)性等優(yōu)勢(shì),廣泛應(yīng)用于汽車、鐵路、航空、電子等工業(yè)領(lǐng)域中,可實(shí)現(xiàn)低碳鋼、不銹鋼、鋁合金、高溫合金的焊接。
不銹鋼具有優(yōu)良的機(jī)械性能和耐蝕性能,但在點(diǎn)焊過(guò)程中其接頭性能受到較大影響,尤其是耐蝕性。點(diǎn)蝕是一種局部腐蝕現(xiàn)象,點(diǎn)蝕電位作為點(diǎn)焊接頭點(diǎn)蝕行為的評(píng)價(jià)依據(jù),可通過(guò)焊接時(shí)間、焊接電流等[1-3]焊接參數(shù)實(shí)現(xiàn)預(yù)測(cè)和評(píng)價(jià)。
隨機(jī)森林是Breiman L.[4]在2001年提出的機(jī)器學(xué)習(xí)算法。該算法以決策樹(shù)作為基學(xué)習(xí)器,采用并行化思想,實(shí)現(xiàn)模型的訓(xùn)練和預(yù)測(cè)。隨機(jī)森林算法優(yōu)點(diǎn)眾多,非常適用于處理復(fù)雜、非線性問(wèn)題,而且?guī)缀醪粫?huì)出現(xiàn)過(guò)擬合,預(yù)測(cè)效果好,在農(nóng)業(yè)、林業(yè)、生物醫(yī)藥、信息通訊等[5-9]眾多領(lǐng)域中有著重要應(yīng)用。李欣海[5]利用隨機(jī)森林對(duì)昆蟲(chóng)種類進(jìn)行判別;陳華舟[6]將隨機(jī)森林回歸與基尼系數(shù)優(yōu)選變量方法結(jié)合,實(shí)現(xiàn)魚(yú)粉蛋白的定量分析預(yù)測(cè);Milad Malekipi-rbazari[9]利用隨機(jī)森林模型進(jìn)行社交借貸風(fēng)險(xiǎn)評(píng)估。而目前隨機(jī)森林算法在材料學(xué)科中的應(yīng)用研究還非常少見(jiàn)。
文中借助于R語(yǔ)言平臺(tái),利用randomForest[10](隨機(jī)森林)軟件包對(duì)不銹鋼的點(diǎn)蝕行為數(shù)據(jù)進(jìn)行隨機(jī)森林建模,通過(guò)模型參數(shù)選擇、優(yōu)化,實(shí)現(xiàn)模型訓(xùn)練、預(yù)測(cè)和評(píng)價(jià)過(guò)程。
1 隨機(jī)森林模型
點(diǎn)蝕電位屬于連續(xù)型變量,探究、預(yù)測(cè)其與焊接過(guò)程參數(shù)的關(guān)系屬于典型的回歸問(wèn)題,可采用構(gòu)造以決策樹(shù)為基學(xué)習(xí)器的隨機(jī)森林回歸模型來(lái)分析和解決此問(wèn)題。
1.1 隨機(jī)森林訓(xùn)練
隨機(jī)森林是一種集成學(xué)習(xí)算法,其采用自助抽樣法,構(gòu)造多棵決策樹(shù)組合{h(x,βk),k=1,2...r},x是輸入向量,βk是獨(dú)立同分布的隨機(jī)變量,r是決策樹(shù)的數(shù)量。隨機(jī)森林訓(xùn)練過(guò)程包括以下步驟:
(1)采用隨機(jī)抽樣從原始數(shù)據(jù)中獲得訓(xùn)練數(shù)據(jù)樣本,并采用自助抽樣法(bootstrap)從訓(xùn)練集樣本中有放回抽樣得到r個(gè)不同的集合,分別作為r個(gè)決策樹(shù)的根節(jié)點(diǎn)樣本集合,每次抽樣剩余的數(shù)據(jù)作為袋外數(shù)據(jù),用于模型誤差的評(píng)估。
(2)對(duì)于任意一棵決策樹(shù),每次進(jìn)行節(jié)點(diǎn)裂時(shí)從所有的特征中隨機(jī)選取幾個(gè)特征進(jìn)行最優(yōu)變量分割,并讓決策樹(shù)最大限度地生長(zhǎng)。
(3)重復(fù)步驟(2),當(dāng)所有決策樹(shù)生長(zhǎng)完畢,隨機(jī)森林訓(xùn)練也隨之完成。
1.2 隨機(jī)森林預(yù)測(cè)
隨機(jī)森林預(yù)測(cè)如圖1所示。
(1)對(duì)一棵訓(xùn)練完成的決策樹(shù),當(dāng)有樣本輸入時(shí),相應(yīng)變量根據(jù)節(jié)點(diǎn)劃分從根節(jié)點(diǎn)沿著滿足條件的劃分路徑走到末節(jié)點(diǎn),末節(jié)點(diǎn)預(yù)測(cè)變量均值即為該決策樹(shù)的預(yù)測(cè)結(jié)果。
(2)對(duì)所有的決策樹(shù)重復(fù)上文中步驟(2),每棵決策樹(shù)都會(huì)給出變量的預(yù)測(cè)結(jié)果,將這些結(jié)果進(jìn)行等權(quán)重平均即可獲得最終的預(yù)測(cè)值。
2 數(shù)據(jù)建模及評(píng)價(jià)方法
文獻(xiàn)[10]中不銹鋼焊接參數(shù)如表1所示。自變量為焊接時(shí)間(wt)、焊接電流平方(wc2)和電極壓力(ef),E為點(diǎn)蝕電位。焊接過(guò)程是一個(gè)典型的非線性動(dòng)力學(xué)過(guò)程,不同的參數(shù)組合產(chǎn)生不同的熱循環(huán),導(dǎo)致接頭組織也不盡相同,進(jìn)而影響接頭的點(diǎn)蝕行為。隨機(jī)森林適宜處理這類非線性作用過(guò)程的問(wèn)題,在不顯著提高計(jì)算量的前提下,獲得比較理想的預(yù)測(cè)結(jié)果。
基于以上分析,建立以焊接時(shí)間、焊接電流平方和電極壓力為輸入變量,以點(diǎn)蝕電位作為輸出變量的隨機(jī)森林模型。隨機(jī)抽取5/6的原始樣本數(shù)據(jù)作為訓(xùn)練集,剩余樣本數(shù)據(jù)作為測(cè)試集,實(shí)現(xiàn)模型參數(shù)的選擇、模型分析和評(píng)價(jià)。
2.1 模型參數(shù)選擇
根據(jù)隨機(jī)森林算法估計(jì)過(guò)程可知,隨機(jī)森林的主要參數(shù)有兩個(gè):決策樹(shù)數(shù)目和節(jié)點(diǎn)備選變量個(gè)數(shù)。一般來(lái)說(shuō),決策樹(shù)數(shù)目不應(yīng)太少,否則會(huì)導(dǎo)致選取分割變量時(shí),部分變量被選中次數(shù)過(guò)少,該因素對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)不能充分體現(xiàn),導(dǎo)致預(yù)測(cè)結(jié)果發(fā)生較大偏差。節(jié)點(diǎn)備選變量個(gè)數(shù)則不應(yīng)超過(guò)自變量個(gè)數(shù)。兩個(gè)參數(shù)的確定方法如下:
(1)根據(jù)訓(xùn)練集樣本進(jìn)行模型訓(xùn)練,獲得不同基學(xué)習(xí)器數(shù)目下訓(xùn)練集的均方誤差,均方誤差表征相對(duì)誤差波動(dòng)程度大小,計(jì)算方法如式(1)所示,根據(jù)其結(jié)果選擇合適的決策樹(shù)數(shù)目。
(2)針對(duì)訓(xùn)練集數(shù)據(jù),進(jìn)行“五折交叉驗(yàn)證”獲得最佳的節(jié)點(diǎn)備選變量個(gè)數(shù)。即將數(shù)據(jù)隨機(jī)均勻地分為5份,每次利用任意4份作為訓(xùn)練子集樣本,剩余1份作為測(cè)試子集樣本。變化節(jié)點(diǎn)備選變量個(gè)數(shù),對(duì)模型進(jìn)行訓(xùn)練和預(yù)測(cè),得到模型訓(xùn)練子集和測(cè)試子集的平均均方誤差大小,綜合分析訓(xùn)練子集和測(cè)試子集誤差結(jié)果,確定模型的節(jié)點(diǎn)備選變量個(gè)數(shù)。
2.2 變量重要性評(píng)價(jià)
使用精確度的平均減少(節(jié)點(diǎn)不純度)來(lái)定量評(píng)價(jià)變量的重要性。評(píng)價(jià)方法包括:
(1)對(duì)訓(xùn)練好的隨機(jī)森林模型,獲得袋外數(shù)據(jù)預(yù)測(cè)結(jié)果的誤差大小error。
(2)針對(duì)某一決策樹(shù)的訓(xùn)練數(shù)據(jù),為訓(xùn)練數(shù)據(jù)中某一變量i的變量值增加隨機(jī)擾動(dòng),得到新的預(yù)測(cè)結(jié)果誤差為error1,這棵決策樹(shù)的變量i的精確度平均減少大小為error1-error。
(3)重復(fù)步驟(2),獲得所有決策樹(shù)的變量i的精確度平均減少值,取其平均值作為該變量在隨機(jī)森林模型中的精確度平均減少值。
(4)重復(fù)步驟(2)、(3),獲得所有變量的精確度平均減少值大小。
精確度平均減少數(shù)值越大,說(shuō)明該變量添加隨機(jī)擾動(dòng)時(shí),其對(duì)預(yù)測(cè)結(jié)果影響越大,即該變量的重要性越高;反之,變量的重要性較低。
2.3 模型結(jié)果評(píng)價(jià)
在上述選取的參數(shù)條件下,對(duì)測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè),獲得預(yù)測(cè)值與實(shí)際值的相對(duì)誤差大小,將結(jié)果與神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比、分析和評(píng)價(jià)。
3 結(jié)果分析及討論
3.1 決策樹(shù)數(shù)目選擇
決策樹(shù)數(shù)目在1~2 000范圍內(nèi)變化,獲得訓(xùn)練模型的均方誤差大小,結(jié)果如圖2所示。決策樹(shù)個(gè)數(shù)小于250時(shí),誤差在局部范圍內(nèi)出現(xiàn)幾次較大波動(dòng),而后隨決策樹(shù)數(shù)目的增多,波動(dòng)幅度逐漸減小。這主要是由于待分割的節(jié)點(diǎn)變量和訓(xùn)練樣本是隨機(jī)選取的,決策樹(shù)數(shù)目很少時(shí),這兩方面的隨機(jī)性導(dǎo)致誤差出現(xiàn)較大波動(dòng);而隨著決策樹(shù)數(shù)目的增多,從總體來(lái)看分割變量的選擇是均勻的,各個(gè)變量對(duì)預(yù)測(cè)變量的影響能得到全面的體現(xiàn),波動(dòng)幅度逐步降低。決策樹(shù)數(shù)目大于250時(shí),模型均方誤差逐步減小,模型效果也越來(lái)越好,當(dāng)決策樹(shù)數(shù)目增大至1 000左右時(shí),模型均方誤差趨于最小;繼續(xù)增大決策樹(shù)數(shù)目,模型均方誤差未得到更好的改善。因此,將決策樹(shù)數(shù)目確定為1 000即可。
3.2 節(jié)點(diǎn)備選變量個(gè)數(shù)優(yōu)化
利用訓(xùn)練集樣本對(duì)模型進(jìn)行訓(xùn)練,使用五折交叉驗(yàn)證法得到訓(xùn)練子集和測(cè)試子集的平均均方誤差值,結(jié)果如圖3所示。訓(xùn)練子集和測(cè)試子集的平均均方誤差值均在5e-4以內(nèi)。說(shuō)明真值與預(yù)測(cè)值間誤差的波動(dòng)程度小,擬合優(yōu)度和推廣優(yōu)度均比較優(yōu)異。在相同條件下,訓(xùn)練子集的平均均方誤差均小于測(cè)試子集的平均均方誤差,擬合優(yōu)度結(jié)果優(yōu)于推廣優(yōu)度。分析均方誤差的變化規(guī)律可知:隨著節(jié)點(diǎn)備選變量個(gè)數(shù)增多,訓(xùn)練子集的平均均方誤差逐漸減小,變量個(gè)數(shù)為3時(shí),平均均方誤差達(dá)到最小值;而測(cè)試子集的平均均方誤差先減小后增大,備選變量個(gè)數(shù)為2時(shí)誤差達(dá)到最小,這兩種條件下訓(xùn)練子集的平均均方誤差相差不大,應(yīng)優(yōu)先選擇測(cè)試子集均方誤差較小者,即確定節(jié)點(diǎn)備選變量個(gè)數(shù)為2。
3.3 變量重要性分析
各個(gè)變量精確度的平均減少結(jié)果如圖4所示,對(duì)點(diǎn)蝕電位影響最大的變量是焊接電流的平方值,其次是焊接時(shí)間,最小的是電極壓力。焊接電流變化時(shí),通過(guò)焊接電流平方被放大,接頭熱輸入存在較大差異,造成接頭組織差異明顯,對(duì)點(diǎn)蝕行為產(chǎn)生較大影響,其重要性最高。同時(shí),根據(jù)焦耳定律,焊接熱輸入變化對(duì)焊接電流的敏感度大于對(duì)焊接時(shí)間的敏感度,焊接時(shí)間對(duì)接頭點(diǎn)蝕行為的影響小于焊接電流平方的影響。電極壓力通過(guò)改變接觸電阻間接影響熱輸入量及接頭點(diǎn)蝕行為,但電極壓力僅有兩個(gè)獨(dú)立的取值,變量的隨機(jī)干擾對(duì)預(yù)測(cè)結(jié)果的影響小于前兩個(gè)因素帶來(lái)的影響,其精確度的平均減少最小,意味著該變量的重要性最低。
3.4 模型預(yù)測(cè)結(jié)果及評(píng)價(jià)
在備選節(jié)點(diǎn)變量個(gè)數(shù)為2、決策樹(shù)數(shù)目為1 000條件下,利用模型對(duì)測(cè)試集樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),點(diǎn)蝕電位預(yù)測(cè)結(jié)果(pre)和相對(duì)誤差大?。╮el_error)如表2所示??梢钥闯?,29號(hào)樣本的預(yù)測(cè)相對(duì)誤差為-14.81%,略微偏高。除29號(hào)樣本外,預(yù)測(cè)值與真實(shí)值的相對(duì)誤差的絕對(duì)值均在10%以內(nèi),絕大多數(shù)點(diǎn)的預(yù)測(cè)誤差絕對(duì)值在5%以內(nèi)。分析訓(xùn)練數(shù)據(jù)的點(diǎn)蝕電位可知,訓(xùn)練集自變量和預(yù)測(cè)變量的數(shù)據(jù)變化均比較均勻,預(yù)測(cè)變量的點(diǎn)蝕電位值在0.381 87~0.485 47 V范圍內(nèi)波動(dòng),訓(xùn)練集數(shù)據(jù)經(jīng)模型訓(xùn)練后,對(duì)真實(shí)結(jié)果位于該范圍內(nèi)的樣本預(yù)測(cè)效果會(huì)比較優(yōu)良,而對(duì)于變量值偏離該范圍較大的樣本而言,相當(dāng)于“離群點(diǎn)”,隨機(jī)森林預(yù)測(cè)結(jié)果的相對(duì)誤差會(huì)有一定程度的提高。對(duì)多數(shù)預(yù)測(cè)樣本點(diǎn)而言,自變量與預(yù)測(cè)變量間的非線性特性關(guān)系已通過(guò)訓(xùn)練集獲得,且變量數(shù)值均處于變量均勻變化的范圍內(nèi),預(yù)測(cè)效果通常較好。而29號(hào)樣本點(diǎn)的點(diǎn)蝕電位數(shù)值為0.512 40 V,偏離訓(xùn)練集中的最大點(diǎn)蝕電位值0.485 47 V,兩值之間偏差較大,該預(yù)測(cè)樣本點(diǎn)可看成是“離群點(diǎn)”,預(yù)測(cè)效果不太理想。
對(duì)比隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)及支持向量機(jī)預(yù)測(cè)結(jié)果誤差的絕對(duì)值,如圖5所示。3種方法對(duì)29號(hào)樣本的預(yù)測(cè)結(jié)果均不理想,是所有預(yù)測(cè)樣本結(jié)果中最差的。而對(duì)于其余樣本點(diǎn),隨機(jī)森林的預(yù)測(cè)結(jié)果幾乎都優(yōu)于另外兩種方法。事實(shí)上,絕大多數(shù)方法均對(duì)“離群點(diǎn)”比較敏感。當(dāng)樣本中出現(xiàn)“離群點(diǎn)”時(shí),首先應(yīng)從試驗(yàn)過(guò)程中考慮該結(jié)果是否有效,試驗(yàn)材料是否存在加工、組織缺陷,或是否有隨機(jī)因素對(duì)試驗(yàn)結(jié)果產(chǎn)生影響等等。當(dāng)試驗(yàn)結(jié)果準(zhǔn)確無(wú)誤時(shí),需要探索更優(yōu)化的算法,以提高預(yù)測(cè)的準(zhǔn)確度。
4 結(jié)論
采用隨機(jī)森林模型,對(duì)不銹鋼點(diǎn)焊接頭的點(diǎn)蝕行為數(shù)據(jù)進(jìn)行建模,并選擇、分析及評(píng)價(jià)模型參數(shù),主要結(jié)論如下:
(1)通過(guò)“五折交叉驗(yàn)證”獲得訓(xùn)練子集和測(cè)試子集的平均均方誤差的變化規(guī)律,得到最佳節(jié)點(diǎn)備選變量個(gè)數(shù)為2。
(2)利用精確度平均減少分析變量重要性,電流平方對(duì)點(diǎn)蝕電位的影響最大,其次是焊接時(shí)間,電極壓力影響最小。
(3)對(duì)比隨機(jī)森林與神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)算法預(yù)測(cè)結(jié)果,29號(hào)“離群點(diǎn)”樣本預(yù)測(cè)結(jié)果都不理想;對(duì)剩余樣本而言,隨機(jī)森林的預(yù)測(cè)效果幾乎均優(yōu)于另外兩種方法,預(yù)測(cè)相對(duì)誤差絕對(duì)值均在10%以內(nèi),絕大多數(shù)樣本點(diǎn)預(yù)測(cè)誤差絕對(duì)值小于5%。
參考文獻(xiàn):
[1] Wei P S,Wu T H. Electrical contact resistance effect on resistance spot welding[J]. International Journal of Heat andMass Transfer, 2012(55): 3320-3323.
[2] Florea R S,Bammann D J,Yeldell A,et al. Welding parameters influence on fatigue life and microstructure in resistance spot welding of 6061-T6 aluminum alloy[J]. Materials & Design,2013,(45):460-462.
[3] Aslanlar S,Ogur A,Ozsarac U,et al. Welding time effect on mechanical properties of automotive sheets in electrical resistance spot welding[J]. Materials & Design,2008,29(7):1430.
[4] Breiman L. Random Forests[J].Machine Learning,2001,45(1):5-32.
[5] 李欣海. 隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲(chóng)學(xué)報(bào), 2013,50 (4):1195.
[6] 陳華舟,陳福,石凱,等. 基于隨機(jī)森林的魚(yú)粉蛋白近紅外分析[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2015,46(5):233-238.
[7] 趙小歡,夏靖波,李明輝. 基于隨機(jī)森林算法的網(wǎng)絡(luò)流量分類方法[J]. 中國(guó)電子科學(xué)研究院學(xué)報(bào),2013,8(2):185-189.
[8] 張華偉,王明文,甘麗新. 基于隨機(jī)森林的文本分類模型研究[J]. 山東大學(xué)學(xué)報(bào)(理學(xué)版),2006,41(3):139-143.
[9] Malekipirbazari M,Aksakalli V. Risk assessment in social lending via random forests[J]. Expert Systems with Applications, 2015(42):4624-4628.
[10] Martín ó,Tiedra P D,López M. Artifical neural networks for pitting potential prediction of resistance spot welding joints of AISI 304 austenitic stainless steel[J]. Corrosion Science,2010,(52):2400-2401.
[11] 吳喜之. 復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法-基于R的應(yīng)用(第二版)[M]. 北京:中國(guó)人民出版社,2013:37-40.
[12] 曹正鳳. 隨機(jī)森林算法優(yōu)化研究[D]. ?北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2014:67-71.