趙鼎祺,喬珺威,吳玉程
(太原理工大學(xué)材料科學(xué)與工程學(xué)院,山西 太原 030024)
機(jī)器學(xué)習(xí)的目的是挖掘大數(shù)據(jù)背后隱藏的價(jià)值,某種程度上可以看成是一種經(jīng)驗(yàn)式地對(duì)實(shí)驗(yàn)結(jié)果的抽象概括。還有的人認(rèn)為機(jī)器學(xué)習(xí)是一種唯象理論(唯象理論是對(duì)實(shí)驗(yàn)現(xiàn)象的總結(jié)與凝練,其先于理論架構(gòu),又被稱為前科學(xué))。有關(guān)唯象理論的一個(gè)著名的例子便是牛頓的萬(wàn)有引力定律:開普勒利用天文學(xué)家第古積累下的資料,通過(guò)仔細(xì)的分析研究,從龐大的數(shù)據(jù)中抽象出了模型并提出了著名的開普勒定律,被人稱為天空的立法者;而牛頓又在此基礎(chǔ)上更進(jìn)一步提出了牛頓定律,建立了經(jīng)典力學(xué)體系。然而,在牛頓的萬(wàn)有引力背后同樣有著更深層次的概念:相對(duì)論與量子力學(xué)。相對(duì)于更深層次的概念來(lái)說(shuō),現(xiàn)有的概念都可以看成是唯象理論。在信息時(shí)代,數(shù)據(jù)極度豐富,建立在大數(shù)據(jù)基礎(chǔ)上的機(jī)器學(xué)習(xí),必將迎來(lái)爆發(fā)式的發(fā)展。
高熵合金又名多組分合金,自提出以來(lái)便備受關(guān)注。傳統(tǒng)的合金設(shè)計(jì)多以一種元素為主,而高熵合金最初的設(shè)計(jì)理念則是試圖將多種元素同時(shí)視為主要元素,用構(gòu)型熵抑制金屬間化合物相的形成。隨著高熵合金的發(fā)展,設(shè)計(jì)理念逐漸從第一代高熵合金發(fā)展到第二代高熵合金,越來(lái)越多的探索從尋找單相固溶體轉(zhuǎn)移到對(duì)高熵合金微觀結(jié)構(gòu)的調(diào)控。毋庸置疑的是,在多組分合金設(shè)計(jì)理念的指導(dǎo)下不僅誕生出了許多性能卓越的合金成分,更進(jìn)一步激發(fā)了人們對(duì)合金設(shè)計(jì)的全新思考。這種設(shè)計(jì)理念在擴(kuò)展合金成分設(shè)計(jì)空間的同時(shí)也給我們帶來(lái)了更大的挑戰(zhàn)。傳統(tǒng)的實(shí)驗(yàn)試錯(cuò)法在面對(duì)如此巨大的可探索空間時(shí)明顯缺乏效率。因此,合理的高熵合金探索策略便顯得尤為重要。常見的一些模擬計(jì)算方法,比如從頭算和基于熱力學(xué)數(shù)據(jù)庫(kù)的方法可以提高科研工作者的探索效率,但與傳統(tǒng)合金相比,高熵合金中元素的數(shù)量以及微觀結(jié)構(gòu)的多樣性使計(jì)算的復(fù)雜性與密集程度大幅增加。近年來(lái),材料科學(xué)相關(guān)的計(jì)算活動(dòng)已經(jīng)由純粹地對(duì)材料的計(jì)算研究轉(zhuǎn)移到結(jié)合計(jì)算結(jié)果和大數(shù)據(jù)來(lái)指導(dǎo)新材料的設(shè)計(jì)上來(lái)。機(jī)器學(xué)習(xí)是以數(shù)據(jù)為中心的方法中最活躍的生產(chǎn)工具,正在與高熵合金的探索設(shè)計(jì)相結(jié)合,這種學(xué)科交叉展現(xiàn)出了巨大的潛力。
前兩次工業(yè)革命將人類從繁瑣的體力勞動(dòng)中解放出來(lái),進(jìn)一步我們希望解放腦力,機(jī)器學(xué)習(xí)便源于對(duì)人工智能的追求。人工智能經(jīng)歷了多次繁榮與衰落,在20世紀(jì)80年代有三大學(xué)派:符號(hào)學(xué)派、連接學(xué)派、行為學(xué)派。最初人們認(rèn)為人工智能源于數(shù)理邏輯,希望機(jī)器可以通過(guò)使用各種模式或符號(hào)來(lái)模擬人類的智能活動(dòng)[1],緊接著受大自然的啟發(fā),人們進(jìn)一步研究了基于連接原理的方法,例如神經(jīng)元網(wǎng)絡(luò)[2]和感知器[3]。幾種建立在嚴(yán)謹(jǐn)?shù)慕y(tǒng)計(jì)學(xué)理論上的方法也被發(fā)揚(yáng)光大,例如支持向量機(jī)[4]和決策樹[5]。還有學(xué)者將目光聚焦到了低等動(dòng)物的快速反應(yīng)能力上,致力于有關(guān)控制論的研究。人工智能在經(jīng)歷了一系列的曲折發(fā)展后,沉寂多年的連接學(xué)派東山再起,大數(shù)據(jù)結(jié)合基于神經(jīng)元網(wǎng)絡(luò)的深度學(xué)習(xí)成為現(xiàn)在最熱門的人工智能解決方案,并引發(fā)了一場(chǎng)逐步向各個(gè)領(lǐng)域滲透的革命,這一革新同樣引起了材料學(xué)界的關(guān)注。打敗圍棋高手李世石的Alphago就是一個(gè)基于神經(jīng)元網(wǎng)絡(luò)的深度學(xué)習(xí)案例。機(jī)器學(xué)習(xí)橫跨計(jì)算機(jī)科學(xué)、工程技術(shù)、統(tǒng)計(jì)學(xué)等多個(gè)學(xué)科,作為一個(gè)強(qiáng)有力的工具應(yīng)用于從生物學(xué)到社會(huì)學(xué)等多個(gè)學(xué)科。凡是產(chǎn)生數(shù)據(jù)的學(xué)科都可以應(yīng)用機(jī)器學(xué)習(xí)。
同高熵合金概念一樣,蓬勃發(fā)展的學(xué)科會(huì)不斷擴(kuò)展初始概念的含義,因此歷史上對(duì)機(jī)器學(xué)習(xí)定義的解釋都有片面性。在這里將采用湯姆米切爾的觀點(diǎn)來(lái)解釋機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)的本質(zhì)是對(duì)于某類任務(wù)T和性能度量P,如果一個(gè)計(jì)算機(jī)程序在T上以P衡量的性能隨著經(jīng)驗(yàn)E而自我完善,那么我們就稱這個(gè)計(jì)算機(jī)程序在從經(jīng)驗(yàn)E中學(xué)習(xí)。機(jī)器學(xué)習(xí)可以看成是對(duì)數(shù)據(jù)的挖掘過(guò)程,通過(guò)分析數(shù)據(jù)彰顯數(shù)據(jù)背后的價(jià)值,在材料科學(xué)中常見的用途是分類、回歸、聚類、密度估計(jì)、降維等。
如圖1所示,構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)分為3個(gè)步驟:樣本構(gòu)建、模型構(gòu)建和模型評(píng)估。樣本構(gòu)建包括數(shù)據(jù)預(yù)處理和特征工程兩個(gè)部分,其中數(shù)據(jù)預(yù)處理是指將原始數(shù)據(jù)轉(zhuǎn)換為樣本以及進(jìn)一步的數(shù)據(jù)清理。數(shù)據(jù)清理將識(shí)別不完整、不正確和不相關(guān)的數(shù)據(jù),然后替換、修改或刪除這些數(shù)據(jù)。特征工程包括特征提取、特征選擇、特征構(gòu)建和特征學(xué)習(xí),是通過(guò)領(lǐng)域內(nèi)的專家知識(shí)來(lái)創(chuàng)建特征的過(guò)程。特征工程是機(jī)器學(xué)習(xí)中至關(guān)重要的一環(huán),有種說(shuō)法是,特征工程決定機(jī)器學(xué)習(xí)的上限,而算法則是不斷逼近這一上限。在樣本構(gòu)建的過(guò)程中還可以采用探索性數(shù)據(jù)分析的方法,獲得對(duì)數(shù)據(jù)的初步了解,提前對(duì)數(shù)據(jù)進(jìn)行透視、分組、過(guò)濾。數(shù)據(jù)質(zhì)量將對(duì)最終模型產(chǎn)生非常重要的影響,通常來(lái)講,數(shù)據(jù)處理將花費(fèi)整個(gè)建模過(guò)程的絕大部分時(shí)間。模型構(gòu)建包括制定具體的機(jī)器學(xué)習(xí)算法和模型優(yōu)化算法等,需要根據(jù)實(shí)際情況來(lái)決定使用哪種算法,沒有免費(fèi)午餐(no free lunch, NFL)理論告訴我們?nèi)魏嗡惴ǖ念A(yù)期都是相似的[6],而且沒有任何算法可以通用于所有領(lǐng)域。對(duì)于材料科學(xué)的典型研究而言,條件因素與目標(biāo)屬性之間通常存在復(fù)雜的關(guān)系,而傳統(tǒng)方法難以處理。我們不僅希望模型能在現(xiàn)有的數(shù)據(jù)集上取得很好的效果,還希望在未知的數(shù)據(jù)集上同樣能保留很好的泛化能力,因此我們需要對(duì)模型進(jìn)行評(píng)估。過(guò)擬合與欠擬合都是訓(xùn)練模型中經(jīng)常遇到的兩種問(wèn)題,需要根據(jù)具體問(wèn)題采取不同措施。誤差、時(shí)間與空間復(fù)雜度、穩(wěn)定性、遷移性等也是模型評(píng)估的重要因素。
圖1 機(jī)器學(xué)習(xí)步驟[7]Fig.1 Machine learning steps[7]
如圖2所示,機(jī)器學(xué)習(xí)在材料發(fā)現(xiàn)和設(shè)計(jì)中的應(yīng)用可以分為3大類:材料屬性預(yù)測(cè)、新材料發(fā)現(xiàn)以及各種其他用途。在關(guān)于材料屬性預(yù)測(cè)的研究中,通常使用回歸分析的方法預(yù)測(cè)宏觀和微觀特性。在新材料發(fā)現(xiàn)時(shí)使用概率模型來(lái)篩選結(jié)構(gòu)和成分的各種組合,還可以配合從頭算等方法對(duì)材料進(jìn)行預(yù)測(cè)。此外,機(jī)器學(xué)習(xí)還可用于材料科學(xué)中的其他方面,例如制造過(guò)程中參數(shù)的優(yōu)化[8]。機(jī)器學(xué)習(xí)已經(jīng)廣泛應(yīng)用于材料學(xué)領(lǐng)域的各個(gè)方面[9-19],包括成分設(shè)計(jì)、材料制備工藝以及對(duì)機(jī)理研究等等。
圖2 材料科學(xué)中的機(jī)器學(xué)習(xí)[7]Fig.2 Machine learning in materials science[7]
機(jī)器學(xué)習(xí)屬于一種以數(shù)據(jù)為中心的方法,它可以從大量數(shù)據(jù)中挖掘價(jià)值。人們很早便注意到了這一方法的重要性,在材料相關(guān)學(xué)科中同樣建立了大量的數(shù)據(jù)庫(kù)。材料基因組計(jì)劃便是一個(gè)很好的例子,通過(guò)結(jié)合高通量實(shí)驗(yàn)[10, 20, 21],利用高通量計(jì)算開發(fā)大規(guī)模數(shù)據(jù)庫(kù),然后從眾多的材料數(shù)據(jù)中提取價(jià)值,預(yù)測(cè)新材料的性質(zhì)并指導(dǎo)下一步實(shí)驗(yàn)。這種方法將助力于新材料的發(fā)現(xiàn)。
傳統(tǒng)的合金大多以一種成分為主,比如鎂合金、鋁合金、鎳基合金等,通過(guò)添加少量的其他元素來(lái)獲得良好的性能。而高熵合金[22, 23]是21世紀(jì)初引入的一種新的合金設(shè)計(jì)理念,在這種理念中,元素以等原子比或近等原子比混合,試圖最大化構(gòu)型熵。在高熵合金概念提出之前,人們往往認(rèn)為這些由多主元元素組成的合金中會(huì)形成大量金屬間化合物相或其他復(fù)雜相[24]。與預(yù)期相反的是,研究發(fā)現(xiàn)很多高熵合金仍然是單相的固溶體結(jié)構(gòu),主要是面心立方(FCC)、體心立方(BCC)或兩者的混合物。這種結(jié)構(gòu)使高熵合金具有優(yōu)良的性能,包括低溫韌性、高溫下的強(qiáng)度和熱穩(wěn)定性、良好的耐腐蝕和耐磨性以及在極端條件下良好的服役性能[25-28]。
圖3為傳統(tǒng)合金與高熵合金的晶胞結(jié)構(gòu)對(duì)比圖[29]。多主元合金的設(shè)計(jì)理念使得科研人員對(duì)金屬材料的選擇從相圖的邊角區(qū)域轉(zhuǎn)移到了相圖的中心區(qū)域,同時(shí)這種理念提供了更龐大的成分選擇空間,五元高熵合金便將可選擇方案數(shù)量擴(kuò)大到了原先的近百倍。在研究高熵合金的早期階段,有學(xué)者提出高熵合金中有四大效應(yīng):高熵效應(yīng)、遲滯擴(kuò)散效應(yīng)、晶格畸變效應(yīng)、雞尾酒效應(yīng)。隨著后來(lái)的進(jìn)一步實(shí)驗(yàn),認(rèn)為這些效應(yīng)的重要性可能并沒有當(dāng)初所想的那么大。熵效應(yīng)的效果被明顯夸大了[30-33],很多對(duì)高熵合金中相穩(wěn)定性的研究結(jié)論并不支持高熵效應(yīng)的觀點(diǎn),很多高熵合金在中間溫度退火會(huì)分解成多個(gè)純金屬和金屬間化合物[34],這種相分解一定程度上影響著高熵合金在高溫中的應(yīng)用。同樣,也沒有足夠的證據(jù)能說(shuō)明高熵合金與傳統(tǒng)的鋼鐵材料相比有很大的晶格畸變。在許多高熵合金中同樣能觀察到快速的相析出,因此遲滯效應(yīng)也受到一定的挑戰(zhàn)。而雞尾酒效應(yīng)并不屬于效應(yīng),只是一個(gè)描述的角度。因此,對(duì)高熵合金的命名也產(chǎn)生了新的爭(zhēng)論。然而對(duì)金屬研究領(lǐng)域來(lái)說(shuō),這是一個(gè)令人振奮的機(jī)會(huì)。合金組成成分的復(fù)雜性意味著存在發(fā)現(xiàn)更多不同尋常性能的機(jī)會(huì)。對(duì)復(fù)雜成分合金行為的理解有助于提高對(duì)金屬領(lǐng)域基礎(chǔ)科學(xué)的認(rèn)識(shí)。因此,高熵合金是目前材料科學(xué)中最具啟發(fā)性和前景的研究領(lǐng)域之一。
圖3 傳統(tǒng)合金(a)與高熵合金(b)的晶胞結(jié)構(gòu)[29]Fig.3 Lattice structures of conventional alloy (a) and high entropy alloy (b)[29]
高熵合金的命名來(lái)源于玻爾茲曼的公式,熵是系統(tǒng)內(nèi)無(wú)序性的一種度量。整個(gè)宇宙的一切事物都將從有序轉(zhuǎn)變?yōu)闊o(wú)序,這也叫做熵增定律。熵的概念經(jīng)過(guò)克勞修斯、玻爾茲曼、吉布斯、香農(nóng)等人的深入研究,應(yīng)用領(lǐng)域從熱力學(xué)擴(kuò)展到了信息學(xué)。如果將原子點(diǎn)陣看成是鋼球模型,并假設(shè)微觀狀態(tài)等概率分布,那么它們傾向于形成宏觀狀態(tài)的高斯分布。
當(dāng)組成金屬的原子形成無(wú)序排列的時(shí)候,系統(tǒng)的構(gòu)型熵最大,與之相對(duì)應(yīng)的合金相稱為固溶體相。而金屬間化合物相屬于長(zhǎng)程有序狀態(tài),高熵效應(yīng)會(huì)抑制這種有序狀態(tài)。最初人們對(duì)高熵合金的研究熱衷于對(duì)單相固溶體的尋找,隨著研究的進(jìn)展,注意力轉(zhuǎn)移到了微觀結(jié)構(gòu)設(shè)計(jì)?,F(xiàn)在對(duì)高熵合金的研究仍然屬于起步階段,很多研究都是將對(duì)鋼鐵材料和鎳基合金的設(shè)計(jì)思路延續(xù)到了高熵合金中,比如孿晶誘導(dǎo)塑性和相變誘導(dǎo)塑性等。對(duì)高熵合金中很多微觀機(jī)理的探究仍待深入,復(fù)雜的成分理論上可以提供更廣闊的微觀機(jī)制調(diào)節(jié)空間。比如,同鎳基合金相比,高熵合金中的固溶體要更為復(fù)雜。最開始的研究認(rèn)為固溶體既可以提升強(qiáng)度又能保留很大塑性,后來(lái)發(fā)現(xiàn),只要能對(duì)微觀組織進(jìn)行很好的調(diào)控,即使是兩種金屬間化合物相也能具備很好的性能[35],金屬間化合物相也并非總會(huì)使合金脆化。復(fù)雜的成分和更多的微觀結(jié)構(gòu)可能性依舊是未來(lái)對(duì)高熵合金最具吸引力的研究動(dòng)機(jī)。
隨著高熵合金的發(fā)展,越來(lái)越多的成分被開發(fā)出來(lái)。高通量濺射沉積實(shí)驗(yàn)是目前常用的高通量的合金制備方案,如圖4[36]所示,這種方法可以將材料從作為源的“靶”噴射到基板上,控制工藝參數(shù),可以在基板上形成所需的物質(zhì)??刂乒に噮?shù)可以對(duì)薄膜的生長(zhǎng)結(jié)果和微觀組織進(jìn)行精確調(diào)控。這種方法很適合高熵合金薄膜的制備,通過(guò)工藝參數(shù)的調(diào)控可以對(duì)薄膜選定區(qū)域的元素分布實(shí)現(xiàn)梯度變化。通過(guò)不同元素分布的梯度變化可以實(shí)現(xiàn)合金成分的連續(xù)變化,實(shí)現(xiàn)材料的高通量制備,研究成分變化對(duì)合金性能的影響。
圖4 高通量濺射沉積實(shí)驗(yàn)示意圖[36]Fig.4 Schematic of high flux sputtering deposition experiment[36]
這些新興的方法可以很大程度上提高新合金成分的開發(fā)速度。隨著合金成分探索加快和合金數(shù)據(jù)庫(kù)的不斷增大[12, 13, 37, 38],材料科研人員需要一種能夠幫助他們快速評(píng)估、分析這些大數(shù)據(jù)的方法。而機(jī)器學(xué)習(xí)無(wú)疑可以與高熵合金探索策略相輔相成[39, 40]。
高熵合金概念自提出以來(lái)便伴隨著對(duì)相形成規(guī)律的討論[41],相在高熵合金設(shè)計(jì)中一直起著關(guān)鍵作用[42-45]。在高熵合金的設(shè)計(jì)策略中,對(duì)未知合金成分相的組成以及相穩(wěn)定程度的預(yù)測(cè)是一個(gè)很重要的設(shè)計(jì)角度。很多高通量的探索策略取得了不錯(cuò)的效果,一種是基于從頭算[46, 47]的方法,比如Yoav等[48]利用從頭算的方法,通過(guò)判斷固溶體的形成能力來(lái)預(yù)測(cè)合金成分的有序無(wú)序轉(zhuǎn)變。Troparevsky等[49]利用從頭算計(jì)算二元合金子系統(tǒng)的形成焓,并通過(guò)這些焓來(lái)估計(jì)多組分系統(tǒng)的穩(wěn)定程度。另一種是基于相圖計(jì)算(CALculation of PHAse Diagram,CALPHAD)方法[50, 51],比如Senkov等[33]利用高通量的CALPHD方法預(yù)測(cè)合金可能存在的相,快速評(píng)估了130 000余組合金成分。Abu-Odeh等[52]利用約束滿足算法縮小遍歷空間,再利用CALPHAD對(duì)所得的結(jié)果加以驗(yàn)證。
上述兩種通過(guò)計(jì)算機(jī)對(duì)新材料進(jìn)行評(píng)估和篩選的方法無(wú)疑可以將材料科研人員從繁瑣的實(shí)驗(yàn)中解放出來(lái),但這兩種方法有很大的局限性:準(zhǔn)確性極度依賴于數(shù)據(jù)庫(kù)以及模擬的精確程度,并且無(wú)法與實(shí)驗(yàn)結(jié)果建立直接關(guān)系。每次計(jì)算與模擬都是單獨(dú)的,無(wú)法從前面的計(jì)算中獲得經(jīng)驗(yàn)。這與以數(shù)據(jù)為中心的方法不同,以數(shù)據(jù)為中心的方法并不是獨(dú)立的,它可以與面向材料的計(jì)算相結(jié)合。Curtarolo等[53]使用主成分分析與從頭算相結(jié)合,根據(jù)晶體結(jié)構(gòu)的能量與化學(xué)系統(tǒng)之間的相關(guān)性預(yù)測(cè)材料的結(jié)構(gòu)并取得了很好的效果。Kim等[54]結(jié)合原位中子衍射、第一性原理計(jì)算和機(jī)器學(xué)習(xí)研究了Al0.3CoCrFeNi高熵合金的彈性性質(zhì)、彈性模量和各向異性,使用梯度提升樹在數(shù)據(jù)庫(kù)中6826個(gè)有序無(wú)機(jī)化合物上進(jìn)行訓(xùn)練,預(yù)測(cè)了體積模量和剪切模量的平均值。他們構(gòu)建的梯度提升樹模型使用了結(jié)構(gòu)特征和組合特征:每種化合物的性質(zhì),如密度和原子的結(jié)合能被表示為結(jié)構(gòu)特征;對(duì)與元素有關(guān)但與化合物無(wú)關(guān)的屬性進(jìn)行加權(quán)組合(如原子半徑和基團(tuán)數(shù))生成組合特征;對(duì)每種化合物均生成67個(gè)特征。并使用多目標(biāo)優(yōu)化遺傳算法生成優(yōu)化模型對(duì)特征進(jìn)行篩選。與傳統(tǒng)的第一性原理計(jì)算相比,機(jī)器學(xué)習(xí)的速度要快很多。
高熵合金領(lǐng)域很早便開始從數(shù)據(jù)的角度出發(fā)解決問(wèn)題,比如利用啟發(fā)式方法提出一些簡(jiǎn)單的物化判據(jù)來(lái)預(yù)測(cè)高熵合金或非晶中的相形成規(guī)律[41, 44, 55-63]。奧卡姆剃刀原理并非放之四海皆準(zhǔn),傳統(tǒng)的簡(jiǎn)單線性組合方法已經(jīng)無(wú)法滿足預(yù)測(cè)需求。早在2013年,Nong等[64]利用固溶體物理參數(shù):原子尺寸差、混合焓、電負(fù)性差和價(jià)電子濃度,研究了鑄態(tài)高熵合金立方相的穩(wěn)定性并作出預(yù)測(cè)。但該研究中采用的數(shù)據(jù)集太小,缺乏統(tǒng)計(jì)學(xué)意義。以數(shù)據(jù)為中心的方法中,數(shù)據(jù)庫(kù)的大小與質(zhì)量是相當(dāng)重要的。Tancret等[65]采用統(tǒng)計(jì)學(xué)方法,提出了一個(gè)基于熱力學(xué)與高斯過(guò)程的統(tǒng)計(jì)模型,該模型使用9個(gè)參數(shù)識(shí)別單一固溶體相,文章還評(píng)價(jià)了不同的熱力學(xué)數(shù)據(jù)庫(kù)。然而高熵合金的熱力學(xué)數(shù)據(jù)庫(kù)很大程度上繼承于鎳基合金的數(shù)據(jù)庫(kù),多組元的數(shù)據(jù)庫(kù)仍需進(jìn)一步完善。
Domínguez等[66]首次對(duì)高熵合金數(shù)據(jù)集進(jìn)行了主成分分析,并在此基礎(chǔ)上對(duì)一系列合金做出了預(yù)測(cè)。作者從原始數(shù)據(jù)中提取有用信息,再將信息用于預(yù)測(cè)。文章所用數(shù)據(jù)集比較小,只有79個(gè)。其中主成分分析屬于降維算法,目的是將高維度的數(shù)據(jù)降低維度,進(jìn)而保留最重要的特征,去除噪聲和不重要的特征。這種方法可以使數(shù)據(jù)集更易使用,降低計(jì)算開銷,使結(jié)果易于理解。但需要強(qiáng)調(diào)的是,該方法會(huì)使初始維度的原始特征消失,重組后的特征會(huì)發(fā)生根本變化。類似的降維方法還有奇異值分解、因子分析和獨(dú)立成分分析。
Islam等[67]使用機(jī)器學(xué)習(xí)對(duì)高熵合金數(shù)據(jù)集做出了相應(yīng)的分類。該研究選取了5個(gè)特征,數(shù)據(jù)提高到了118個(gè)。對(duì)原始數(shù)據(jù)集進(jìn)行了過(guò)擬合訓(xùn)練,準(zhǔn)確度達(dá)到99%。不經(jīng)評(píng)價(jià)的預(yù)測(cè)模型缺乏意義,算法會(huì)學(xué)習(xí)大量的噪聲,缺乏泛化能力。隨后的多折訓(xùn)練中準(zhǔn)確率只有86%。多折訓(xùn)練是一種常用的方法,可以減少小數(shù)據(jù)集中訓(xùn)練集的選取對(duì)最終結(jié)果造成的誤差。舉例來(lái)說(shuō),將一個(gè)數(shù)據(jù)集分為4份,其中一份為測(cè)試集,其它3份為訓(xùn)練集;這樣重復(fù)4次,讓每個(gè)數(shù)據(jù)集都成為一次測(cè)試集,最后對(duì)4次的評(píng)價(jià)結(jié)果求均值。在選取特征時(shí),文章計(jì)算了5個(gè)特征之間的皮爾森系數(shù)。皮爾森系數(shù)是用來(lái)描述兩個(gè)特征之間相關(guān)性的變量,當(dāng)兩個(gè)特征的皮爾森系數(shù)的絕對(duì)值越接近1時(shí),他們的線性相關(guān)程度也就越高。需要注意的是,皮爾森系數(shù)對(duì)高維中變量的描述效果比較差,不能描述3個(gè)特征之間的關(guān)系,只能用于特征的初步篩選。圖5為利用皮爾森系數(shù)分析5個(gè)不同特征的結(jié)果,右上角的數(shù)字為皮爾森系數(shù)的大小,皮爾森系數(shù)的絕對(duì)值作為線性相關(guān)系數(shù)描述了不同特征值的線性相關(guān)程度。皮爾森系數(shù)分析法可以作為數(shù)據(jù)預(yù)處理和數(shù)據(jù)探索性分析的一種方法。當(dāng)不同特征值相關(guān)性過(guò)大時(shí)說(shuō)明兩個(gè)特征蘊(yùn)含的信息相似,在預(yù)處理中需要對(duì)這一特征做處理或者刪除這一特征。從圖中看出最高的皮爾森系數(shù)為0.73,說(shuō)明晶格畸變與電負(fù)性差是特征值中最相似的兩個(gè)特征值。不必要的數(shù)據(jù)關(guān)聯(lián)會(huì)增加模型的復(fù)雜程度,引入噪音,造成過(guò)擬合,這時(shí)候減少相似的特征可以降低過(guò)擬合程度。當(dāng)然,也可以在算法中采取不同方法降低過(guò)擬合,比如正則項(xiàng)、懲罰函數(shù)、神經(jīng)元網(wǎng)絡(luò)中的Dropout方法等。
圖5 采用皮爾森系數(shù)分析特征的結(jié)果[67]Fig.5 Characteristics analysis results by Pearson coefficient[67]
Huang[68]使用機(jī)器學(xué)習(xí)算法對(duì)一個(gè)包含401個(gè)合金成分的數(shù)據(jù)庫(kù)進(jìn)行聚類和預(yù)測(cè)。文章中采用了3種不同的機(jī)器學(xué)習(xí)算法:K近鄰、支持向量機(jī)和人工神經(jīng)元網(wǎng)絡(luò)。他們采用的數(shù)據(jù)庫(kù)基于Miracle的一篇綜述[29],數(shù)據(jù)庫(kù)的質(zhì)和量提高了很多。該數(shù)據(jù)庫(kù)將合金分為3類:固溶體、金屬間化合物以及二者的混合。相較于對(duì)晶格結(jié)構(gòu)的分類,這種關(guān)于高熵合金微觀結(jié)構(gòu)的長(zhǎng)程有序程度的分類難度更大。文章三分類的最高準(zhǔn)確率只有74%。他們還評(píng)估了5個(gè)輸入特征在影響測(cè)試精度方面的相對(duì)重要性。采用人工神經(jīng)元網(wǎng)絡(luò)中的自聚類算法對(duì)特征進(jìn)行評(píng)價(jià),自聚類算法可以看成是非線性的主成分分析,對(duì)高維變量的描述效果更好,而且易于可視化。自聚類是無(wú)監(jiān)督機(jī)器學(xué)習(xí)的一種,聚類會(huì)將數(shù)據(jù)集劃分成幾個(gè)不同的子集,分類之前算法本身并不了解分類樣本的標(biāo)記信息。這種算法能用于尋找數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu)。比較常見的自聚類算法還有K均值聚類、均值漂移聚類、基于密度的聚類、高斯模型的最大期望聚類、凝聚層次聚類等。文章對(duì)人工神經(jīng)元網(wǎng)絡(luò)的超參數(shù)做了詳細(xì)的調(diào)試,與支持向量機(jī)和K近鄰算法相比準(zhǔn)確度更高。圖6為人工神經(jīng)元網(wǎng)絡(luò)中的自組織算法原理,可以通過(guò)分析輸入空間中的數(shù)據(jù)來(lái)生成一個(gè)低維、離散的映射網(wǎng)絡(luò)。應(yīng)用競(jìng)爭(zhēng)性學(xué)習(xí)(具有梯度下降的反向傳播)而非糾錯(cuò),并且通過(guò)創(chuàng)建類似于多維縮放的高維數(shù)據(jù)的低維視圖的方法,用鄰域函數(shù)來(lái)保留輸入空間原有的拓?fù)鋵傩?。受啟發(fā)于生物神經(jīng)元特性,自組織學(xué)習(xí)通過(guò)使網(wǎng)絡(luò)不同部分對(duì)不同輸入模式做出相應(yīng)的響應(yīng)來(lái)模擬生物的大腦皮層,比如香味會(huì)引起大腦皮層特定區(qū)域的興奮。首先將訓(xùn)練數(shù)據(jù)輸入到網(wǎng)絡(luò),然后計(jì)算它們所有權(quán)重向量的歐幾里得距離。通過(guò)競(jìng)爭(zhēng)得出最佳匹配單元,然后將所有權(quán)重進(jìn)行迭代產(chǎn)生新的權(quán)重。在迭代過(guò)程中,相似的神經(jīng)元會(huì)沿相同的方向移動(dòng),并激活相鄰的神經(jīng)元。
圖6 人工神經(jīng)元網(wǎng)絡(luò)中的自組織算法原理[68]Fig.6 The principle of self-organizing algorithm in artificial neural network[68]
Li等[69]用同樣的數(shù)據(jù)庫(kù),選出322個(gè)鑄態(tài)合金的成分,使用支持向量機(jī)將數(shù)據(jù)集分為3類:43個(gè)面心立方,18個(gè)體心立方,以及261個(gè)NSP相(包括多相、金屬間化合物、非晶)。這樣的數(shù)據(jù)分類很不平衡,文章也相應(yīng)地采取了一些手段,比如利用算法擴(kuò)增原始數(shù)據(jù)集,但仍然會(huì)導(dǎo)致預(yù)測(cè)區(qū)間嚴(yán)重縮小。最終交叉驗(yàn)證的精確度可達(dá)90%,而且通過(guò)訓(xùn)練好的算法預(yù)測(cè)了一些合金成分。預(yù)測(cè)的很多都是難熔高熵合金,常見的難熔高熵合金絕大多數(shù)為BCC結(jié)構(gòu)。同時(shí)應(yīng)當(dāng)說(shuō)明的是,文章利用密度泛函理論對(duì)預(yù)測(cè)結(jié)果做出了檢驗(yàn),但密度泛函預(yù)測(cè)的結(jié)果是熱力學(xué)平衡態(tài)的高熵合金,這種驗(yàn)證缺乏說(shuō)服力。Abhishek等[70]將人工智能的自適應(yīng)神經(jīng)模糊接口系統(tǒng)應(yīng)用于高熵合金的相預(yù)測(cè)。自適應(yīng)神經(jīng)模糊接口是利用人工神經(jīng)元網(wǎng)絡(luò)和模糊邏輯構(gòu)造的混合智能系統(tǒng)。圖7為他們?cè)O(shè)計(jì)的混合系統(tǒng)算法框架,改變模糊邏輯可以改變知識(shí)獲取的方式,通過(guò)神經(jīng)元網(wǎng)絡(luò)的學(xué)習(xí)能力來(lái)優(yōu)化模糊規(guī)則。圖7描述了一個(gè)具有2個(gè)輸入和1個(gè)輸出的系統(tǒng):輸入為m和n,輸出為f。自適應(yīng)神經(jīng)模糊推理系統(tǒng)模型由一組稱為模糊if-then規(guī)則的靈活規(guī)則控制,其中輸入根據(jù)其行為映射到一系列輸出(也稱為隸屬函數(shù))。隸屬函數(shù)是定義如何在輸出中為每個(gè)輸入?yún)?shù)指定隸屬度的曲線或函數(shù)。隸屬度的范圍從0到1,隸屬度0表示輸入不是模糊集的一個(gè)成員,0.5表示部分隸屬,1表示完全隸屬。對(duì)于一個(gè)有2個(gè)輸入的模型,每個(gè)輸入映射到2個(gè)隸屬函數(shù)。第1層被稱為模糊層或輸入層,因?yàn)檩斎胧褂秒`屬函數(shù)被映射到模糊范圍。第2層被稱為產(chǎn)品層,標(biāo)記為P,它從模糊層計(jì)算各個(gè)參數(shù),這個(gè)層有時(shí)也被稱為輸入成員功能層。第3層被稱為模糊規(guī)則層或規(guī)范化層,標(biāo)記為N,通過(guò)將第2層的輸出函數(shù)和第2層的所有輸出函數(shù)之和來(lái)執(zhí)行函數(shù)權(quán)重的規(guī)范化。第4層被稱為解模糊層或輸出隸屬函數(shù)層,它將值解模糊以給出清晰的輸出。第5層是總輸出層,標(biāo)記為R,輸出從先前層獲得的所有單個(gè)參數(shù)之和。
圖7 模糊邏輯系統(tǒng)結(jié)合人工神經(jīng)元網(wǎng)絡(luò)Fig.7 Artificial neural network combined with fuzzy logic system
神經(jīng)元網(wǎng)絡(luò)是一種利用簡(jiǎn)單的數(shù)學(xué)模型模擬生物大腦功能進(jìn)行決策的非線性算法,而模糊邏輯是一種捕捉系統(tǒng)中隨機(jī)性和模糊性的數(shù)學(xué)方法,二者相互結(jié)合可以使系統(tǒng)本身朝著自適應(yīng)、自組織、自學(xué)習(xí)的方向發(fā)展。
Pei等[71]基于包含1252個(gè)多組分合金的大數(shù)據(jù)集,利用算法識(shí)別固溶體及它們的晶格結(jié)構(gòu)。數(shù)據(jù)庫(kù)不僅包含高熵合金,還包含二元、三元合金。文章中沒有給出對(duì)數(shù)據(jù)庫(kù)的進(jìn)一步說(shuō)明,將高熵合金與傳統(tǒng)合金放入同一個(gè)數(shù)據(jù)集會(huì)模糊復(fù)雜固溶體特有的機(jī)制。文章利用高斯徑向基函數(shù)對(duì)數(shù)據(jù)進(jìn)行分析和預(yù)測(cè),預(yù)測(cè)準(zhǔn)確度可達(dá)93%。他們希望用機(jī)器學(xué)習(xí)找出新的關(guān)于相形成的統(tǒng)一判據(jù),新的預(yù)測(cè)量有一定的統(tǒng)計(jì)學(xué)意義,但還需要在物理背景上進(jìn)一步說(shuō)明。Zhou等[72]利用人工神經(jīng)元網(wǎng)絡(luò)、卷積網(wǎng)絡(luò)、支持向量機(jī)對(duì)基于601個(gè)高熵合金成分的數(shù)據(jù)庫(kù)做出分類,將合金分為3類:固溶體、金屬間化合物和非晶相。與文中Huang等的工作[68]相比,分類難度小很多。文章加入了一些實(shí)驗(yàn)來(lái)驗(yàn)證預(yù)測(cè)結(jié)果,大數(shù)據(jù)結(jié)合高通量實(shí)驗(yàn)將會(huì)是以后高熵合金開發(fā)的重要方向。Zhang等[73]利用遺傳算法對(duì)高熵合金進(jìn)行了設(shè)計(jì),落腳點(diǎn)同樣是相形成問(wèn)題。文章中加入了主動(dòng)學(xué)習(xí)方案,用機(jī)器學(xué)習(xí)指導(dǎo)實(shí)驗(yàn)后,再利用新得到的實(shí)驗(yàn)數(shù)據(jù)對(duì)算法進(jìn)行迭代。相較于之前利用密度泛函或熱力學(xué)數(shù)據(jù)庫(kù)來(lái)檢驗(yàn)算法的預(yù)測(cè)結(jié)果的方案更為合理。因?yàn)閿?shù)據(jù)庫(kù)中的大部分高熵合金都屬于熱力學(xué)非平衡狀態(tài),而且傳統(tǒng)方案預(yù)測(cè)的準(zhǔn)確率也不能保證,實(shí)驗(yàn)才是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),實(shí)驗(yàn)與算法的結(jié)合可以讓兩者相得益彰。
Cheng等[74]通過(guò)機(jī)器學(xué)習(xí)與實(shí)驗(yàn)相結(jié)合,經(jīng)過(guò)兩輪迭代在Al-Co-Cr-Cu-Fe-Ni體系中尋找到了更高硬度的高熵合金成分。數(shù)據(jù)庫(kù)包含155個(gè)體系中的硬度數(shù)據(jù),其中包括22個(gè)四元合金、95個(gè)五元合金和38個(gè)六元合金。由于實(shí)驗(yàn)數(shù)據(jù)可能來(lái)自不同的實(shí)驗(yàn)室,而且硬度數(shù)據(jù)很可能存在一定波動(dòng),同時(shí)數(shù)據(jù)庫(kù)的樣本量比較少,高硬度的數(shù)據(jù)會(huì)對(duì)算法的預(yù)測(cè)結(jié)果有錨定效應(yīng)。文章中特征選取基于統(tǒng)計(jì)學(xué)意義,可以進(jìn)一步對(duì)特征背后的物理機(jī)制進(jìn)行討論。Qi等[75]提出了一種從二元相圖中提取特征并與機(jī)器學(xué)習(xí)相結(jié)合對(duì)高熵合金相進(jìn)行預(yù)測(cè)的方法。數(shù)據(jù)庫(kù)來(lái)自679個(gè)鑄態(tài)或退火態(tài)的高熵合金的成分。作者利用相形成溫度定義與元素有關(guān)的相參數(shù)和相分離參數(shù),將它們作為特征,并大規(guī)模提取二元相圖的信息建立數(shù)據(jù)庫(kù)。該算法在預(yù)測(cè)中取得了不錯(cuò)的效果。作者在特征工程建立上別出心裁,將相圖轉(zhuǎn)變?yōu)橐幌盗械膮?shù)描述,類似于SISO[68]方法。其中特征構(gòu)建很大程度上決定了最終的預(yù)測(cè)結(jié)果,但文章中特征建立過(guò)程基于一定的假設(shè),相圖信息不可避免地有一定損失。同密度泛函中的交換關(guān)聯(lián)函數(shù)一樣,在機(jī)器學(xué)習(xí)中同樣存在妥協(xié),比如欠擬合與過(guò)擬合,以及效率與精確性,還需要在可解釋性與統(tǒng)計(jì)學(xué)意義上做妥協(xié)。特征的建立同樣是一個(gè)妥協(xié)的過(guò)程,這是一個(gè)需要材料科研人員發(fā)揮智慧與創(chuàng)造力的領(lǐng)域。
目前高熵合金中的機(jī)器學(xué)習(xí)主要集中在對(duì)相的預(yù)測(cè)方面,一方面是因?yàn)橄嗫梢院艽蟪潭壬蠜Q定高熵合金的性能,另一方面是先前已經(jīng)有很多工作在物理判據(jù)或者說(shuō)特征工程上做出了很大貢獻(xiàn)。機(jī)器學(xué)習(xí)不僅可以挖掘原有數(shù)據(jù)的價(jià)值,更能指導(dǎo)實(shí)驗(yàn),縮短實(shí)驗(yàn)周期。高通量的實(shí)驗(yàn)與計(jì)算將會(huì)是未來(lái)發(fā)展的重要方向。機(jī)器學(xué)習(xí)不同于傳統(tǒng)方法對(duì)方程求精確解,對(duì)設(shè)備與軟件的需求大大降低,可以將訓(xùn)練好的模型搭建在網(wǎng)站上。此外,這種以數(shù)據(jù)為驅(qū)動(dòng)的方法還可以從失敗的案例中挖掘價(jià)值。隨著數(shù)據(jù)量的增多,機(jī)器學(xué)習(xí)的精確性可以大幅提高。目前應(yīng)用于高熵合金領(lǐng)域的算法仍很基礎(chǔ),不應(yīng)該為了追求噱頭,盲目引入不合適的算法;也不能只關(guān)注相關(guān)性而不去關(guān)注因果性,片面地追求高的預(yù)測(cè)準(zhǔn)確率。就目前的高熵合金數(shù)據(jù)庫(kù)而言,大部分的數(shù)據(jù)都取自文獻(xiàn),使數(shù)據(jù)被幸存者偏差影響。同時(shí),高熵合金成分開發(fā)很多都圍繞著僅限幾種成分展開,同樣會(huì)對(duì)數(shù)據(jù)有錨定效應(yīng)。建立聯(lián)合數(shù)據(jù)庫(kù)是一個(gè)很好的解決辦法。
隨著數(shù)據(jù)庫(kù)質(zhì)量的提高,未來(lái)高熵合金中的機(jī)器學(xué)習(xí)會(huì)向深度學(xué)習(xí)發(fā)展。用領(lǐng)域內(nèi)的知識(shí)發(fā)現(xiàn)和創(chuàng)造特征將成為交叉領(lǐng)域中最重要、最有創(chuàng)造力的一環(huán)。同時(shí),在利用機(jī)器學(xué)習(xí)挖掘大數(shù)據(jù)價(jià)值的同時(shí),應(yīng)該注重背后的物理背景,像艾薩克牛頓一樣,從唯象理論中再進(jìn)一步。