劉端陽(yáng), 魏鐘鳴,2*
1. 中國(guó)科學(xué)院半導(dǎo)體研究所,超晶格國(guó)家重點(diǎn)實(shí)驗(yàn)室, 北京 100083
2. 中國(guó)科學(xué)院大學(xué),材料科學(xué)與光電技術(shù)學(xué)院, 北京 100049
近年來(lái), 隨著實(shí)驗(yàn)科學(xué)的進(jìn)步和材料計(jì)算科學(xué)的巨大發(fā)展, 研究者們對(duì)數(shù)以百萬(wàn)計(jì)的材料進(jìn)行了實(shí)驗(yàn)合成,性能表征以及理論計(jì)算。在此基礎(chǔ)上,已經(jīng)建立了多種高質(zhì)量的材料數(shù)據(jù)庫(kù), 例如Materials Project[1]、C2DB[2]、AFlow[3-4]、GDB-13[5]、和QM9[6]等。巨大的材料數(shù)據(jù)庫(kù)為實(shí)現(xiàn)更多樣化的材料功能提供了可能性, 但另一方面也提高了優(yōu)化和篩選材料的難度。
與此同時(shí),機(jī)器學(xué)習(xí)方法在計(jì)算機(jī)科學(xué)以外的許多領(lǐng)域中得到了應(yīng)用,其核心是讓機(jī)器自動(dòng)從復(fù)雜的數(shù)據(jù)中學(xué)習(xí)到隱藏在其中的規(guī)律。因此,鑒于材料數(shù)據(jù)庫(kù)越來(lái)越龐大,對(duì)材料的性能要求也越來(lái)越復(fù)雜,在材料科學(xué)的領(lǐng)域中,有相當(dāng)多的學(xué)者在研究中引入了機(jī)器學(xué)習(xí)的方法[7-15]。從機(jī)器學(xué)習(xí)的分類來(lái)說(shuō),可以大致分為有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),前兩者的主要區(qū)別是訓(xùn)練數(shù)據(jù)中是否有明確的目標(biāo)標(biāo)簽。在目前的材料科學(xué)領(lǐng)域中,仍然是以有監(jiān)督學(xué)習(xí)為主。本文主要介紹有監(jiān)督學(xué)習(xí)在材料科學(xué)研究中的應(yīng)用現(xiàn)狀。
本文的結(jié)構(gòu)如下:首先介紹機(jī)器學(xué)習(xí)的基本理論及其在材料科學(xué)研究中使用機(jī)器學(xué)習(xí)技術(shù)常用的流程;接下來(lái)對(duì)幾種有監(jiān)督學(xué)習(xí)技術(shù)及其在材料研究領(lǐng)域中的應(yīng)用情況做了介紹;之后對(duì)有監(jiān)督學(xué)習(xí)在這一領(lǐng)域的幾個(gè)重點(diǎn)研究方向進(jìn)行了敘述;最后對(duì)機(jī)器學(xué)習(xí)在材料科學(xué)中的應(yīng)用進(jìn)行簡(jiǎn)要總結(jié),并展望本領(lǐng)域的一些研究前景。
機(jī)器學(xué)習(xí)的理論首先假定所有的數(shù)據(jù)都是在相同的隱藏統(tǒng)計(jì)規(guī)律下產(chǎn)生,同樣的統(tǒng)計(jì)規(guī)律下產(chǎn)生了不同的數(shù)據(jù)樣本點(diǎn)。特征是用于描述每個(gè)樣本點(diǎn)的若干屬性,不同的樣本點(diǎn)其特征不同,為了使機(jī)器學(xué)習(xí)的效果更好,應(yīng)提取到最能反映問(wèn)題核心的樣本特征;而模型則是通過(guò)樣本特征映射到機(jī)器學(xué)習(xí)研究問(wèn)題中關(guān)心的目標(biāo)屬性的一個(gè)映射或者說(shuō)是程序中的函數(shù),這些目標(biāo)屬性包括在分類問(wèn)題中的所屬類別,回歸問(wèn)題中的標(biāo)簽值等,應(yīng)根據(jù)關(guān)心的問(wèn)題類型選擇適合的機(jī)器學(xué)習(xí)模型;而算法的選擇要合理且有效,通過(guò)對(duì)訓(xùn)練數(shù)據(jù)的擬合,對(duì)模型參數(shù)進(jìn)行優(yōu)化,從而獲得優(yōu)化后可實(shí)用的模型。通常在有監(jiān)督學(xué)習(xí)中,通過(guò)最小化損失函數(shù)來(lái)實(shí)現(xiàn)優(yōu)化目標(biāo)。
目前,大量的材料數(shù)據(jù)庫(kù)為機(jī)器學(xué)習(xí)提供了豐富的訓(xùn)練數(shù)據(jù),很多數(shù)據(jù)庫(kù)都提供了材料的多種屬性,如原子信息、晶格類型、空間群、晶格常數(shù)、能帶帶隙甚至其他各種材料物理化學(xué)屬性。若以每種材料為一個(gè)樣本點(diǎn),這些屬性都可以作為機(jī)器學(xué)習(xí)的樣本特征或者標(biāo)簽。值得注意的是,很多時(shí)候需要挖掘出反映所關(guān)心問(wèn)題的更深層的特征,往往需要搜尋相關(guān)其他的數(shù)據(jù)甚至對(duì)找到的一些原始特征進(jìn)行轉(zhuǎn)換。用于描述材料樣本的原始特征可以分為以下三類:(1)原子信息,在這類特征類型中,不僅可以使用原子數(shù)目作為特征,還可以使用原子的其他屬性,如電負(fù)性、香農(nóng)半徑等;(2)材料屬性,例如晶格常數(shù)、空間群、吸收光譜等,這類特征類似于原子信息,既適用于分類又適用于回歸;(3)原子配置,對(duì)于這種類型,原始特征是所有原子的類型和位置,往往不能直接用于機(jī)器學(xué)習(xí)模型,需要對(duì)其進(jìn)行一定程度的轉(zhuǎn)換。
機(jī)器學(xué)習(xí)的模型和算法往往是一體的,不同的模型對(duì)應(yīng)著不同的優(yōu)化算法,因此很多時(shí)候其含義與語(yǔ)境有關(guān),例如當(dāng)提到機(jī)器學(xué)習(xí)的幾大算法時(shí),是指某種模型和算法的整體。針對(duì)問(wèn)題的不同,適用不同種類的模型和算法。常見(jiàn)的有兩類問(wèn)題:分類問(wèn)題和回歸問(wèn)題,這也是材料科學(xué)中常見(jiàn)的兩類問(wèn)題。所謂分類問(wèn)題,是指將樣本歸類到不同的種類中,更細(xì)致的還可以分成二分類和多分類問(wèn)題,其學(xué)習(xí)目標(biāo)是一個(gè)分類,為了使模型是連續(xù)函數(shù),能夠使用梯度算法,在實(shí)際模型和算法中往往使用One-Hot 型的學(xué)習(xí)目標(biāo),并使用交叉熵作為損失函數(shù)。而所謂回歸問(wèn)題,則學(xué)習(xí)的目標(biāo)是一個(gè)標(biāo)量,學(xué)習(xí)任務(wù)是使得模型得到的目標(biāo)盡量準(zhǔn)確,在訓(xùn)練數(shù)據(jù)集上則是要得到更為接近標(biāo)簽值。總體而言,需要根據(jù)問(wèn)題的形式,選擇一個(gè)合適的算法模型,其輸入是樣本點(diǎn)的特征,輸出是分類或者回歸的目標(biāo),然后按照問(wèn)題的形式,選擇一個(gè)合適、能夠反映模型預(yù)測(cè)在訓(xùn)練數(shù)據(jù)集上優(yōu)劣的基于目標(biāo)的損失函數(shù),按照特定算法和特定步驟優(yōu)化模型參數(shù)減小損失函數(shù),獲得優(yōu)化的模型。
根據(jù)以上有監(jiān)督學(xué)習(xí)的理論,在材料科學(xué)中的機(jī)器學(xué)習(xí)的流程如圖1 所示,按照流程順序:(1)收集數(shù)據(jù):要選擇足夠的合適的訓(xùn)練數(shù)據(jù)集,可以從現(xiàn)有的材料數(shù)據(jù)庫(kù)中選擇,也可以通過(guò)理論計(jì)算或?qū)嶒?yàn)自行產(chǎn)生;(2)特征工程與特征轉(zhuǎn)換:根據(jù)需要對(duì)數(shù)據(jù)集中材料樣本點(diǎn)的原始特征進(jìn)行篩選或轉(zhuǎn)換;(3)建立模型,該模型的輸入是篩選或轉(zhuǎn)換后的材料特征,輸出是問(wèn)題關(guān)心的目標(biāo)數(shù)據(jù)的形式;(4)模型訓(xùn)練,即使用模型對(duì)訓(xùn)練數(shù)據(jù)集中的規(guī)律進(jìn)行學(xué)習(xí),優(yōu)化模型參數(shù);(5)使用模型,將優(yōu)化好的模型用于目標(biāo)任務(wù)。在實(shí)際過(guò)程中,流程并非完全按照上述順序操作,例如特征工程的特征篩選工作往往是要借助于模型訓(xùn)練的結(jié)果;再如對(duì)模型的超參數(shù)進(jìn)行優(yōu)化時(shí),也是需要根據(jù)不同超參數(shù)的模型訓(xùn)練結(jié)果的優(yōu)劣對(duì)模型進(jìn)行篩選。
圖1 有監(jiān)督學(xué)習(xí)流程的簡(jiǎn)略圖示Fig.1 Simplified diagram of supervised learning process
自從機(jī)器學(xué)習(xí)于1957 年被提出以來(lái),已研究出大量的機(jī)器學(xué)習(xí)算法。其中許多算法已經(jīng)被應(yīng)用于材料領(lǐng)域的機(jī)器學(xué)習(xí)中。選擇合適的機(jī)器學(xué)習(xí)算法是機(jī)器學(xué)習(xí)研究中的一個(gè)重要問(wèn)題。對(duì)于有監(jiān)督學(xué)習(xí),分類和回歸問(wèn)題有不同適用的算法。如果特征與目標(biāo)屬性之間的關(guān)系不是近似線性,簡(jiǎn)單的線性算法無(wú)法給出很好的結(jié)果。本文將介紹材料研究領(lǐng)域中一些流行的機(jī)器學(xué)習(xí)算法。
監(jiān)督學(xué)習(xí)的任務(wù)大致可以分為兩種類型:分類和回歸。分類的算法大致分為兩種類型:線性和非線性。支持向量機(jī)(Support Vector Machine,SVM)具有線性和非線性的算法[16]。SVM 不僅僅是一個(gè)經(jīng)典的算法,其概念還啟發(fā)了許多其他算法的發(fā)展,特別是在許多流行算法中使用的對(duì)偶算法和核函數(shù)的概念[17]。對(duì)于分類問(wèn)題,SVM 是一個(gè)強(qiáng)大的工具,已被廣泛應(yīng)用于材料科學(xué)研究中。例如,SVM 被用于預(yù)測(cè)一種材料是半導(dǎo)體還是金屬[18-20],一種半導(dǎo)體的能隙是直接的還是間接的[21],或者其他性質(zhì)[22-23]。
核嶺回歸(Kernel Ridge Regression,KRR)是代表性的核方法[24]。如2.1 節(jié)所述,核方法的概念源自非線性SVM。在核方法中,核心是核函數(shù),它隱式地將初始特征轉(zhuǎn)換為一個(gè)新的高維特征空間。這將帶來(lái)兩個(gè)好處:更強(qiáng)地表達(dá)能力以及可以用在新特征空間中的線性擬合的方式實(shí)現(xiàn)在原始特征空間中的非線性擬合效果。為了避免復(fù)雜的計(jì)算,新特征并沒(méi)有被顯式計(jì)算出來(lái),而是通過(guò)核函數(shù)計(jì)算它們的內(nèi)積。基于這些新特征,可以應(yīng)用線性分類或線性回歸。顯然,該方法的性能依賴于核函數(shù),因此選擇合適的核函數(shù)對(duì)于核方法非常重要。如果在最后的線性回歸中添加嶺項(xiàng)以避免不穩(wěn)定的結(jié)果,那么就是KRR。通過(guò)合適的核函數(shù),KRR 表現(xiàn)出優(yōu)秀的回歸性能,包括較小的誤差和較高的穩(wěn)定性。因此,KRR 被廣泛應(yīng)用于關(guān)于材料的機(jī)器學(xué)習(xí)研究中[25-28]。由于KRR方法需要一個(gè)N×N的格拉姆矩陣,其中N是樣本點(diǎn)的數(shù)量,它更適用于系統(tǒng)較小或樣本較少的問(wèn)題,如有機(jī)材料[12,29-31]。
雖然決策樹(Decision Tree, DT)算法CART[32]可以處理回歸問(wèn)題,但人們更傾向于使用決策樹來(lái)解決分類問(wèn)題。通過(guò)訓(xùn)練好的決策樹,可以對(duì)新的示例進(jìn)行正確分類。一個(gè)分類決策樹的生成包括兩個(gè)步驟的循環(huán):根據(jù)某個(gè)規(guī)則選擇一個(gè)特征,以及根據(jù)所選特征的取值集構(gòu)建一些子節(jié)點(diǎn)。在流行的決策樹算法中,ID3[33]和C4.5[34]使用信息增益或信息增益比作為選擇特征的判斷依據(jù),因此它們更適用于離散特征。CART 算法使用基尼指數(shù)作為特征選擇的判斷依據(jù),因此更自然地適用于具有連續(xù)特征的問(wèn)題。為了避免過(guò)擬合,有必要對(duì)生成的決策樹進(jìn)行剪枝。在剪枝過(guò)程中,將某些子樹縮減為其根節(jié)點(diǎn),這可以被視為結(jié)構(gòu)風(fēng)險(xiǎn)最小化。在生成決策樹時(shí),通過(guò)隨機(jī)地從原始訓(xùn)練數(shù)據(jù)中選擇一些數(shù)據(jù),并在決策樹每個(gè)特征選擇的步驟中加上一定的隨機(jī)因素,從而可以生成許多不同的隨機(jī)決策樹。如果需要對(duì)新示例進(jìn)行分類,可以從每個(gè)決策樹得到一個(gè)分類結(jié)果,最后可以使用多數(shù)投票來(lái)決定新示例的分類。這是隨機(jī)決策森林(Random Decision Forest,RF)的著名算法[35]。RF 可以被看作是決策樹的擴(kuò)展。決策樹和隨機(jī)森林算法都被廣泛應(yīng)用于解決材料研究的許多問(wèn)題,例如預(yù)測(cè)能隙[7,26,36-37],其他材料屬性[22,23,38,39]。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)具有較強(qiáng)的表達(dá)能力,若其具有足夠的節(jié)點(diǎn)或參數(shù),就可以以任意精度逼近幾乎任何函數(shù)。而且ANN 可以自動(dòng)提取樣本或輸入數(shù)據(jù)的隱藏深層特征。由于這兩個(gè)優(yōu)勢(shì),ANN 被廣泛應(yīng)用于許多研究領(lǐng)域。在材料科學(xué)領(lǐng)域,研究人員將它們應(yīng)用于形成能的預(yù)測(cè)[8,29,40],能隙的預(yù)測(cè)[26,31,39],其他材料屬性的預(yù)測(cè)[23,41-42]等。
除了SVM、KRR、DT、RF、ANN 之外, 還有許多其他算法被應(yīng)用于半導(dǎo)體材料和半導(dǎo)體制造的研究中。受學(xué)術(shù)水平和文章篇幅的限制,無(wú)法在本節(jié)中介紹該領(lǐng)域的其他新算法。線性擬合方法是一組基礎(chǔ)且有用的方法。雖然其可能不適用于某些具有非線性因素的問(wèn)題,但具有計(jì)算復(fù)雜性低的優(yōu)點(diǎn)。線性擬合方法已經(jīng)用于預(yù)測(cè)能隙[19,26,38],磁性屬性[11]等方面。提升算法可以改善某種學(xué)習(xí)模型的訓(xùn)練效果,因此它已經(jīng)在材料研究的許多領(lǐng)域中得到應(yīng)用[26,43-44]。主動(dòng)學(xué)習(xí)是一種先進(jìn)的算法,它允許在預(yù)測(cè)中改善已學(xué)習(xí)模型,因此被應(yīng)用于處理一些在訓(xùn)練之前難以收集足夠合適數(shù)據(jù)的問(wèn)題,例如機(jī)器學(xué)習(xí)力場(chǎng)(MLFF)[14,45]。除了這些算法之外,材料領(lǐng)域的研究人員還使用了其他算法,如遺傳算法(GA)[46]、樸素貝葉斯(NB)[47]、遷移學(xué)習(xí)(TL)[48]等。
有監(jiān)督學(xué)習(xí)技術(shù)的應(yīng)用在材料研究領(lǐng)域中正經(jīng)歷快速發(fā)展的時(shí)期,并已經(jīng)幫助研究人員取得了較大的進(jìn)展。 除了一些比較特別的研究方向,如半導(dǎo)體晶體生長(zhǎng)中的動(dòng)力學(xué)模擬[49],通過(guò)自然語(yǔ)言處理(NLP)自動(dòng)生成的帶隙數(shù)據(jù)庫(kù)[50]等,有監(jiān)督學(xué)習(xí)方法在材料研究中主要用于三類問(wèn)題。
一方面,通過(guò)分析大規(guī)模的材料數(shù)據(jù)庫(kù)以及理論和實(shí)驗(yàn)的數(shù)據(jù),機(jī)器學(xué)習(xí)可以預(yù)測(cè)材料的性質(zhì)、優(yōu)化材料的特定屬性,并提供新的候選材料,有助于加快新材料的研發(fā)過(guò)程,節(jié)省時(shí)間和資源[8,21]。另一方面,分類是機(jī)器學(xué)習(xí)的一個(gè)重要類別,在材料領(lǐng)域,將不同的材料分類是一項(xiàng)重要的研究課題,這種分類對(duì)于新材料的發(fā)現(xiàn)具有重要意義。通過(guò)機(jī)器學(xué)習(xí)算法,可以根據(jù)半導(dǎo)體材料的特征和性質(zhì)將其分為不同的類別。這種分類可以幫助研究人員系統(tǒng)地組織和理解大量的材料數(shù)據(jù),為新材料的發(fā)現(xiàn)和設(shè)計(jì)提供指導(dǎo)和啟示。
利用圖卷積神經(jīng)網(wǎng)絡(luò),麻省理工學(xué)院的研究人員預(yù)測(cè)了鈣鈦礦材料的能隙、形成能以及其他性質(zhì)[8],且成功預(yù)測(cè)了這些鈣鈦礦材料的金屬和半導(dǎo)體分類。圖2a 展示了晶胞的原子位置信息和無(wú)向圖的映射關(guān)系;圖2b 展示了表示鈣鈦礦晶體的無(wú)向圖如何作為神經(jīng)網(wǎng)絡(luò)的輸入。該組的研究人員對(duì)9,350 個(gè)測(cè)試晶體進(jìn)行了模型訓(xùn)練和驗(yàn)證,獲得了高達(dá)90%的分類預(yù)測(cè)準(zhǔn)確率。
圖2 鈣鈦礦的圖神經(jīng)網(wǎng)絡(luò)[8]Fig.2 Graph neural network for perovskite[8]
機(jī)器學(xué)習(xí)可以用于預(yù)測(cè)半導(dǎo)體材料的物性,如能隙、介電常數(shù)、熱導(dǎo)率等。通過(guò)訓(xùn)練模型并利用大量的輸入特征,機(jī)器學(xué)習(xí)可以提供高精度的物性預(yù)測(cè)結(jié)果,從而幫助研究人員更好地理解材料性質(zhì)和優(yōu)化材料性能[18-20]。材料科學(xué)的一個(gè)主要目標(biāo)是預(yù)測(cè)不同材料的物理或化學(xué)性質(zhì),通過(guò)這種研究會(huì)對(duì)發(fā)現(xiàn)新材料有所幫助。已有許多研究報(bào)告了使用機(jī)器學(xué)習(xí)方法預(yù)測(cè)材料的各種性質(zhì),包括力學(xué)、熱學(xué)、聲學(xué)、光學(xué)、電學(xué)和磁學(xué)等方面。許多研究關(guān)注材料的電學(xué)性質(zhì),包括導(dǎo)電性、能帶結(jié)構(gòu)、載流子遷移率等。
鄭州大學(xué)的一個(gè)課題組對(duì)纖鋅礦GaN 的部分原子被不同 2,3,4 價(jià)金屬離子替代形成的系列材料的帶隙和替位原子種類及替位位置之間的關(guān)系進(jìn)行了預(yù)測(cè)研究[19],采用了多種有監(jiān)督學(xué)習(xí)方法,發(fā)現(xiàn)其中效果最好的是支持向量回歸方法。支持向量回歸方法的結(jié)果展示在圖3 中,圖中比較的是材料帶隙相對(duì)于纖鋅礦GaN 帶隙的偏移值,橫坐標(biāo)是實(shí)際的數(shù)值,縱坐標(biāo)是支持向量回歸的預(yù)測(cè)值。圖中的每一個(gè)數(shù)據(jù)點(diǎn)代表一種材料。青色的圓形代表訓(xùn)練集中的材料,黃色三角代表驗(yàn)證集中的材料,可見(jiàn)預(yù)測(cè)準(zhǔn)確度較好。
圖3 纖鋅礦GaN 原子替位后能帶改變值預(yù)測(cè)[19]Fig.3 Prediction of bandgap offsets after atomic substitution in wurtzite GaN[19].
與直接從描述符預(yù)測(cè)材料性質(zhì)相比,機(jī)器學(xué)習(xí)力場(chǎng)(Machine learning force field,MLFF)是另一種方法。在MLFF 中,可以通過(guò)訓(xùn)練得到力場(chǎng)模型進(jìn)行分子動(dòng)力學(xué)(Molecular Dynamics,MD)模擬來(lái)預(yù)測(cè)材料的穩(wěn)定性、熱學(xué)性質(zhì)和其他性質(zhì),尤其是材料的相變性質(zhì)和表面性質(zhì)。在這個(gè)領(lǐng)域中有大量的研究論文,而且研究論文的數(shù)量正處于快速增長(zhǎng)階段[13,25]。其中一些軟件在此研究領(lǐng)域也應(yīng)運(yùn)而生,如DeePMD-kit[41]、Describe[51]、sGDML[52]等。
北京計(jì)算研究中心的一個(gè)研究小組應(yīng)用MLFF方法來(lái)預(yù)測(cè)硅表面 (111) 的重構(gòu)[15]。通過(guò)14,000 個(gè)小超胞的硅體材料和表面結(jié)構(gòu)的第一性分子動(dòng)力學(xué)模擬的數(shù)據(jù)來(lái)訓(xùn)練力場(chǎng),然后利用訓(xùn)練的力場(chǎng)進(jìn)行了較大空間尺度(17,000 個(gè)原子)和較長(zhǎng)時(shí)間尺度(大約幾納秒)的硅表面 (111) 重構(gòu)的分子動(dòng)力學(xué)模擬。從這個(gè)模擬中,作者發(fā)現(xiàn)集體空位擴(kuò)散是重構(gòu)的關(guān)鍵過(guò)程。圖4 展示了這個(gè)空位擴(kuò)散過(guò)程。
圖4 硅111 表面的空位擴(kuò)散過(guò)程[15]Fig.4 Vacancy diffusion process on silicon (111) surface[15]
本文介紹了機(jī)器學(xué)習(xí)的常見(jiàn)算法在材料科學(xué)中的一些研究進(jìn)展。由于學(xué)術(shù)水平和主題的限制,仍有許多其他相關(guān)的高質(zhì)量研究有待補(bǔ)充。
盡管在材料領(lǐng)域的機(jī)器學(xué)習(xí)應(yīng)用中已經(jīng)取得了一些成果,但仍然存在一些不足之處。(1)數(shù)據(jù)的不足,在材料科學(xué)領(lǐng)域存在大量數(shù)據(jù),但很多時(shí)候?qū)τ跈C(jī)器學(xué)習(xí)的模型來(lái)說(shuō)仍然不足,或者在一些研究中沒(méi)有得到充分利用,這使得構(gòu)建具有更大泛用性的通用模型存在一定的困難。這是因?yàn)槟P驮酵ㄓ?,則模型越復(fù)雜,包含的參數(shù)越多,也就需要更多的訓(xùn)練數(shù)據(jù)學(xué)習(xí)有效模型;(2)研究的統(tǒng)計(jì)驗(yàn)證有時(shí)尚不充分,該領(lǐng)域的一些研究結(jié)果缺乏對(duì)結(jié)果的統(tǒng)計(jì)分析。另外,對(duì)于材料的機(jī)器學(xué)習(xí),有時(shí)很難保證訓(xùn)練數(shù)據(jù)和待預(yù)測(cè)實(shí)例之間的獨(dú)立同分布條件。
材料領(lǐng)域的機(jī)器學(xué)習(xí)是一個(gè)活躍的研究領(lǐng)域,它有許多未被探索的方向和較大的研究前景。由于這個(gè)相對(duì)年輕的跨學(xué)科領(lǐng)域的蓬勃發(fā)展趨勢(shì),有理由相信材料領(lǐng)域的機(jī)器學(xué)習(xí)將成為材料研究的重要組成部分。對(duì)于相關(guān)的研究方向或機(jī)器學(xué)習(xí)模型,本文認(rèn)為未來(lái)有一些方向值得更多關(guān)注:(1)主動(dòng)學(xué)習(xí)。如前所述,在進(jìn)行材料的機(jī)器學(xué)習(xí)之前,很難收集到合適和充足的訓(xùn)練數(shù)據(jù),因?yàn)殡y以估計(jì)隱藏的統(tǒng)計(jì)分布。因此,主動(dòng)學(xué)習(xí)算法的策略(即在訓(xùn)練過(guò)程中評(píng)估獨(dú)立同分布條件及模型有效性,在必要時(shí)更新訓(xùn)練數(shù)據(jù)并重新訓(xùn)練直到模型合適)是一種有前途的方法。(2)圖神經(jīng)網(wǎng)絡(luò)(GNN)。從原子坐標(biāo)開始構(gòu)建材料的描述符是材料科學(xué)中機(jī)器學(xué)習(xí)的一項(xiàng)重要基本工作,在這類描述符中,無(wú)向圖自然滿足位置的旋轉(zhuǎn)、平移和置換不變性,符合物理要求。另一方面,在GNN 中有相對(duì)成熟的模型框架來(lái)訓(xùn)練無(wú)向圖數(shù)據(jù)。因此,有理由相信GNN 會(huì)是本領(lǐng)域中的一個(gè)重要研究方向。(3)遷移學(xué)習(xí)。這種方法嘗試預(yù)訓(xùn)練一個(gè)通用模型,然后在特定問(wèn)題上進(jìn)行微調(diào)。它與材料科學(xué)數(shù)據(jù)的結(jié)構(gòu)自然契合。然而,預(yù)訓(xùn)練通用模型非常困難,因?yàn)樯婕暗臄?shù)據(jù)和計(jì)算成本無(wú)法計(jì)數(shù),但這將會(huì)是未來(lái)有前景的發(fā)展方向之一。相信在不久的將來(lái),機(jī)器學(xué)習(xí)將幫助材料領(lǐng)域的研究在很多方向上取得突破性的成果。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。