稅 烺 ,付建輝
(1.成都先進(jìn)金屬材料產(chǎn)業(yè)技術(shù)研究院股份有限公司特鋼技術(shù)研究所,四川 成都 610303;2.海洋裝備用金屬材料及其應(yīng)用國家重點(diǎn)實(shí)驗(yàn)室,遼寧 鞍山 114009)
材料是人類社會發(fā)展的重要物質(zhì)基礎(chǔ),新材料技術(shù)是體現(xiàn)一個(gè)國家科技發(fā)展水平的重要指標(biāo)之一。近年來,傳統(tǒng)材料科學(xué)研究中依賴科學(xué)直覺與重復(fù)試錯(cuò)的研究方法已逐漸跟不上技術(shù)快速發(fā)展的需求,成為限制材料科學(xué)發(fā)展的瓶頸。2011 年6 月,美國政府提出了“材料基因組計(jì)劃”(Material Genome Initiative),其目的是利用材料模擬計(jì)算、高通量實(shí)驗(yàn)和數(shù)據(jù)挖掘等技術(shù)將材料從發(fā)現(xiàn)到應(yīng)用的速度至少提高一倍,成本至少降低一半[1]。材料大數(shù)據(jù)挖掘技術(shù)是材料基因組計(jì)劃的一個(gè)重要組成部分,其包括聚類分析、預(yù)測模型、關(guān)聯(lián)分析、異常檢測等方法,對海量材料數(shù)據(jù)進(jìn)行挖掘,快速尋找材料“工藝-成分-結(jié)構(gòu)-性能”之間的內(nèi)在規(guī)律,從而建立起數(shù)據(jù)驅(qū)動的材料計(jì)算模型,以期最終實(shí)現(xiàn)材料的“按需設(shè)計(jì)”。
鋰離子電池(LIBs)多年來在各類型電子器件中得到了廣泛的應(yīng)用,其中特別是在移動電話和電動汽車領(lǐng)域[2]。目前常見的鋰離子電池基本都使用液態(tài)的電解質(zhì),這類電解質(zhì)通常是溶解有鋰鹽的有機(jī)溶劑。因?yàn)榫哂械统杀竞透咪囯x子電導(dǎo)率的優(yōu)點(diǎn),使用這類電解質(zhì)的鋰離子電池通常具有較高的輸出功率。但是,有機(jī)溶劑非常容易產(chǎn)生安全性和穩(wěn)定性的問題,例如,當(dāng)電池遭受機(jī)械損傷或短路時(shí),有機(jī)溶劑容易起火燃燒,電解質(zhì)與電極反應(yīng)導(dǎo)致電池總體輸出功率衰減,以及外部熱源易使有機(jī)溶劑蒸發(fā)導(dǎo)致電池內(nèi)壓增大最終產(chǎn)生爆炸等[3]。相反的,固態(tài)鋰離子電池使用固態(tài)的電解質(zhì)代替有機(jī)溶劑電解質(zhì),因而在可提高陰極電壓的同時(shí)抑制電極反應(yīng)發(fā)生,減輕電池起火和爆炸的風(fēng)險(xiǎn),并且可以防止電極上的枝晶生長。由于其安全性、穩(wěn)定性和高能量密度的特點(diǎn),固態(tài)電解質(zhì)鋰離子電池在未來有望代替液態(tài)電解質(zhì)鋰離子電池[4?5]。盡管如此,當(dāng)前固態(tài)電解質(zhì)面臨的主要問題是其離子電導(dǎo)率相較于液態(tài)電解質(zhì)低多個(gè)數(shù)量級[6]。材料研究學(xué)者在多年以前已經(jīng)開始高離子電導(dǎo)率的固態(tài)材料的搜尋工作,到目前為止,文獻(xiàn)中已報(bào)道了數(shù)種在室溫下離子導(dǎo)電性接近于液態(tài)電解質(zhì)的材料[7?8]。除此之外,一種可以作為商用固態(tài)電解質(zhì)使用的材料還需要具備化學(xué)穩(wěn)定性、低電子電導(dǎo)率、低成本等特點(diǎn),因此,對于可廣泛使用的高離子電導(dǎo)率固態(tài)電解質(zhì)的搜尋條件變得更加苛刻。
傳統(tǒng)的搜索方法是“試錯(cuò)法”,研究人員試圖逐一合成可能的高離子電導(dǎo)率化合物[9]。然而,由于已知的含鋰固體化合物有數(shù)萬種,這種方法的效率相對較低。近年來,“高通量計(jì)算”的概念得到推廣,通過高通量計(jì)算篩選候選化合物已成為尋找理想固體電解質(zhì)的一種新方法[10]。2014 年,Gao 建立了基于鍵價(jià)模型的篩選模型,并用該模型篩選了ICDD 2004 材料數(shù)據(jù)庫。該研究者首先設(shè)置了排除稀有或環(huán)境污染元素和變價(jià)元素化合物的前置條件,將候選化合物的數(shù)量從 109 846 減少到 1 380。然后,該研究者構(gòu)建了鍵價(jià)模型,篩選出 1 380 個(gè)候選物來預(yù)測每一種材料的鋰離子電導(dǎo)率[11]。Sendek 遵循類似的篩選程序從 Material Project 數(shù)據(jù)庫篩選化合物數(shù)據(jù)。Sendek 首先設(shè)置了篩選前置條件,將可能的候選材料從12 000 多個(gè)減少到300 個(gè)左右,前置條件包括電子電導(dǎo)率、結(jié)構(gòu)穩(wěn)定性、成本、地球豐度等。后來,該作者使用了 40 種晶體結(jié)構(gòu)和在文獻(xiàn)中已報(bào)道的實(shí)驗(yàn)測量的離子電導(dǎo)率值來建立邏輯回歸模型,然后使用訓(xùn)練好的機(jī)器學(xué)習(xí)模型篩選選定的 300 種化合物,以期找到有應(yīng)用前景的高離子電導(dǎo)率化合物[12]。該模型基于實(shí)驗(yàn)獲得的數(shù)據(jù)不涉及傳統(tǒng)的 DFT 計(jì)算,因此是真正的“數(shù)據(jù)驅(qū)動”計(jì)算。2018 年,Zhai 在搜索高居里溫度鈣鈦礦材料時(shí)應(yīng)用了類似的“數(shù)據(jù)驅(qū)動”方法。該作者從參考文獻(xiàn)中收集了 47 個(gè)數(shù)據(jù)并建立了機(jī)器學(xué)習(xí)模型,然后將其用于預(yù)測候選材料的居里溫度[13]。
筆者以相關(guān)材料數(shù)據(jù)較多的固態(tài)鋰離子導(dǎo)體材料為研究對象,建立起數(shù)據(jù)驅(qū)動的篩選模型,并評估其模型復(fù)雜度、預(yù)測精確度、材料篩選結(jié)果以及模型誤差來源。該研究方法屬于材料基因工程的典型研究方法,對其它類型的新材料的設(shè)計(jì)、篩選和優(yōu)化也具有指導(dǎo)意義。
在本研究中,我們使用包含 20 個(gè)從晶格參數(shù)計(jì)算并與離子電導(dǎo)率相關(guān)的特征空間來構(gòu)建機(jī)器學(xué)習(xí)模型[11]。訓(xùn)練數(shù)據(jù)集包含 46 種含鋰化合物,其中包括從文獻(xiàn)和Material Project 數(shù)據(jù)庫中收集的晶格參數(shù)和電導(dǎo)率。首先,我們將 Sendek 提出的篩選前置條件應(yīng)用于 Material Project 數(shù)據(jù)庫中的所有含鋰化合物,將候選化合物從 10 000 多個(gè)減少到 343 個(gè)。前置條件基于電子電導(dǎo)率、結(jié)構(gòu)穩(wěn)定性、穩(wěn)定性陰極氧化,鋰金屬陽極還原穩(wěn)定性,排除了不適合商業(yè)應(yīng)用的電解質(zhì)化合物。之后,使用機(jī)器學(xué)習(xí)算法建立篩選模型,然后使用經(jīng)過良好訓(xùn)練和驗(yàn)證的模型篩選上述選出的 343 種候選材料,判斷其是否為超離子導(dǎo)體材料。
包含 46 種材料和 20 個(gè)特征值的訓(xùn)練數(shù)據(jù)集展示在附件表 S1(詳見OSID 碼內(nèi)增強(qiáng)出版內(nèi)容) 所示。其中,這20 個(gè)材料特征是依據(jù)Sendek 所提出的與鋰離子電導(dǎo)率密切相關(guān)的特征,是由材料晶格參數(shù)計(jì)算而來[11]。表的最后一列是每個(gè)樣本的分類標(biāo)簽,它是一個(gè)布爾變量,表示化合物是否為超離子導(dǎo)體化合物。由于不同化合物的電導(dǎo)率通常在很大的范圍內(nèi)變化,為了減少模型的擬合誤差,通常使用布爾變量來限制變化范圍,因此模型構(gòu)建時(shí)不使用真實(shí)的電導(dǎo)率數(shù)值。在本模型中,將離子電導(dǎo)率σ ≥ 10?4S/cm 的材料視為超離子導(dǎo)體,而 σ <10?4S/cm 的材料視為非超離子導(dǎo)體材料,分別對應(yīng)于=1 和 0。
根據(jù)含鋰化合物的許多物理特征來判斷其是否為超離子材料是一個(gè)典型的二元分類問題,決策樹是一個(gè)適合解決該問題的算法。一個(gè)訓(xùn)練好的決策樹在每一步中通過一個(gè)選定的特征將數(shù)據(jù)集分類為多個(gè)子數(shù)據(jù)集并迭代該過程,因此子數(shù)據(jù)集被不斷分類為下一級的子數(shù)據(jù)集,直到每個(gè)子數(shù)據(jù)集中的數(shù)據(jù)是相同的標(biāo)簽或滿足其他預(yù)設(shè)條件。決策樹算法的數(shù)學(xué)基礎(chǔ)是將特征空間劃分為樣本標(biāo)簽相同的單元或區(qū)域。圖1 顯示了特征空間劃分的示例。圖1 中的特征空間由兩個(gè)特征組成,這使得特征空間成為一個(gè)平面。將平面分成兩個(gè)區(qū)域的線將正樣本和負(fù)樣本分開,所以這四條線代表了一個(gè)分類模型,對應(yīng)于一個(gè)訓(xùn)練好的決策樹。包含m個(gè)特征的問題即是在m維的特征空間中尋找到這樣的分類模型[14]。
圖1 二維特征空間劃分示意Fig.1 Schematic diagram of a 2D feature space division
在本研究中,含鋰材料的特征空間是 [AAV,SDLC,SDLI ...RNC],是一個(gè) 20 維的空間,如附件表S1 所示?;谝阎獢?shù)據(jù)的分類方案應(yīng)該建立在這個(gè) 20 維的特征空間上。根據(jù)決策樹算法,需要逐步?jīng)Q定選擇20 個(gè)特征中的哪個(gè)特征作為分類節(jié)點(diǎn),并確定其值是多少。文獻(xiàn)中常用的有ID3、C4.5 和CART 三種樹生成算法。這三者中,ID3 算法對訓(xùn)練數(shù)據(jù)集采用“信息增益”來確定選擇哪個(gè)特征及其分類值,而 C4.5 算法采用“信息增益比”,CART采用 Gini 系數(shù)[15]。在本研究的問題中,分類模型的預(yù)期輸出是一個(gè)布爾變量(0 或1),即一個(gè)二元分類問題。因此,采用計(jì)算成本較低的輸出為二叉分類樹的CART 算法進(jìn)行模型構(gòu)建。
1.1.1 Gini 系數(shù)
在 CART 算法中,Gini 系數(shù)表示從數(shù)據(jù)集D中隨機(jī)抽取的兩個(gè)樣本其標(biāo)簽不同的概率。因此,較小的 Gini(D)表示數(shù)據(jù)集D的純度較高。集合D上的 Gini 系數(shù)定義如下:
其中D表示數(shù)據(jù)集;pk表示D中第k個(gè)標(biāo)簽的樣本所占的概率;k表示樣本標(biāo)簽的序列號;|y|表示標(biāo)簽類別的總數(shù)。在劃分?jǐn)?shù)據(jù)集時(shí),選擇劃分?jǐn)?shù)據(jù)集的最佳特征應(yīng)該使所有子集的加權(quán)基尼指數(shù)之和最小,因?yàn)镚ini 系數(shù)最小表示集合純度最高。因此,集合D上某個(gè)特征A的 Gini 系數(shù)定義為
其中V表示使用特征A劃分集合D生成的子集的總數(shù);Dv表示第v個(gè)子集;|Dv|和|D|分別表示子集Dv和集合D中的樣本數(shù)。在二分類的情況下,樣本只有兩個(gè)標(biāo)簽,所以|y|等于2,故D中標(biāo)簽k和k'的概率簡化為
因此式(1)可以簡化為
因此,每次劃分只生成兩個(gè)子集,所以有V=2,式(2)簡化為
通過計(jì)算每個(gè)特征的Gini 系數(shù),可以尋找到最小的Gini 系數(shù),其對應(yīng)的特征是當(dāng)前步驟劃分?jǐn)?shù)據(jù)集的最佳特征。
1.1.2 連續(xù)數(shù)值的劃分
如附件中表 S1 所示,每個(gè)特征的值是一個(gè)連續(xù)的數(shù)字,而不是離散的。為了處理這些連續(xù)的特征值,首先將每個(gè)特征的所有可能值從小到大排序,形成一個(gè)集合[a1,a2,a3…at],其中aj(1≤j≤t) 表示任何可能的某個(gè)特征的取值,并且a1≤a2≤a3≤···≤at。其次,相鄰兩個(gè)值的中間值dj可以表示為
然后將dj用作分割值。因此,通過式(6),對于具有t個(gè)可能值的某個(gè)特征,有t?1 個(gè)劃分值[d1,d2,d3···dt?1] 將數(shù)據(jù)集D劃分為左集和右集。左集由對應(yīng)特征值小于或等于分割值的樣本組成,而右集則由大于該分割值的樣本組成。因此,對于每個(gè)具有t個(gè)可能值的特征,都有t?1 種劃分方式。對于每一種劃分方式,都有一個(gè)對應(yīng)的基尼指數(shù)。某個(gè)特征的最佳劃分值是使相應(yīng)的基尼指數(shù)最小的那個(gè)。
1.1.3 簡單決策樹模型
根據(jù)式(5)和式(6),計(jì)算出每個(gè)特征的最佳劃分值和對應(yīng)的Gini 系數(shù),選擇20 個(gè)特征中Gini 系數(shù)最小的特征作為劃分?jǐn)?shù)據(jù)集的最佳劃分特征。通過迭代這個(gè)過程,對前一次劃分產(chǎn)生的子集進(jìn)行逐次劃分,最終在附件表S1 的數(shù)據(jù)集上生成一棵二分類樹,如圖2 所示。該樹的每個(gè)節(jié)點(diǎn)的特征代表它是當(dāng)前步用于分割的特征,該值表示該特征的最佳分割值,其中節(jié)點(diǎn)下的左分支表示值小于或等于分割值的樣本,右分支表示大于該分割值的樣本。每個(gè)特征都可以重復(fù)用于劃分子集。樹的葉節(jié)點(diǎn)表示該子集內(nèi)樣本的標(biāo)簽是相同的,其中 1 表示超離子導(dǎo)體,0 表示非超離子導(dǎo)體。由于數(shù)據(jù)集僅包含46 個(gè)樣本,因此很難分為訓(xùn)練集和測試集。因此,此簡單決策樹模型使用整個(gè)數(shù)據(jù)集訓(xùn)練決策樹,并通過留一法(LOO)方法估計(jì)預(yù)測的泛化精度,可以使用以下公式計(jì)算準(zhǔn)確率:
其中n表示樣本總數(shù);表示表S1 中每種材料的標(biāo)簽,1 和0 分別表示超離子和非超離子導(dǎo)體,表示由當(dāng)前模型使用 Leave-One-Out 方法預(yù)測的每種材料的標(biāo)簽,I (X)表示一個(gè)指示函數(shù),如果X為真則返回 1,如果X為假則返回 0。訓(xùn)練好的決策樹如圖2 所示。這棵樹在訓(xùn)練集上的準(zhǔn)確率為 1.0,通過 Leave-One-Out 方法計(jì)算得到的泛化準(zhǔn)確率為0.804 3。通常,訓(xùn)練集上的準(zhǔn)確率接近 1.0 表明模型過擬合,泛化能力通常有限。因此,應(yīng)該對該簡單決策樹模型進(jìn)行修剪以提高其泛化能力。
圖2 決策樹1:采用整個(gè)數(shù)據(jù)集訓(xùn)練,未剪枝Fig.2 Decision tree 1:trained by the entire data set with no pruning
1.1.4 剪枝后的決策樹
圖2 中的決策樹是基于整個(gè)數(shù)據(jù)集訓(xùn)練而得到,沒有其他預(yù)設(shè)條件,因此其在訓(xùn)練集上計(jì)算達(dá)到了最優(yōu)化的結(jié)果,使訓(xùn)練集的準(zhǔn)確率達(dá)到 1.0。為了避免這種過度擬合,應(yīng)該簡化樹并降低訓(xùn)練集的準(zhǔn)確率,同時(shí)提高其泛化的準(zhǔn)確率。本研究提出一個(gè)剪枝方案:
1) 將數(shù)據(jù)集拆分為訓(xùn)練集和驗(yàn)證集,并保證兩組中正樣本的比例幾乎等于整個(gè)數(shù)據(jù)集,其中驗(yàn)證集的樣本數(shù)設(shè)置為9,約為樣本的1/5 整個(gè)數(shù)據(jù)集。
2)使用訓(xùn)練集中的樣本訓(xùn)練一棵樹。
3)用葉節(jié)點(diǎn)替換訓(xùn)練樹中最低的非葉節(jié)點(diǎn),并將葉節(jié)點(diǎn)的標(biāo)簽指定為與該節(jié)點(diǎn)對應(yīng)的訓(xùn)練樣本中出現(xiàn)最多的標(biāo)簽。
4) 計(jì)算替換樹的準(zhǔn)確率,如果替換樹的準(zhǔn)確率不低于原樹,則執(zhí)行節(jié)點(diǎn)替換。
5) 迭代第3 步和第4 步,直到?jīng)]有最低的非葉節(jié)點(diǎn)滿足第4 步的剪枝條件,輸出剪枝后的樹。
6) 剪枝樹的泛化準(zhǔn)確率在訓(xùn)練集上采用 Leave-One-Out 法計(jì)算,代表了上述剪枝策略的泛化能力。
上述剪枝方案生成圖3 中的決策樹,其中Leave-One-Out 方法的泛化準(zhǔn)確率為0.810 8。如圖3 所示,即使對樹進(jìn)行了剪枝,仍然有一些特征被重復(fù)選擇為劃分節(jié)點(diǎn),例如 PF 和 SPF,而其他特征沒有在Gini 指數(shù)比較中被選擇用于劃分。由于數(shù)據(jù)集的大小有限,某個(gè)特征如PF 和 SPF 的重要性被放大,表明剪枝后的決策樹模型存在局部最優(yōu)的跡象。因此,需要一種提供更好泛化能力的方案。
圖3 決策樹2:使用訓(xùn)練集數(shù)據(jù)訓(xùn)練并使用驗(yàn)證集數(shù)據(jù)剪枝Fig.3 Decision tree 2: trained by samples in train set and pruned by samples in validation set
1.1.5 隨機(jī)森林
隨機(jī)森林是一種基于決策樹的集成算法。通常,在分類問題中,隨機(jī)森林生成一組決策樹,并輸出所有樹輸出的簡單多數(shù)票結(jié)果,工作流程如圖4 所示。由于引入了幾種隨機(jī)操作,隨機(jī)森林通常具有更好的避免局部最優(yōu)的能力[16?17]。這里我們設(shè)計(jì)模型構(gòu)建的方案如下:
圖4 一個(gè)包含M 棵決策樹的隨機(jī)森林模型工作過程示意Fig.4 Schematic working flow of a random forest with M trees
1)通過從原始數(shù)據(jù)集中隨機(jī)抽取樣本來創(chuàng)建原始數(shù)據(jù)集相同大小的bootstrap 集,其中原數(shù)據(jù)集中的一些樣本可能被多次抽取而一些未被抽取。
2)使用bootstrap 集來訓(xùn)練決策樹,方案如下:在樹的每個(gè)節(jié)點(diǎn),從所有20 個(gè)特征中隨機(jī)抽取一個(gè)特征子集;這里子集的大小預(yù)設(shè)為 log220 ≈ 4;然后通過對子集中特征的基尼指數(shù)比較而不是在所有20 個(gè)特征中選擇當(dāng)前節(jié)點(diǎn)處的最佳分割特征。
3) 重復(fù)步驟 1 和 2,直到樹的數(shù)量達(dá)到預(yù)設(shè)的最大值。
4)隨機(jī)森林的泛化準(zhǔn)確率通過Out-Of-Bag 精度計(jì)算:將數(shù)據(jù)集中的每個(gè)樣本都帶入訓(xùn)練好的森林中測試輸出,其中只使用森林中那些bootstrap 集不包含該樣本的樹進(jìn)行簡單多數(shù)投票。
如圖5 所示,隨機(jī)森林的準(zhǔn)確率隨著森林大小的增加而增加,最終達(dá)到 0.782 6 的穩(wěn)定水平。為了平衡精度和計(jì)算成本,200 棵樹的數(shù)量對于當(dāng)前數(shù)據(jù)集來說是足夠的森林大小。由于隨機(jī)森林集合了許多決策樹,它的輸出在很大程度上降低了陷入局部最優(yōu)的概率。因此,在這種情況下,隨機(jī)森林模型比上述兩種決策樹模型具有更好的泛化能力。
圖5 隨機(jī)森林的預(yù)測精度隨決策樹的個(gè)數(shù)的變化過程Fig.5 Precision rate of random forest vs.number of trees in the forest
為了與上述模型進(jìn)行比較,還構(gòu)建了一個(gè)文獻(xiàn)較常使用的邏輯回歸模型,使用相同的數(shù)據(jù)集進(jìn)行對比。邏輯回歸是一種二元分類模型,基本表達(dá)式如下:
其中yi表示樣本被分類為正樣本的概率。具體來說,這里它表示化合物被歸類為超離子導(dǎo)體的概率。xi是給定樣本i的特征矩陣。
ωi是當(dāng)前樣本i的線性回歸的參數(shù)矩陣,其中每一項(xiàng)θi依次對應(yīng)特征矩陣中的一個(gè)特征。b代表線性回歸中的常數(shù)。
邏輯回歸模型的輸出是給定材料是超離子導(dǎo)體的概率。為簡單起見,將y>0.5 的材料視為超離子材料。
由于我們不知道這 20 個(gè)特征中有多少與材料的離子電導(dǎo)率密切相關(guān),因此將在數(shù)據(jù)集上測試 20個(gè)特征的所有可能組合,可能組合的總數(shù)為。同時(shí)將計(jì)算數(shù)據(jù)集上的誤分類率來評估每個(gè)組合,并選擇誤分類率最小的組合作為最終模型。為了測試每個(gè)組合,需要窮舉搜索過程。圖6 顯示了誤分類率隨所選特征數(shù)數(shù)量的變化。結(jié)果表明,當(dāng)特征數(shù)數(shù)量為 5、6、7、8、9 和 10 時(shí),誤分類率達(dá)到最低點(diǎn)??紤]到最簡單的模型,具有5 個(gè)特征數(shù)的模型是最佳選擇。在這種情況下,五特征模型的線性回歸部分為:
圖6 誤分類率隨特征數(shù)的變化Fig.6 Miss classification rate vs.number of features
其中誤分類率為0.043 5。
隨機(jī)森林的復(fù)雜度為 O(M(nlog2(m+n)),其中M表示森林中的樹數(shù),n表示用于訓(xùn)練的樣本數(shù),m表示特征數(shù)。這樣的復(fù)雜度是相對節(jié)省時(shí)間的,特別是當(dāng)樹數(shù)M沒有達(dá)到太大的值時(shí)。因此,隨機(jī)森林是一種適用于材料篩選中預(yù)測模型構(gòu)建的算法,盡管它的時(shí)間成本比簡單的決策樹模型要大。相比之下,Logistic 回歸模型需要特征選擇,因?yàn)槊總€(gè)特征與離子電導(dǎo)率的相關(guān)性不明確,因此必須進(jìn)行窮舉搜索,因?yàn)橐獧z查特征組合的每個(gè)組合。因此,特征組合窮舉搜索的邏輯回歸復(fù)雜度為其中n表示用于訓(xùn)練的樣本數(shù),m表示特征數(shù)。在本研究中,當(dāng)m=20 時(shí),結(jié)果為,即1 048 575。本研究中的實(shí)際計(jì)算時(shí)間成本尚可接受。然而,隨著相關(guān)研究的繼續(xù),特征和訓(xùn)練樣本的數(shù)量可能會顯著增加,從而導(dǎo)致計(jì)算時(shí)間成本的明顯上升。因此,在未來的研究中,采用窮舉搜索來處理特征選擇的方法可能會受到限制。
隨機(jī)森林和邏輯回歸的篩選結(jié)果如表1 所示。兩種模型預(yù)測的正樣本材料總數(shù)均為42 個(gè),占343個(gè)候選材料的12.24%。此外,圖2 和圖3 兩種決策樹模型的篩選結(jié)果見附件表 S2。由于隨機(jī)森林模型基于決策樹的多個(gè)基學(xué)習(xí)器,因此其預(yù)測更加穩(wěn)定可靠。在隨機(jī)森林的篩選結(jié)果中,值得注意的是Li2GePbS4被標(biāo)記為超離子材料[4]。它是文獻(xiàn)中報(bào)道的基于陰離子包篩選得到的典型硫化物,并且在Sendek 的邏輯回歸篩選中也被預(yù)測為超離子導(dǎo)體候選材料,這是對當(dāng)前模型預(yù)測的一個(gè)驗(yàn)證。另一種值得注意的超離子材料是 Li9Er3Cl18,它與 Li3In-Br6-xClx(0 表1 隨機(jī)森林模型與邏輯回歸模篩選結(jié)果對比Table 1 Screening results comparison of the random forest model and logistic regression model 當(dāng)前隨機(jī)森林模型、邏輯回歸模型的篩選結(jié)果共有13 個(gè)共同材料。兩個(gè)模型均預(yù)測了共42 種超離子材料,共同率為30.95%。目前的隨機(jī)森林模型和邏輯回歸模型都是用同一個(gè)小數(shù)據(jù)集訓(xùn)練的,因此不同的機(jī)器學(xué)習(xí)模型可以從中學(xué)習(xí)到很多共同的但無法進(jìn)行泛化的分類規(guī)則。因此,當(dāng)這些訓(xùn)練好的模型用于篩選未知樣本時(shí),很難判斷一個(gè)被預(yù)測為正樣本的材料是由于模型訓(xùn)練集小還是由于該材料內(nèi)在屬性所導(dǎo)致的。因此,有限數(shù)量的訓(xùn)練樣本可能導(dǎo)致模型泛化能力低,這是誤差的主要來源。其次,篩選結(jié)果中的許多材料是多陰離子的。多陰離子材料的預(yù)測置信度可能會受到計(jì)算特征 AFC和 LASD 對陰離子定義不明確的影響,因?yàn)檫@兩個(gè)值取決于晶格中陰離子的定義方式。通常,我們使用電負(fù)性最大的原子進(jìn)行計(jì)算而忽略其他陰離子,這可能會導(dǎo)致特征 AFC 和 LASD 的值不準(zhǔn)確。更精確的 AFC 和 LASD 計(jì)算策略或構(gòu)建優(yōu)化的特征空間,例如增加或減少特征數(shù)量或直接使用原子參數(shù)作為特征,可能是在未來研究中改進(jìn)模型構(gòu)建的適用方法。 在本研究中,我們使用從已發(fā)表論文搜集的數(shù)據(jù)和從原子參數(shù)計(jì)算的 20 個(gè)特征組成的數(shù)據(jù)集來構(gòu)建決策樹和隨機(jī)森林模型以及邏輯回歸模型進(jìn)行比較。簡單的決策樹模型訓(xùn)練準(zhǔn)確率很高,但交叉驗(yàn)證準(zhǔn)確率相對較低,說明模型過擬合,泛化能力低。修剪后的決策樹模型具有更好的泛化能力,但由于訓(xùn)練集的大小較小,某個(gè)特征的重要性被放大,表明模型處于局部最優(yōu)狀態(tài)。隨機(jī)森林模型是一種基于決策樹的集成機(jī)器學(xué)習(xí)模型。模型構(gòu)建過程采用隨機(jī)抽樣創(chuàng)建bootstrap 集和隨機(jī)特征選擇策略,避免陷入局部最優(yōu),模型表現(xiàn)出較好的泛化能力。隨機(jī)森林的復(fù)雜度為O(M(nlog2(m+n)),適用于更高維度的特征空間和更大的訓(xùn)練集。相比之下,特征組合窮舉搜索的邏輯回歸模型復(fù)雜度為其對于當(dāng)前數(shù)據(jù)集和特征空間的大小是可以接受的,但可以預(yù)見的是,對于未來更大的數(shù)據(jù)集和特征空間其計(jì)算過程復(fù)雜度太高。 本研究構(gòu)建的隨機(jī)森林模型的篩選結(jié)果將超離子導(dǎo)體候選材料的數(shù)量從343 個(gè)減少到42 個(gè),排除了87.76%的材料,這在很大程度上縮小了搜索范圍。隨機(jī)森林模型的結(jié)果與文獻(xiàn)中報(bào)道的篩選結(jié)果有部分共同材料。一般來說,Li2GePbS4是一種已證明的超離子導(dǎo)體化合物,而 Li9Er3Cl18具有與報(bào)道的快速離子導(dǎo)體 Li3InBr6-xClx(0 現(xiàn)有模型的主要誤差來源是訓(xùn)練數(shù)據(jù)集規(guī)模小,機(jī)器學(xué)習(xí)模型可能從中學(xué)習(xí)到一些僅適用于當(dāng)前數(shù)據(jù)集且不可泛化的分類規(guī)則,最終預(yù)測未知數(shù)據(jù)的精度受到影響。另一個(gè)錯(cuò)誤來源是特征的定義及其計(jì)算過程,因?yàn)樵谟?jì)算某些特征值時(shí)進(jìn)行了一些簡化。為了考慮誤差源,構(gòu)建優(yōu)化的特征空間,例如增加或減少特征數(shù)量或直接使用原子參數(shù)作為特征,可能是一種適用的方法。 附:數(shù)據(jù)可用性 重現(xiàn)本文中的模型所需的數(shù)據(jù)可以在本文的補(bǔ)充文件中找到,詳見OSID 碼內(nèi)增強(qiáng)出版內(nèi)容。2.3 模型分析及誤差來源
3 結(jié)論