賴 欣,盧 罡,王 磊,畢志遠,陽慶元,俞度立,4
1(北京化工大學 信息科學與技術(shù)學院,北京 100029)
2(北京化工大學 信息科學與技術(shù)學院 智能無人系統(tǒng)研究中心,北京 100029)
3(北京化工大學 有機無機復合材料國家重點實驗室,北京 100029)
4(北京化工大學 軟物質(zhì)科學與工程高精尖創(chuàng)新中心,北京 100029)
近年來,以機器學習、深度學習為代表的人工智能理論和方法受到人們的廣泛關注.尤其是谷歌DeepMind 團隊開發(fā)的AlphaGo,在圍棋領域中的精彩表現(xiàn)令人印象深刻[1,2].在此之后,DeepMind 又迅速對計算機視覺等領域做出了可喜成果[3].如今,機器學習已被廣泛應用于自然語言處理[4,5]、數(shù)據(jù)挖掘[6]、證券市場分析[7]、機器人應用[8,9]、醫(yī)學診斷[10,11]等領域.
在材料科學領域,材料的各種反應、合成中會產(chǎn)生海量的數(shù)據(jù),而將善于從海量數(shù)據(jù)中發(fā)掘規(guī)律的機器學習方法應用于材料科學領域便順理成章[12,13].實驗研究發(fā)現(xiàn),由于MOFs 具有較高的孔隙率和具有規(guī)律性、可組合性、多元性等特點,能夠高效地通過計算機模擬預測MOFs 材料的物理化學性質(zhì)[14].通過GCMC (Grand Canonical Monte Carlo)分子模擬方法對MOFs 進行高通量篩選已經(jīng)被證實是一種有效的實驗手段[15,16].目前應用的分子模擬方法主要有分子動力學、蒙特卡羅、密度泛函理論等.在探尋物理化學性能優(yōu)秀的MOFs 材料過程中,需要對材料的結(jié)構(gòu)特性、物理性質(zhì)、化學性質(zhì)等進行搜索分析,通??梢詰肎CMC 分子模擬方法.然而,可能存在的MOFs結(jié)構(gòu)存在于一個近乎無窮大的樣本空間,要將所有MOFs 材料逐一進行分子模擬計算,從而挑選出性能出眾的材料,其計算成本是無法估量的.近年來,人們已經(jīng)開始關注如何在準確預測MOFs 性能基礎上,提高計算效率.Simon 研究組將少量MOFs 吸附材料放入綜合數(shù)據(jù)庫中,對其進行GCMC 模擬,找出吸附材料的物理結(jié)構(gòu)特性與其對CH4吸附能力之間的關系[17].其中用到的MOFs 數(shù)據(jù)有Zeolites[18]、hypothetical MOFs(hMOFs)[19]、Porous Polymer Networks (PPNs)[20]、hypothetical Zeolitic Imidazolate Frameworks (hZIFs)[21]以及Computation-Ready Experimental (CoRE) MOF[22]等MOFs 材料數(shù)據(jù).材料數(shù)據(jù)包含多種性質(zhì)特征,利用機器學習挖掘其定量構(gòu)效關系(Quantitative Structure-Property Relationship,QSPR)[23],可將這些結(jié)構(gòu)性質(zhì)作為參數(shù),對材料分子的氣體吸附能力進行回歸分析和預測.Fernandez 等通過晶體學的RDF 分析方法,利用RDF 得分評估MOF,同時利用多元線性回歸、支持向量機等方法,構(gòu)建了處于不同壓力環(huán)境下,MOFs 材料針對CO2、N2與CH4的氣體吸附與RDF得分的QSPR模型[24].之后,Fernandez 小組利用孔隙率和孔徑等物理結(jié)構(gòu)變量,預測MOFs對CH4的吸收,并在實驗中得到R2=0.85的結(jié)果[25].Fernandez 等還應用了分類方法,基于QSPR預測表現(xiàn)最佳的CO2吸附MOFs 材料,達到94.5%的準確率[26].Sezginel 等經(jīng)過QSPR 分析,提出一種多變量線性模型,利用該模型與MOFs的結(jié)構(gòu)特性,包括表面積、晶體密度、孔隙率、孔徑以及等量熱吸附(Qst),預測出MOFs 吸附劑對CH4的吸收能力,實驗結(jié)果發(fā)現(xiàn),孔隙率與等量熱吸附是影響MOFs 氣體吸附能力的關鍵因素[27].Chung 等利用遺傳算法,對捕獲CO2的MOFs進行篩選,在計算效率上獲得了50 倍左右的提升[28].這些工作在材料篩選效率上有著出色的表現(xiàn).
本文工作受到Chung 等2016年關于遺傳算法(Genetic Algorithm,GA)方面工作[28]的啟發(fā).他們在材料數(shù)據(jù)庫中通過遺傳算法進行材料篩選,但是對于遺傳算法生成的庫中沒有的新個體并未進行進一步的評估.本文用原始MOFs 數(shù)據(jù)集訓練人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN),并用ANN對遺傳算法生成的新型MOFs 個體的性能進行預測評估,從而搜索對CH4氣體具有較高吸附性的MOFs.我們首先通過GCMC 模擬計算文獻[28]中數(shù)據(jù)集的每個MOFs在一定條件下對于CH4氣體的吸附性能,然后用該結(jié)果訓練一個ANN,使其能夠評估和預測MOFs 基因與CH4氣體吸附性之間的構(gòu)效關系.實驗結(jié)果表明,基于ANN 搜索并預測的材料吸附性能平均表現(xiàn)優(yōu)于原始材料數(shù)據(jù)庫中的最優(yōu)材料,證實了該方法的可行性和有效性.
為了通過GA 搜索新型MOFs,需要根據(jù)MOF的特征設計GA 所需的基因編碼.為MOFs 進行基因編碼的方式?jīng)]有特定的規(guī)則,但應能夠盡量反映MOFs的結(jié)構(gòu)特征及各組分、配體之間的組合特征,從而在GA 運行過程中,基因編碼的變化能夠反映出MOFs 組合結(jié)構(gòu)的變化.
本文的原始數(shù)據(jù)來自于WLLFHS hMOF 數(shù)據(jù)集[19].該數(shù)據(jù)集中MOFs的參數(shù)由Wilmer 研究組匯編和驗證,具有豐富多樣的MOFs 材料結(jié)構(gòu),適合進行分子模擬篩選與機器學習分析.文獻[28] 將該數(shù)據(jù)集中的MOFs 進行基因編碼,該編碼利用6 個整數(shù)作為“基因”,每個“基因”都表示了一種分子的特性或者功能[28].本文沿用該基因編碼,具體設定如下:
第1 位基因,表示潛在互穿能力,共4 種,用0 至3的整數(shù)表達;第2 位基因,表示實際互穿能力,共4 種,用0 至3的整數(shù)表達;第3 位基因,表示無機配體,共5 種,用0 至4的整數(shù)表達;第4 位基因,表示主要有機連接單元,共40 種,用0 至39的整數(shù)表達;第5 位基因,表示次要有機連接單元,共40 種,用0 至39的整數(shù)表達;第6 位基因,表示化學官能團,共15 種,用0 至14的整數(shù)表達.
根據(jù)上述設定,MOFs 材料的搜索空間大小為:4×4×5×40×40×15=1920 000.在這種編碼方式下,構(gòu)象異構(gòu)體之間以及只有官能團定位不同的MOFs 之間具有相同的基因編碼.Chung 等[28]分析發(fā)現(xiàn),構(gòu)象異構(gòu)體之間、只有官能團定位不同的MOFs 之間不僅結(jié)構(gòu)類似,化學性能也相當.因此,他們從類似的MOFs中選擇一個作為代表,縮減數(shù)據(jù)集的規(guī)模.最終,文獻[28]整理了具有51 163 個MOF 基因編碼的數(shù)據(jù)集.
在文獻[28]整理的數(shù)據(jù)集基礎上,我們進一步采用自主開發(fā)的力場參數(shù)和自主研發(fā)的模擬計算軟件,通過GCMC 模擬計算其中每個MOFs在298 K (K為開爾文,熱力學溫度單位,下同)條件下對CH4氣體的吸附能力.
MOF 材料和氣體分子之間的相互作用采用范德華力(vdW)和庫侖勢的組合來表示[29].其中范德華力采用Lennard-Jones (LJ)方程描述.LJ 勢能參數(shù)取自UFF 力場,CH4分子勢能參數(shù)取自TraPPE 力場.不同原子之間的LJ 勢能參數(shù)采用Lorentz-Berthelot 混合規(guī)則計算.
在前期的研究工作中,我們利用量子密度泛函和Monte Carlo 模擬相結(jié)合的跨尺度手段開發(fā)出了新的力場[30],其中基于量子力學層次的密度泛函理論(Density Functional Theory,DFT)[31]計算被用于確定材料與氣體分子之間的精確相互作用參數(shù).DFT 計算基于Materials Studio 軟件中的Dmol3 模塊,采用GGA 交換泛函Perdew-Burke-Ernzerhof (PBE)和含軌道極化函數(shù)的雙數(shù)值軌道基組(DNP),并結(jié)合Grimme的色散校正作用(DFT-D2),對MOF 中獲取的模型簇進行優(yōu)化,并計算出不同距離下無機單元與CH4之間的相互作用能.在此基礎上,通過Monte Carlo 模擬實現(xiàn)了MOFs對CH4氣體在298 K 條件下吸附量的量化,計算得到了數(shù)據(jù)集中每個MOF對CH4氣體的吸附值.
本文基于自主研發(fā)的模擬計算軟件HT-CADSS(http://jshx.buct.edu.cn/yjcg/bzxcg/86799.htm),采用GCMC 方法研究了298 K 條件下,文獻[28]的數(shù)據(jù)集中51 163 個MOFs對CH4氣體的吸附能力.在GCMC 模擬中,采用Peng-Robinson (PR)方程將壓力轉(zhuǎn)換為逸度作為計算的輸入值.所有的MOFs 均視為剛性材料,并在三維尺度上采用周期性邊界條件.計算范德華作用的截斷半徑(cut-off)設置為1.4 nm.對于每一個吸附模擬過程,模擬總步數(shù)為3000 萬步,前1500 萬步用于系統(tǒng)平衡,后1500 萬步用于獲得熱力學性質(zhì)的統(tǒng)計平均值.對CH4單組分吸附模擬,涉及分子的平移、插入和刪除.在無限稀釋條件下,MOF 骨架與氣體分子之間相互作用力的相對強弱采用無限稀釋吸附熱進行表征.無限稀釋吸附熱采用基于正則系綜(NVT)的Widom測試粒子方法[32]計算.
經(jīng)過以上的計算,最終得到51 163 個經(jīng)過基因編碼的MOFs對CH4氣體的吸附值,最大為528,其基因編碼為2-0-0-29-29-12.數(shù)據(jù)示例如表1所示.
表1 數(shù)據(jù)示例
1.1 節(jié)中,一個MOF 被編碼成了一個具有6 個基因的染色體,6 個基因分別代表了它的6 個結(jié)構(gòu)特征.本節(jié)中,我們分別分析了這6 個特征與MOFs的CH4氣體吸附能力之間的構(gòu)效關系,結(jié)果如圖1所示.
圖1(a)為MOFs 潛在互穿能力與MOFs對CH4氣體吸附能力的關系.WLLFHS 數(shù)據(jù)庫以材料結(jié)構(gòu)的多樣性著稱,因此,具有不同潛在互穿能力的MOFs在CH4氣體吸附能力上分布較為均勻,體現(xiàn)了該數(shù)據(jù)集中樣本的多樣性和完整性.圖1(b)顯示了在實際互穿能力的維度上,數(shù)據(jù)集中MOFs對CH4氣體吸附能力的分布.可以看到,實際互穿能力越高的MOFs對CH4氣體吸附能力相對越差.這是由于互穿較多的MOFs穩(wěn)定性較高,一定程度上阻礙了氣體分子的吸附[33].對于圖1(c)中的無機節(jié)點而言,帶有鋅或銅槳輪與對位連接的MOFs,在分析結(jié)果中表現(xiàn)出更強的CH4氣體吸附性能,這是由于部分MOFs 材料在活化的過程中,遇金屬簇配位溶劑分子或水分子易脫落,形成不飽和金屬位點,從而增強了對CH4氣體的吸附作用.另外,研究表明,當MOFs 材料與水接觸時,結(jié)構(gòu)的結(jié)晶性會在一定時間內(nèi)消失.大多數(shù)情況下,水的存在是不可避免的,具有二價金屬離子(例如Zn2+和Cu2+)的MOF在有水的情況下極易出現(xiàn)這種不穩(wěn)定性[34,35].主有機連接單元與次有機連接單元對MOFs的CH4氣體吸附性能的影響分別如圖1(d)和圖1(e).可以看到,表現(xiàn)良好的有機連接單元主要集中在12-30 號區(qū)間內(nèi),而31-39號有機連接單元在低性能MOFs 中缺失.圖1(f)顯示,含有0 號、7 號、10 號、12 號化學官能團的MOFs 材料對CH4氣體吸附能力突出,其中0 號表示不考慮官能團影響,其余3 種官能團分別對應甲基、乙基、丙基[28].我們認為,這是因為這類烴基官能團與CH4有相似的機構(gòu)和化學性質(zhì).
圖1 各基因編碼與CH4 氣體吸附能力的構(gòu)效關系
對于單特征的分析表明,MOFs對CH4氣體吸附能力受多種因素共同作用影響,包括MOFs 材料的拓撲結(jié)構(gòu)、有機配體和無機單元的結(jié)構(gòu)、官能團的選擇等.單純的針對其中某一方面進行修改,并不能保證有效提升MOFs 材料對于CH4氣體的吸附能力.這也進一步體現(xiàn)了應用包括ANN在內(nèi)的機器學習方法發(fā)掘這種非線性構(gòu)效關系的意義.
對于GA 產(chǎn)生的新型MOFs 個體,從僅有的6 個基因位點的值構(gòu)建MOF 結(jié)構(gòu),再生成相應的數(shù)據(jù)進行GCMC 模擬計算,從而進行性能評估,將是一個非常繁瑣及耗時的過程.因此我們提出將MOFs的基因編碼作為輸入,GCMC 模擬計算的目標性能作為輸出,訓練ANN 作為挖掘MOFs 構(gòu)效關系的機器學習模型,從而能夠?qū)A 生成的新的MOFs 個體進行性能預測評估.
ANN 通過模仿人類大腦的思維方式,進行大規(guī)模高維數(shù)據(jù)處理和分析.一個ANN 包含輸入層、隱含層和輸出層,其中隱含層可以有多層.ANN的本質(zhì)是非線性函數(shù)映射,通過對高維數(shù)據(jù)的低維非線性映射,轉(zhuǎn)變?yōu)槿祟惪衫斫獾慕Y(jié)果輸出.由于需要預測MOFs對CH4氣體的吸附值,因此我們將ANN 構(gòu)建為輸出層只有一個神經(jīng)元的回歸神經(jīng)網(wǎng)絡,從而輸出一個實數(shù)值.作為預測具體數(shù)值的回歸ANN,其評價指標R2的值越接近1,模型的預測性能越好,其定義如下:
其中,n是測試集中MOFs 個體的數(shù)量,為第i個MOFs 結(jié)果的預測值,是通過GCMC 模擬得到的結(jié)果.是所有的平均值.另一個評價指標均方誤差(Mean Square Error,MSE),是預測值和真實值之間誤差的平方和,其定義為:
對1.2 節(jié)生成的數(shù)據(jù)集中51 163 條MOFs 數(shù)據(jù)的CH4氣體吸附值以20為長度進行區(qū)間劃分,進而對數(shù)據(jù)的分布情況進行初步統(tǒng)計,結(jié)果如圖2所示.統(tǒng)計結(jié)果顯示,在該數(shù)據(jù)集中,存在極少數(shù)CH4氣體吸附值大于480的MOFs.這種數(shù)據(jù)分布的傾斜,會影響模型的學習和預測性能.因此,我們從吸附值大于280的MOFs樣本中隨機重復抽取一定數(shù)量的樣本,然后對每一個樣本的吸附值引入以該吸附值為均值、方差為1的高斯隨機誤差.經(jīng)過這樣的隨機上采樣后,數(shù)據(jù)集擴充到67 878 條,其分布如圖3所示.
圖2 原始數(shù)據(jù)集分布直方圖
圖3 上采樣后數(shù)據(jù)集分布直方圖
對經(jīng)過上采樣后的67 878 條數(shù)據(jù)的各特征值進行最大最小標準化預處理,以消除數(shù)據(jù)集不同特征取值范圍不同對模型訓練的影響,并加快模型訓練的收斂速度.最大最小標準化的方法如式(3)所示:
其中,xmax是樣本數(shù)據(jù)的最大值,xmin是樣本數(shù)據(jù)的最小值.
經(jīng)過以上預處理后,我們將所有67 878 條數(shù)據(jù)隨機抽取80%作為訓練集,剩余20%作為測試集.
本文分別采用BP 神經(jīng)網(wǎng)絡(Back Propagation Neural Network,BPNN)和徑向基函數(shù)神經(jīng)網(wǎng)絡(Radial Basis Function Neural Network,RBFNN)對GA 生成的新型MOFs 個體進行了針對CH4氣體吸附性能的預測評估實驗.利用BP 神經(jīng)網(wǎng)絡與徑向基函數(shù)神經(jīng)網(wǎng)絡進行針對CH4氣體吸附性能預測評估的優(yōu)點主要有:
(1)BP 神經(jīng)網(wǎng)絡擁有高容錯性,并行計算,自適應和可學習等優(yōu)點,在針對MOFs 材料吸附CH4氣體能力這類非線性關系的預測方面具有顯著的優(yōu)勢.
(2)徑向基神經(jīng)網(wǎng)絡在本文中設置為BP 神經(jīng)網(wǎng)絡的對照,作為一種性能優(yōu)秀的前饋型神經(jīng)網(wǎng)絡,理論上可以逼近任意非線性函數(shù),具有全局逼近能力,從根本上解決了BP 神經(jīng)網(wǎng)絡由于梯度下降所導致的局部最優(yōu)問題,且由于其整體網(wǎng)絡結(jié)構(gòu)緊湊,收斂速度快.而BP 神經(jīng)網(wǎng)絡中權(quán)值調(diào)節(jié)采用負梯度下降法,收斂速度遞減而較慢.
(3)BP 神經(jīng)網(wǎng)絡學習速率是固定的,因此對于一些復雜問題,BP 算法需要的訓練時間可能非常長,這主要是由于學習速率太小造成的.而徑向基神經(jīng)網(wǎng)絡是高效的前饋式網(wǎng)絡,它訓練速度相對較快的同時,具有BP 神經(jīng)網(wǎng)絡所不具有的最佳逼近性能和全局最優(yōu)特性.
2.3.1 BPNN的構(gòu)建和訓練
BPNN是ANN 中經(jīng)典且常見的一種神經(jīng)網(wǎng)絡.結(jié)構(gòu)上,BPNN 包含輸入層、隱含層和輸出層.其本質(zhì)是通過對高維數(shù)據(jù)的低維非線性映射,轉(zhuǎn)變?yōu)槿祟惪衫斫獾妮敵鼋Y(jié)果.由于1.1 節(jié)中將MOFs 結(jié)構(gòu)編碼為具有6 個基因的染色體,故本文BPNN的輸入層相應地設置為6 個神經(jīng)元,對應6 個基因的輸入,而輸出為1 個神經(jīng)元,用于預測吸附值.在保持較為簡單的網(wǎng)絡結(jié)構(gòu)的前提下,經(jīng)過多次調(diào)整、實驗,最終確定了2 個隱層后增加1 個批歸一化層的基本結(jié)構(gòu).具體地,隱藏層的激活函數(shù)使用ReLU 函數(shù),輸出層以Sigmoid 函數(shù)作為激活函數(shù).訓練的epoch 設為100,batch_size 設為128,采用隨機梯度下降(Stochastic Gradient Descent,SGD)迭代訓練模型,并采用Adam 方法進行優(yōu)化,學習率設為0.002.其中,激活函數(shù)是一種神經(jīng)網(wǎng)絡常用的非線性函數(shù),用于實現(xiàn)對上一層神經(jīng)元輸出的線性組合進行非線性變換.批歸一化(Batch Normalization,BN)層的Scale and Shift 操作,可以加速訓練過程的收斂、控制過擬合、降低網(wǎng)絡對初始化權(quán)重的敏感程度,并允許使用比較大的學習率.
通過用訓練集進行5 折交叉驗證,最終網(wǎng)絡結(jié)構(gòu)調(diào)整實驗的結(jié)果如表2所示.表中結(jié)果按照R2降序排列.可以看到,2 個隱層神經(jīng)元個數(shù)分別為32和15 時的模型準確度最高.BPNN 訓練過程需要調(diào)節(jié)的參數(shù)個數(shù)為6 ×32×15+15=2895.
表2 BPNN 結(jié)構(gòu)調(diào)節(jié)實驗結(jié)果
2.3.2 RBFNN的構(gòu)建和訓練
作為比較,我們還構(gòu)建了另外一種常見的人工神經(jīng)網(wǎng)絡——徑向基函數(shù)神經(jīng)網(wǎng)絡.RBFNN是一種前饋型的3 層神經(jīng)網(wǎng)絡,激勵函數(shù)使用徑向基函數(shù).其隱含層中神經(jīng)元與輸入、輸出層的神經(jīng)元之間的關系不再是全連接,而是用徑向基函數(shù)代替.本文中,采用常用的高斯函數(shù)作為徑向基函數(shù).與BPNN 相比,RBFNN通常泛化能力更強,能夠避免BPNN 可能出現(xiàn)的局部最優(yōu)問題,理論上能夠在充分訓練的情況下完全逼近要擬合的數(shù)據(jù).該網(wǎng)絡可以方便地增加神經(jīng)元進行訓練,直到滿足精度要求為止,這樣的網(wǎng)絡結(jié)構(gòu)擁有更為突出的定向信息處理能力.本文通過調(diào)整神經(jīng)網(wǎng)絡的結(jié)構(gòu),將隱含層神經(jīng)元個數(shù)從100 個開始,逐次遞增,每次調(diào)節(jié)增加100 個神經(jīng)元,觀察評價指標R2與MSE的數(shù)值變化情況,從而確定最優(yōu)的網(wǎng)絡結(jié)構(gòu).
使用與2.3.1 節(jié)相同的訓練集進行5 折交叉驗證,比較訓練結(jié)果,得到當隱層節(jié)點設置為600 個時,其MSE=2264.83、R2=0.854為最優(yōu),即RBFNN的結(jié)構(gòu)確定為6-600-1.調(diào)節(jié)隱含層神經(jīng)元個數(shù)的比較結(jié)果如表3所示.從中可以看到,隱層節(jié)點數(shù)為800 時,結(jié)果與隱層節(jié)點數(shù)為600的相差無幾,但從模型復雜度、參數(shù)數(shù)量等角度綜合考慮,最終,選取隱層節(jié)點數(shù)為600為最合適的網(wǎng)絡隱層節(jié)點個數(shù).由于徑向基函數(shù)神經(jīng)網(wǎng)絡是局部逼近網(wǎng)絡,其對于輸入空間的某個局部區(qū)域只有少數(shù)幾個連接權(quán)值影響輸出,故而該網(wǎng)絡實際需要調(diào)節(jié)的參數(shù)數(shù)量大大小于BP 神經(jīng)網(wǎng)絡.
表3 RBFNN 結(jié)構(gòu)調(diào)節(jié)實驗結(jié)果
2.3.3 BPNN和RBFNN的性能比較
通過上述對BPNN和RBFNN 結(jié)構(gòu)的優(yōu)化,我們分別訓練并確定了BPNN和RBFNN的結(jié)構(gòu)和參數(shù).該過程已經(jīng)初步顯示了二者的性能.圖4和圖5分別展示了二者在測試集上回歸預測的具體性能表現(xiàn).
圖4 BPNN 網(wǎng)絡模型在測試集上的回歸散點圖
圖5 RBFN 網(wǎng)絡模型在測試集上的回歸散點圖
上述模型回歸結(jié)果圖中,顏色表明數(shù)據(jù)點的密集程度,顏色越接近紅色,數(shù)據(jù)分布越密集.當實際值與預測值接近時,數(shù)據(jù)點會均勻分布在紅色標識實線及兩側(cè).從圖4中可以直觀地看出,采用2.3.1 節(jié)所得的6-32-15-1 結(jié)構(gòu)的BPNN 時,在測試集上的實驗結(jié)果R2=0.85;類似地,RBFN 以2.3.2 節(jié)所得的隱層節(jié)點數(shù)為600 時,其在測試集上得到R2=0.85.可見,兩種模型在測試集上均可以實現(xiàn)較為準確的回歸.這些結(jié)果表明基于訓練數(shù)據(jù)構(gòu)建的非線性模型具有可以預測新型MOFs 材料氣體吸附性能的能力.
基于1.2 節(jié)構(gòu)建的基礎數(shù)據(jù)集,以及2.2 節(jié)對于數(shù)據(jù)集的處理和劃分,我們應用GA 實現(xiàn)了對MOFs 個體的演化搜索,并應用ANN對搜索到的新型MOFs 進行了基于CH4吸附值的性能預測評估實驗.
GA是一種具有生存與檢測特征、不斷進行迭代過程的一種全局優(yōu)化搜索算法.在迭代過程中,會產(chǎn)生大量通過基因編碼表示的個體,每個個體的基因特征會隨著進化的進行,根據(jù)優(yōu)勝劣汰的基本原則進行代際遺傳,從而產(chǎn)生優(yōu)秀個體,實現(xiàn)在搜索空間中對最優(yōu)解的搜索.
GA的主要參數(shù)包括種群規(guī)模M、進化代數(shù)N、遺傳交叉率a,以及遺傳變異率b.其中,a決定了兩個個體進行交叉操作從而產(chǎn)生新子代的概率,b為一個個體的某個隨機基因發(fā)生變異的概率.GA 中的種群規(guī)模,代表著數(shù)據(jù)域內(nèi)數(shù)據(jù)點的密度,密度越大,其覆蓋最優(yōu)解的可能性越高,即對求解最優(yōu)解越有利.但相應的,其計算量也將會快速增加;對于GA 進化代數(shù)的限制,是為了讓算法能夠在合理的實驗時間內(nèi)完成迭代搜索;GA 中的變異概率與交叉概率設定,是為了讓數(shù)據(jù)域內(nèi)的數(shù)據(jù)點保持相對分散的分布,避免陷入局部最優(yōu)的困境,文獻[28] 中的設定為<M=100,N=100,a=0.65,b=0.05>.此外,適應度函數(shù)也是GA的一項重要設定.通過適應度函數(shù),GA 計算個體的適應度,評估個體的性能.適應度越高,種群越朝著有利于發(fā)展的方向進化.文獻[28]采取的操作是,在原數(shù)據(jù)集中查找新生成的個體,若找到,則通過GCMC 模擬方法計算它對CO2的工作容量、CO2/H2的選擇性,以及對CO2的吸附值,分別以這3 個指標作為個體的適應度值以評估個體性能;若新生成的個體不在原數(shù)據(jù)集中,則重新進行基因操作,直到生成數(shù)據(jù)集中存在的個體.也就是說,文獻[28]中并未對原數(shù)據(jù)集中不存在的新個體進行評估并加入新的子代.
本文以1.2 節(jié)計算的MOFs對CH4氣體的吸附值F作為適應度,參照文獻[28]中的參數(shù)設定,以產(chǎn)生新型MOFs 個體的數(shù)量X、搜索到最優(yōu)個體所進化的代數(shù)G,以及搜索到的最優(yōu)個體吸附值F為評價指標,針對M和N兩個參數(shù)進行了6 組參數(shù)設定的實驗.具體步驟為:
(1)在原始數(shù)據(jù)集上構(gòu)建初始種群.初始種群中的個體可從數(shù)據(jù)集中進行多次隨機選擇并擇優(yōu),也可加入一些人為設定的策略.例如,文獻[28]中人工選擇100 個MOFs 個體構(gòu)建初始種群,從而保證所設計的每個基因都至少出現(xiàn)一次,個體演化過程中不會有基因的缺失.
(2)執(zhí)行遺傳算法,開始種群的演化.這個過程包含了遺傳算法中的經(jīng)典操作,例如從種群中進行個體的擇優(yōu)、交叉、變異,從而產(chǎn)生下一代種群,不斷迭代,直到算法停止
(3)在GA 迭代演化過程中,對于產(chǎn)生的MOF 個體,如果存在于原數(shù)據(jù)集中,則直接使用其已經(jīng)計算得到的目標性能指標值作為個體性能的評估結(jié)果,并加入下一代種群;否則將新個體暫存.
(4)算法的停止條件,可以為指定的演化迭代次數(shù)、指定的搜索到新的優(yōu)秀個體數(shù)量等.
按照上述實驗步驟不斷循環(huán)迭代,本文依據(jù)實際實驗條件,綜合考慮遺傳算法的計算效果與計算周期,調(diào)整實驗參數(shù),經(jīng)過6 組實驗最終將遺傳算法參數(shù)設定為<M=50,N=200,a=0.65,b=0.05>,如表4所示.
表4 GA 參數(shù)組合實驗結(jié)果
最終,GA 算法搜索到907 個原數(shù)據(jù)集中不存在的新MOFs 個體.同時我們觀察到,原始數(shù)據(jù)集中,第1 個基因(潛在互穿能力)的值均不小于第2 個基因(實際互穿能力)的值.這是因為,潛在互穿能力表示理論上可能的互穿能力,所以實際互穿能力不會超過它.因此,我們將907 個新型MOFs 個體中不符合該條件的144 個刪除,剩余763 個新型MOFs 個體作為實驗對象.
本文分別采用前文所述的BPNN和RBFNN對GA 搜索到的763 個新型MOFs 個體進行CH4氣體的吸附值預測,取二者預測的對CH4氣體吸附值最高的前10 位MOFs 個體進行比較,如表5所示.
表5 BPNN和RBFNN 分別對新型MOFs 個體的CH4 氣體吸附值預測結(jié)果TOP10對比
從兩者結(jié)果比較可以看出,BPNN 預測的前10 種新型MOFs 材料,其CH4氣體吸附能力的均值為542.60,略高于RBFNN 預測結(jié)果前10 名的516.60.有趣的是,BPNN 預測的前10 位MOFs,對CH4氣體的吸附性能均在530 以上,高于原始數(shù)據(jù)集內(nèi)的最大值528,突破了訓練集的限制,具有更好的泛化能力.而RBFNN 預測的CH4氣體吸附值最大為521.20,未能突破訓練集的范圍.從基因編碼的結(jié)構(gòu)上看,BPNN對于結(jié)構(gòu)相近的MOFs 個體,預測的CH4氣體吸附值也較為接近.例如,預測基因編碼結(jié)構(gòu)為0-0-1-38-21-12的CH4氣體吸附值為552.14,與其相近的基因編碼結(jié)構(gòu)為0-0-1-38-21-13的CH4氣體吸附值為551.11.這個結(jié)果具有一定的合理性.另一方面,RBFNN的預測結(jié)果具有更強的多樣性,得到的高CH4氣體吸附值的基因編碼結(jié)構(gòu)與BPNN 預測得到的有很大不同.
具體地,BPNN 預測得到的高CH4氣體吸附值的MOFs 個體,其潛在互穿性僅限于1 或0,而實際互穿性均保持在0;而RBFNN 預測得到的高CH4氣體吸附值的MOFs 個體,潛在互穿性和實際互穿性均出現(xiàn)了2的取值.對于第3 個基因編碼,BPNN 預測得到的高CH4氣體吸附值的前10 名均為1,而RBFNN的結(jié)果中還包含0.根據(jù)文獻[28]的補充材料中的設定,該位基因為0和1 所表示的無機配體,如圖6所示.
圖6 無機配體的表示[28]
BPNN的結(jié)果中,主要有機連接單元出現(xiàn)了36、37、38,而RBFNN的結(jié)果中還出現(xiàn)了29和35.第5 位的次要有機連接單元,BPNN 預測得到的結(jié)果中均為21,RBFNN的結(jié)果中除了21,還出現(xiàn)了30、31、34、36、37.根據(jù)文獻[28]的補充材料中的設定,它們表示的結(jié)構(gòu)如圖7所示.
圖7 有機連接單元的表示[28]
最后一位基因值表示的化學官能團,BPNN 預測的結(jié)果中出現(xiàn)了9、10、12、13,而RBFNN的結(jié)果中則為8、9、10、11.根據(jù)文獻[28]的補充材料中的設定,它們表示的結(jié)構(gòu)如圖8所示.
圖8 化學官能團的表示[28]
以上結(jié)果表明,特定的幾種結(jié)構(gòu)將給MOFs 帶來較高的CH4氣體吸附值.值得注意的是,BPNN和RBFNN 均預測出1-0-1-38-21-9、1-0-1-37-21-10 結(jié)構(gòu)的MOF 具有相對較高的CH4氣體吸附值,這值得后續(xù)的研究工作進一步關注.
本文首先根據(jù)我們提出的力場參數(shù),基于現(xiàn)有的MOFs 數(shù)據(jù)集,通過GCMC 模擬計算構(gòu)建了面向一定條件下CH4氣體吸附能力的MOFs 數(shù)據(jù)集,并通過上采樣技術(shù)調(diào)整了數(shù)據(jù)集的分布.其次,以該數(shù)據(jù)集分別訓練了BPNN和RBFNN 模型,使其具備較強的預測CH4氣體吸附性的能力.然后,通過GA 基于MOFs 數(shù)據(jù)庫搜索新型的MOFs 個體.搜索時,對于搜索到的數(shù)據(jù)集中已有的MOFs,直接查詢數(shù)據(jù)集中其對應的CH4氣體吸附值;對于搜索到的不在數(shù)據(jù)集中的新型MOF,則暫存它們.最后搜索出763 個新型MOFs 個體,并分別用訓練好的BPNN 與RBFNN對其CH4氣體吸附性進行預測,得到了優(yōu)于原始數(shù)據(jù)集的結(jié)果.通過以上過程,實現(xiàn)了通過GA 搜索新型MOFs,并用ANN對其進行性能預測,從而實現(xiàn)高性能MOFs的高效搜索與評估.
實驗結(jié)果表明,BPNN在模型的準確性,泛化能力方面略優(yōu)于RBFNN,而RBFNN 預測結(jié)果則更具備多樣性.二者的預測結(jié)果均表現(xiàn)出特定的結(jié)構(gòu)對MOF 性能有一定的影響.對于二者均預測出具有較高CH4氣體吸附值的兩種MOF 新型結(jié)構(gòu),則需要進一步的研究和驗證.
未來可進一步拓展現(xiàn)有工作,從而引入多種機器學習方法作為參照進行比較和相互佐證.對GA 參數(shù)更深入的優(yōu)化研究也是一個有挑戰(zhàn)性的課題方向.同時,可考慮結(jié)合實際化學材料領域中的自組裝技術(shù),通過材料組裝,模擬,優(yōu)化出新材料的分子結(jié)構(gòu),然后再利用GCMC 手段,添加材料的實際化學特征值數(shù)據(jù),完善成果.