朱洪翔, 傅鈺江, 李雪, 陳博
(中石化(大連)石油化工研究院有限公司, 大連 116045)
分子性質(zhì)預(yù)測對新型材料和藥物設(shè)計具有重要意義,人們通常利用從頭算方法,在此基礎(chǔ)上逐一計算物理化學(xué)性質(zhì),這樣的方法計算成本高,計算效率低,不利于相關(guān)研究的快速開展。隨著計算機科學(xué)技術(shù)的發(fā)展,對于原子個數(shù)較少且重要的分子體系,計算機的算力已經(jīng)可以足夠支撐高精度的從頭算能量點。2004年Brown等[1]提出交換對稱多項式來擬合多原子分子勢能面的方法,該方法利用從頭算獲得的能量點和能量梯度,進行交換對稱多項式擬合,取得了良好的效果。2006年Qiu等[2]在多參考組態(tài)相互作用上,使用augcc-pV5Z基組并結(jié)合Davidson糾正,在使用分子對稱的基礎(chǔ)上,計算了15 000個從頭算能量點,構(gòu)造了描述氟原子和氫氣反應(yīng)的全域勢能面。在石油化工領(lǐng)域,中國研究者[3-4]利用分子模型對頁巖開采中的甲烷吸附過程和有機胺頁巖抑制劑進行的分析,為油氣開采提供理論依據(jù)。
近年來,利用機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)(neural network,NN)相關(guān)方法預(yù)測分子性質(zhì),引起了眾多的關(guān)注[5-6],對于擬合精度、勢能面維度以及相同原子的交換對稱性問題都得到了一定程度的發(fā)展。機器學(xué)習(xí)在分子科學(xué)領(lǐng)域的發(fā)展主要從藥物分子設(shè)計和性質(zhì)計算開始[7-9],后來將應(yīng)用領(lǐng)域擴展到分子計算領(lǐng)域,Rupp等[10]引入一種機器學(xué)習(xí)模型來預(yù)測大量有機分子原子化能。Faber等[11]針對118 000個有機小分子的13種分子性質(zhì)展開研究,對應(yīng)的機器學(xué)習(xí)模型可以有效地將預(yù)測誤差從10 kcal/mol減小到3 kcal/mol。
神經(jīng)網(wǎng)絡(luò)則從勢能面預(yù)測問題切入,2013年Chen等[12]提出通過系統(tǒng)增加樣本點的方法來進行NN擬合勢能面精度的方法。在H2+OH-反應(yīng)體系中計算了17 000個從頭算能量樣本點,使用NN方法構(gòu)造該反應(yīng)體系的高精度全域勢能面。在與Brown等[1]提出的交換對稱多項式方法能量點數(shù)量相同的情況下,利用了更少的計算資源,取得了相當(dāng)?shù)男Ч=鼛啄?在生命科學(xué)領(lǐng)域,利用深度學(xué)習(xí)方法預(yù)測藥物和蛋白質(zhì)性質(zhì)受到了廣泛的關(guān)注。袁露[13]通過圖神經(jīng)網(wǎng)絡(luò)構(gòu)建出藥物虛擬篩選模型;徐大杰[14]、丁小雨[15]通過生成模型和主動學(xué)習(xí)模型參與設(shè)計藥物分子;顧耀文等[16]將注意力機制融入圖神經(jīng)網(wǎng)絡(luò)中,對藥物的毒性和代謝進行預(yù)測。曹曉勇[17]利用局部自由能對蛋白質(zhì)結(jié)構(gòu)進行優(yōu)化。
通過文獻調(diào)研,梳理近5年基于神經(jīng)網(wǎng)絡(luò)的分子性質(zhì)預(yù)測算法的發(fā)展時間軸,如圖1所示,分析分子性質(zhì)預(yù)測領(lǐng)域相關(guān)關(guān)鍵詞,繪制關(guān)鍵詞關(guān)系矩陣圖如圖2所示。分子模擬(molecular dyna-mics,MD)權(quán)重最大,與分子模擬相關(guān)聯(lián)的關(guān)鍵詞中,第一性原理計算(ab-initio)權(quán)重最大。在分子模擬領(lǐng)域中,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)是應(yīng)用最廣泛的智能算法,主要應(yīng)用于力場和能量場的預(yù)測。本文結(jié)構(gòu)如下:開篇介紹分子性質(zhì)預(yù)測算法及其發(fā)展,第1節(jié)闡述基于深度學(xué)習(xí)的分子性質(zhì)預(yù)測算法的兩大類:多層感知機(multi-layer perceptron,MLP)和圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN),及文獻中涉及的數(shù)據(jù)集和評價指標(biāo),第2、3節(jié)概述了基于MLP和GNN的分子性質(zhì)預(yù)測算法,第4節(jié)通過實驗復(fù)現(xiàn)不同框架下的算法并進行對比,最后討論和展望分子性質(zhì)預(yù)測領(lǐng)域未來的研究方向。
圖1 基于神經(jīng)網(wǎng)絡(luò)的分子性質(zhì)預(yù)測算法發(fā)展時間軸Fig.1 Development timeline of molecular property prediction algorithm based on neural network
圖2 分子性質(zhì)預(yù)測領(lǐng)域關(guān)鍵詞檢索關(guān)系矩陣圖Fig.2 Keyword search relation matrix of molecular property prediction domain
隨著人工智能快速發(fā)展,在分子性質(zhì)預(yù)測領(lǐng)域,人們提出了各種不同的算法,從淺層神經(jīng)網(wǎng)絡(luò)[18-21],到基于深度學(xué)習(xí)的最新方法[22-26]。有基于特征描述的[27],將原子所處的環(huán)境信息通過人工構(gòu)建的描述符進行特征編碼,該特征多用于基于前饋神經(jīng)網(wǎng)絡(luò)的輸入;有基于消息傳遞的[28],將深度學(xué)習(xí)網(wǎng)絡(luò)作用于單個原子之間的信息交換,從網(wǎng)絡(luò)中學(xué)習(xí)其中的物理化學(xué)特征。
當(dāng)前基于神經(jīng)網(wǎng)絡(luò)的分子性質(zhì)預(yù)測算法主要呈現(xiàn)兩種模式(圖3):一種是基于前饋神經(jīng)網(wǎng)絡(luò)的多層感知機(MLP)架構(gòu)算法,將分子勢能看作每個原子勢能之和,每個原子的勢能通過一個獨立的神經(jīng)網(wǎng)絡(luò)進行預(yù)測,多個原子的神經(jīng)網(wǎng)絡(luò)組成神經(jīng)網(wǎng)絡(luò)勢,最后將所有原子的能量求和得到最終的分子能量;另一種是基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的分子性質(zhì)預(yù)測算法,將分子看成不同原子之間相互連接的無向圖,通過無向圖中的節(jié)點與節(jié)點、節(jié)點與邊、邊與邊的消息傳遞得到對應(yīng)的原子和分子的勢能。本文中將基于深度學(xué)習(xí)的分子性質(zhì)預(yù)測算法分為基于MLP和GNN的分子性質(zhì)預(yù)測算法,根據(jù)其內(nèi)部的特征提取機制,總結(jié)上述兩種框架的特點和功能,見表1。
表1 基于MLP和GNN兩種框架的分子性質(zhì)預(yù)測算法
圖3 基于神經(jīng)網(wǎng)絡(luò)的分子性質(zhì)預(yù)測算法分類示意圖Fig.3 Classification diagram of molecular property prediction algorithm based on neural network
數(shù)據(jù)集是神經(jīng)網(wǎng)絡(luò)模型開發(fā)的基礎(chǔ),神經(jīng)網(wǎng)絡(luò)模型的成功多取決于數(shù)據(jù)集的質(zhì)量和大小。研究者們設(shè)計并建立眾多的數(shù)據(jù)集來適應(yīng)不同的任務(wù),如以數(shù)量著稱的GDB[29]系列數(shù)據(jù)集,其建立的初衷是發(fā)現(xiàn)與合成藥物,它包含了海量的穩(wěn)定化學(xué)分子結(jié)構(gòu);以溶解度預(yù)測為研究目標(biāo)的ESOL[30]數(shù)據(jù)集,包含1 128種化合物的水溶性數(shù)據(jù);研究分子在水中特性的數(shù)據(jù)集FreeSolv[31],主要提供小分子在水中水化自由能的相關(guān)數(shù)據(jù)。
QM系列數(shù)據(jù)集,以GDB系列數(shù)據(jù)集為基礎(chǔ),選取其中某些分子利用密度泛函理論(density functional theory, DFT)計算得到相應(yīng)的物化性質(zhì),其中具有代表性的是QM9[32]數(shù)據(jù)集。QM9數(shù)據(jù)集從GDB-17中1 660億個分子中提取138 850個分子作為樣本,包含C、H、O、N、F 5種元素,其中每個分子都有完整的空間結(jié)構(gòu),并在笛卡爾坐標(biāo)系中進行描述。除空間結(jié)構(gòu)信息外。QM9數(shù)據(jù)集還提供了每個分子的15種理化性質(zhì),每條性質(zhì)均以密度泛函計算得到,即每個內(nèi)層電子軌道由6個高斯型函數(shù)線性組合而成,每個價層電子軌道則會被劈裂成兩個基函數(shù),分別由3個和1個高斯型函數(shù)線性組合而成。上述15種理化性質(zhì)分別為三個旋轉(zhuǎn)常數(shù)、偶極矩、各向同性極化率、最高占據(jù)分子軌道的能量、最高與最低占據(jù)分子軌道的能量之差、電子空間范圍、零點能、0 K下內(nèi)能、298.15 K下內(nèi)能、298.15 K下焓值、298.15 K下吉布斯自由能以及298.15 K下熱容。更多的數(shù)據(jù)集[33-36]及其描述見表2。
表2 常見的分子性質(zhì)特征數(shù)據(jù)集
為了評價算法性能,設(shè)置合理的評價指標(biāo)尤為關(guān)鍵。目前基于深度學(xué)習(xí)的分子模擬算法主要包含兩種評價方法:一種是基于誤差型的評價指標(biāo),一種是基于相關(guān)性的評價指標(biāo)。其中基于誤差型的評價指標(biāo)分為平均絕對誤差(mean absolute error,MAE)、均方誤差(mean square error,MSE)和均方根誤差(root mean square error,RMSE),基于相關(guān)性的評價指標(biāo)為相關(guān)系數(shù),又稱皮爾遜相關(guān)系數(shù)(R)。
MAE誤差又稱L1 loss,計算公式為
(1)
MSE誤差計算公式為
(2)
MSE越小代表預(yù)測值與標(biāo)簽值越接近,MSE的最小值為0,表示預(yù)測值與真實值相等。
RMSE誤差又稱L2 loss,其計算公式為
(3)
RMSE越小代表預(yù)測值與標(biāo)簽值越接近,RMSE的最小值為0,表示預(yù)測值與真實值相等。
三種評價指標(biāo)對于預(yù)測值的敏感度不同,其中最敏感的是MSE誤差,較為敏感的是RMSE,最不敏感的是MAE誤差。
相關(guān)系數(shù)常用來描述預(yù)測值與原數(shù)據(jù)的擬合程度。常用的相關(guān)系數(shù)為R,其計算公式為
(4)
基于MLP的分子性質(zhì)預(yù)測算法一般流程如圖4所示。網(wǎng)絡(luò)輸入通常為原子電荷數(shù)和位置信息,不同層級的特征進入不同的神經(jīng)網(wǎng)絡(luò)或模塊中,模塊中的特征通過全連接層進行特征交互,通過激活層進行非線性處理,最終的特征通過求和得到。
圖4 基于MLP的分子性質(zhì)預(yù)測算法流程圖Fig.4 Flow chart of molecular property prediction algorithm based on MLP
基于RBF(radial basis function)的分子性質(zhì)預(yù)測算法主要針對徑向基函數(shù)進行改進。由Hohenberg-Kohn第一定理可知,分子的一切物理化學(xué)性質(zhì)均由該分子的核骨架決定。Behler等[20]將分子骨架信息融入神經(jīng)網(wǎng)絡(luò)中,通過神經(jīng)網(wǎng)絡(luò)預(yù)測分子的勢能。該方法首先將分子的結(jié)構(gòu)信息通過分段函數(shù)進行編碼,經(jīng)過編碼后的信息通過徑向?qū)ΨQ函數(shù)處理后作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)預(yù)測每個原子所具有的勢能,最后通過求和得到分子的總勢能。
隨著深度學(xué)習(xí)的不斷發(fā)展并在其他領(lǐng)域取得巨大成功,基于神經(jīng)網(wǎng)絡(luò)勢(neural network potential,NNP)逐漸成為分子模擬的主流算法之一。歐式距離作為典型特征雖然可以衡量原子間距,但將角度和空間信息掩蓋。Smith等[37]嘗試將分子骨架中的二面角引入,將勢能的影響因素從原子間的距離擴展為距離和二面角。而Zhang等[24]則將每個原子的位置信息進行多維度編碼,包含距離信息、x方向分量、y方向分量、z方向分量組成特征向量,經(jīng)歸一化后輸入神經(jīng)網(wǎng)絡(luò)中預(yù)測分子的勢能。但前饋式神經(jīng)網(wǎng)絡(luò)所能容納的特征有限,且隨著網(wǎng)絡(luò)層次的加深,特征丟失嚴(yán)重,針對RBF的分子性質(zhì)預(yù)測算法性能提升有限。
前饋神經(jīng)網(wǎng)絡(luò)特征丟失嚴(yán)重,從數(shù)學(xué)本質(zhì)上看,是特征在多層網(wǎng)絡(luò)的前向傳遞時梯度發(fā)生衰減,殘差網(wǎng)絡(luò)則將特征進行躍層連接如圖5所示,將上一層特征的梯度傳遞到下一層,在保證模型表達能力的同時,盡量減少梯度消失。研究者考慮將殘差機制引入,同時將普通殘差結(jié)構(gòu)擴展為多特征融合殘差結(jié)構(gòu)。
圖5 SchNet[23]殘差機制示意圖Fig.5 Schematic diagram of residual block in SchNet
其中具有代表性的是Schütt等[25]針對原子能量的預(yù)測任務(wù)提出的SchNet網(wǎng)絡(luò),該網(wǎng)絡(luò)構(gòu)建具有多尺度感知的殘差原子交互模塊,增加了原子之間的局部相關(guān)性。Unke等[38]受SchNet的啟發(fā)提出PhysNet,該網(wǎng)絡(luò)在引入殘差機制的基礎(chǔ)上進一步改進了內(nèi)部交互殘差模塊,與SchNet中只在特征采樣前后進行融合不同,PhysNet在網(wǎng)絡(luò)中采取多級殘差設(shè)計。Lu等[36]建立了一個新的數(shù)據(jù)集Frag20,并對PhysNet進行了簡化得到sPhysNet,利用sPhysNet在新數(shù)據(jù)集進行測試。結(jié)果表明復(fù)雜的殘差結(jié)果在一定程度上可以提高模型的預(yù)測精度,但殘差網(wǎng)絡(luò)架構(gòu)對原子間的內(nèi)部交互表達不兼容,特征大多仍為單原子的性質(zhì)融合,對復(fù)雜分子性質(zhì)預(yù)測能力不足。
不同于將分子性質(zhì)僅看做原子性質(zhì)的加權(quán)和,研究者認為一些預(yù)測效果較差的性質(zhì)可能受原子間的交互影響,故將原子間的交互機制引入[39]。若將分子看成圖結(jié)構(gòu),則構(gòu)成分子的每個原子則組成圖中的一個結(jié)點,原子和原子之間的聯(lián)系可以通過關(guān)系矩陣進行關(guān)聯(lián),如圖6所示,關(guān)聯(lián)度越大該原子的能量在空間受到的影響越大。但在實際訓(xùn)練時很難將所有性質(zhì)在有效時間步中訓(xùn)練到合適精度,所以有些研究者增加內(nèi)部交互模塊的訓(xùn)練時長。
圖6 相鄰時間步原子間交互矩陣示意圖Fig.6 Schematic diagram of interaction matrix between atoms in adjacent time steps
在此基礎(chǔ)上,Schütt等[33]還將原子擴張影響引入,具體是將原子矢量特征與原子間距離進行非線性耦合。經(jīng)過若干時間步修正后的能量輸入至神經(jīng)網(wǎng)絡(luò)預(yù)測該原子的能量。Yao等[40]將這種原子間的影響直接獨立出來,利用獨立的網(wǎng)絡(luò)進行訓(xùn)練,一個電荷網(wǎng)絡(luò)勢負責(zé)預(yù)測庫倫能和范德華能,一個能量網(wǎng)絡(luò)勢負責(zé)由原子結(jié)構(gòu)影響的總勢能,三者之和即為分子的總勢能。Li等[41]引入主要官能團的影響,對于不同類型的體系利用不同的算子進行特征描述,在分子能量的預(yù)測中具有良好表現(xiàn)。
圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)是近年來出現(xiàn)的一種利用深度學(xué)習(xí)在圖結(jié)構(gòu)中進行學(xué)習(xí)的框架,其優(yōu)異的性能引起了學(xué)者高度的關(guān)注和深入的探索。通過在圖中的節(jié)點和邊上制定一定的策略,GNN 將圖結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)化為相應(yīng)的特征表示,在多種任務(wù)中取得優(yōu)良的效果?;趫D神經(jīng)網(wǎng)絡(luò)的分子性質(zhì)預(yù)測算法一般流程為模型通過構(gòu)建好的輸入特征,通過多層圖卷積進行消息傳遞,如圖7所示,基于圖神經(jīng)網(wǎng)絡(luò)的分子模擬算法其主要特征是將分子結(jié)構(gòu)看成圖結(jié)構(gòu),并利用圖神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)不變性進行預(yù)測。
圖7 GNN算法基本流程圖Fig.7 Basic flow chart of algorithm
消息傳遞本來指代計算機間用于實現(xiàn)同步的通信機制,在分子性質(zhì)預(yù)測中,研究者將不同層級的圖中包含的信息更新機制稱為消息傳遞。組成分子的不同原子構(gòu)成圖或者超圖結(jié)構(gòu),圖的節(jié)點包含描述結(jié)點本身特征信息,圖的邊則包含兩個節(jié)點的連接關(guān)系特征,消息傳遞機制規(guī)定了下一層圖中的節(jié)點和邊的更新規(guī)則。
基于MP的分子模擬算法主要針對消息傳遞機制進行改進。Gilmer等[28]在消息傳遞階段分別借鑒GG-NN[42]和Interaction Networks[43]的消息函數(shù),對于消息傳遞距離的改進,消息傳遞神經(jīng)網(wǎng)絡(luò)(message passing neural networks,MPNNs)提出兩種方法,一種是將未連接的節(jié)點增加虛擬邊,另一種是增加與所有節(jié)點連接的全局節(jié)點,這樣的設(shè)計類似卷積神經(jīng)網(wǎng)絡(luò)中的增加感受野。Lu等[44]在改進消息傳遞機制的基礎(chǔ)上,考慮不同數(shù)量級原子間相互作用,即若干2個原子間的相互作用Pair-wise、若干3個原子間的相互作用Triple-wise等。僅針對分子結(jié)構(gòu)進行編碼從某種程度上忽略了原子在空間上的排布信息,一方面可以將空間方向信息融入圖結(jié)構(gòu)中[45],另一方面可以建立3D圖結(jié)構(gòu)[46],在一定程度上增加了模型的精度。但基于消息傳遞機制的圖神經(jīng)網(wǎng)絡(luò)存在特征傳遞瓶頸問題,有些研究者通過增加注意力機制來克服[47],有些則通過等變機制來解決[48],但效果提升有限。
分子中原子結(jié)構(gòu)具有旋轉(zhuǎn)不變性、平移不變性和鏡像反轉(zhuǎn)不變性等幾何性質(zhì)。其中,具有旋轉(zhuǎn)不變性的稱為SO(3),除SO(3)外具有平移不變性的稱為SE(3),除SE(3)外具有鏡像反轉(zhuǎn)不變性的稱為E(3),如圖8所示?;贓quivariant的分子性質(zhì)預(yù)測算法主要將分子間的位置關(guān)系看成旋轉(zhuǎn)等變的特征描述。在特征不斷傳遞更新時,保持特征旋轉(zhuǎn)等變,這和卷積神經(jīng)網(wǎng)絡(luò)有所區(qū)別,卷積神經(jīng)網(wǎng)絡(luò)不能保持特征的旋轉(zhuǎn)等變。
圖8 三種不變性分子示意圖Fig.8 Schematic diagram of three invariant molecules
大多旋轉(zhuǎn)的等變網(wǎng)絡(luò)考慮原子軌道間的電子相互作用,一方面引入物理運動算子[49],學(xué)習(xí)原子間的勢和力。利用來自可訓(xùn)練的潛在力向量方向信息,以及受牛頓物理學(xué)啟發(fā)的物理注入算子的優(yōu)勢,整個模型保持旋轉(zhuǎn)等變,并通過更可解釋的物理特征推斷出多體相互作用。Qiao等[50]利用有效的緊束縛模擬和學(xué)習(xí)映射預(yù)測量子化學(xué)性質(zhì)。Schütt等[51]提出了極化原子相互作用神經(jīng)網(wǎng)絡(luò)PaiNN。
信息傳遞神經(jīng)網(wǎng)絡(luò)已成為圖形學(xué)習(xí)的首選方法,特別是在預(yù)測化學(xué)性質(zhì)和加速分子動力學(xué)研究方面。雖然它們很容易擴展到大型訓(xùn)練數(shù)據(jù)集,但以前的方法已被證明不如內(nèi)核方法有效。不變表示的局限性是一個主要原因,并將消息傳遞公式擴展到旋轉(zhuǎn)等變表示。Qiao等[26]提出了一般多體等變神經(jīng)網(wǎng)絡(luò)——UNiTE,對于N-body的張量,一方面通過對角化進行簡化,另一方面通過線性映射,將兩部分的特征進行高階卷積后,再進行消息傳遞,經(jīng)過等變歸一化使用對稱消息池讀出預(yù)測結(jié)果。Takamoto等[52]提出了通用神經(jīng)網(wǎng)絡(luò)勢PFP(preferred potential),該網(wǎng)絡(luò)面向更廣闊的應(yīng)用空間,為了這種普適性,PFP提供了復(fù)雜的數(shù)據(jù)集生成模塊,并在LiFeSO4F中的鋰擴散、金屬有機框架中的分子吸附、Cu-Au合金的有序-無序轉(zhuǎn)變,以及費托催化劑的材料發(fā)現(xiàn)等方面進行有效性驗證。
李群指光滑可微的群,通??梢哉J為綜合了群和光滑流形的概念。光滑、可微的流形,指領(lǐng)域和歐式空間同構(gòu)的線性空間,也就是李群的每個元素存在線性空間或者向量空間作為切空間。由于單位元在群中的特殊地位,所以李群單位元的切空間李代數(shù)是非常重要的概念。由于李群的光滑性,每個元素的切空間結(jié)構(gòu)相同,都可以通過線性變換變化至單位元的切空間,也就是李代數(shù)。
基于李群的分子性質(zhì)預(yù)測算法將分子間的作用看成對稱平移等變問題[53],通過過向旋轉(zhuǎn)等變網(wǎng)絡(luò)中增加角度信息,利用角度信息使模型預(yù)測準(zhǔn)確度提升更明顯?;蛘咴黾訉ΨQ適應(yīng)原子軌道(symmetry-adapted atomic orbitals,SAAO)的分子特征[50],通過對該矩陣進行對角化處理得到具有旋轉(zhuǎn)不變性的自適應(yīng)原子軌道基,如圖9所示。將上述特征映射到對應(yīng)的圖結(jié)構(gòu)中,經(jīng)過多層的消息傳遞層和特征編碼最終通過解碼得到最終的勢能預(yù)測值。
圖9 三維空間上的等變特征示意圖Fig.9 Isovariant feature diagram in 3D space
除了在三維空間中實現(xiàn)特征的旋轉(zhuǎn)、平移、反射和置換不變性,更高維空間的等變特征也受到了廣泛的關(guān)注[54],甚至重新定義網(wǎng)絡(luò)中的乘法[55]和卷積[56]。一方面擴展特征維度[23],另一方面增加物理化學(xué)性質(zhì)[57],使網(wǎng)絡(luò)特征更具解釋性。上述算法均未考慮特征的異向傳遞,雖然在預(yù)測精度上已經(jīng)具有較大的優(yōu)勢,但忽略非對稱結(jié)構(gòu)在不同空間方向具有不同的理化性質(zhì)。
其他新穎的改進方法則受其他深度學(xué)習(xí)任務(wù)啟發(fā),比如:Liu等[58]將注意力機制引入到消息傳遞過程中,提出DeepMoleNet網(wǎng)絡(luò),該網(wǎng)絡(luò)通過加權(quán)不同原子的貢獻,將以原子為中心的對稱函數(shù)(atom-centered symmetry functions,ACSF)作為teacher描述符,而不是以傳統(tǒng)方式使用ACSF作為輸入,使化學(xué)可解釋的見解能夠融合到多任務(wù)學(xué)習(xí)中。Godwin等[59]提出了NoisyNodes策略,該策略通過簡單的噪聲正則化解決過度平滑問題。NoisyNodes用噪聲破壞輸入圖,并添加一個噪聲校正節(jié)點級損失。多樣的節(jié)點級損失鼓勵潛在的節(jié)點多樣性,噪聲節(jié)點可以作為GNN中的補充構(gòu)建模塊。
近年來,基于深度學(xué)習(xí)的分子性質(zhì)預(yù)測算法呈現(xiàn)爆發(fā)式增長,基于GNN的深度學(xué)習(xí)分析模擬算法受到更廣泛的關(guān)注。為了對當(dāng)前基于深度學(xué)習(xí)的分子模擬算法進行比較,選取0 K下的內(nèi)能U0、298.15 K下的內(nèi)能U、298.15 K下焓值H、298.15 K下吉布斯自由能G的預(yù)測結(jié)果進行對比。
根據(jù)目前公開的結(jié)果,如表3所示,在預(yù)測精度上, UNiTE[26]的預(yù)測精度最高,在算法大類對比中,如表4所示基于MLP的算法精度低于基于圖神經(jīng)網(wǎng)絡(luò)的算法精度。從圖1所示趨勢圖不難看出,基于MLP的分子性質(zhì)預(yù)測算法在2018年后逐漸被GNN相關(guān)算法所取代,基于GNN分子性質(zhì)預(yù)測算法已逐漸成為研究熱點。
表3 幾個算法的公開代碼鏈接
表4 不同分子性質(zhì)預(yù)測算法結(jié)果對比表
本文中對相關(guān)算法進行調(diào)研,將每個算法的代碼公開情況,匯總形成表5。在幾個表現(xiàn)較突出的算法中,基于深度學(xué)習(xí)相關(guān)算法預(yù)測時間要遠小于密度泛函理論相關(guān)算法,如圖10(a)所示,其中幾個算法在準(zhǔn)確度上可以媲美DFT相關(guān)算法。與機器學(xué)習(xí)相關(guān)算法相比,準(zhǔn)確度上有較大的優(yōu)勢。
表5 大類對比表
圖10 實驗結(jié)果圖Fig.10 Diagram of experimental result
本文中還對幾個模型的模型特征表達能力進行對比,如圖10(b)隨著訓(xùn)練集的增加,模型的測試誤差降低,不難看出模型的特征表達能力仍然有較大的擴展空間,隨著新型數(shù)據(jù)集的開發(fā),基于深度學(xué)習(xí)的分子性質(zhì)預(yù)測算法將更具優(yōu)勢。
概述了近些年來基于神經(jīng)網(wǎng)絡(luò)的分子性質(zhì)預(yù)測算法,分為MLP和GNN兩大類進行分析,結(jié)合公開數(shù)據(jù)集對算法進行對比驗證,發(fā)現(xiàn)在精度上基于GNN的分子性質(zhì)預(yù)測算法要高于基于MLP的分子性質(zhì)預(yù)測算法,并且基于GNN的分子性質(zhì)預(yù)測算法在近三年受到更廣泛的關(guān)注?;贛LP的分子性質(zhì)預(yù)測算法將分子性質(zhì)看作若干原子分子性質(zhì)之和,每個原子的相關(guān)信息通過獨立的神經(jīng)網(wǎng)絡(luò)開展預(yù)測任務(wù),相關(guān)聯(lián)的分子之間通過殘差結(jié)構(gòu)進行特征融合,得到最終的預(yù)測結(jié)果?;贕NN的分子性質(zhì)預(yù)測算法將分子結(jié)構(gòu)看成圖結(jié)構(gòu),原子與原子之間的關(guān)系映射為無向圖之間的邊,原子映射為圖的節(jié)點。原子的性質(zhì)通過消息傳遞機制,傳遞給下一層的圖結(jié)構(gòu),典型的GNN分子性質(zhì)預(yù)測算法存在節(jié)點到節(jié)點的消息傳遞,邊到節(jié)點的消息傳遞,全局節(jié)點到各節(jié)點的消息傳遞,每個節(jié)點與上一層的若干節(jié)點相關(guān)聯(lián),多層消息傳遞后,特征將像圖像中的卷積中的特征張量具有一定的感受野,最終通過讀出層讀出最終的預(yù)測結(jié)果。
基于以上的調(diào)研,未來可以開展的工作包含以下幾個方面。
(1)超大規(guī)模數(shù)據(jù)集的構(gòu)建。目前的算法在特征表達上仍未到達瓶頸,大規(guī)模和超大規(guī)模的數(shù)據(jù)集將有利于當(dāng)前的算法形成預(yù)測更為精確的模型,使算法在可接受的時間復(fù)雜度內(nèi)達到可以與第一性原理計算相媲美的預(yù)測結(jié)果。此外,模型的損失函數(shù)與模型的評價指標(biāo)高度契合,即模型訓(xùn)練用的損失函數(shù)大多由評價指標(biāo)或評價指標(biāo)的變體構(gòu)成,這導(dǎo)致模型在一定程度上過度向評價指標(biāo)方向傾斜從而忽略其他關(guān)鍵因素。
(2)圖神經(jīng)網(wǎng)絡(luò)的各向異性特征傳遞。當(dāng)前的圖神經(jīng)網(wǎng)絡(luò)在預(yù)測精度上已經(jīng)具有較大的優(yōu)勢,當(dāng)前的圖神經(jīng)網(wǎng)絡(luò)較為依賴等變的特征傳遞而忽略非對稱結(jié)構(gòu)在不同空間方向具有不同的理化性質(zhì),該問題將制約圖神經(jīng)網(wǎng)絡(luò)在非對稱性結(jié)構(gòu)中的性質(zhì)預(yù)測。此外,目前的模型針對過擬合問題缺乏系統(tǒng)的優(yōu)化,結(jié)合圖神經(jīng)網(wǎng)絡(luò)特征,一方面考慮增加池化、噪聲等結(jié)構(gòu),另一方面設(shè)計更適合的損失函數(shù)。
(3)材料科學(xué)與生命科學(xué)中的實際應(yīng)用。在材料科學(xué)中,基于勢能面搜索的材料結(jié)構(gòu)預(yù)測,目前的算法更關(guān)注搜索的時間和空間復(fù)雜度,而不是材料的性質(zhì),在基于勢能面搜索的材料性質(zhì)預(yù)測仍然是需要解決的問題。此外,目前的算法針對材料結(jié)構(gòu)預(yù)測往往基于簡單體系,當(dāng)考慮材料的強相互作用、磁性時,仍不能起到實際指導(dǎo)作用。在生命科學(xué)中,目前相關(guān)研究只能針對小蛋白質(zhì)結(jié)構(gòu)進行預(yù)測,目前距離真正理解蛋白質(zhì)結(jié)構(gòu)與功能的關(guān)系并在此基礎(chǔ)上開展具有特定結(jié)構(gòu)或功能蛋白質(zhì)的設(shè)計仍有較大差距。