吳正浩,周天航,藍(lán)興英,徐春明
(1 美國西北大學(xué)土木與環(huán)境工程系,伊利諾伊州 埃文斯頓 60208-3109;2 西交利物浦大學(xué)化學(xué)系,江蘇 蘇州 215123;3 中國石油大學(xué)(北京)碳中和未來技術(shù)學(xué)院,北京 102249;4 中國石油大學(xué)(北京)重質(zhì)油國家重點實驗室,北京 102249)
當(dāng)今,化學(xué)品廣泛應(yīng)用于醫(yī)藥、能源、材料、食品等領(lǐng)域,新型高性能化學(xué)品的研究和開發(fā)引起了密切關(guān)注。但化學(xué)品的設(shè)計和制備是一個復(fù)雜過程,涉及大量高維空間的研究參數(shù)。傳統(tǒng)的化學(xué)品設(shè)計過程通常是通過將化學(xué)原理與工程技術(shù)相結(jié)合,基于理論與直覺來調(diào)整配方和參數(shù)以指導(dǎo)實驗設(shè)計,從而尋找最優(yōu)方法來設(shè)計和開發(fā)高性能、高效率和環(huán)境友好的新型化學(xué)品。但這些傳統(tǒng)的“試錯”方法普遍受到“維度災(zāi)難”的困擾,不僅需要付出極高的時間和材料成本,也難以保證在幾乎無窮的材料設(shè)計參數(shù)中尋找到最優(yōu)解,更難以闡明微觀結(jié)構(gòu)與關(guān)鍵性能和機(jī)制之間的關(guān)聯(lián),極大地限制了新產(chǎn)品的有效開發(fā)和化學(xué)工業(yè)的科技進(jìn)步。相比于實驗技術(shù),多尺度計算機(jī)模擬技術(shù)為充分探索化學(xué)品的結(jié)構(gòu)-性能關(guān)系和分子機(jī)制提供了一個高效路徑,并具有更多的“接口”與人工智能(AI)進(jìn)行結(jié)合:一方面,AI 提供了將多尺度模擬結(jié)果中復(fù)雜參數(shù)空間映射到目標(biāo)函數(shù)的非線性方法,保證了在化學(xué)品復(fù)雜材料結(jié)構(gòu)空間中進(jìn)行高效的性能(構(gòu)效關(guān)系)映射的可能性;另一方面,通過將遺傳算法、主動學(xué)習(xí)和深度生成模型等機(jī)器學(xué)習(xí)算法融入化工材料設(shè)計過程,提供了根據(jù)化學(xué)品目標(biāo)性能獲得相應(yīng)結(jié)構(gòu)參數(shù)的高效反向設(shè)計方法。
因此,將AI有效融入到多尺度模擬計算中,有望克服化學(xué)品創(chuàng)新設(shè)計中的瓶頸問題,是“Al for Science”這一理念的典型代表。然而,這一融合過程涉及的研究方向和內(nèi)容繁多。本文作者團(tuán)隊以化學(xué)品創(chuàng)新設(shè)計的可行性、精準(zhǔn)和高效為目標(biāo),認(rèn)為除了大家所熟知的構(gòu)建精準(zhǔn)機(jī)器學(xué)習(xí)構(gòu)效預(yù)測模型,以下三個方面的AI 驅(qū)動研究應(yīng)該擺在更為重要的位置(圖1):準(zhǔn)確快速的多尺度模型;高效的材料正向、反向設(shè)計方法;基于AI特性的科學(xué)計算軟件。本文將首先從計算機(jī)模擬方法的創(chuàng)新出發(fā),圍繞化學(xué)品中典型的高分子材料,例如高分子相容劑、高分子導(dǎo)熱材料進(jìn)行討論。同時關(guān)注AI驅(qū)動化學(xué)品創(chuàng)新設(shè)計,強調(diào)在AI時代中,創(chuàng)新計算機(jī)模擬基礎(chǔ)設(shè)施對未來化工研究與發(fā)展的重要性。
圖1 人工智能驅(qū)動化學(xué)品創(chuàng)新設(shè)計的三個重要方面
現(xiàn)實中,化學(xué)品的設(shè)計需要借助表征手段分析原子和分子的相互作用關(guān)系,以闡明相關(guān)機(jī)制。但在多尺度計算模擬中,研究者首先要基于符合物理規(guī)律的相互作用關(guān)系構(gòu)建準(zhǔn)確的原子和分子模型,以進(jìn)行化學(xué)品的創(chuàng)新設(shè)計。在化學(xué)工程系統(tǒng)與化學(xué)品設(shè)計中,通常涉及從材料組分的分子到反應(yīng)器的工業(yè)裝置等多層次時空尺度,通過多尺度計算機(jī)模擬技術(shù)(例如,從量子化學(xué)到分子動力學(xué)再到連續(xù)介質(zhì)力學(xué)),可以實現(xiàn)自下而上,以電子、原子等微觀粒子為基礎(chǔ),重新認(rèn)識和重構(gòu)傳統(tǒng)化學(xué)化工過程。然而,經(jīng)典的計算機(jī)模擬,雖然在部分領(lǐng)域顯示出卓越的作用,如單分子功能預(yù)測,但仍然無法有效地應(yīng)用于與實際相近的真實系統(tǒng),因為其所需要的計算資源隨模擬體系的增大而指數(shù)級增加。近年來,人工智能(AI)技術(shù)在自然科學(xué)、計算科學(xué)等學(xué)科中的融合發(fā)展為改進(jìn)并加強多尺度模型構(gòu)建和采樣速率,特別是高模擬精度及速度提供了可能(圖2)。其中,通過AI技術(shù)來幫助發(fā)展更全面準(zhǔn)確的理論技術(shù)來確定粒子之間在各種條件下的相互作用力是改善多尺度模擬計算技術(shù)重要的方向之一,以此為新型化學(xué)品設(shè)計提供更堅實的基礎(chǔ)。
圖2 人工智能輔助的多尺度模型建立
準(zhǔn)確表示微觀粒子(原子)間復(fù)雜的相互作用(勢能面)對于使用分子動力學(xué)模擬預(yù)測材料性能和設(shè)計至關(guān)重要。雖然,在Born-Opperheimer約化條件約束下,可以通過量子力學(xué)計算電子云之間的相互作用力得出原子間作用力,即從頭算分子動力學(xué)(ab-initio MD)模擬。但是,ab-initio MD 所需的計算資源極為昂貴(關(guān)于粒子數(shù)指數(shù)級增長)。因此模擬的體系往往局限于10~100 原子,限制了其在化工材料領(lǐng)域的廣泛應(yīng)用。最近,機(jī)器學(xué)習(xí)的快速發(fā)展提供了高效準(zhǔn)確擬合高維勢能面的可能性,能夠用較低的計算成本提供實現(xiàn)較高的準(zhǔn)確性。例如,Deep Potential 團(tuán)隊成功地以ab-initio 的精度在分子動力學(xué)中模擬了百億原子級別的體系,展現(xiàn)出了機(jī)器學(xué)習(xí)勢能(machine-learning force-field,MLFF)的優(yōu)勢與潛在的應(yīng)用前景。
然而,MLFF 在化學(xué)化工研究中的普及仍存在挑戰(zhàn)。目前常規(guī)的機(jī)器學(xué)習(xí)架構(gòu)主要適用于文字、圖片、視頻等一維和二維的對象,如何精確地表達(dá)三維空間中的原子,并使其符合物理定律,仍是機(jī)器學(xué)習(xí)領(lǐng)域的一個難題。另外,使用現(xiàn)有的高精度的ab-initio MD 技術(shù)來標(biāo)記數(shù)據(jù)較為耗時,如何使用更少的數(shù)據(jù)訓(xùn)練以獲得性能較好的MLFF是一個亟需解決的問題。為了更好地評估MLFF,找出其中對性能至關(guān)重要的特征,從而推進(jìn)MLFF領(lǐng)域更好的發(fā)展,本文作者團(tuán)隊最近參與的一項工作[1]在材料、蛋白質(zhì)、小分子等多種體系上測試評估了一系列具有不同特點的MLFF,包括DeepPot、Dimnet、Schnet、Nequip等。這項工作提出了三項新的評估MLFF 的標(biāo)準(zhǔn):①由模擬軌跡計算的觀測量;②模擬的穩(wěn)定性;③ MLFF 的計算效率。與現(xiàn)行MLFF評估和驗證標(biāo)準(zhǔn)要求訓(xùn)練模型的能量/力誤差盡量小不同,這項工作明確指出,MLFF 訓(xùn)練時的能量和力誤差的數(shù)值大小并不一定與其在模擬中的實際表現(xiàn)有明顯關(guān)聯(lián)。因此,需要重新考慮MLFF模型的評估標(biāo)準(zhǔn)并在評估模型時綜合考慮實際模擬的觀測量、穩(wěn)定性和計算速度,以確保MLFF模型的可靠性和有效性。在評估的一系列MLFF中,具有O(3)對稱性的Nequip,即在神經(jīng)網(wǎng)絡(luò)操作中內(nèi)生地嵌入了三維空間中分子的平移、旋轉(zhuǎn)、翻轉(zhuǎn)等對稱性,在各項指標(biāo)和體系中的綜合表現(xiàn)出色。經(jīng)過細(xì)致系統(tǒng)的分析并結(jié)合最近一項有關(guān)機(jī)器學(xué)習(xí)表達(dá)能力的研究,機(jī)器學(xué)習(xí)架構(gòu)在三維空間中分子的多體效應(yīng)(many-body effect)等的表達(dá)能力,特別是對于物理對稱性群(symmetry group)的考慮,是MLFF在真實模擬條件下性能的關(guān)鍵?;谶@些理解,本文作者團(tuán)隊相信深入研究發(fā)展MLFF,將有助于進(jìn)一步提高其在實際化學(xué)化工過程中的應(yīng)用價值。
盡管相對于ab-initio 模擬方法,MLFF 全原子模型的計算速度已經(jīng)提高了數(shù)倍,但是其仍受限于較小的系統(tǒng)尺寸和較短的模擬時長(約10nm和1ns)。為了進(jìn)一步提高模擬的速度,一個廣泛使用的概念是粗?;╟oarse-graining,CG)。粗粒化CG 是多尺度模擬中最重要的概念之一,CG 模型也是化學(xué)化工領(lǐng)域模擬的重要的組成部分[2-3]。在CG模型中,幾個原子或者分子被劃進(jìn)一個“超級”粒子,以減少所需要模擬的粒子數(shù),從而可以在更大的時空尺度上進(jìn)行分子動力學(xué)模擬,使理解和預(yù)測與實際化學(xué)化工系統(tǒng)更相近的尺度上的機(jī)理與過程成為可能。
然而,訓(xùn)練準(zhǔn)確的機(jī)器學(xué)習(xí)CG 模型通常需要比機(jī)器學(xué)習(xí)全原子模型更多的數(shù)據(jù)。這是由于在將聚合原子聚合為粗粒化粒子的過程中引入了額外的誤差,增大了學(xué)習(xí)的難度。因此,獲取大量高質(zhì)量數(shù)據(jù)是開發(fā)可靠高效的機(jī)器學(xué)習(xí)粗?;P偷年P(guān)鍵之一。與此同時,自上而下地基于實驗數(shù)據(jù)建立準(zhǔn)確的粗粒化模型亦是一項極有意義且頗具挑戰(zhàn)的工作。自動微分作為機(jī)器學(xué)習(xí)核心組成部分,最近被引入分子動力學(xué)中,以高效準(zhǔn)確地開發(fā)勢能模型。在最近的一項工作中,本文作者團(tuán)隊使用自動微分技術(shù)將整個分子動力學(xué)模擬可微分化從而使得從模擬軌跡直接對勢能函數(shù)計算梯度成為可能[4]。將可微分模擬與隨機(jī)梯度下降優(yōu)化方法相結(jié)合,本文作者團(tuán)隊開發(fā)出一種新的方法來優(yōu)化勢能函數(shù),展示了如何使用可微分分子動力學(xué)模擬方法,從高質(zhì)量的實驗數(shù)據(jù)中自上而下地學(xué)習(xí)出液態(tài)水分子溫度可轉(zhuǎn)移的粗粒化模型。這為未來構(gòu)建更可靠的通用粗粒化模型奠定了堅實的基礎(chǔ)。因此,將機(jī)器學(xué)習(xí)方法與以粗?;P蜑榇淼亩喑叨饶M策略有機(jī)地結(jié)合,通過引入高質(zhì)量的實驗和模擬數(shù)據(jù),可以促進(jìn)化學(xué)化學(xué)品快速高效的多尺度設(shè)計與開發(fā)。
機(jī)器學(xué)習(xí)方法不僅可以用于構(gòu)建物理模型,還廣泛應(yīng)用于進(jìn)行模擬結(jié)果的分析。在材料研究中,構(gòu)建結(jié)構(gòu)與性質(zhì)之間的精確關(guān)系(即構(gòu)效關(guān)系)非常關(guān)鍵。機(jī)器學(xué)習(xí)因其強大的適應(yīng)能力而成為構(gòu)建構(gòu)效關(guān)系的強有力技術(shù)。在最近的一項研究中,本文作者團(tuán)隊成功運用高效的耗散粒子動力學(xué)模擬技術(shù),預(yù)測了數(shù)百種不同接枝情況下共聚物刷的相容性。針對這些高度復(fù)雜的數(shù)據(jù),本文作者團(tuán)隊運用機(jī)器學(xué)習(xí)技術(shù)有效構(gòu)建了結(jié)構(gòu)和性質(zhì)之間的關(guān)系,為未來高性能聚合物相容劑的開發(fā)提供了高效直接的預(yù)測模型。另外,分子動力學(xué)模擬的結(jié)果需要從非常復(fù)雜的軌跡、能量等數(shù)據(jù)中進(jìn)行分析和發(fā)掘。機(jī)器學(xué)習(xí)因其強大的降維、擬合等能力,已經(jīng)成為了分析分子動力學(xué)模擬數(shù)據(jù)的強有力工具。例如,本文作者團(tuán)隊利用神經(jīng)網(wǎng)絡(luò)以脂質(zhì)分子原子軌跡作為輸入,準(zhǔn)確預(yù)測在不同酒精濃度下脂質(zhì)分子的構(gòu)象性質(zhì)[5],從而幫助判斷冠狀病毒模型細(xì)胞膜在酒精作用下的穩(wěn)定性。神經(jīng)網(wǎng)絡(luò)高效準(zhǔn)確的預(yù)測能力,使得快速分析數(shù)成百上千個組成成分的細(xì)胞膜成為可能,為開發(fā)高效的病毒酒精消毒液提供了理論基礎(chǔ)。隨著機(jī)器學(xué)習(xí)在分子動力學(xué)模擬數(shù)據(jù)分析中的廣泛應(yīng)用,分子模擬在實際場景中的應(yīng)用將得以更快速地推進(jìn)。
眾多先進(jìn)化工技術(shù)的發(fā)展是以特殊性能材料為核心。例如,膜分離技術(shù)作為支撐水資源、能源、環(huán)境、傳統(tǒng)產(chǎn)業(yè)改造等領(lǐng)域的戰(zhàn)略性高新技術(shù),亟需新型具有高選擇透過性的高性能聚合物材料設(shè)計與制備進(jìn)行支撐。然而,聚合物材料的結(jié)構(gòu)設(shè)計和性能優(yōu)化是一個跨越多個尺度的復(fù)雜系統(tǒng),看似微小的結(jié)構(gòu)變化,如在高分子鏈中增加一個支鏈或單體序列的差異,都會對性能產(chǎn)生巨大影響。為此,有針對性地開發(fā)高效材料設(shè)計方法成為關(guān)鍵所在。為了解決這一挑戰(zhàn),本文作者團(tuán)隊基于正向設(shè)計和反求設(shè)計兩種研究思路,針對聚合物材料這一典型化學(xué)品,探索構(gòu)建智能研究框架,進(jìn)行AI 驅(qū)動的設(shè)計和結(jié)構(gòu)調(diào)控,見圖3。
圖3 人工智能輔助的材料設(shè)計方法
隨著計算能力和基于物理模型的迅速發(fā)展,計算機(jī)模擬,特別是分子模擬技術(shù),可以高效測試化學(xué)化工材料的性質(zhì)并進(jìn)行預(yù)測??偟膩碚f,與實驗相比,計算機(jī)模擬作為一種正向設(shè)計的工具,可以極大地提高材料研發(fā)和設(shè)計的效率,同時能夠降低成本。
以聚合物為例,將已有聚合物進(jìn)行共混可提高聚合物材料力學(xué)性能、加工性能,降低成本,并擴(kuò)大使用范圍,是實現(xiàn)聚合物改性和生產(chǎn)多功能新型聚合物材料的重要途徑之一。然而,絕大多數(shù)聚合物是不相容的,導(dǎo)致混合產(chǎn)品的機(jī)械性能差、界面張力高。研究表明,在共混物中加入與其具有相同化學(xué)組分的共聚物是實現(xiàn)突破原有體系熱力學(xué)極限、開發(fā)高性能聚合物的有效方法。但對于共聚物來說,微小的結(jié)構(gòu)變化(如嵌段連接方式或序列的差異)都會對性能產(chǎn)生影響。因此,亟需開發(fā)一種能夠從繁多結(jié)構(gòu)信息中解析與辨認(rèn)其關(guān)鍵作用的相容性描述符,以便實現(xiàn)高效、合理地設(shè)計高性能相容劑的分子結(jié)構(gòu)。
本文作者團(tuán)隊首先通過耗散粒子動力學(xué)模擬(DPD)研究了線型嵌段共聚物在不相容聚合物相之間的相容性能[6],并以此解析了相容劑結(jié)構(gòu)特性,建立了冪律擬合模型,實現(xiàn)了線型嵌段共聚物的相容效率隨聚合物化學(xué)、分子結(jié)構(gòu)和共聚物分子數(shù)量的變化預(yù)測?;诖搜芯?,本文作者團(tuán)隊還針對由骨架和多個側(cè)鏈組成的更復(fù)雜拓?fù)浣Y(jié)構(gòu)的接枝共聚物[7],結(jié)合熱力學(xué)分析和界面模型計算,關(guān)聯(lián)界面張力隨接枝共聚物多樣性結(jié)構(gòu)參數(shù)變化的關(guān)系,從而辨識出起主要相容作用的結(jié)構(gòu)描述符,并以此為基礎(chǔ)開發(fā)了DPD/ML的智能研究框架,實現(xiàn)了在分子水平上準(zhǔn)確預(yù)測具有多個描述符(如分子結(jié)構(gòu)和化學(xué)成分)的特定接枝共聚物的相容性效率,并基于不同描述符的重要性等級,開發(fā)了ML模型的機(jī)理解釋方法。以此為基礎(chǔ),本文作者團(tuán)隊成功實現(xiàn)了高相容性共聚物的分子量、拓?fù)浣Y(jié)構(gòu)和序列的精準(zhǔn)設(shè)計,開創(chuàng)了以功能基元-序構(gòu)為核心的相容劑正向設(shè)計的普適方法,創(chuàng)新發(fā)展了共聚物拓?fù)浣Y(jié)構(gòu)解析方法,剖析了界面增容時共聚物的空間分布機(jī)制,結(jié)合熱力學(xué)剖析構(gòu)建機(jī)器學(xué)習(xí)輔助的研究框架,提出了共聚物增容信息的描述符辨認(rèn)方法,并以此進(jìn)行高相容性共聚物的分子量、拓?fù)浣Y(jié)構(gòu)和序列的精準(zhǔn)設(shè)計,從而開創(chuàng)了一種以功能基元-序構(gòu)為核心的相容劑正向設(shè)計的普適方法。
反求設(shè)計,即如何從復(fù)雜的材料設(shè)計參數(shù)空間中找到對應(yīng)材料目標(biāo)性質(zhì)的參數(shù),對實現(xiàn)高性能化學(xué)化學(xué)品的創(chuàng)新設(shè)計十分重要。以下本文作者團(tuán)隊將以高性能聚合物導(dǎo)熱性質(zhì)為實例探討如何將AI結(jié)合理論與模擬進(jìn)行有效的材料反求設(shè)計。
共聚物材料的低本征導(dǎo)熱性會導(dǎo)致積熱,進(jìn)而引發(fā)材料溶脹、產(chǎn)品性能降低。高效開發(fā)高本征導(dǎo)熱性共聚物材料已經(jīng)成為儲能技術(shù)發(fā)展的強烈訴求和重要科學(xué)問題。本文作者團(tuán)隊瞄準(zhǔn)這一科學(xué)問題,提出從聚合物材料的單體排列具有基因特性這一特點出發(fā),利用材料基因組策略進(jìn)行聚乙烯-聚丙烯(PE-PP)高導(dǎo)熱性材料設(shè)計。反求設(shè)計通過對已知的多種材料中主動搜索未知的最佳材料,相比基于結(jié)構(gòu)-性能關(guān)系的正向篩選設(shè)計,降低了對數(shù)據(jù)庫本身的需求,具有較好的研究前景。
本文作者團(tuán)隊采用遺傳算法和分子動力學(xué)模擬的組合框架來設(shè)計PE-PP 共聚物,基于反求設(shè)計獲得具有高熱導(dǎo)率的特定序列共聚物:明確不同序列的PE-PP 共聚物的熱導(dǎo)率分布規(guī)律,首次獲得了高出常規(guī)二嵌段共聚物40%的非直覺高導(dǎo)熱性共聚物(non-intuitive),進(jìn)一步解析解析發(fā)現(xiàn)體密度、鏈構(gòu)象和振動狀態(tài)密度不能準(zhǔn)確解釋導(dǎo)熱性變化,提出了基于分子作用力和振動函數(shù)分析方法,量化了闡明單體序列的變化和熱能傳輸效率的構(gòu)效關(guān)系,提供了將MD模擬與遺傳算法相結(jié)合來設(shè)計新型材料的應(yīng)用實例[8]。本文作者團(tuán)隊創(chuàng)新發(fā)展基于材料基因組策略的高導(dǎo)熱性聚乙烯(PE)-聚丙烯(PP)材料的理性設(shè)計,揭示基元PE-PP序構(gòu)材料中蘊含的導(dǎo)熱變化規(guī)律,建立了超越人工篩選可探索范圍的變革性聚合物材料反求設(shè)計方法。
現(xiàn)代化的開源數(shù)據(jù)和高效便利的軟件開發(fā)是將AI 技術(shù)運用于實際的關(guān)鍵。針對化學(xué)化工領(lǐng)域AI驅(qū)動的創(chuàng)新設(shè)計,本文作者團(tuán)隊將從數(shù)據(jù)管理和科學(xué)計算軟件開發(fā)兩個方面展開討論(圖4)。
圖4 網(wǎng)絡(luò)基礎(chǔ)設(shè)施:以數(shù)據(jù)驅(qū)動的材料化學(xué)信息云平臺和開發(fā)與機(jī)器學(xué)習(xí)相適應(yīng)的科學(xué)計算軟件
隨著近年來計算和實驗研究中高通量工作流程的發(fā)展,物理、化學(xué)和材料科學(xué)領(lǐng)域產(chǎn)生了大量的數(shù)據(jù)。為了更好地利用這些數(shù)據(jù)進(jìn)行分析、驗證和進(jìn)一步發(fā)展,材料科學(xué)領(lǐng)域的開放數(shù)據(jù)庫已經(jīng)啟動,如材料基因組計劃(Materials Genome Initiative)、材料云(Materials Cloud)和聚合物數(shù)據(jù)庫(PolyInfo),這些數(shù)據(jù)庫均存儲了來自實驗和計算的材料結(jié)構(gòu)及其相應(yīng)的屬性。將機(jī)器學(xué)習(xí)(ML)整合到分子模擬中,促使許多數(shù)據(jù)驅(qū)動的方法開發(fā)基于ML的分子模擬模型。這些模型通常是通過輸入大量的數(shù)據(jù)來訓(xùn)練的,如系統(tǒng)能量和原子力,這些數(shù)據(jù)由昂貴的高保真模擬內(nèi)部產(chǎn)生。一些開放的數(shù)據(jù)庫已經(jīng)啟動,以加速模型的發(fā)展,促進(jìn)透明度和可重復(fù)性。然而,與其他領(lǐng)域相比,由于其固有的復(fù)雜性,化學(xué)化工領(lǐng)域的高質(zhì)量數(shù)據(jù)集仍然有限。因此,建立一個收集和重用超級計算機(jī)本地存儲的模擬數(shù)據(jù)的平臺,不僅可以加速例如聚合物材料分子模擬的發(fā)展,而且可以節(jié)省資源,實現(xiàn)可持續(xù)性。結(jié)合上文提及的數(shù)據(jù)驅(qū)動多尺度模擬與分析技術(shù)和材料設(shè)計算法,如何開發(fā)一個高質(zhì)量的云平臺,以改善開發(fā)化學(xué)化學(xué)品的數(shù)據(jù)存儲和共享將會是下一步工作目標(biāo)。為了促進(jìn)數(shù)據(jù)驅(qū)動的化學(xué)化工材料設(shè)計,本文作者團(tuán)隊計劃創(chuàng)建一套數(shù)據(jù)存儲與分發(fā)的算法,包括標(biāo)準(zhǔn)數(shù)據(jù)格式和開放代碼庫,以處理來自不同尺度的實驗和模擬方法的數(shù)據(jù)。一個統(tǒng)一的數(shù)據(jù)存儲和標(biāo)準(zhǔn)化流程可以促進(jìn)模擬和實驗的融合,從而在基礎(chǔ)設(shè)施上加快數(shù)據(jù)驅(qū)動地化學(xué)化工材料的創(chuàng)新設(shè)計。
科學(xué)計算軟件在現(xiàn)代科學(xué)的不同領(lǐng)域,從化學(xué)和生物學(xué)到物理學(xué)和材料科學(xué),一直是一個寶貴的工具。以分子模擬為例,在過去的30 年里,人們?yōu)殚_發(fā)高效的計算算法和高質(zhì)量的分子模擬包(如LAMMPS 和HOOMD-BLUE)付出了巨大努力。基于先進(jìn)高效語言進(jìn)行的并行算法的分子模擬軟件的開發(fā)使得多達(dá)數(shù)十億的原子分布在數(shù)十萬個計算節(jié)點上的計算成為可能,拉近了與實際應(yīng)用場景的時空尺度。在此方向上,本文作者團(tuán)隊基于現(xiàn)代的、面向科學(xué)計算的高性能動態(tài)高級程序設(shè)計語言Julia開發(fā)了應(yīng)用于軟物質(zhì)的大規(guī)模并行混合粒子場分子模擬軟件RobertoMD.jl[9]。然而,這些經(jīng)典模擬器通常有一個巨大的專業(yè)代碼庫,如物理方程的手工梯度和用于GPU加速的定制CUDA或OpenCL內(nèi)核,用C++或Fortran編寫,使得它難以適應(yīng)快速發(fā)展的算法和硬件的進(jìn)步。機(jī)器學(xué)習(xí)正在成為科學(xué)計算的一個重要方向,可以使分子模擬更加準(zhǔn)確和高效。其中大部分的成功都?xì)w功于自動微分的應(yīng)用,它通過按照鏈?zhǔn)椒▌t使其可以準(zhǔn)確計算任意計算機(jī)程序的梯度。基于機(jī)器學(xué)習(xí)框架的端到端(end-to-end)可微分(differentiable)分子模擬器,如TorchMD和JaxMD,最近已經(jīng)被引入化學(xué)、物理、生物等的科學(xué)界。雖然目前更多的是作為一個原型設(shè)計平臺,但這些可微分的科學(xué)計算程序已經(jīng)在各個領(lǐng)域展示了它們的優(yōu)勢,如分子模擬其中的機(jī)器學(xué)習(xí)勢能函數(shù)的開發(fā)和部署。與LAMMPS 這樣的傳統(tǒng)分子模擬軟件相比,可微分的分子模擬程序可以很好適應(yīng)機(jī)器學(xué)習(xí)勢能函數(shù),而不需要費時且易出錯地手工推導(dǎo),如神經(jīng)網(wǎng)絡(luò)的梯度,或者與外部具有自動微分功能的代碼庫通信。開發(fā)一個完全端到端可微分的分子模擬器,并支持高度可并行處理的多個計算單元,將對無縫整合機(jī)器學(xué)習(xí)技術(shù)到大規(guī)模分子模擬中起到關(guān)鍵作用,縮小生產(chǎn)級分子模擬和機(jī)器學(xué)習(xí)技術(shù)之間的差距。
AI 與各個學(xué)科的融合發(fā)展已經(jīng)成為一個熱門話題。從學(xué)術(shù)研究角度來看,幾乎所有的自然學(xué)科都有科研人員嘗試將AI 這個工具引入到其研究領(lǐng)域,以試圖探索新的研究方向[10]。但是,這一過程當(dāng)前也存在著較多問題。目前很多研究者并不關(guān)心AI 算法在其自身領(lǐng)域的適用性和完善性,而是簡單地將AI 套用進(jìn)原有科學(xué)問題中,利用AI進(jìn)行簡單的數(shù)據(jù)處理,例如將原來用線性回歸解決的問題改成多層神經(jīng)網(wǎng)絡(luò)預(yù)測,對進(jìn)一步理解科學(xué)問題背后的微觀原理作用有限。在這些AI 應(yīng)用場景之外,本文作者團(tuán)隊認(rèn)為,在化學(xué)品的創(chuàng)新設(shè)計中,AI的優(yōu)勢體現(xiàn)在“生成”:即通過結(jié)合多尺度模擬,實現(xiàn)在已有研究結(jié)果中“生成”新特性和新產(chǎn)品,本文所討論的多尺度模型構(gòu)建、高效設(shè)計方法和軟件開發(fā)將加速這一過程的實現(xiàn)。另外,將前人研究已經(jīng)確定下來的物理作用和規(guī)則加入到AI 算法設(shè)計過程中,增加AI 模型的可解釋性與轉(zhuǎn)移性,也是在未來深入融合AI 與特定的科研領(lǐng)域的關(guān)鍵。綜上,本文主要介紹AI 方法在化學(xué)品設(shè)計與開發(fā)中的應(yīng)用實踐,認(rèn)為AI 驅(qū)動的科學(xué)研究應(yīng)該是將AI 和科學(xué)研究進(jìn)行高度關(guān)聯(lián)和耦合,旨在拋磚引玉,共同推進(jìn)高性能化學(xué)品的創(chuàng)新設(shè)計發(fā)展。