關(guān)鍵詞:酰胺鍵合成;機(jī)器學(xué)習(xí);特征描述符;隨機(jī)森林算法;小數(shù)據(jù)集
1 引言
隨著人工智能算法的快速發(fā)展,機(jī)器學(xué)習(xí)(ML)正在成為一項(xiàng)日益重要的數(shù)字技術(shù)1。目前,ML在多個(gè)領(lǐng)域得到廣泛應(yīng)用,特別是在自然語(yǔ)言處理2、醫(yī)療診斷3、人臉識(shí)別4等方面。近年來(lái),ML在化學(xué)領(lǐng)域取得了顯著成就,涵蓋化學(xué)反應(yīng)預(yù)測(cè)5、逆合成分析6、理論化學(xué)計(jì)算7和藥物發(fā)現(xiàn)8等。例如,Doyle等人9成功訓(xùn)練了一個(gè)隨機(jī)森林模型,用于準(zhǔn)確預(yù)測(cè)Buchwald-Hartwig偶聯(lián)反應(yīng)的產(chǎn)率。Norquist等人10使用支持向量機(jī)模型在預(yù)測(cè)釩硒酸鹽晶體制備方面取得了89%的成功率。Grzybowski等人11通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)在毫秒時(shí)間尺度上準(zhǔn)確預(yù)測(cè)了C―H酸的pKa值。此外,Jensen等人12采用神經(jīng)網(wǎng)絡(luò)模型篩選化學(xué)環(huán)境(溶劑、反應(yīng)物和催化劑)和反應(yīng)溫度。Denmark等人13使用支持向量機(jī)和深度前饋神經(jīng)網(wǎng)絡(luò)算法預(yù)測(cè)了手性磷酸催化的硫醇與亞胺加成反應(yīng)的選擇性。此外,Sigman等人14提出了一種數(shù)據(jù)驅(qū)動(dòng)的工作流程,用于建立預(yù)測(cè)不對(duì)稱催化中對(duì)映選擇性的統(tǒng)計(jì)模型。這些研究凸顯了ML在合成化學(xué)中的關(guān)鍵作用。
然而,利用ML預(yù)測(cè)有機(jī)合成過(guò)程遇到了各種挑戰(zhàn)。要獲得高度準(zhǔn)確的預(yù)測(cè)結(jié)果,通常需要大量數(shù)據(jù)集用于訓(xùn)練和測(cè)試,有時(shí)包括數(shù)十萬(wàn)甚至數(shù)百萬(wàn)的樣本數(shù)據(jù)。例如,Waller等人5,15基于從Reaxys數(shù)據(jù)庫(kù)收集的350萬(wàn)條反應(yīng)數(shù)據(jù)訓(xùn)練了一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型。Coley等人16使用數(shù)百萬(wàn)條美國(guó)專利和Reaxys數(shù)據(jù)庫(kù)的反應(yīng)數(shù)據(jù)來(lái)訓(xùn)練人工智能算法。盡管實(shí)驗(yàn)獲得的數(shù)據(jù)能夠提高準(zhǔn)確性和可信度,但快速收集大量準(zhǔn)確和有效的數(shù)據(jù)仍然具有挑戰(zhàn)性。例如,默克制藥公司需要使用專業(yè)的高通量反應(yīng)器和眾多UPLC-MS,才能在一天內(nèi)完成1536個(gè)Buchwald-Hartwig偶聯(lián)反應(yīng)17。
在分子生物學(xué)和藥物合成領(lǐng)域,各種高質(zhì)量和低成本的高通量實(shí)驗(yàn)(HTE)技術(shù)在過(guò)去十年中已被廣泛采用18–20。例如,在生物化學(xué)領(lǐng)域廣泛使用的低成本聚丙烯96孔板,可以耐受各種溶劑并有助于多個(gè)反應(yīng)的篩選。然而,在有限的時(shí)間內(nèi)篩選數(shù)萬(wàn)個(gè)反應(yīng)條件對(duì)研究人員來(lái)說(shuō)仍然是一個(gè)重大挑戰(zhàn)。因此,為了獲得相對(duì)準(zhǔn)確預(yù)測(cè)結(jié)果,使用有限的數(shù)據(jù)集進(jìn)行ML成為了必要選擇。
在本研究中,我們通過(guò)芳香胺與羧酸的反應(yīng),結(jié)合高通量實(shí)驗(yàn)和ML技術(shù)來(lái)預(yù)測(cè)其生成酰胺的轉(zhuǎn)化率。酰胺鍵在眾多藥物化合物中普遍存在21–23,2017年新批準(zhǔn)的藥物中有60%的分子結(jié)構(gòu)中含有酰胺鍵24。一些抗新冠藥物分子,如奈瑪特韋、莫諾拉韋和阿茲夫定,也都含有酰胺鍵25,26。然而,酰胺合成反應(yīng)仍然面臨著諸多挑戰(zhàn),包括高生產(chǎn)成本、有限的原子利用率以及多變的反應(yīng)條件27,28。預(yù)測(cè)影響酰胺合成的關(guān)鍵因素具有重要意義。
本研究在確保反應(yīng)的摩爾濃度和當(dāng)量比等條件一致的情況下,采用96孔板進(jìn)行高通量實(shí)驗(yàn),以研究芳香胺和羧酸在不同偶聯(lián)劑和溶劑條件下的反應(yīng)結(jié)果。獲得了包含1152個(gè)反應(yīng)的小數(shù)據(jù)集,并成功使用隨機(jī)森林算法分析出反應(yīng)過(guò)程中最具影響力的因素。通過(guò)小規(guī)模地合理調(diào)整訓(xùn)練集,可以顯著提高M(jìn)L在預(yù)測(cè)未知芳香胺轉(zhuǎn)化率方面的準(zhǔn)確性,從而能夠通過(guò)相對(duì)較少的實(shí)驗(yàn)樣本預(yù)測(cè)未知反應(yīng)。
2 實(shí)驗(yàn)部分
2.1 高通量實(shí)驗(yàn)采集數(shù)據(jù)
數(shù)據(jù)集的質(zhì)量是影響ML算法分析準(zhǔn)確性的關(guān)鍵因素。為了獲取酰胺合成反應(yīng)的實(shí)驗(yàn)數(shù)據(jù),我們采用了高通量實(shí)驗(yàn),來(lái)減少文獻(xiàn)數(shù)據(jù)中不一致的實(shí)驗(yàn)當(dāng)量比和不同實(shí)驗(yàn)環(huán)境對(duì)ML模型帶來(lái)的潛在系統(tǒng)誤差。在整個(gè)實(shí)驗(yàn)過(guò)程中,使用96孔聚丙烯(PP)板進(jìn)行芳香胺和有機(jī)酸的酰胺合成。PP對(duì)常見(jiàn)的有機(jī)溶劑和化學(xué)品具有耐受性,為高通量商業(yè)反應(yīng)器提供了一個(gè)經(jīng)濟(jì)的替代方案。這顯著降低了高通量實(shí)驗(yàn)的成本。每個(gè)孔中可容納約500μL的反應(yīng)液,從而顯著降低了試劑消耗、成本和對(duì)環(huán)境的影響。
在酰胺鍵合成中,偶聯(lián)試劑、溶劑、反應(yīng)物的分子結(jié)構(gòu)、酸度等多個(gè)因素都起著重要作用。在制藥行業(yè),許多酰胺化反應(yīng)是在室溫下進(jìn)行的。因此,我們選擇了活化羧酸的偶聯(lián)試劑與芳香胺在室溫下的反應(yīng)作為ML的測(cè)試反應(yīng),以研究影響酰胺鍵合成的因素。如圖1A所示,進(jìn)行了涉及9種芳香胺、12種有機(jī)酸、4種有機(jī)溶劑、4種偶聯(lián)試劑和1種堿性添加劑的微摩爾級(jí)高通量酰胺化反應(yīng)。為了直觀得獲取酰胺合成反應(yīng)的結(jié)果,采用高效液相色譜法測(cè)定芳香胺的轉(zhuǎn)化率。在整個(gè)實(shí)驗(yàn)過(guò)程中,使用了十二個(gè)96孔板來(lái)進(jìn)行1152個(gè)反應(yīng),包括1039個(gè)反應(yīng)數(shù)據(jù)和113個(gè)未檢測(cè)到轉(zhuǎn)化的結(jié)果。反應(yīng)數(shù)據(jù)在圖1B中以熱圖形式展示,其中每個(gè)方格對(duì)應(yīng)一個(gè)單獨(dú)的反應(yīng)條件,結(jié)果基于芳香胺的轉(zhuǎn)化率繪制并以不同顏色顯示,以便進(jìn)行簡(jiǎn)單直觀的比較。整個(gè)數(shù)據(jù)收集過(guò)程使用了11.8 g的反應(yīng)物和5004 mL的溶劑,成本不到600美元(參見(jiàn)補(bǔ)充材料中的表S1)。
2.2 利用DFT提取特征描述符
描述符是ML的基礎(chǔ),精確確定并選擇與研究對(duì)象相關(guān)的描述符十分必要29。接下來(lái),我們專注于選擇適當(dāng)?shù)拿枋龇?。使用密度泛函理論(DFT)方法計(jì)算的分子描述符為探索化學(xué)反應(yīng)機(jī)理提供了寶貴的見(jiàn)解。例如,Aydogdu等人30使用DFT方法計(jì)算了磺胺(SAs)的電子性質(zhì)、全局描述符和局部描述符,確定了SAs與羥基自由基之間的反應(yīng)機(jī)理。Ma等人31將DFT與機(jī)器學(xué)習(xí)相結(jié)合,預(yù)測(cè)銅催化的P―H插入反應(yīng)中的過(guò)渡態(tài)和產(chǎn)率。各種量子化學(xué)計(jì)算程序產(chǎn)生多樣的分子描述符,包括偶極矩、溶解度和軌道能級(jí)等32,33。受Doyle等人9的工作和在線教程34的啟發(fā),我們使用Spartan中的DFT、頻率和性質(zhì)計(jì)算,結(jié)合Python腳本程序,計(jì)算和提取了酰胺合成反應(yīng)參與物的特征描述符。該軟件計(jì)算了與反應(yīng)相關(guān)的分子、原子和振動(dòng)性質(zhì),并生成了包含描述符和轉(zhuǎn)化率的建模數(shù)據(jù)表。在選擇振動(dòng)描述符時(shí),我們考慮了不同原子的運(yùn)動(dòng)差異,將每個(gè)原子的運(yùn)動(dòng)乘以其原子質(zhì)量,以強(qiáng)調(diào)重量在振動(dòng)中的重要性。然后使用皮爾遜相關(guān)系數(shù)來(lái)確定需要提取和保留的振動(dòng)向量。在本研究中,僅考慮R2 gt; 0.5且值大于同行同列中任何其他條目的振動(dòng)模式作為匹配振動(dòng),最終被納入建模數(shù)據(jù)表。提取的與該反應(yīng)系統(tǒng)相關(guān)的描述符總計(jì)76個(gè),用于表征每個(gè)反應(yīng)。圖2A說(shuō)明了芳香胺分子的操作提取過(guò)程。補(bǔ)充材料中的第III部分和第IV部分的圖S2、S3提供了詳細(xì)的操作過(guò)程描述。分子描述符包括軌道能量(EHOMO和ELUMO)、電負(fù)性、偶極矩、橢圓度、表面積等。原子描述符包括原子的靜電荷和核磁共振(NMR)位移。振動(dòng)描述符包括振動(dòng)頻率和強(qiáng)度。具體而言,芳香胺有30個(gè)描述符,羧酸有21個(gè),偶聯(lián)試劑有10個(gè),有機(jī)溶劑有15個(gè)。
2.3 數(shù)據(jù)歸一化
由于描述符的多樣性,每個(gè)描述符采用的評(píng)價(jià)指標(biāo)不同,導(dǎo)致描述符量級(jí)差異較大。這種差異性在ML模型訓(xùn)練過(guò)程中會(huì)顯著影響不同描述符的參數(shù)權(quán)重設(shè)置,較大的值往往占主導(dǎo)地位。因此,在訓(xùn)練ML模型之前,有必要對(duì)輸入數(shù)據(jù)進(jìn)行歸一化,確保所有數(shù)據(jù)分布在[?1, 1]范圍內(nèi)。這種歸一化使輸入數(shù)據(jù)處于相同的量級(jí),減輕了異常值的影響。在對(duì)輸入數(shù)據(jù)進(jìn)行歸一化后,將代表轉(zhuǎn)化率的輸出數(shù)據(jù)納入數(shù)據(jù)矩陣。隨后剔除存在缺失值的行和列,生成用于ML模型訓(xùn)練的數(shù)據(jù)集,如圖2B所示。
2.4 數(shù)據(jù)集劃分
與先前報(bào)道的工作相比,本研究中的轉(zhuǎn)化率數(shù)據(jù)是在嚴(yán)格調(diào)控反應(yīng)條件下通過(guò)實(shí)驗(yàn)獲得的,確保了高度的可靠性。然而,1152個(gè)反應(yīng)條目的數(shù)據(jù)集是相對(duì)有限的;因此,在這些限制條件下開(kāi)發(fā)一個(gè)有效的ML模型變得至關(guān)重要。對(duì)于機(jī)器學(xué)習(xí)模型訓(xùn)練,我們利用獲得的1152個(gè)數(shù)據(jù)點(diǎn)(圖1B)進(jìn)行訓(xùn)練和驗(yàn)證。最初,我們采用標(biāo)準(zhǔn)ML模型訓(xùn)練方法。第一組數(shù)據(jù)被隨機(jī)分為70%的訓(xùn)練集和30%的測(cè)試集。描述符作為輸入值,而反應(yīng)轉(zhuǎn)化率作為輸出值。矩陣的每一行對(duì)應(yīng)一個(gè)反應(yīng)樣本,每一列代表樣本的特定特征或結(jié)果標(biāo)記。在ML模型的輸入和輸出值之間建立了映射關(guān)系,以便可以訓(xùn)練模型并獲得最優(yōu)模型。隨后基于最佳模型對(duì)未知樣本的反應(yīng)性能進(jìn)行預(yù)測(cè)。圖2C說(shuō)明了建立映射關(guān)系和預(yù)測(cè)未知樣本的基礎(chǔ)ML流程。
2.5 模型訓(xùn)練與評(píng)估
本研究使用R語(yǔ)言進(jìn)行ML模型訓(xùn)練和性能評(píng)估,選擇了六種算法用于ML模型訓(xùn)練:線性回歸、k近鄰(kNN)、支持向量機(jī)(SVM)、貝葉斯廣義線性模型(GLM)、神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林。這些算法在化學(xué)合成的ML建模中經(jīng)常被使用,并展示出了顯著的預(yù)測(cè)能力9。在訓(xùn)練過(guò)程中,采用十折交叉驗(yàn)證方法35來(lái)提高模型的預(yù)測(cè)性能。使用決定系數(shù)(R2) 36和均方根誤差(RMSE) 37來(lái)評(píng)估模型性能。通常情況下,具有高R2和低RMSE的ML模型被認(rèn)為具有優(yōu)秀的預(yù)測(cè)性能。經(jīng)過(guò)訓(xùn)練后,六種算法模型對(duì)測(cè)試集展現(xiàn)出了不同的預(yù)測(cè)結(jié)果。
3 結(jié)果與討論
圖3A說(shuō)明了線性回歸、貝葉斯GLM和SVM展現(xiàn)出相似的預(yù)測(cè)性能,R2值約為0.8,RMSE值約為12。相比之下,神經(jīng)網(wǎng)絡(luò)和k近鄰產(chǎn)生了更準(zhǔn)確的預(yù)測(cè),R2值高達(dá)0.9,RMSE值低至8.5。值得注意的是,隨機(jī)森林算法展現(xiàn)出優(yōu)越的預(yù)測(cè)性能,擁有0.95的R2值和6.15的RMSE值。與kNN相比,隨機(jī)森林表現(xiàn)出更好的不平衡數(shù)據(jù)處理能力和更強(qiáng)的適應(yīng)性,且不太容易過(guò)擬合。多重隨機(jī)抽樣方法可能促成了隨機(jī)森林模型的優(yōu)越性,該方法能夠構(gòu)建多個(gè)決策樹(shù)模型。通過(guò)匯集多個(gè)低精度決策樹(shù)模型的預(yù)測(cè)結(jié)果,更全面地識(shí)別了關(guān)鍵描述符,消除了干擾信息的影響,從而產(chǎn)生了具有強(qiáng)大泛化能力的模型。
隨后, 使用不同比例的第一組反應(yīng)數(shù)據(jù)(2.5%、5%、10%、20%、30%、50%、70%、80%和90%)作為訓(xùn)練集來(lái)訓(xùn)練隨機(jī)森林模型。如圖3B所示,分別獲得了不同比例下預(yù)測(cè)性能的評(píng)估結(jié)果。隨機(jī)森林模型即使在訓(xùn)練樣本較小的情況下也表現(xiàn)出優(yōu)秀的預(yù)測(cè)性能。與圖3A中其他模型的訓(xùn)練結(jié)果相比,隨機(jī)森林模型僅使用20%的反應(yīng)數(shù)據(jù)進(jìn)行訓(xùn)練就實(shí)現(xiàn)了0.92 的R2值和低至8.55 的RMSE值。這優(yōu)于使用70%數(shù)據(jù)訓(xùn)練的線性回歸、貝葉斯GLM、SVM、kNN和神經(jīng)網(wǎng)絡(luò)模型。值得注意的是,20%的數(shù)據(jù)集僅包含230個(gè)實(shí)驗(yàn),表明隨機(jī)森林模型可以在小規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)可靠的預(yù)測(cè)精度。因此,隨機(jī)森林模型對(duì)于常規(guī)反應(yīng)優(yōu)化和底物篩選是可行且有利的。
鑒于隨機(jī)森林模型表現(xiàn)出優(yōu)異的預(yù)測(cè)性能,我們使用R語(yǔ)言中的隨機(jī)森林工具包評(píng)估了構(gòu)建模型的描述符的相對(duì)重要性。該模塊在訓(xùn)練隨機(jī)森林模型后確定了特定特征描述符對(duì)預(yù)測(cè)芳香族胺轉(zhuǎn)化率的相對(duì)重要性。描述符重要性通過(guò)隨機(jī)擾亂描述符值并重新訓(xùn)練模型時(shí)模型均方誤差(MSE)的增加百分比來(lái)衡量。圖4A基于MSE的百分比增加展示了訓(xùn)練后隨機(jī)森林模型的前11個(gè)關(guān)鍵描述符。MSE增加越大,表明該描述符在模型構(gòu)建過(guò)程中越重要。
圖4A表明,芳香胺、羧酸和有機(jī)溶劑的描述符對(duì)酰胺反應(yīng)的轉(zhuǎn)化率有較大的影響。預(yù)測(cè)反應(yīng)結(jié)果的前六個(gè)重要描述符是芳香胺分子的*N1靜電荷和振動(dòng)強(qiáng)度、有機(jī)溶劑的偶極矩和*C2核磁共振位移,以及有機(jī)羧酸的EHOMO和橢圓度。先前的研究表明,芳香胺上的取代基類型和有機(jī)溶劑的極性對(duì)酰胺反應(yīng)的轉(zhuǎn)化率有顯著影響38–41。帶有給電子基團(tuán)的芳香胺通常表現(xiàn)出比帶有吸電子基團(tuán)的芳香胺更高的反應(yīng)活性,有利于酰胺鍵的形成。極性較大的有機(jī)溶劑更有利于合成酰胺鍵。在羧酸中,脂肪酸比芳香酸更容易形成酰胺鍵,這主要是因?yàn)檩^大的空間位阻效應(yīng)不利于酰胺合成反應(yīng)。
利用重要性分析的結(jié)果和我們對(duì)酰胺合成的認(rèn)識(shí),我們從芳香胺、羧酸和有機(jī)溶劑中選擇了代表性的反應(yīng)分子。結(jié)合這些分子與模型的描述符進(jìn)行詳細(xì)分析。圖4B說(shuō)明了芳香胺上不同取代基如何影響氨基的*N1靜電荷和芳香胺分子的振動(dòng)強(qiáng)度。六個(gè)描述符的具體數(shù)值是通過(guò)量化計(jì)算得出的。例如,含有給電子基團(tuán)的間甲苯胺的*N1靜電荷從?0.829增加到?0.837。根據(jù)這些數(shù)值,芳香胺分子的V6振動(dòng)強(qiáng)度減少了0.679,這提高了底物的反應(yīng)活性并促進(jìn)了酰胺鍵的形成。結(jié)合HTE的數(shù)據(jù)發(fā)現(xiàn),有機(jī)溶劑的極性(可通過(guò)偶極矩和*C2核磁共振位移推測(cè))隨著偶極矩和*C2核磁共振位移的增加而促進(jìn)酰胺鍵的形成。諸如脂肪酸和芳香酸,不同結(jié)構(gòu)的羧酸的橢圓度和EHOMO是影響酰胺鍵形成的因素。總體而言,該模型產(chǎn)生了相對(duì)準(zhǔn)確和可靠的分析結(jié)果。
為了提高機(jī)器學(xué)習(xí)模型的可解釋性,采用了沙普利可加性特征解釋方法(SHAP)和累積局部效應(yīng)(ALE)方法來(lái)分析所選擇的特征描述符(詳細(xì)結(jié)果可在圖S4、S5中找到)。SHAP圖表明,對(duì)酰胺鍵合成影響較大的特征描述符主要是芳香胺分子的*N1靜電荷和振動(dòng)強(qiáng)度,以及偶聯(lián)試劑上的橢圓度和靜電荷。在ALE圖中,影響較大的特征描述符包括芳香胺分子的*N1靜電荷、振動(dòng)強(qiáng)度和頻率、胺的EHOMO、偶聯(lián)試劑的表面積和偶聯(lián)試劑分子的體積。這些結(jié)果表明,這兩種方法在解釋特征描述符重要性方面與R語(yǔ)言的重要性分析相當(dāng),從而驗(yàn)證了R語(yǔ)言分析結(jié)果的可靠性。描述符的相對(duì)重要性在識(shí)別影響酰胺鍵合成轉(zhuǎn)化率的關(guān)鍵因素方面證明是有用的,為篩選反應(yīng)條件和討論反應(yīng)機(jī)理提供了重要指導(dǎo)。
基于隨機(jī)森林模型及其重要性分析結(jié)果,我們旨在使用九種已知芳香胺的反應(yīng)數(shù)據(jù)來(lái)對(duì)未知芳香胺進(jìn)行預(yù)測(cè)(圖5)?;诮Y(jié)構(gòu)相似性,選擇了對(duì)碘苯胺、對(duì)甲苯胺和對(duì)氯苯胺作為未知芳香胺(如圖5B所示)。為了獲得隨機(jī)森林模型的預(yù)測(cè)值對(duì)應(yīng)的觀測(cè)值,使用四個(gè)96孔板進(jìn)行了總共336個(gè)反應(yīng),包括316個(gè)反應(yīng)數(shù)據(jù)點(diǎn)和20個(gè)未檢測(cè)到轉(zhuǎn)化率的數(shù)據(jù)(如圖5B所示)。
預(yù)測(cè)結(jié)果如圖6A (a–c)所示。然而,隨機(jī)森林模型對(duì)這三種未知芳香胺的轉(zhuǎn)化率預(yù)測(cè)并未提供有效的結(jié)果。盡管模型對(duì)對(duì)甲苯胺的預(yù)測(cè)達(dá)到了0.85的高R2值,但RMSE值顯著偏高,為29.32 (圖6A-b)。觀測(cè)值與預(yù)測(cè)值的對(duì)比圖顯示所有數(shù)據(jù)點(diǎn)都位于對(duì)角線之上,表明模型對(duì)反應(yīng)轉(zhuǎn)化率的預(yù)測(cè)往往低于觀測(cè)結(jié)果??偟膩?lái)說(shuō),這表明模型在預(yù)測(cè)反應(yīng)轉(zhuǎn)化率時(shí)存在顯著誤差。
造成這個(gè)結(jié)果的因素可能有多個(gè):(1)與其他使用數(shù)千或數(shù)萬(wàn)個(gè)數(shù)據(jù)點(diǎn)的研究相比,用于模型訓(xùn)練的數(shù)據(jù)量相對(duì)有限。僅使用1152個(gè)數(shù)據(jù)點(diǎn)的本研究仍存在巨大的數(shù)據(jù)缺口。(2)酰胺鍵合成反應(yīng)的原理可能并不完全遵循相似性原理;不同分子表現(xiàn)出不同的化學(xué)活性,即使結(jié)構(gòu)相似的分子在特定反應(yīng)中也可能表現(xiàn)不同。(3)胺化反應(yīng)涉及多個(gè)參與者,影響芳香胺轉(zhuǎn)化的因素又多種多樣,不同因素之間可能存在協(xié)同效應(yīng)。因此,分別分析單個(gè)因素對(duì)轉(zhuǎn)化率的影響可能會(huì)導(dǎo)致一些反應(yīng)信息的丟失。(4)人為因素可能影響實(shí)驗(yàn)過(guò)程。用于構(gòu)建ML模型的描述符描述了“純化學(xué)”信息,如反應(yīng)物、偶聯(lián)試劑、有機(jī)溶劑等的結(jié)構(gòu)性質(zhì)、電荷信息和振動(dòng)頻率等。ML在預(yù)測(cè)“純化學(xué)”問(wèn)題方面表現(xiàn)出色。然而,實(shí)驗(yàn)室通常會(huì)基于經(jīng)驗(yàn)或傳統(tǒng),在試劑/溶劑的使用方式和典型反應(yīng)條件的選擇上形成一定的習(xí)慣和偏好。這些習(xí)慣和偏好有時(shí)難以量化為各種“描述符”。
在短時(shí)間內(nèi)快速將實(shí)驗(yàn)數(shù)據(jù)增加到數(shù)萬(wàn)個(gè)會(huì)顯著增加研究的時(shí)間和經(jīng)濟(jì)成本。為了應(yīng)對(duì)這些挑戰(zhàn)并在不顯著增加實(shí)驗(yàn)數(shù)據(jù)的情況下提高模型預(yù)測(cè)準(zhǔn)確性,我們嘗試調(diào)整數(shù)據(jù)集的分布。我們將三種未知芳香胺與六種脂肪酸的反應(yīng)數(shù)據(jù)添加到訓(xùn)練集中進(jìn)行模型訓(xùn)練,然后使用該模型來(lái)預(yù)測(cè)它們與六種芳香族羧酸的反應(yīng)。圖6A (d–f)所示的結(jié)果表明,這三種芳香胺的R2值均大于0.8,平均值為0.853,RMSE顯著低于之前的結(jié)果,平均值為8.3。這表明預(yù)測(cè)結(jié)果有了實(shí)質(zhì)性的改進(jìn)。類似地,我們嘗試使用未知芳香胺與芳香族羧酸的反應(yīng)數(shù)據(jù)來(lái)預(yù)測(cè)它們與脂肪酸的反應(yīng)性能,這也產(chǎn)生了良好的預(yù)測(cè)結(jié)果,平均R2值為0.887,平均RMSE值為11.63 (圖S6)??偟膩?lái)說(shuō),這兩種處理方法都能提高M(jìn)L模型的預(yù)測(cè)準(zhǔn)確性,表明將一些與未知分子相關(guān)的反應(yīng)數(shù)據(jù)添加到訓(xùn)練集中對(duì)提高目標(biāo)反應(yīng)的預(yù)測(cè)準(zhǔn)確性至關(guān)重要。
為了進(jìn)一步證實(shí)調(diào)整訓(xùn)練集能提高對(duì)未知胺分子的預(yù)測(cè)準(zhǔn)確性,采用了獨(dú)熱編碼(one-hotencoding)方法進(jìn)行模型訓(xùn)練和優(yōu)化。使用獨(dú)熱編碼對(duì)四種未知胺的預(yù)測(cè)評(píng)估的平均結(jié)果為R2 =0.84,RMSE = 11.48 (圖7A),這一結(jié)果與使用基于DFT的分子描述符獲得的結(jié)果非常相似(R2 =0.85,RMSE = 8.3)。這表明無(wú)論是使用DFT還是獨(dú)熱編碼進(jìn)行調(diào)整訓(xùn)練集,特別是加入未知胺的數(shù)據(jù),都能顯著提高模型的預(yù)測(cè)能力。此外,用于轉(zhuǎn)化率預(yù)測(cè)的混合訓(xùn)練方法(one-hot/DFT-mixing)獲得了平均R2 = 0.86和RMSE = 7.88 (圖7B),這與完全使用基于DFT的分子描述符的性能非常接近,沒(méi)有顯著差異,詳細(xì)結(jié)果可在圖S7中找到。這些結(jié)果表明,盡管數(shù)據(jù)集僅有1152個(gè)數(shù)據(jù)點(diǎn),未知胺分子的信息對(duì)模型預(yù)測(cè)結(jié)果有實(shí)質(zhì)性影響。從實(shí)際角度來(lái)看,在目標(biāo)反應(yīng)的合成過(guò)程中,反應(yīng)體系并非完全是黑箱,納入一些已知信息(如初始原料或目標(biāo)產(chǎn)物等)可以顯著減少機(jī)器學(xué)習(xí)預(yù)測(cè)所需的數(shù)據(jù)量,這對(duì)指導(dǎo)有機(jī)合成反應(yīng)具有實(shí)際意義。
在訓(xùn)練數(shù)據(jù)集方面,我們嘗試在隨機(jī)森林模型訓(xùn)練集中包含芳香胺與不同數(shù)量脂肪酸的反應(yīng)數(shù)據(jù),然后使用訓(xùn)練好的模型來(lái)預(yù)測(cè)三種芳香胺分子與六種芳香族羧酸的反應(yīng)。如圖6B所示,當(dāng)添加兩種或更多脂肪酸時(shí),改善效果相對(duì)更為顯著。對(duì)于添加到訓(xùn)練集中的兩種脂肪酸,共15種組合,通過(guò)將未知芳香胺分子與兩種脂肪酸的反應(yīng)數(shù)據(jù)納入訓(xùn)練集,觀察到R2顯著提升和RMSE的降低(具體信息可在表S2中找到)。隨著訓(xùn)練集中數(shù)據(jù)量的增加,R2逐漸提高,RMSE逐漸降低,隨機(jī)森林模型的預(yù)測(cè)性能穩(wěn)步提升。盡管基于小樣本數(shù)據(jù)集的隨機(jī)森林模型在預(yù)測(cè)未知反應(yīng)的轉(zhuǎn)化率方面存在局限性,但通過(guò)添加少量相關(guān)分子反應(yīng)數(shù)據(jù),其性能可以顯著提升,使其達(dá)到可接受范圍。這種方法僅需要二到三種簡(jiǎn)單反應(yīng)物就能產(chǎn)生數(shù)據(jù)集,對(duì)于預(yù)測(cè)大量未知反應(yīng)具有重要意義,可以顯著減少實(shí)驗(yàn)工作量,加快反應(yīng)研究的進(jìn)展。
4 結(jié)論
通過(guò)構(gòu)建包含1152個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集,證明了基于機(jī)器學(xué)習(xí)預(yù)測(cè)酰胺鍵合成中反應(yīng)轉(zhuǎn)化率的可行性。采用六種不同的機(jī)器學(xué)習(xí)算法進(jìn)行模型訓(xùn)練,其中隨機(jī)森林算法表現(xiàn)出最優(yōu)異的預(yù)測(cè)性能,R2值超過(guò)0.95。通過(guò)適當(dāng)調(diào)整訓(xùn)練集數(shù)據(jù),實(shí)現(xiàn)對(duì)未知芳香胺反應(yīng)轉(zhuǎn)化率的有效預(yù)測(cè)。對(duì)比使用不同分子描述符(如DFT和獨(dú)熱編碼)訓(xùn)練的模型分析表明,在少于2000個(gè)數(shù)據(jù)的小數(shù)據(jù)集條件下,調(diào)整訓(xùn)練集組成能有效提升機(jī)器學(xué)習(xí)的預(yù)測(cè)性能。這為機(jī)器學(xué)習(xí)在關(guān)鍵分子合成領(lǐng)域的廣泛應(yīng)用提供了一種新策略。