李瑜哲,吳高勝,艾 波,許保云,王世忠,宗 睿
(上海化工研究院有限公司,上海 200062)
隨著工業(yè)技術(shù)的飛速發(fā)展,各式各樣的化工產(chǎn)品深入到人們生產(chǎn)和生活中。目前,全世界大約有800多萬種化學(xué)品,且以每年1000多種的速度不斷增加,但是人們并非詳細(xì)了解世界上所有化學(xué)品的性質(zhì),甚至對(duì)于日常使用的約7萬種化學(xué)品,也尚未完全測得它們的物理化學(xué)性質(zhì)。這給化工設(shè)計(jì),特別是過程計(jì)算帶來了不小的挑戰(zhàn)。
沸點(diǎn)是化工設(shè)計(jì)中常用的物性數(shù)據(jù)之一,其不僅能夠用來判斷化合物的存在相態(tài),而且能夠以此來計(jì)算臨界溫度、蒸發(fā)熱等重要性質(zhì),是化工計(jì)算中的重要參數(shù)。然而,人們并非掌握所有化合物的沸點(diǎn)數(shù)據(jù),這也促使了物性估算方法的發(fā)展。目前,對(duì)于沸點(diǎn)缺失的純物質(zhì),雖然已經(jīng)有如參數(shù)關(guān)聯(lián)法[1-2]、基團(tuán)貢獻(xiàn)法[3-4]等方法可以進(jìn)行估算,但往往無法做到對(duì)所有類別的化合物都有較好的估算能力,且準(zhǔn)確度可能并不高。而對(duì)于二元或多元混合物,估算結(jié)果往往誤差較大,甚至錯(cuò)誤判斷混合物的共沸情況,從而錯(cuò)誤計(jì)算共沸溫度與組成,而這些參數(shù)在化工分離工藝設(shè)計(jì)中至關(guān)重要。另一方面,通過實(shí)驗(yàn)獲取數(shù)據(jù),經(jīng)常面臨著周期長、成本高、工作量巨大的問題,對(duì)于某些劇毒、易揮發(fā)等化學(xué)品甚至難以進(jìn)行實(shí)驗(yàn)[5]。因此,快速、準(zhǔn)確地獲取到沸點(diǎn)等關(guān)鍵數(shù)據(jù),在預(yù)測有機(jī)物性質(zhì)、指導(dǎo)分離過程、乃至加速人們對(duì)化學(xué)品的認(rèn)識(shí),都具有十分重要的意義。
定量結(jié)構(gòu)-性質(zhì)相關(guān)(Quantitative Structure-Property Relationship,QSPR)研究是一種尋求分子結(jié)構(gòu)與化合物性質(zhì)潛在關(guān)系的方法。在完成QSPR模型的建立后,計(jì)算時(shí)僅需要輸入分子的結(jié)構(gòu)信息,無需其他實(shí)驗(yàn)參數(shù)即可預(yù)測相關(guān)新的、甚至未合成的化合物的性質(zhì)。因其彌補(bǔ)了實(shí)驗(yàn)研究方法的不足,且預(yù)測準(zhǔn)確度高,自1962年藥物化學(xué)家Hansch[6]首次提出以來,漸漸成為預(yù)測化合物性質(zhì)的重要工具,已經(jīng)被廣泛地應(yīng)用于有機(jī)物閃點(diǎn)[7-8]、燃點(diǎn)[9-10]、毒性[11-12]等各類性質(zhì)的預(yù)測中,為化學(xué)、環(huán)境及生命科學(xué)的研究提供了重要的理論依據(jù)。近年來,QSPR方法也在預(yù)測沸點(diǎn)、共沸物組成等方面得到實(shí)際應(yīng)用,表現(xiàn)了從分子層面指導(dǎo)分離過程的潛力。本文主要介紹QSPR的計(jì)算原理及國內(nèi)有機(jī)物沸點(diǎn)預(yù)測模型的研究進(jìn)展。
QSPR的根本在于假設(shè)化合物的性質(zhì)與分子結(jié)構(gòu)密切相關(guān),且性質(zhì)可以通過分子結(jié)構(gòu)的各種參數(shù)來定量描述[13],從而根據(jù)定量化的分子結(jié)構(gòu)計(jì)算得到化合物的性質(zhì)。QSPR研究結(jié)合了計(jì)算化學(xué)與統(tǒng)計(jì)學(xué)的方法,簡單來說,其對(duì)通過分子結(jié)構(gòu)計(jì)算得到的分子描述符,建立化合物性質(zhì)與對(duì)應(yīng)參數(shù)之間的數(shù)學(xué)定量關(guān)系,完成建模后,輸入待預(yù)測分子的結(jié)構(gòu)參數(shù),即可通過模型得到對(duì)應(yīng)的性質(zhì)。
QSPR的基本研究步驟,即實(shí)現(xiàn)方法包括:樣本的構(gòu)建,分子描述符的選擇與計(jì)算,模型的建立、與評(píng)價(jià)。在上述方法中,找到合適的分子描述方法與選擇合理的模型建立方法是QSPR的核心。近年來,隨著計(jì)算機(jī)與機(jī)器學(xué)習(xí)算法的發(fā)展,其也越來越多地應(yīng)用到QSPR模型的建立過程中[14]。
我國采用QSPR方法研究、預(yù)測有機(jī)物沸點(diǎn)開始于20世紀(jì)90年代。最初,科研人員采用圖論、拓?fù)渲笖?shù)等方法簡單描述分子的結(jié)構(gòu),之后隨著計(jì)算化學(xué)的發(fā)展,模型中逐步包括了描述支化程度、分子振動(dòng)、基團(tuán)貢獻(xiàn)度等詳細(xì)描述某樣分子特性的參數(shù),但選取何種參數(shù)構(gòu)建沸點(diǎn)模型完全取決于科研人員,建立模型也多采用線性回歸。隨著計(jì)算機(jī)技術(shù)的發(fā)展與普及,科研人員逐漸采用計(jì)算機(jī)軟件計(jì)算分子描述符,再結(jié)合統(tǒng)計(jì)學(xué)方法根據(jù)相關(guān)度原則進(jìn)行篩選,最后使用線性或非線性等多種方法構(gòu)建模型。本節(jié)詳細(xì)介紹了烴類、芳香族、含氧脂肪族和鹵代烴4種化合物的沸點(diǎn)預(yù)測模型研究進(jìn)展。
烴類化合物的分子大小、形狀和支鏈情況都會(huì)影響其沸點(diǎn),我國學(xué)者對(duì)正烯烴、支鏈烷烴、炔烴、雙烯烴、環(huán)烯烴、烯烴順反異構(gòu)等化合物均開展了研究。
1994年,王克強(qiáng)[15]根據(jù)國外對(duì)飽和烴類的相關(guān)研究,首次提出了采用QSPR計(jì)算正烯烴沸點(diǎn)的方法。其借助圖論對(duì)分子結(jié)構(gòu)進(jìn)行數(shù)值化表征,使用一、二、三級(jí)結(jié)構(gòu)信息定量描述分子的大小、形狀與鍵型,使用非線性函數(shù)擬合得到沸點(diǎn)計(jì)算模型,并對(duì)39種正烯烴的沸點(diǎn)進(jìn)行了預(yù)測,結(jié)果表明計(jì)算值與實(shí)驗(yàn)值的平均誤差為0.054%,最大誤差為0.26%,模型很好地描述了正烯烴的沸點(diǎn),但是該模型還不具備預(yù)測同分異構(gòu)體的能力。
隨后,張玉林等[16]首次引入分子支化度概念,采用碳原子數(shù)和Wiener拓?fù)渲笖?shù)描述分子結(jié)構(gòu),使模型具備區(qū)分同分異構(gòu)體的能力,其對(duì)支鏈烷烴提出了新的沸點(diǎn)計(jì)算公式:
式中:W0、P0、W、P分別表示碳原子數(shù)相同的直鏈烷烴及支鏈烷烴的Wiener指數(shù),A、B、y為常數(shù),N為碳原子數(shù),Tb為沸點(diǎn)。作者采用最小二乘法對(duì)74個(gè)支鏈烷烴沸點(diǎn)數(shù)據(jù)進(jìn)行擬合,模型的平均相對(duì)誤差為1.101%。
林治華等[17]采用分子距離邊數(shù)矢量(MDE)和多元線性回歸(MLR)技術(shù)建立了包括烷、烯、炔、雙烯、烯炔烴的沸點(diǎn)模型,5次隨機(jī)從153個(gè)樣本中抽取102個(gè)作為訓(xùn)練集,剩下的作為測試集,預(yù)測結(jié)果平均相關(guān)系數(shù)為0.9973,153次交互檢驗(yàn)的平均相關(guān)系數(shù)為0.9971,表明模型有較強(qiáng)的穩(wěn)定性與預(yù)測性。
仇明華等[18]結(jié)合分子動(dòng)力學(xué)方法,對(duì)單烯烴分子中每個(gè)“CHn”基團(tuán)建立了振動(dòng)方程,并使用有限元分析方法得到固有頻率這一結(jié)構(gòu)特征向量,使用多元回歸方法對(duì)150個(gè)單烯烴分子進(jìn)行了計(jì)算,優(yōu)化后模型的相關(guān)系數(shù)為0.9965,同時(shí)作者將模型拓展至環(huán)烯烴沸點(diǎn)的預(yù)測,但是最后的模型對(duì)待預(yù)測的烴類仍有結(jié)構(gòu)限制,無法將一個(gè)模型拓展至所有烴類。
楊慧等[19]提出了一種可以適用于所有烴類的模型建立方法。其使用CODESSA軟件計(jì)算出烴類分子的296種分子描述符,使用了啟發(fā)式回歸(HM)與最佳多元線性回歸(B-MLR)兩種方法篩選合適的描述符并建立了模型,同時(shí)將最佳多元線性回歸選出的描述符采用支持向量機(jī)(SVM)算法建立了非線性模型,HM、B-MLR與SVM模型對(duì)測試集的相關(guān)系數(shù)分別為0.9779、0.9821與0.9938,平均絕對(duì)誤差百分率為11.6%、7.83%與4.46%,相比SVM模型預(yù)測更準(zhǔn)確,誤差更小。
此外,劉新華[20]使用分子結(jié)構(gòu)矩陣,對(duì)烯烴順反異構(gòu)體的沸點(diǎn)進(jìn)行了成功的預(yù)測。
含氧脂肪族化合物的沸點(diǎn)不僅與分子大小和形狀有關(guān),還應(yīng)考慮氧原子及含氧基團(tuán)的影響,我國對(duì)脂肪酮、脂肪醚、脂肪醇、脂肪酸等化合物均有研究。
王克強(qiáng)采用圖論的方法,首先提出了以分子結(jié)構(gòu)為基礎(chǔ)的脂肪酮〗[21]和脂肪醚[22]沸點(diǎn)模型。二者與烴類相比增加了氧原子,因此在計(jì)算分子大小和形狀的基礎(chǔ)上,還量化了羰基對(duì)脂肪酮、氧原子對(duì)脂肪醚的影響程度。作者對(duì)49種脂肪酮進(jìn)行了非線性擬合,得到模型的平均相對(duì)誤差為0.43%,最大相對(duì)誤差為1.35%;對(duì)36種脂肪醚進(jìn)行了非線性擬合,得到的模型平均相對(duì)誤差為0.66%。
林治華[23]采用分子距離邊數(shù)矢量和多元線性回歸技術(shù)建立了脂肪醇的沸點(diǎn)模型,在分子距離邊數(shù)矢量中額外引入羥基標(biāo)識(shí)以計(jì)算羥基對(duì)沸點(diǎn)的影響,該模型共含有14個(gè)描述符,對(duì)124種脂肪醇的擬合結(jié)果表明,模型的相關(guān)系數(shù)為0.9946,同時(shí),模型成功預(yù)測了25種脂肪醇的沸點(diǎn),相關(guān)系數(shù)為0.9937。
張運(yùn)陶[24]使用HyperChem7.0軟件計(jì)算了與脂肪醇沸點(diǎn)相關(guān)的10種描述符,并采用逐步回歸分析篩選出8個(gè),在此基礎(chǔ)上使用支持向量機(jī)、多元線性回歸和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)算法分別建立模型,之后以119種脂肪醇為樣本,使用留一法交叉驗(yàn)證得到三種模型的相關(guān)系數(shù)分別為0.993、0.988、0.987,標(biāo)準(zhǔn)偏差分別為4.774、6.501、6.724,表明支持向量機(jī)模型具有更好的預(yù)測性能。
劉萬強(qiáng)[25]分別通過對(duì)六類含氧脂肪化合物醇、醚、醛、酮、酸和酯的QSPR沸點(diǎn)模型的研究,提出了一個(gè)六類含氧脂肪化合物的統(tǒng)一模型。作者采用最佳子集回歸算法選擇合適的描述符,結(jié)合多元線性回歸方法建立模型,優(yōu)化后模型僅含有2個(gè)描述符,分別代表官能團(tuán)對(duì)沸點(diǎn)的貢獻(xiàn)度,和烷基碳鏈的相對(duì)長度和烷基的支鏈化程度及位置信息。該模型對(duì)468個(gè)樣本的訓(xùn)練集的相關(guān)系數(shù)為0.9846,對(duì)52個(gè)樣本的測試集的相關(guān)系數(shù)為0.9857,具有較好的預(yù)測性能。
此外,劉鳳萍等[26]、陳炫等[27]也成功建立了脂肪醛酮的QSPR沸點(diǎn)模型。
芳香族化合物的沸點(diǎn)主要與分子大小、形狀、苯環(huán)數(shù)量和支鏈情況有關(guān),目前的主要對(duì)烷基苯、烷基聯(lián)苯、烷基萘和多環(huán)芳烴等化合物開展了研究。
范雪娥[28]首次提出使用圖論方法計(jì)算烷基苯的沸點(diǎn),作者將分子大小、形狀與碳鏈的彎曲程度分別通過連通圖、矩陣元與三級(jí)結(jié)構(gòu)信息S量化,采用非線性函數(shù)擬合法得到沸點(diǎn)計(jì)算模型,并對(duì)18種單烷基苯進(jìn)行了計(jì)算,模型的平均相對(duì)誤差為0.19%。
孟繁宗等[29]隨后提出了預(yù)測多烷基苯沸點(diǎn)的模型,其將Balaban連通性指數(shù)J與烷基位置指數(shù)m引入距離矩陣,量化分子結(jié)構(gòu),最后對(duì)34種多烷基苯的沸點(diǎn)進(jìn)行了回歸,提出如下經(jīng)驗(yàn)公式:
式中:N為碳原子數(shù),S為拓?fù)渲笖?shù)。模型的相關(guān)系數(shù)大于0.99,平均相對(duì)誤差為0.94%。
王克強(qiáng)[30]使用距離矩陣提出了一種可同時(shí)預(yù)測烷基苯和烷基聯(lián)苯的非線性模型,其將碳原子劃分為苯環(huán)碳原子與烷基碳原子,從而量化二者性質(zhì)的差異,通過對(duì)190種烷基苯和烷基聯(lián)苯的計(jì)算結(jié)果進(jìn)行分析,模型的平均相對(duì)誤差為0.77%,相關(guān)系數(shù)為0.9985,具有較好的預(yù)測能力。另外,作者[31]采用相似的方法預(yù)測烷基萘的沸點(diǎn),對(duì)70個(gè)樣本的計(jì)算結(jié)果表明,模型平均相對(duì)誤差為0.43%,相關(guān)系數(shù)為0.997。
楊善升[32]采用密度泛函數(shù)理論計(jì)算得到8個(gè)分子描述符,對(duì)訓(xùn)練集中45個(gè)多環(huán)芳烴分子,用遺傳算法(GA)結(jié)合支持向量機(jī)回歸得到了沸點(diǎn)的非線性模型,通過訓(xùn)練集留一法交叉驗(yàn)證方法優(yōu)化了模型參數(shù),相關(guān)系數(shù)為0.997,該模型對(duì)測試集中12個(gè)多環(huán)芳烴分子的沸點(diǎn)具有很好的預(yù)測性能,相關(guān)系數(shù)為0.999。
鹵代烴化合物的沸點(diǎn)主要與分子大小、鹵族元素的取代位置、種類和數(shù)量有關(guān),我國對(duì)氟、氯、溴、碘的取代物均開展了研究。
1997年,呂慶章等[33]首先應(yīng)用人工神經(jīng)網(wǎng)絡(luò)(ANN)的反向誤差傳遞算法(BP)對(duì)乙烷氟氯衍生物的沸點(diǎn)進(jìn)行了建模,作者人工選取了5個(gè)分子描述符,分別為氟原子個(gè)數(shù)、氯原子個(gè)數(shù)、分子中F-C-C-F的片段數(shù)、分子中Cl-C-C-Cl的片段數(shù)和分子中F-C-C-Cl的片段數(shù),模型使用由26個(gè)樣本組成的訓(xùn)練集進(jìn)行訓(xùn)練,對(duì)12個(gè)樣本的測試集進(jìn)行測試,在最優(yōu)參數(shù)的情況下,模型的絕對(duì)誤差為0.949%,且對(duì)同分異構(gòu)體有良好的預(yù)測能力。
馮瑞英[34]將鹵代乙烷沸點(diǎn)模型的適用范圍拓展,使其同樣可以計(jì)算含碘及溴的情況。作者選取了3種分子描述符,分別為鹵原子個(gè)數(shù)、鹵原子分布和分子極性,模型對(duì)74種鹵代乙烷的沸點(diǎn)進(jìn)行了回歸,相關(guān)系數(shù)為0.997,標(biāo)準(zhǔn)偏差為4.69℃。王克強(qiáng)[35]采用相似的研究方法,使用鹵原子個(gè)數(shù)和分子極性兩種描述符,建立了鹵代甲烷的沸點(diǎn)模型,并對(duì)40種鹵代甲烷的沸點(diǎn)進(jìn)行了回歸,相關(guān)系數(shù)為0.995,平均相對(duì)誤差1.75%。
高坡[36]應(yīng)用分子連接性指數(shù)法,計(jì)算鹵代烴的一、二、三階分子連接指數(shù),將三者與分子量平方根共同作為描述符,對(duì)100種鹵代烴的沸點(diǎn)進(jìn)行多元線性回歸,建立了一個(gè)可以預(yù)測各種鹵代烴的模型,相關(guān)系數(shù)為0.890,標(biāo)準(zhǔn)偏差19.366。
此外,李艷青[37]和李鳳芹[38]均采用拓?fù)渲笖?shù),分別對(duì)乙烷氟氯衍生物和飽和鹵代烴的沸點(diǎn)進(jìn)行了較好的預(yù)測。
目前,國內(nèi)已有研究將QSPR預(yù)測純有機(jī)物沸點(diǎn)的模型拓展至預(yù)測二元共沸混合物的共沸溫度,且相較傳統(tǒng)模型具有較好的預(yù)測能力。
呂利平[39]對(duì)102種低碳酯二元共沸物建立了共沸溫度模型。作者使用HyperChem8.0軟件構(gòu)建及優(yōu)化分子結(jié)構(gòu),使用Materials Studio 7.0軟件計(jì)算得到15類420種純組分的分子描述符,并通過篩選獲得與共沸溫度相關(guān)性較高的33種,二元混合物的分子描述符通過平均值法計(jì)算,之后采用遺傳-多元線性回歸法選擇較好的描述符并擬合得到預(yù)測模型,該模型含有6種分子描述符,對(duì)樣本集的相關(guān)系數(shù)為0.964,標(biāo)準(zhǔn)誤差為3.6,優(yōu)于基團(tuán)貢獻(xiàn)法的計(jì)算結(jié)果。
曾行艷[40]對(duì)125種含水二元共沸物建立了共沸溫度模型。作者同樣使用HyperChem8.0軟件構(gòu)建及優(yōu)化分子結(jié)構(gòu),Materials Studio 8.0軟件計(jì)算得到15類344種純組分的分子描述符,并通過篩選獲得與共沸溫度相關(guān)性較高的76種,二元混合物的分子描述符通過“Kay’s mixing rule”規(guī)則計(jì)算,之后采用遺傳算法進(jìn)行分子描述符的進(jìn)一步篩選,采用多元線性回歸建立預(yù)測模型,含有8種分子描述符,對(duì)樣本集的相關(guān)系數(shù)為0.9606。同時(shí)作者指出,該QSPR模型的預(yù)測準(zhǔn)確度遠(yuǎn)高于基團(tuán)貢獻(xiàn)法,具有較強(qiáng)的預(yù)測能力。
本文簡述了QSPR方法的基本原理,不難看出QSPR方法為研究人員提供了一種在分子水平上了解物質(zhì)的微觀結(jié)構(gòu)對(duì)宏觀性質(zhì)影響的手段。同時(shí),本文分別詳細(xì)論述了國內(nèi)烴類、芳香族、含氧脂肪族和鹵代烴共4類化合物的沸點(diǎn)預(yù)測模型與計(jì)算方法,從發(fā)展歷程中可見:
(1)QSPR模型從一開始只涵蓋具有特定特征的一種分子,漸漸地發(fā)展到支持預(yù)測某一大類的分子,其使用局限性正逐漸降低,而預(yù)測準(zhǔn)確性和泛化推廣能力逐漸超過其他方法。
(2)隨著分子拓?fù)鋵W(xué)及量子理論的發(fā)展,越來越多的分子描述符開始應(yīng)用于QSPR中,而計(jì)算過程也從人工逐漸轉(zhuǎn)變?yōu)樗俣雀臁⒂?jì)算更準(zhǔn)確的計(jì)算機(jī)輔助計(jì)算,目前有不少計(jì)算分子描述符的專業(yè)軟件,如CODESSA、Materials Studio等。
(3)常用的QSPR方法有多元線性回歸、偏最小二乘法、人工神經(jīng)網(wǎng)絡(luò)法及支持向量機(jī)方法,其中神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)均具有強(qiáng)大的非線性擬合能力,同時(shí)相比“黑箱”建模的神經(jīng)網(wǎng)絡(luò)方法,支持向量機(jī)具有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),越來越多的應(yīng)用在QSPR建模中。
另外,雖然我國對(duì)二元共沸混合物共沸溫度預(yù)測的研究才剛剛起步,但研究結(jié)果均表現(xiàn)出優(yōu)于基團(tuán)貢獻(xiàn)法的預(yù)測能力,展現(xiàn)了QSPR方法在計(jì)算二元乃至多元混合物性質(zhì)方面的廣闊應(yīng)用前景,具有協(xié)助化工過程計(jì)算與設(shè)計(jì)的強(qiáng)大潛力,定將會(huì)在化學(xué)和化工領(lǐng)域得到更廣泛的應(yīng)用。