朱曉樂,肖松濤,歐陽應根
中國原子能科學研究院 放射化學研究所,北京 102413
钚是一種重要的戰(zhàn)略資源,是制造核武器和核燃料的關鍵材料。Pu在水溶液中的化學行為比較復雜,以多價態(tài)共存的方式存在。其中Pu(Ⅳ)易被TBP萃取到有機相,而Pu(Ⅲ)不易被萃取到有機相,在PUREX流程中可利用這個特點將Pu(Ⅳ)還原為Pu(Ⅲ)實現(xiàn)鈾钚的分離和钚的純化。
王婷[1]、邵開元[2]、石靈娟[3]等分別對有機污染物的混合毒性、催眠類藥物的毒性、多環(huán)芳烴的熒光強度進行了定量構效關系研究,均得到了理想的結果。其中邵開元[2]為了改善定量構效關系(quantitative structure-activity relationship, QSAR)模型,提出了化學勢變化率這一量化參數(shù),最終使QSAR相關性得到提高,降低了預測誤差。
Norinder[4]、鄧景景[5]和張永紅[6]將偏最小二乘法(partial least square, PLS)應用于QSAR研究,在處理多重相關性的問題上表現(xiàn)良好。鄧景景還指出,使用PLS方法建模,較多元線性回歸(multiple linear regression, MLR)具有更好的擬合能力和穩(wěn)定性。
PLS-Bootstrap法用于定量構效關系研究的情況較少。金志超[7]提出,使用PLS-Bootstrap法對變量進行篩選,能解決受實驗條件限制導致的樣本數(shù)較少的問題,并可應用于化學藥物的活性與親油性等參數(shù)之間相關關系的預測。Bras[8]則將PLS-Bootstrap法進行了拓展,用于篩選波數(shù)間隔。雖尚未發(fā)現(xiàn)有文獻報道將PLS-Bootstrap法用于QSAR研究工作中,但由于該方法可實現(xiàn)變量的篩選,因此本課題組將使用PLS-Bootstrap法進行QSAR研究。本工作將在之前的研究基礎上[9],在剔除錯誤樣本點后重新建立定量構效關系。將分別使用逐步回歸法和PLS-Bootstrap法來建立定量構效關系模型并進行交叉檢驗和外部檢驗。
Pu(Ⅳ)與肼衍生物反應的半反應時間t1/2及它們的量化參數(shù)列入表1和表2[9],肼衍生物結構示于圖1[9]。考慮到肼衍生物與Pu(Ⅳ)的半反應時間存在著數(shù)量級差異,因此將它們轉化成自然對數(shù)后再進行定量構效關系研究。肼衍生物與Pu(Ⅳ)反應的半反應時間可用于表示該反應進行的快慢程度。半反應時間越小,該反應進行得越快。量化參數(shù)有最高占據(jù)軌道能(EHOMO)、最低非占軌道能(ELUMO)、前線軌道能量差(ΔE=ELUMO-EHOMO)、分子總能量(E)、分子偶極矩(μ)、疏水性參數(shù)(lgP)、分子折射率(R)、分子摩爾體積(V)、分子表面積(A)、網(wǎng)格化分子表面積(G)、相對分子質量(Mr)、分子極化率(P)以及水合能(EH)等。
表1 肼衍生物與Pu(Ⅳ)反應的半反應時間[9]
為了考察半反應時間與量化參數(shù)的相關性、量化參數(shù)之間的相關性,求解其Pearson矩陣,列于表3。由于Pearson矩陣為對稱矩陣,且主對角元的相關性系數(shù)均為1,概率p值均為0,因此僅求出其上半部分的相關性系數(shù)及對應的p值。由表3可知,半反應時間(t1/2)與最高占據(jù)軌道能(EHOMO)、前線軌道能量差(ΔE)、分子偶極矩(μ)、疏水性參數(shù)(lgP)有較強的線性相關性,相關系數(shù)均達到0.6以上,且不相關的可能性p均小于0.05,即半反應時間與這些參數(shù)均存在相關性,但線性相關性并不強。此外,各參數(shù)之間也存在相關關系,如最高占據(jù)軌道能(EHOMO)與前線軌道能量差(ΔE)存在強相關性,與偶極矩存在較強的相關性;最低非占軌道能(ELUMO)則與前線軌道能量差(ΔE)、疏水性參數(shù)(lgP)、水合能(EH)之外的其他量化參數(shù)均存在較強的相關性。即量化參數(shù)之間存在著較強的相關性,無法直接進行回歸建模,因此將分別使用逐步回歸法和PLS-Bootstrap法對量化參數(shù)進行篩選,再通過回歸分析的方法建立定量構效關系模型,且半反應時間與量化參數(shù)之間存在相關性但線性相關性并不強,故還需要考慮非線性定量構效關系模型。
表2 肼衍生物的量化參數(shù)[9]
表3 Pearson相關性矩陣
逐步回歸法是結合了變量篩選與回歸的一種方法,在每一步中,都要分別考查所有的參數(shù)與因變量的相關性,將未引入方程中但相關性最顯著的參數(shù)引入方程,即將p值最小的參數(shù)引入方程,而將方程中相關性不夠強的參數(shù)剔除掉。為防止被剔除的參數(shù)能再次被引入而形成死循環(huán),一般設置剔除參數(shù)的p臨界值(premove)要大于進入方程的p臨界值(penter)。一般默認設置為penter=0.05,premove=0.10。逐步回歸法的結果是否有意義需要由F檢驗確定,各參數(shù)與因變量的相關性是否顯著則應當由t檢驗確定。
PLS被認為是一種能較好處理自變量共線性和樣本數(shù)較少的回歸方法,在對每一個成分進行回歸時都要完成提取主成分、相關性分析和回歸三個步驟。首先對自變量與因變量各提取一個主成分,并使自變量的主成分與因變量的主成分相關性最大,其次使用自變量的主成分對因變量進行回歸,然后分別求得經(jīng)過回歸之后自變量與因變量的殘差,并使用殘差分別代替自變量與因變量重復前述步驟進行回歸。一般情況下不需要選擇所有的成分來建立回歸方程,僅需要選用前幾個成分即可得到預測能力較好的回歸方程。需要注意的是,使用PLS進行回歸時所有的參數(shù)都會被引入方程,其中可能會包括部分相關性不顯著的參數(shù),考慮到Bootstrap作為一種檢驗方法,能較好地處理樣本數(shù)較少的情況,通過蒙特卡羅隨機抽樣的方法建立Bootstrap樣本,然后對Bootstrap樣本進行回歸,將回歸系數(shù)按大小順序排列并選定一定的分位數(shù),若該數(shù)大于原樣本回歸方程中的回歸系數(shù),則該參數(shù)應當從方程中剔除。將PLS與Bootstrap結合起來進行回歸分析時,可以將相關性不顯著的參數(shù)從方程中剔除掉,使方程的意義更明確。由于Bootstrap本身已包含了對各參數(shù)的檢驗,故無需對各參數(shù)進行t檢驗。
本工作使用了Matlab 2014b軟件來進行回歸處理,在逐步回歸法中調(diào)用了程序自帶的stepwise和stepwisefit函數(shù)來進行逐步回歸,在PLS-Bootstrap法中調(diào)用了程序自帶的plsregress函數(shù)實現(xiàn)PLS的部分,使用rand函數(shù)結合for循環(huán)語句,按照文獻[7]的步驟來實現(xiàn)Bootstrap的部分。
利用逐步回歸法進行回歸分析,在完成回歸分析任務的同時,也完成了變量的篩選。在默認的設置(penter≤0.05,premove>0.10)下,對其進行逐步回歸,得到的結果列入表 4。由表4知,第1、2、6個變量,即最高占據(jù)軌道能(EHOMO)、最低非占軌道能(ELUMO)和疏水性參數(shù)(lgP)保留在方程中,方程為t1/2=54.939EHOMO+176.841ELUMO+6.363 lgP+27.718。其方程的分子自由度為3,分母自由度為6,F(xiàn)統(tǒng)計量值為37.719,即F(3,6)=37.719>4.76=F0.05(3,6),即在95%的置信度上該回歸方程有意義,對應的調(diào)整相關系數(shù)即調(diào)整r2=0.924。標準化回歸方程為y=0.384x1+0.463x2+0.701x6。標準化回歸系數(shù)的絕對值反映了該自變量對因變量的影響大小,故疏水性參數(shù)是該反應的主要特征參數(shù),且疏水性參數(shù)越大,半反應時間越大,該反應進行得越慢;最高占據(jù)軌道能(EHOMO)和最低非占軌道能(ELUMO)是該反應的次要特征參數(shù),且它們的值越大,半反應時間越大,該反應進行得越慢。
下面考慮非線性關系,由于參數(shù)較多,考慮指數(shù)形式,假設存在指數(shù)關系,則有
y=Ae(Bx1+Cx2+Dx3)=e(Bx1+Cx2+Dx3+A′)
其中A′=lnA。兩邊同取對數(shù)得:
lny=A′+Bx1+Cx2+Dx3
若將半反應時間取自然對數(shù),則其對數(shù)值與變量依舊呈線性關系。按此方法處理后進行回歸分析,得非線性回歸方程t1/2=e(5.543EHOMO+17.201ELUMO+0.560lg P+4.010),方程的調(diào)整r2=0.928,F(xiàn)統(tǒng)計量為39.964>4.76=F0.05(3,6)。標準化回歸方程t1/2=e(0.413x1+0.479x2+0.656x3)。疏水性參數(shù)(lgP)仍為該反應的主要特征參數(shù),最高占據(jù)軌道能(EHOMO)和最低非占軌道能(ELUMO)仍為該反應的次要特征參數(shù),且它們的值越大,半反應時間越大,該反應進行得越慢。
表4 逐步回歸結果
注:“In”為變量在方程中出現(xiàn),“Out”為變量在方程中未出現(xiàn)
在使用PLS進行回歸分析時,需要確定提取的成分數(shù)。一般情況下,當所選取成分包含的信息量達到85%時,便認為信息已經(jīng)提取完全,因此,把X信息量與Y信息量均達到85%時的最小成分數(shù)作為PLS回歸分析時提取成分數(shù),對所有樣本進行處理,結果列入表5。
表5 PLS回歸分析的成分數(shù)與信息量關系
注:1) “-”,在第二次回歸中,當成分數(shù)為4時,X信息量已達到1,繼續(xù)增加成分數(shù)也不會提升信息量,故無需對更多成分數(shù)的情況進行計算
在第一次篩選中,成分數(shù)為2時,包含的X信息量僅為0.801,而Y信息量達到了0.872;當成分數(shù)為3時,包含的X信息量為0.877,Y信息量為0.946,因此,選定PLS提取的成分數(shù)為3,進行Bootstrap檢驗,結果列入表6。在經(jīng)過第一次篩選后,僅有最高占據(jù)軌道能、分子總能量、疏水性參數(shù)和相對分子質量被保留。然后進行第二次的PLS-Bootstrap法篩選,首先進行PLS回歸分析(表5),確定提取的成分數(shù)為3,然后再進行Bootstrap檢驗,結果列入表6。由表6可知,最終僅有最高占據(jù)軌道能和疏水性參數(shù)被保留下來。下面將使用經(jīng)過兩次篩選后仍被保留的參數(shù)進行回歸分析。使用最高占據(jù)軌道能和疏水性參數(shù)對半反應時間進行回歸分析,得方程t1/2=92.673EHOMO+4.866 lgP+34.956。調(diào)整r2=0.766,統(tǒng)計量F=15.730>4.74=F0.05(2,7),即在95%的置信度上該回歸方程有意義,模型示于圖2。所有的PLS-Bootstrap法的分位數(shù)均選為0.95。
以同樣的方法對半反應時間進行處理以考慮其非線性關系,并對其進行回歸分析,得非線性回歸方程t1/2=e(0.195 8EHOMO+0.138 6lg P+2.371),調(diào)整r2=0.758,模型示于圖3。比較其調(diào)整r2,顯然線性模型較非線性模型略優(yōu)。
表6 PLS-Bootstrap法對參數(shù)進行篩選的結果
注:1) “-”,由于第一次篩選已經(jīng)將對應的變量排除在方程外,它們將不會參與第二次篩選,故其對應值均不存在
圖2 PLS-Bootstrap法線性模型
圖3 PLS-Bootstrap法非線性模型
無論是線性模型還是非線性模型,結果均表明,最高占據(jù)軌道能(EHOMO)和疏水性參數(shù)(lgP)是該反應的特征參數(shù),且它們的值越大,該反應的半反應時間越大,即反應進行得越慢。
為了對模型進行比較,同時也對前人定量構效研究進行補充,將對兩種方法建立的模型進行留一法(leave one only, LOO)交叉檢驗,并對被剔除的樣本點叔丁基肼的部分量化參數(shù)進行訂正后作為外部檢驗點進行檢驗[10]。
使用LOO交叉檢驗后得到的結果列入表 7。由表7可知:兩種方法的交叉檢驗系數(shù)(Q2)均大于0.5,其中逐步回歸法的Q2達到了0.820,表明逐步回歸法建立的線性模型穩(wěn)定性較優(yōu)秀,因此就穩(wěn)定性而言,逐步回歸法建立的線性模型更好。由于逐步回歸法建立的線性模型與非線性模型相比無明顯差別,調(diào)整r2分別為0.924和0.928,因此不再單獨對其非線性模型進行討論,即使非線性模型從調(diào)整r2上看比線性模型略優(yōu)。
表7 逐步回歸法及PLS-Bootstrap法交叉檢驗結果
由于兩種方法僅用到了最高占據(jù)軌道能(EHOMO)、最低非占軌道能(ELUMO)和疏水性參數(shù)(lgP),使用了參考文獻[8]的逐步回歸法,在對叔丁基肼的結構進行校正后重新計算了這些參數(shù)的值,結果如下:最高占據(jù)軌道能EHOMO=-0.237,最低非占軌道能ELUMO=-0.006,疏水性參數(shù) lgP=0.370,半反應時間對數(shù)值 lnt1/2=16.240。使用兩種線性模型分別對lnt1/2進行預測,并與觀測值進行對比,得到逐步回歸模型預測值為15.991,PLS-Bootstrap模型預測值為14.793,結果列入表8。由表8可知,逐步回歸法對外部樣本點的預測誤差更小,誤差不足2%,而PLS-Bootstrap模型的預測誤差已接近10%。就叔丁基肼作為外部檢驗點而言,逐步回歸法表現(xiàn)更優(yōu)秀,但外部檢驗點樣本點數(shù)量較少,并不意味著逐步回歸法的預測能力一定強于PLS-Bootstrap法。
表8 外部檢驗結果
總體上來看,逐步回歸模型中包含了三個參數(shù),且交叉檢驗、外部檢驗結果均優(yōu)于PLS-Bootstrap模型,而后者雖然只包含了兩個參數(shù),但從Pearson相關性矩陣可以看出,這兩個參數(shù)均與半反應時間有較強的相關性,而差異之處在于相關性相對較弱的最低非占軌道能(ELUMO),這正好表明了通過提取成分進行相關性分析的PLS更能有效地保證自變量與因變量之間的相關性。
為了進一步探討最低非占軌道能(ELUMO)對模型的影響,以比較兩種回歸方法的異同,下面將使用相同的變量分別建立回歸方程。由于參與回歸的變量已經(jīng)被指定,逐步回歸法無需再進行變量篩選,因此可使用最小二乘回歸法代替逐步回歸法進行比較,而PLS-Bootstrap法無需再進行變量篩選,在回歸過程中也無須進行Bootstrap檢驗。對比實驗一指定的變量有疏水性參數(shù)、最高占據(jù)軌道能和最低非占軌道能,對比實驗二指定的變量有疏水性參數(shù)和最高占據(jù)軌道能。
對比實驗一中,逐步回歸法回歸方程為t1/2=54.939EHOMO+176.841ELUMO+6.363 lgP+27.718,PLS回歸方程為t1/2=70.866EHOMO+126.893ELUMO+5.916 lgP+30.992;對比實驗二中,逐步回歸法回歸方程為t1/2=92.673EHOMO+4.866 lgP+34.956,PLS回歸方程為t1/2=92.673EHOMO+4.866 lgP+34.956;對比實驗一與實驗二的各參數(shù)列于表9 。由表9可知,當變量數(shù)為三個時,PLS在回歸時認為僅需提取兩個成分數(shù)即可建立效果較好的回歸方程,當所有的成分數(shù)均提取完全即將三個成分全部提取時,其回歸結果與逐步回歸法的結果相同,即第三個成分對改善模型的擬合優(yōu)度,即調(diào)整r2的貢獻不大。對比可知,第三個成分對調(diào)整r2的提高僅為0.004,較0.920提高了0.43%,表明了PLS能選取合適的成分數(shù)進行回歸的同時,舍棄對回歸結果作用不明顯的部分。但就對比實驗一中對逐步回歸法與PLS在LOO交叉檢驗的結果進行對比是不合理的,因為逐步回歸法在交叉檢驗時的變量數(shù)為3,而PLS由于僅提取了兩個成分,在交叉檢驗時僅有兩個成分進行回歸,即變量數(shù)為2,故無法簡單地將其進行比較。而考慮變量數(shù)相同的情況時,在對比實驗二中,逐步回歸法交叉檢驗時變量數(shù)為2,而PLS在對比實驗一中,交叉檢驗時提取兩個成分,變量數(shù)也為2,對比交叉檢驗系數(shù)Q2,可得出PLS的模型穩(wěn)定性更好。綜上,對比逐步回歸法與PLS,可認為PLS的回歸結果更好。
表9 對比實驗一與實驗二的回歸情況
注:1) 回歸時提取兩個成分,F(xiàn)統(tǒng)計量為F(2,7)=52.776
將對比實驗二的逐步回歸法與對比實驗一中的PLS在交叉檢驗中的表現(xiàn)進行對比,雖然存在一定的不合理性,但由對比實驗二可以看出,PLS在提取所有的成分數(shù)的情況下與逐步回歸法有相同的結果。將兩個對比實驗中PLS的表現(xiàn)進行對比,兩種情況下PLS均提取了兩個成分進行回歸,差別在于成分中是否包含ELUMO這一參數(shù)。由調(diào)整r2的比較可知,該參數(shù)的引入對模型有較大的改善,以調(diào)整r2的值來看,擬合優(yōu)度的改善程度為20.10%,但以Q2來看,模型穩(wěn)定性的提高程度卻僅為16.95%。即使這樣的比較不準確,卻仍能說明ELUMO參數(shù)的引入對模型擬合效果的改善作用更大,即ELUMO參數(shù)引入的作用存在著過分追求方程擬合效果的可能性。
綜上所述,在肼衍生物與Pu(Ⅳ)的反應中,PLS-Bootstrap可使用較少的變量來描述整體的趨勢變化,而逐步回歸法能獲得預測效果更好的模型,兩者的結果具有相似性,即兩種方法均可得到反映該反應規(guī)律的回歸方程。就肼衍生物與Pu(Ⅳ)反應而言,ELUMO是否能作為該反應的特征參數(shù),還需進一步研究確定。
通過逐步回歸法與PLS-Bootstrap法分別對Pu(Ⅳ)與肼衍生物反應的定量構效關系進行了研究,獲得了可描述該反應進行快慢的特征參數(shù):最高占據(jù)軌道能(EHOMO)、疏水性參數(shù)(lgP),其中疏水性參數(shù)是該反應的主要特征參數(shù),且它們的值越大,半反應時間越大,該反應進行得越慢。而作為次要特征參數(shù)的最低非占軌道能(ELUMO)能否作為該反應的特征參數(shù)仍需進一步研究確定,因此兩種方法得到的結果具有相似性。
對之前的Pu(Ⅳ)與肼衍生物反應的定量構效關系研究的不足之處進行了補充,對錯誤的樣本點進行了校正并作為外部檢驗點對模型進行了檢驗,完成了之前模型未進行的交叉檢驗等檢驗工作。
本工作使用PLS-Bootstrap法進行定量構效關系研究并進行了交叉檢驗與外部檢驗,結果表明,該模型的穩(wěn)定性較逐步回歸模型差,考慮到外部檢驗點數(shù)量少,其預測能力還需進一步研究確定。