廖立敏,朱 俊,李建鳳,雷光東*
(1.內(nèi)江師范學(xué)院資源與環(huán)境科學(xué)學(xué)院,四川內(nèi)江641112;2.內(nèi)江師范學(xué)院化學(xué)與生命科學(xué)學(xué)院,四川內(nèi)江替換為 641112)
芳烴類污染物結(jié)構(gòu)與水溶性(-lgSw)關(guān)系研究
廖立敏1,2,朱 俊1,李建鳳1,2,雷光東1*
(1.內(nèi)江師范學(xué)院資源與環(huán)境科學(xué)學(xué)院,四川內(nèi)江641112;2.內(nèi)江師范學(xué)院化學(xué)與生命科學(xué)學(xué)院,四川內(nèi)江替換為 641112)
為探尋芳烴類有機(jī)物結(jié)構(gòu)與水溶性(-lgSw)的關(guān)系,應(yīng)用分子頂點(diǎn)及頂點(diǎn)相互作用值對(duì)芳烴類有機(jī)物進(jìn)行了結(jié)構(gòu)表征.采用多元線性回歸及逐步回歸建立了2個(gè)定量結(jié)構(gòu)-性質(zhì)關(guān)系的-lgSw模型.經(jīng)過(guò)比較,發(fā)現(xiàn)模型(M2)具有最佳模擬結(jié)果,此時(shí)模型的復(fù)相關(guān)系數(shù)(R)為0.949,標(biāo)準(zhǔn)偏差(SD)為0.443.采用Jackknife法對(duì)模型進(jìn)行了穩(wěn)健性檢驗(yàn),結(jié)果表明回歸模型具有可接受的總體穩(wěn)健性及良好的預(yù)測(cè)能力;另外,采用留一法(leave-one-out)對(duì)模型進(jìn)行交叉檢驗(yàn),復(fù)相關(guān)系數(shù)(Rcv)為0.915,標(biāo)準(zhǔn)偏差(SDcv)為0.566,這也說(shuō)明所建模型的穩(wěn)定性與預(yù)測(cè)能力均較為理想.
環(huán)境化學(xué);芳烴;水溶性;分子頂點(diǎn);定量結(jié)構(gòu)-性質(zhì)相關(guān)
隨著化學(xué)工業(yè)的迅猛發(fā)展及人們生活水平的日益提高,大量人工合成芳烴類化合物進(jìn)入環(huán)境中,其中一些為有害化合物,嚴(yán)重地威脅著生態(tài)環(huán)境和人類健康.芳烴類有機(jī)污染物是重要的環(huán)境污染物,因此對(duì)其性質(zhì)進(jìn)行研究具有一定的意義.溶解度(Sw)是化合物的重要物理參數(shù),不僅對(duì)化學(xué)反應(yīng)的順利進(jìn)行具有重要意義,而且在環(huán)境化學(xué)中也是研究有機(jī)污染物環(huán)境歸趨時(shí)的重要參數(shù).雖然通過(guò)實(shí)驗(yàn)測(cè)定芳烴類化合物的溶解度(Sw)仍是目前最為有效的方法,但該法費(fèi)時(shí)費(fèi)力.通過(guò)對(duì)化合物結(jié)構(gòu)與性質(zhì)之間關(guān)系的深入認(rèn)識(shí),對(duì)大量的有機(jī)物性質(zhì)進(jìn)行預(yù)測(cè)顯示出廣泛的應(yīng)用前景[1-5].本文選取34個(gè)芳烴類化合物(實(shí)驗(yàn)數(shù)據(jù)取自文獻(xiàn)[6],列于表1)為研究對(duì)象,尋找化合物結(jié)構(gòu)與其水溶性(-lgSw)之間的關(guān)系模型.
對(duì)化合物的結(jié)構(gòu)進(jìn)行表征時(shí),忽略非骨架氫原子的影響,將非氫原子(骨架原子)看成是分子的頂點(diǎn).根據(jù)頂點(diǎn)原子的連接性特征將頂點(diǎn)原子進(jìn)行分類,再考慮到不同類型的頂點(diǎn)原子自身雜化狀態(tài)及頂點(diǎn)原子之間的電性相互作用對(duì)分子性質(zhì)的影響構(gòu)建分子結(jié)構(gòu)表征方法(本文暫時(shí)將該表征方法稱為“頂點(diǎn)及頂點(diǎn)相互作用值”).采用多元線性回歸及逐步回歸的方法,對(duì)芳烴的水溶性(-lgSw)進(jìn)行了定量相關(guān)性研究,發(fā)現(xiàn)芳烴水溶性(-lgSw)與分子結(jié)構(gòu)參數(shù)之間存在良好的線性關(guān)系.
表1 34個(gè)芳烴類化合物及其水溶性(-lgSw)Tab.1 34 compounds and their-lgSw
續(xù) 表
在有機(jī)化合物的分子隱氫圖中,每一個(gè)非氫原子即為分子頂點(diǎn).通常認(rèn)為分子頂點(diǎn)本身所處狀態(tài)及頂點(diǎn)之間的相互作用對(duì)整個(gè)有機(jī)物分子的性質(zhì)有重要的影響,而分子中的非骨架原子(氫原子)對(duì)整個(gè)分子性質(zhì)的影響可以忽略不計(jì).并且處于不同連接狀態(tài)下的頂點(diǎn)及頂點(diǎn)之間的相互作用對(duì)分子性質(zhì)的貢獻(xiàn)可能不同,同類型的頂點(diǎn)及頂點(diǎn)之間的相互作用對(duì)分子性質(zhì)的貢獻(xiàn)相似且具有加和性.因此首先將分子內(nèi)的頂點(diǎn)按照其連接狀態(tài)進(jìn)行分類,分子內(nèi)的頂點(diǎn)依據(jù)其所連接的其它頂點(diǎn)數(shù)分為A1、A2、A3、A4 四類 ,分別表示與 1、2、3、4 個(gè)其它頂點(diǎn)相連,如與三個(gè)頂點(diǎn)相連的叔碳原子屬于A3頂點(diǎn)類型.
對(duì)于分子頂點(diǎn)本身所處狀態(tài)對(duì)分子性質(zhì)的貢獻(xiàn),本文引入了 Hall和 Kier[7]所提出的原子固有狀態(tài)(I),并對(duì)文獻(xiàn)的計(jì)算方法進(jìn)行了一定的修正,得到了所謂的分子頂點(diǎn)值,用于表征分子頂點(diǎn)自身的狀態(tài)對(duì)分子性質(zhì)的影響.其計(jì)算式如下:
上式中,xr表示分子中頂點(diǎn)類型為r的所有頂點(diǎn)i的貢獻(xiàn)值,νi是頂點(diǎn)i的原子價(jià)電層的電子數(shù);ni為該頂點(diǎn)價(jià)電層所屬的主量子數(shù);δiσ+π是該頂點(diǎn)參與成σ和π鍵的總電子數(shù);δiσ為成σ鍵的電子數(shù).如單個(gè)CSP、C2SP、C3SP在分子中的頂點(diǎn)貢獻(xiàn)值分別是2.5000、1.6667、1.2500.上述定義比 Hall和 Kier原始定義多個(gè)系數(shù) (ν/4)1/2且δσ+π和δσ值計(jì)算中沒(méi)有減去該原子與氫成鍵電子數(shù),即重點(diǎn)放在頂點(diǎn)原子雜化狀態(tài)表達(dá)上.根據(jù)頂點(diǎn)原子的分類,分子中最多含四類頂點(diǎn)原子,則每個(gè)分子將最終得到四個(gè)頂點(diǎn)值,分別記為 x1、x2、x3和 x4.
對(duì)于分子頂點(diǎn)間的相互作用對(duì)分子性質(zhì)的貢獻(xiàn),頂點(diǎn)之間的相互作用與頂點(diǎn)原子電性及相隔距離密切相關(guān).一般而言,依據(jù)庫(kù)侖定律,電性越大、距離越小,相互作用就越大.本文借鑒文獻(xiàn)[8-10]的表征方法來(lái)表征分子頂點(diǎn)間的相互作用對(duì)分子性質(zhì)的貢獻(xiàn),即化合物分子中四類頂點(diǎn)發(fā)生相互作用可以組合出以下幾種方式:m11、m12、m13、m14、m22、m23、m24、m33、m34、m44,分別記為 x5、x6、x7、x8、x9、x10、x11、x12、x13、x14十個(gè)頂點(diǎn)相互作用值.其計(jì)算式如下:
上式中,n和l為頂點(diǎn)所屬類型;Zi、Zi為頂點(diǎn)i、j相對(duì)于C原子的相對(duì)電負(fù)性,如氯原子的相對(duì)電負(fù)性為3.16/2.55=1.2392;rij是頂點(diǎn)i、j之間的相對(duì)距離(即所經(jīng)最短途徑鍵長(zhǎng)之和與碳碳單鍵鍵長(zhǎng)的比值).
依據(jù)以上原理,對(duì)于每一個(gè)有機(jī)化合物分子,最多將有十四個(gè)變量來(lái)描述其結(jié)構(gòu)信息.所有樣本分子的十四個(gè)結(jié)構(gòu)參數(shù)值,見(jiàn)表1(由于所有樣本分子中不含第 4 類原子 ,所以 x4、x8、x11、x13、x14為全零項(xiàng),在表1中已經(jīng)刪除).
多元線性回歸(multiple linear regression,MLR)是一種經(jīng)典的建模方法,它對(duì)自變量和因變量加以線性擬合以得到最小二乘(least square,LS)意義下的最佳結(jié)果.采用SPSS13.0中的多元線性回歸(MLR)方法對(duì)表1中各變量和-lgSw(Exp)進(jìn)行相關(guān)性研究,同時(shí)采用留一法對(duì)模型進(jìn)行交叉檢驗(yàn),得到9變量的預(yù)測(cè)模型(M1)的相關(guān)結(jié)果如下:
N為樣本數(shù),R為復(fù)相關(guān)系數(shù),SD為標(biāo)準(zhǔn)偏差,F為顯著性檢驗(yàn)值;Rcv為交叉檢驗(yàn)復(fù)相關(guān)系數(shù),SDcv為交叉檢驗(yàn)的標(biāo)準(zhǔn)偏差,Fcv為顯著性檢驗(yàn)值(下同).
此模型復(fù)相關(guān)系數(shù)達(dá)到0.951,說(shuō)明模型擬合效果較好.但是模型變量數(shù)為9,樣本數(shù)只有34,即模型不符合“樣本數(shù)/變量數(shù)≧5”的經(jīng)驗(yàn)規(guī)則,說(shuō)明變量數(shù)過(guò)多,有可能存在過(guò)擬合現(xiàn)象.采用SPSS13.0統(tǒng)計(jì)學(xué)軟件包對(duì)M1進(jìn)行回歸診斷,分別計(jì)算出9個(gè)變量的 t統(tǒng)計(jì)值及方差膨脹因子(VIF).通過(guò)分析發(fā)現(xiàn)模型M1的確具有一定程度多重共線性(某些變量VIF值偏大),而且并不是所有變量都表現(xiàn)出顯著特征(部分變量 t值落在-2≤t≤2范圍).為了進(jìn)一步考察各變量對(duì)建模過(guò)程的影響,消除模型可能存在的過(guò)擬合現(xiàn)象以進(jìn)一步提高模型的質(zhì)量,對(duì)變量進(jìn)行了逐步回歸(SMR)分析,同時(shí)采用留一法對(duì)模型進(jìn)行交叉檢驗(yàn),模型復(fù)相關(guān)系數(shù)(R)、交叉檢驗(yàn)的復(fù)相關(guān)系數(shù)(Rcv)、標(biāo)準(zhǔn)偏差(SD)及交叉檢驗(yàn)的標(biāo)準(zhǔn)偏差(SDcv)隨變量引入的變化情況見(jiàn)圖1.
圖1 逐步回歸R及SD的變化曲線Fig.1 Plot ofRand SD change with the step of SMR
從圖1可以看到,當(dāng)3個(gè)變量入選模型時(shí)復(fù)相關(guān)系數(shù)(R)接近最大值,交叉檢驗(yàn)的復(fù)相關(guān)系數(shù)(Rcv)達(dá)到最大值,同時(shí)標(biāo)準(zhǔn)偏差(SD)及交叉檢驗(yàn)的標(biāo)準(zhǔn)偏差(SDcv)達(dá)到最小值,綜合考慮 R、Rcv、SD、SDcv,應(yīng)該選擇3個(gè)變量進(jìn)行建模.3變量的預(yù)測(cè)模型(M2)如下:
上述模型建模效果較好,且模型符合“樣本數(shù)/變量數(shù)≧5”的經(jīng)驗(yàn)規(guī)則.M2與M1相比,復(fù)相關(guān)系數(shù)(R)僅降低0.002,而變量數(shù)由9個(gè)減少到3個(gè),大大降低了模型的復(fù)雜程度.再次對(duì)M2進(jìn)行回歸診斷發(fā)現(xiàn)3個(gè)變量的t絕對(duì)值均大于2(其中最小為5.128),而VIF值表現(xiàn)為顯著降低(最大為30.962),從而證實(shí)該模型具有較高的質(zhì)量.
為說(shuō)明模型(M2)的穩(wěn)定性和可靠性,采用Jackknife[9]法對(duì)模型進(jìn)行了穩(wěn)健性檢驗(yàn).每次從34個(gè)化合物中去掉化合物序號(hào)中個(gè)位數(shù)分別是0,1,2,…,9的分子,剩余化合物作為建模組,根據(jù)方程 (4)的形式進(jìn)行回歸.重復(fù)10次,所得Jackknifed的 R和SD值列于表2.
其中 R值最大為0.965、最小為0.931,平均值為0.949.SD值最大為0.465、最小為0.356,平均值為0.440.從這十組數(shù)據(jù)可以看出,相關(guān)系數(shù)及標(biāo)準(zhǔn)偏差均波動(dòng)不大,基本上呈正態(tài)分布,說(shuō)明回歸模型具有可接受的總體穩(wěn)健性及良好的預(yù)測(cè)能力.另外,“留一法”對(duì)模型(M2)進(jìn)行交叉檢驗(yàn)的復(fù)相關(guān)系數(shù)(Rcv)值為0.915,這比原模型的復(fù)相關(guān)系數(shù)(R)值0.949略低;交叉檢驗(yàn)標(biāo)準(zhǔn)偏差(SDcv)值為0.566,也只是比原模型的標(biāo)準(zhǔn)偏差(SD)值0.443略大,這也說(shuō)明所建模型的穩(wěn)定性與預(yù)測(cè)能力均較為理想.
方程(4)中的 x3表示化合物第三類頂點(diǎn)原子自身狀態(tài)值,x5表示第一類原子與第一類原子相互作用值,x7表示第一類原子與第三類原子相互作用值,因此第一類及第三類原子對(duì)該樣本集化合物的水溶性(-lgSw)有較大的影響.即苯環(huán)上的取代基越多、分布越緊密、末端原子電性越強(qiáng),化合物的水溶性(-lgSw)值就越大.17號(hào)化合物苯環(huán)上取代基最多、并且分布緊密、末端原子為Cl原子(電負(fù)性較強(qiáng)),因而該化合物的水溶性(-lgSw)值最大.另外,14、15、32號(hào)化合物,取代基也較多,也有類似表現(xiàn).模型(M2)對(duì)34個(gè)化合物的水溶性(-lgSw)的估計(jì)值列于表1中-lgSw(Cal.)欄.模型對(duì)某些樣本的預(yù)測(cè)誤差過(guò)大,可能是由于其本身的分子結(jié)構(gòu)特殊性所造成的,也可能是實(shí)驗(yàn)數(shù)據(jù)本身就存在某些誤差,從而影響計(jì)算結(jié)果.當(dāng)然也有可能是分子結(jié)構(gòu)表征方法不夠完善,本方法是基于分子的二維平面結(jié)構(gòu),而分子的實(shí)際結(jié)構(gòu)是三維的.這些問(wèn)題在今后的研究中都應(yīng)該予以考慮.
表2 模型(M2)的穩(wěn)健性檢驗(yàn)Tab.2 Robustness test of the model(M2)
本文將分子頂點(diǎn)及頂點(diǎn)間的相互作用值對(duì)分子性質(zhì)的貢獻(xiàn)用于34個(gè)芳烴類化合物水溶性(-lgSw)的研究,取得的結(jié)果滿意.本文分子結(jié)構(gòu)表征法與現(xiàn)今流行的三維分子建模法如比較分子場(chǎng)法(CoMFA)[3,4]相比,不需要考慮構(gòu)象的疊加,計(jì)算相對(duì)較為簡(jiǎn)便.運(yùn)用多元線性回歸結(jié)合逐步回歸構(gòu)建了2個(gè)預(yù)測(cè)模型,經(jīng)比較發(fā)現(xiàn)模型(M2)具有最佳的模擬結(jié)果.模型經(jīng)Jackknife法和交叉驗(yàn)證法檢驗(yàn),具有可接受的總體穩(wěn)健性及良好的預(yù)測(cè)能力,用該模型對(duì)34個(gè)芳烴類化合物的水溶性(-lgSw)進(jìn)行了模擬,模擬結(jié)果與實(shí)驗(yàn)結(jié)果間的誤差較小.模型(M2)對(duì)芳烴類化合物水溶性(-lgSw)具有一定的預(yù)測(cè)能力,在缺乏實(shí)驗(yàn)數(shù)據(jù)的情況下,模型的預(yù)測(cè)值具有一定的參考價(jià)值.
[1]隆興興,牛軍峰,史姝瓊.鄰苯二甲酸酯類化合物正辛醇-水分配系數(shù)的QSPR研究 [J].環(huán)境科學(xué),2006,27(11):2318-2322.
[2]廖立敏,梅 虎,鄭懷禮,等.大氣中痕量揮發(fā)性有機(jī)物的結(jié)構(gòu)表征和保留時(shí)間的估計(jì)與預(yù)測(cè) [J].環(huán)境化學(xué),2007,26(6):838-840.
[3]楊 嵩,萬(wàn) 堅(jiān),陳 婷,等.α-氧代膦酸酯類衍生物的CoMFA研究[J].華中師范大學(xué)學(xué)報(bào):自然科學(xué)版,2006,40(1):58-59,74.
[4]萬(wàn) 堅(jiān),張青葉,劉瑞華,等.HMG-CoA還原酶抑制劑的3D-QSAR研究[J].華中師范大學(xué)學(xué)報(bào):自然科學(xué)版,2005,39(4):487-5489.
[5]楊光富,楊華錚.嘧啶(硫)醚類除草劑的非線性QSAR研究[J].華中師范大學(xué)學(xué)報(bào):自然科學(xué)版,2001,35(1):30-34.
[6]王連生,韓朔睽.有機(jī)污染化學(xué)進(jìn)展[M].北京:化學(xué)工業(yè)出版社,1995:14-17.
[7]Hall L H,Kier L B.Electrotopological state index for atom types:a novel combination of electronic,topological,and valence state information[J].J Chem Inf Comput Sci,1995,35:1039-1045.
[8]Limin Liao,Hu Mei,Jianfeng Li,et al.Estimation and prediction on retention times of components from essential oil of paulownia tomentosa flowers by molecular electronegativity distance vector[J].J Mol Struct(THEOCHEM),2008,850:1-8.
[9]Lili Sun,Liping Zhou,Yu Yu,et al.QSPR study of polychlorinated diphenyl ethers by molecular electronegativity distance vector(MEDV-4)[J].Chemosphere,2007,66:1039-1051.
[10]Shushen Liu,Chunsheng Yin,Shaoxi Cai,et al.Molecular structural vector description and retention index of polycyclic aromatic hydrocarbons[J].Chemom Intell Lab Syst,2002,61:3-15.
Abstract:In order to explore the relationship between water-solubility and structure of aromatic compounds,values of molecular vertexes and their interaction were proposed to describe the structures of aromatic compounds.Through multiple linear regression(MLR)and stepwise regression,two models of-lgSwwere obtained.By comparison,model(M2)showed better results of simulation.The correlation coefficient(R)of the model was 0.949 and the standard deviation(SD)of the model was 0.443.Jackknife method was used to test its stability,the results showed that the regression model with acceptable stability and good predictive ability.In addition,the model was evaluated by performing the cross-validation with the leave-one-out(LOO)procedure.The cross-verification multiple correlation coefficient(RCV)and the standard deviation(SDCV)were 0.915 and 0.566,respectively.This also showed that the stability and predictive ability of the model was desirable.
Key words:environmental chemistry;arene;water-solubility;structural descriptors;quantitative structure-property relationship
Study on quantitative structure-water-solubility relationship of aromatic compounds
LIAO Limin1,2,ZHU Jun1,LI Jianfeng1,2,LEI Guangdong1
(1.College of Resource and Environment Science,Neijiang Normal University,Neijiang,Sichuan 641112;2.College of Chemistry and Life Science,Neijiang Normal University,Neijiang,Sichuan 641112)
O641;O625
A
1000-1190(2010)04-0610-04
2010-05-29.
四川省教育廳青年基金資助項(xiàng)目(09ZB036);四川省科技廳應(yīng)用基礎(chǔ)項(xiàng)目(2008J Y0121).
*通訊聯(lián)系人.E-mail:leiguangd@163.com;liaolimin523@126.com.