劉紅艷,李柏林,汪啟兵,馬 鈺,易忠勝,王秀麗
(桂林理工大學(xué)a.廣西高校食品安全與檢測(cè)重點(diǎn)實(shí)驗(yàn)室;b.化學(xué)與生物工程學(xué)院,廣西桂林 541004)
VSMVI方法預(yù)測(cè)取代芳烴類化合物淡水發(fā)光菌的毒性
劉紅艷,李柏林,汪啟兵,馬 鈺,易忠勝,王秀麗
(桂林理工大學(xué)a.廣西高校食品安全與檢測(cè)重點(diǎn)實(shí)驗(yàn)室;b.化學(xué)與生物工程學(xué)院,廣西桂林 541004)
選取2組取代芳烴類共53個(gè)化合物為目標(biāo)化合物,以Dragon描述符表征其分子結(jié)構(gòu)信息,采用基于變量相互作用的變量篩選方法(VSMVI)對(duì)訓(xùn)練集化合物進(jìn)行變量尋優(yōu)。以Dragon描述符為自變量,以化合物的毒性值作為因變量,然后根據(jù)化合物樣本數(shù)和奧卡姆剃刀原則,運(yùn)用通用變量篩選與建模程序(GVSMP)中線性建模的最優(yōu)建模法,建立了化合物分子結(jié)構(gòu)與其毒性間的相互關(guān)系模型——定量結(jié)構(gòu)-毒性關(guān)系 (QSTR)模型。結(jié)果表明,模型的復(fù)相關(guān)系數(shù)R2和交互驗(yàn)證相關(guān)系數(shù)Q2LOO均在0.90以上,所構(gòu)建的模型均具有較高的擬合能力和預(yù)測(cè)能力。此外,通過(guò)模型校驗(yàn)方法對(duì)模型進(jìn)行校驗(yàn),也顯示出模型具有較好的外部估計(jì)能力。
取代芳烴類化合物;定量結(jié)構(gòu)-毒性關(guān)系;發(fā)光菌毒性;Dragon描述符
環(huán)境中取代苯類的污染與危害已引起廣泛關(guān)注。它們是一類具有毒性、親電性、脂溶性及不易降解等特性的化合物,種類繁多、用途廣泛,可以作為重要的化工產(chǎn)品或中間體,是炸藥、染料、農(nóng)藥、醫(yī)藥、除草劑及殺菌劑等合成的中間體,同時(shí)也是農(nóng)藥、醫(yī)藥、除草劑等的降解產(chǎn)物。因其含有苯環(huán),苯環(huán)的親電性致使其具有麻醉、致畸、致癌、致突變等作用[1]。在日常生活中,人們有意或無(wú)意地排入環(huán)境中的取代苯類化合物不計(jì)其數(shù),無(wú)法用實(shí)驗(yàn)的方法一一測(cè)定各化合物的毒性,再加上傳統(tǒng)的實(shí)驗(yàn)方法費(fèi)時(shí)、費(fèi)力、費(fèi)用昂貴且具有滯后性及一些化合物尚無(wú)標(biāo)準(zhǔn)樣品等,因此,尋找一種簡(jiǎn)便、快速且靈敏度高的化合物毒性檢測(cè)或預(yù)測(cè)方法顯得尤為重要,通過(guò)研究化合物分子結(jié)構(gòu)參數(shù)(化學(xué)描述符)與其毒性間的關(guān)系即定量結(jié)構(gòu)-毒性相關(guān)關(guān)系(QSTR)并構(gòu)建相關(guān)QSTR模型用以預(yù)測(cè)相關(guān)化合物的毒性便成為最佳的選擇[2-10]。Wang等[3]研究了24種酚類衍生物對(duì)日本長(zhǎng)腿蛙蝌蚪的毒性作用并對(duì)其進(jìn)行了QSAR研究,建立了QSAR模型;Rudra等[5]通過(guò)QSTTR技術(shù)建立了部分離子液體對(duì)綠藻和水蚤的毒性預(yù)測(cè)模型;Fatemi等[6]則比較了多種QSTR建模方法建立的46個(gè)化合物對(duì)魚(yú)的毒性的模型優(yōu)劣。
為了預(yù)測(cè)相關(guān)化合物的毒性,筆者選取文獻(xiàn)報(bào)道的2組共53個(gè)取代芳烴類化合物為目標(biāo)化合物,以化合物對(duì)淡水發(fā)光菌的生物毒性作為毒性數(shù)據(jù),采用Dragon描述符表征化合物的分子結(jié)構(gòu)信息,用基于變量相互作用的變量篩選方法(VSMVI)[11]進(jìn)行變量尋優(yōu),然后采用通用變量篩選與建模程序(GVSMP)[12]中線性建模的最優(yōu)建模法分別對(duì)2組不同的化合物以及同一組化合物的不同變量進(jìn)行建模,探討了不同樣本集中樣本的相似度(分子結(jié)構(gòu)相似度),以及樣本數(shù)相同且滿足建模要求的情況下不同變量數(shù)建模對(duì)模型內(nèi)部預(yù)測(cè)能力、擬合能力、穩(wěn)定性及外部預(yù)測(cè)能力的影響,為快速、高效預(yù)測(cè)該類化合物的毒性提供理論依據(jù)。
1.1 數(shù)據(jù)來(lái)源
本文選取了2組來(lái)自不同文獻(xiàn)的共53種取代芳烴類化合物作為研究材料。其中,第1組化合物是來(lái)自于文獻(xiàn)[13-15]的38種取代芳烴類化合物,其對(duì)發(fā)光菌的毒性數(shù)據(jù)用-lg Ce50表示,其中Ce50為取代芳烴對(duì)淡水發(fā)光菌15 min的半數(shù)發(fā)光抑制濃度;第2組化合物是來(lái)自于文獻(xiàn)[16]的15種取代酚,其毒性用淡水發(fā)光菌——青海弧菌Q67的半數(shù)發(fā)光抑制濃度 (EC50)的負(fù)對(duì)數(shù)pEC50表示。為了與原文獻(xiàn)進(jìn)行更好的比較,本文中兩組化合物的訓(xùn)練集和檢驗(yàn)集劃分與原文劃分相同。兩組實(shí)驗(yàn)化合物的序號(hào)、名稱及對(duì)發(fā)光菌毒性值分別見(jiàn)表1和表2。
1.2 分子結(jié)構(gòu)描述符的計(jì)算與篩選
本研究中化合物的分子結(jié)構(gòu)描述符均采用Dragon 6軟件進(jìn)行計(jì)算,計(jì)算后得到第1組和第2組化合物的分子結(jié)構(gòu)描述符個(gè)數(shù)分別為691和633。為了提高篩選效率和質(zhì)量,在用VSMVI進(jìn)行變量尋優(yōu)之前,對(duì)上述分子描述符依照如下規(guī)則進(jìn)行預(yù)篩選:①刪除相關(guān)系數(shù)大于0.95的描述符對(duì)中的一個(gè),因?yàn)檫@樣的描述符對(duì)幾乎完全自相關(guān),如果最終的模型中包含描述符對(duì)中保留的描述符,則會(huì)將刪除的那個(gè)描述符代入模型中進(jìn)行驗(yàn)算(本研究中沒(méi)有這樣的描述符存在);②刪除描述符全部為零的樣本,以去除部分對(duì)建模明顯無(wú)用的信息。經(jīng)過(guò)篩選,最后兩組化合物的分子結(jié)構(gòu)描述符分別剩余639和623個(gè),然后以這些描述符為自變量,以取代芳烴對(duì)淡水發(fā)光菌的毒性數(shù)據(jù)為因變量,結(jié)合一般建模規(guī)則 (通常要求變量數(shù)不能比樣本數(shù)多,一般要求樣本數(shù)必須大于變量數(shù)的5倍)[17]、奧卡姆剃刀原則 (要求模型盡可能簡(jiǎn)單)及研究的實(shí)際選取變量進(jìn)行變量篩選并建模,得到相應(yīng)的QSTR模型。筆者采用的基于變量相互作用的變量篩選方法(VSMVI)[11]是基于變量間總是存在交互作用建立起來(lái)的。該方法有下列假設(shè):①每一個(gè)變量不可能單獨(dú)對(duì)某一系統(tǒng)作用,一個(gè)變量加入總會(huì)引入一定的信息;②一個(gè)變量數(shù)為vn的子集,總是由一個(gè)變量數(shù)為vn-1的子集和另外一個(gè)變量組成,變量子集循環(huán)尋優(yōu),直到變量數(shù)達(dá)到n/5或者指定值為止。尋優(yōu)過(guò)程總是在上一次的結(jié)果上增加一個(gè)變量并作為下次搜索的輸入,這種處理方式結(jié)合了前進(jìn)法[18]和數(shù)據(jù)分組處理(group methods of data handling,GMDH)[19]的思想;③ 尋找變量數(shù)為vn-1的最優(yōu)子集過(guò)程中,借鑒了基于預(yù)測(cè)的變量篩選與建模(variable selection and modeling method based on the prediction,VSMP)方法[20]引入?yún)?shù)rint和q2加快篩選速度的優(yōu)點(diǎn),這種方法融合了前進(jìn)法、VSMP和GMHD的優(yōu)點(diǎn),極大加快了變量篩選的速度。
表1 38種取代芳烴類化合物對(duì)發(fā)光菌毒性的實(shí)驗(yàn)值和計(jì)算值Table 1 Experimental and calculated toxicity values of 38 substituted aromatic compounds to photobacterium phosphoreum
表2 15種取代酚pEC50的實(shí)驗(yàn)值和計(jì)算值Table 2 Experiment and calculated values of pEC50for 15 substituted phenols
1.3 模型的校驗(yàn)與評(píng)價(jià)
模型的檢驗(yàn)遵循“OECD(organization for economic co-operation and development)規(guī)則”[21],其中OECD規(guī)則第4條規(guī)定模型的檢驗(yàn)必須包括內(nèi)部檢驗(yàn)和外部檢驗(yàn)。模型的內(nèi)部預(yù)測(cè)能力常用復(fù)相關(guān)系數(shù)R2、交叉驗(yàn)證系數(shù)Q及預(yù)測(cè)誤差(殘差)、標(biāo)準(zhǔn)偏差(SD)、均方根誤差(RMSE)來(lái)表示,一般認(rèn)為R2、Q越大,預(yù)測(cè)誤差、標(biāo)準(zhǔn)偏差、均方根誤差越小,模型的內(nèi)部預(yù)測(cè)能力越好。同時(shí),R2越大,模型的擬合能力越強(qiáng);Q越大、RMS E越小,模型的穩(wěn)定性越好。而外部檢驗(yàn)則采用檢驗(yàn)集檢驗(yàn)訓(xùn)練集模型時(shí)的Q大小來(lái)衡量模型外部估計(jì)能力的大?。?1-22],一般認(rèn)為Q越大,模型的外部預(yù)測(cè)能力越強(qiáng)。
另外,根據(jù)Golbraikh和Tropsha的研究[23-24],模型外部預(yù)測(cè)能力的好壞可用下列標(biāo)準(zhǔn)評(píng)判,一般認(rèn)為一個(gè)外部預(yù)測(cè)能力好的模型應(yīng)滿足下列要求:
2.1 38種取代芳烴類化合物建模的結(jié)果與討論
2.1.1 訓(xùn)練集建模 按文獻(xiàn)[15]的劃分方法劃分本組化合物的訓(xùn)練集和檢驗(yàn)集(檢驗(yàn)集化合物以“*”表示,見(jiàn)表1)。以經(jīng)過(guò)篩選得到的639個(gè)Dragon描述符為自變量,38種取代芳烴類化合物對(duì)淡水發(fā)光菌的毒性數(shù)據(jù)為因變量,以VSMVI方法進(jìn)行變量篩選,得到訓(xùn)練集的最優(yōu)子集模型的R2和Q2對(duì)變量數(shù)的曲線圖。由圖1可知,當(dāng)變量數(shù)為2時(shí),最優(yōu)子集模型的R2和Q2均已超過(guò)了0.90,且第2個(gè)變量和第3個(gè)變量間的復(fù)相關(guān)系數(shù)R2之差小于5%[22]。同時(shí),當(dāng)變量數(shù)為3、4、5、6時(shí)也滿足建模要求。為了討論在滿足建模要求的情況下,建模變量個(gè)數(shù)的多少對(duì)模型預(yù)測(cè)能力、擬合能力及穩(wěn)定性的影響,分別選取了2個(gè)和5個(gè)變量對(duì)訓(xùn)練集建模。
①38種取代芳烴類化合物訓(xùn)練集建模模型(2個(gè)變量建模)
圖1 訓(xùn)練集建模時(shí)R2/Q2與變量數(shù)的關(guān)系Fig.1 Relationship between R2/Q2and the number of variables in the training set ofmodeling
②38種取代芳烴類化合物訓(xùn)練集建模模型(5個(gè)變量建模)
其中:nt代表參與訓(xùn)練集建模的樣本數(shù);ntest代表檢驗(yàn)集樣本數(shù);mt代表參與訓(xùn)練集建模和驗(yàn)證的變量數(shù);R2表示模型的復(fù)相關(guān)系數(shù);R2pre為預(yù)測(cè)的相關(guān)系數(shù);Q2EXT表示留一法交叉驗(yàn)證的相關(guān)系數(shù); RMSEE為建模時(shí)的均方根誤差;RMSEV為交叉驗(yàn)證時(shí)的均方根誤差;RMSEP為預(yù)測(cè)時(shí)的均方根誤差;F為模型的Fisher統(tǒng)計(jì)量;模型括號(hào)中的“±”號(hào)表示回歸系數(shù)的標(biāo)準(zhǔn)偏差。
方程(1)的2個(gè)變量分別為:分子平均范德華體積(Mv)和GETAWAY描述符(HGM)。參與方程(2)建模的5個(gè)變量分別為:2D自相關(guān)描述符(GATS2p)、邊界鄰接指數(shù)(Eig07_AEA(dm))、3D-MoRSE描述符(Mor18m、Mor19v)和特征值描述符(SpMin1_Bh(v))。
訓(xùn)練集建模時(shí)訓(xùn)練集的計(jì)算值、檢驗(yàn)集的估計(jì)值與實(shí)驗(yàn)值的散點(diǎn)圖如圖2和圖3(圖中數(shù)字表示化合物的號(hào)數(shù))所示。
不難看出,圖2中訓(xùn)練集和檢驗(yàn)集的“融合”度及線性關(guān)系較好,說(shuō)明所建模型的外部預(yù)測(cè)能力較強(qiáng)。而通過(guò)比較圖2和圖3及式(1)和式(2)發(fā)現(xiàn),雖然模型(2)的R2和Q2均高于模型(1)的R2和Q2,但是圖3中檢驗(yàn)集的結(jié)果較分散,表明模型(2)可能存在“過(guò)擬合”現(xiàn)象。為此按照Golbraikh和Tropsha[22-23]的研究方法,對(duì)外部樣本進(jìn)行驗(yàn)證(表3)。從表中不難看出,模型(1)的外部預(yù)測(cè)能力優(yōu)于模型(2),故選取以2個(gè)變量建模的模型為最佳模型,即影響這38種取代芳烴類化合物對(duì)淡水發(fā)光菌的毒性數(shù)據(jù)的描述符為Mv和HGM,模型的實(shí)驗(yàn)值和計(jì)算值列于表1。從表1和圖2中可以看出,僅有38號(hào)化合物(間苯二酚)的計(jì)算值與實(shí)驗(yàn)值差異較大,原因可能是位于間位的2個(gè)羥基的取代增加其空間位阻使得范德華體積增加,使得模型的計(jì)算值增加,而實(shí)際檢測(cè)結(jié)果又偏小,從而使其誤差增大。
圖2 訓(xùn)練集建模(2個(gè)變量建模)時(shí)訓(xùn)練集的計(jì)算值和檢驗(yàn)集的估計(jì)值與實(shí)驗(yàn)值的散點(diǎn)圖Fig.2 Plots of experimental-lg Ce50versus calculated values of training set and test set(two variables)
圖3 訓(xùn)練集建模(5個(gè)變量建模)時(shí)訓(xùn)練集的計(jì)算值和檢驗(yàn)集的估計(jì)值與實(shí)驗(yàn)值的散點(diǎn)圖Fig.3 Plots of experimental-lg Ce50versus calculated values of training set and test set(five variables)
表3 模型的校驗(yàn)統(tǒng)計(jì)參數(shù)Table 3 Statistical parameters ofmodels
2.1.2 所建模型與其他文獻(xiàn)的比較 研究中將所建模型的參數(shù)和相關(guān)文獻(xiàn)的統(tǒng)計(jì)參數(shù)進(jìn)行了比較(表4):文獻(xiàn)[14]采用遺傳-偏最小二乘法(GAPLS)分別對(duì)全集和訓(xùn)練集進(jìn)行變量篩選、尋優(yōu),然后選取了5個(gè)與化合物毒性最為相關(guān)的變量分別用多元線性回歸法(MLR)和支持向量機(jī)法(SVM)建立了該組化合物結(jié)構(gòu)與其對(duì)發(fā)光菌的毒性(-lg Ce50)之間的QSAR模型;文獻(xiàn)[15]采用密度泛函法(DFT)篩選分子描述符,用逐步回歸法構(gòu)建了該組化合物分子結(jié)構(gòu)與其對(duì)發(fā)光菌毒性間QSAR模型。由表4知,與文獻(xiàn)[14]相比,本文模型的R2和Q2稍差一些,但是參與建模的變量數(shù)遠(yuǎn)遠(yuǎn)小于文獻(xiàn)中的變量數(shù),通過(guò)前面的討論可知,變量數(shù)的增加將大大增加模型的R2和Q2,而模型R2和Q2的數(shù)值大并不能完全表明模型的外部預(yù)測(cè)能力好。與文獻(xiàn)[15]相比,無(wú)論是全集建模,還是訓(xùn)練集建模,本文在變量數(shù)較少的情況下所建模型的R2和Q2均大于文獻(xiàn),表明本文所建的QSAR模型具有更好的擬合能力和預(yù)測(cè)能力。
表4 38種取代芳烴類化合物QSAR模型的比較Table 4 Comparison of QSARmodels of38 substituted aromatic compounds
2.2 15種取代酚類化合物建模時(shí)的結(jié)果與討論
2.2.1 模型的構(gòu)建 按照文獻(xiàn)[16]劃分訓(xùn)練集和檢驗(yàn)集的方法將本組化合物進(jìn)行訓(xùn)練集和檢驗(yàn)集的劃分 (表2)。以經(jīng)過(guò)篩選得到的623個(gè)Dragon描述符為自變量,15種取代酚類化合物對(duì)淡水發(fā)光菌的毒性數(shù)據(jù)為因變量,以VSMVI方法對(duì)訓(xùn)練集化合物進(jìn)行變量篩選,不同變量數(shù)下最優(yōu)子集模型的R2/Q2對(duì)變量數(shù)作圖,結(jié)果如圖4所示。可知,當(dāng)變量數(shù)由2增加為3時(shí),R2和Q2增加很小,故選擇變量PW5(拓?fù)渲笖?shù))和P_VSA_log P_4(基于log P的范德華表面積)建立最佳模型,所建的2個(gè)變量的模型如下:
2.2.3 模型的預(yù)測(cè)能力、穩(wěn)定性及擬合能力 由模型(3)及其參數(shù)可知,建模時(shí)模型的復(fù)相關(guān)系數(shù)R2=0.973 0,交叉驗(yàn)證系數(shù)Q=0.955 8,建模時(shí)的均方根誤差RMSEE=0.097 2,交叉驗(yàn)證時(shí)的均方根誤差RMSEV=0.124 5,所建模型顯然具有較強(qiáng)的內(nèi)部預(yù)測(cè)能力、擬合能力和穩(wěn)定性。為直觀地表示模型的內(nèi)部預(yù)測(cè)能力,用化合物毒性的實(shí)驗(yàn)值對(duì)計(jì)算值作圖,結(jié)果如圖5所示。圖的線性關(guān)系越好,表明該模型的內(nèi)部預(yù)測(cè)能力越好。
圖4 訓(xùn)練集建模時(shí)R2/Q2與變量數(shù)的關(guān)系Fig.4 Relationship between R2/Q2and the number of variables in the training set ofmodeling
圖5 訓(xùn)練集建模時(shí)訓(xùn)練集的計(jì)算值和檢驗(yàn)集的估計(jì)值與實(shí)驗(yàn)值的散點(diǎn)圖Fig.5 Plots of experimental pEC50versus calculated values of training set and test set
本實(shí)驗(yàn)采用Dragon描述符表征了2組共53個(gè)取代苯類化合物的分子特征,采用基于變量相互作用的變量篩選方法(VSMVI)進(jìn)行變量尋優(yōu),然后通過(guò)通用變量篩選與建模程序(GVSMP)中線性建模的最優(yōu)建模法構(gòu)建QSTR模型。構(gòu)建的所有模型都具有較好的估計(jì)能力和預(yù)測(cè)能力。模型的復(fù)相關(guān)系數(shù)R2和交互驗(yàn)證相關(guān)系數(shù)Q2均在0.90以上。此外,通過(guò)模型校驗(yàn)方法對(duì)模型進(jìn)行校驗(yàn),也顯示出模型具有較好的外部估計(jì)能力。通過(guò)對(duì)本文所構(gòu)建的模型進(jìn)行對(duì)比發(fā)現(xiàn),當(dāng)變量數(shù)均滿足建模要求時(shí),隨著建模變量數(shù)的增加,模型的R2和Q2均增加,但模型可能會(huì)存在過(guò)擬合現(xiàn)象,模型的外部預(yù)測(cè)能力有可能會(huì)下降。
[1]Yao X J,Panaye A,Doucet JP,etal.Comparative classification study of toxicitymechanisms using support vectormachines and radial basis function neural networks[J].Analytica Chimia Acta,2005,535(1-2):259-273.
[2]Xie Y J,Liu H,Liu H X,et al.Determination of solubilities and n-octanol/water partition coefficients and QSPR study for substituted phenols[J].Bulletin of Environmental Contaminaion and Toxicology,2008,80(4):319-323.
[3]Wang X,Dong Y,Xu S,et al.Quantitative structure-activity relationships for the toxicity to the tadpole Rana japonica of selected phenols[J].Bulletin of Environmental Contamination and Toxicology,2000,64(6):859-865.
[4]Lu G H,Wang C,Wang P F,et al.Joint toxicity evaluation and QSARmodeling of aromatic amines and phenols to bacteria[J].Bulletin of Environmental Contaminaion and Toxicology,2009,83(1):8-14.
[5]Das R N,Roy K,Popelier P L A.Interspecies quantitative structure-toxicity-toxicity(QSTTR)relationship modeling of ionic liquids.Toxicity of ionic liquids to V.fischeri,D.magna and S.vacuolatus[J].Ecotoxicology and Environmental Safety,2015,122:497-520.
[6]FatemiM H,Shahroudi EM,Amini Z.Developmentof quantitative interspecies toxicity relationship modeling of chemicals to fish[J].Journal of Theoretical Biology,2015,380:16-23.
[7]Zhao Y S,Zhao JH,Huang Y,et al.Toxicity of ionic liquids:Database and prediction via quantitative structure-activity relationship method[J].Journal of Hazardous Materials,2014,278:320-329.
[8]Can A.Quantitative structure-toxicity relationship(QSTR) studies on the organophosphate insecticides[J].Toxicology Letters,2014,230:434-443.
[9]Mo L Y,Liu H Y,Yi Z S,et al.QSTR study on the freshwater photobacteria toxicity of substituted benzenes[J].Chinese Journal of Structure Chemistry,2011,30(10):1403-1411.
[10]呂玉銀,郭偉民,劉樹(shù)深,等.部分取代芳烴發(fā)光菌毒性的HQSAR分析 [J].桂林工學(xué)院學(xué)報(bào),2007,27 (3):397-401.
[11]Yi Z S,Zhang A Q.A QSAR study of environmental estro-gens based on a novel variable selection method[J].Molecules,2012,17:6126-6145.
[12]易忠勝.通用變量篩選與建模程序 [P].中國(guó): 2015SR123587,2015-07-03.
[13]Yu R L,Hu G R,Zhao Y H.Comparative study of four QSAR models of aromatic compounds to aquatic organisms[J].Journal of Environmental Sciences,2002,14(4): 552-557.
[14]馮琳琳,張兆志,王新穎,等.取代芳烴對(duì)發(fā)光菌急性毒性的QSAR研究 [J].常州大學(xué)學(xué)報(bào):自然科學(xué)版,2012,24(4):8-12.
[15]顧云蘭,陶建清,費(fèi)正皓,等.DFT法研究取代芳烴結(jié)構(gòu)與毒性的定量關(guān)系[J].計(jì)算機(jī)與應(yīng)用化學(xué),2009,26 (10):1303-1306.
[16]張輝,李娜,馬梅,等.15種取代酚對(duì)淡水發(fā)光菌 Q67的毒性及定量構(gòu)效分析[J].生態(tài)毒理學(xué)報(bào),2012,7 (4):373-380.
[17]Topliss JG,Edwards R P.Chance factors in studiesofquantitative structure-activity relationships[J].Journal ofMedicinal Chemistry,1979,22(10):1238-1244.
[18]方開(kāi)泰,全輝,陳慶云.實(shí)用回歸分析[M].北京:科學(xué)出版社,1988.
[19]Farlow S J.The GMDH algorithm of ivakhnenko[J].The American Statistician,1981,35(4):210-215.
[20]Liu SS,Liu H L,Yin C S,et al.VSMP:A novel variable selection and modelingmethod based on the prediction[J].Journal of Chemical Information and Computer Sciences,2003,43(3):964-969.
[21]OECD principles for the validation for regulatory purposes of (quantitative)structure-Activity relationship models[EB/ OL].[2015-12-25]http://www.oecd.org/chemicalsafety/risk-assessment/37849783.pdf.
[22]崔毅,蔣軍成,潘勇,等.羧酸及其衍生物急性毒性的QSAR研究[J].環(huán)境科學(xué)與技術(shù),2010,33(4):29-34.
[23]Golbraikh A,Tropsha A.Beware of q2![J].JournalofMolecular Graphics and Modelling,2002,20(4):269-276.
[24]Tropsha A,Gramatica P,Gombar V K.The importance of being earnest:Validation is the absolute essential for successful application and interpretation of QSPR models[J].QSAR&Combinatorial Science,2003,22(1):69-77.
Toxicity predicting of substituted aromatic com pounds to freshwater lum inescent bacteria by VSMVImethed
LIU Hong-yan,LIBo-lin,WANG Qi-bing,MA Yu,YIZhong-sheng,WANG Xiu-li
(a.Guangxi University Key Laboratory of Food Safety and Detection;b.College of Chemistry and Bioengineering,Guilin University of Technology,Guilin 541004,China)
The Dragon descriptors are used to characterize themolecular structure of two groups consisting of53 substituted benzene compounds.All compounds and training sets compoundswere optimized respectively by the variable selection method based on variable interaction.On the principle of the number sample compounds and Occam'razor compounds,using Dragon descriptor as independent variable,the toxic value of the compound was used as dependent variable.Then optimal linearmodeling construction act,which is from the General Variable Select and Modeling Program(GVSMP),is used to establish the relationship between toxicant quality(dependent variable)and the compound of inter-quantitative structure-toxicity relationship.The determination coefficient(R2)and the leave-one-out cross-validated correlation coefficient(Q2)are all above 0.90.The results show that themodels have high internal predictive abilities and fitting abilities.In addition,the models were verified by the relevant verification method,and have good external estimation ability.
substituted benzene compounds;quantitative structure-toxicity relationship;luminous bacteria toxicity;Dragon descriptors;variable selection method based on variable interaction
X171.5;X172;X131
:A
2015-12-25
國(guó)家自然科學(xué)基金項(xiàng)目 (21467006);廣西自然科學(xué)基金項(xiàng)目 (桂科自2014GXNSFAA118034);廣西高校食品安全與檢測(cè)重點(diǎn)實(shí)驗(yàn)室項(xiàng)目
劉紅艷 (1970—),女,碩士,副教授,研究方向:環(huán)境理論化學(xué)與環(huán)境污染物化學(xué),lhyglite@126.com。
劉紅艷,李柏林,汪啟兵,等.VSMVI方法預(yù)測(cè)取代芳烴類化合物淡水發(fā)光菌的毒性[J].桂林理工大學(xué)學(xué)報(bào),2016,36(4):771-777.
1674-9057(2016)04-0771-07
10.3969/j.issn.1674-9057.2016.04.020