国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

苯砜基羧酸酯類化合物急性毒性的預(yù)測(cè)模型

2016-07-24 14:15陳艷張昌民瞿翠玲
關(guān)鍵詞:電性羧酸矢量

陳艷,張昌民,瞿翠玲

(1.徐州工程學(xué)院化學(xué)化工學(xué)院,江蘇徐州221111; 2.江蘇藍(lán)豐生物化工股份有限公司,江蘇新沂221400)

苯砜基羧酸酯類化合物急性毒性的預(yù)測(cè)模型

陳艷1,張昌民2,瞿翠玲1

(1.徐州工程學(xué)院化學(xué)化工學(xué)院,江蘇徐州221111; 2.江蘇藍(lán)豐生物化工股份有限公司,江蘇新沂221400)

用MATLAB軟件編程計(jì)算了56個(gè)苯砜基羧酸酯類化合物分子電性距離矢量(mk),同時(shí)用Hyper chem 8.0程序包計(jì)算了它們的理化參數(shù).這兩類結(jié)構(gòu)參數(shù)被用于建立苯砜基羧酸酯類化合物急性毒性的預(yù)測(cè)模型.通過最佳變量子集回歸的方法構(gòu)建多元線性回歸模型:-lg EC50=4.724+30.275m7+0.061m24+6.468m85+0.880m90-0.003V-0.096(lg P)2.該模型具有良好的穩(wěn)健性和較強(qiáng)的預(yù)測(cè)能力.以模型中的6個(gè)參數(shù)為人工神經(jīng)網(wǎng)絡(luò)(ANN)輸入層,設(shè)定6∶4∶1的網(wǎng)絡(luò)結(jié)構(gòu),用BP算法構(gòu)建人工神經(jīng)網(wǎng)絡(luò)模型,其相關(guān)系數(shù)R2為0.986.結(jié)果表明,神經(jīng)網(wǎng)絡(luò)BP算法模型的預(yù)測(cè)結(jié)果優(yōu)于多元線性回歸模型的預(yù)測(cè)結(jié)果.

苯砜基羧酸酯;急性毒性;分子電性距離矢量;人工神經(jīng)網(wǎng)絡(luò);定量結(jié)構(gòu)-活性相關(guān)

0 引言

苯砜基羧酸酯類化合物在殺蟲劑、除草劑和驅(qū)蟲劑的合成以及石油、冶金工業(yè)方面有著廣泛的應(yīng)用[1],但此類化合物會(huì)在一定程度上污染環(huán)境,隨著人們環(huán)保意識(shí)的增強(qiáng),其對(duì)環(huán)境的影響也越來越受到關(guān)注.定量結(jié)構(gòu)-活性相關(guān)(QSAR)研究提供了一個(gè)節(jié)省時(shí)間和資金的方法,在有機(jī)化合物對(duì)環(huán)境影響的評(píng)估方面起著重要的作用,也是對(duì)有機(jī)化學(xué)品進(jìn)行危害評(píng)價(jià)的有效手段之一[2].QSAR研究的關(guān)鍵是分子描述符的選擇,本研究以分子電性距離矢量和理化參數(shù)作為結(jié)構(gòu)參數(shù)全面表征了苯砜基羧酸酯類化合物的分子結(jié)構(gòu),并以此建立了該化合物急性毒性的六元QSAR模型,其相關(guān)系數(shù)(R2)為0.896.采用誤差反向傳播(back-propagation,BP)算法,模型的相關(guān)性和預(yù)測(cè)能力均得到進(jìn)一步的提高[3].

1 數(shù)據(jù)與研究方法

1.1 數(shù)據(jù)的來源

56種苯砜基羧酸酯類化合物的母體結(jié)構(gòu)見圖1,其分子結(jié)構(gòu)及急性毒性數(shù)據(jù)(-lg EC50)見表1,數(shù)據(jù)來自文獻(xiàn)[2].

1.2 結(jié)構(gòu)參數(shù)的計(jì)算方法

1.2.1 分子電性距離矢量的計(jì)算方法

分子電性距離矢量是劉樹深等[4-6]克服多種著名拓?fù)渲笖?shù)的局限提出的較為全面地反映分子的幾何、拓?fù)湟约半娦蕴卣鞯慕Y(jié)構(gòu)參數(shù),該理論把分子中的非氫原子分成13種原子類型(Ki).

其中:Zi、Ji分別為原子的價(jià)電子層數(shù)和非氫原子i在分子中所連接的其它非氫原子的數(shù)目,例如—O—中氧原子的類型KO=4×(6-4)+2=10,羰基O中氧原子的類型KO=4×(6-4)+1=9.

按照文獻(xiàn)[4-6]的計(jì)算方法,利用MATLAB軟件編程[7-8]計(jì)算56個(gè)苯砜基羧酸酯的分子距離矢量mk,去掉無統(tǒng)計(jì)意義的自變量,得到44個(gè)拓?fù)渲笖?shù)作為結(jié)構(gòu)參數(shù).

1.2.2 理化參數(shù)的計(jì)算方法

采用Hyper-chem8.0程序包計(jì)算了各化合物的理化參數(shù):V(體積)、SAA(近似表面積)、SAG(網(wǎng)格表面積)、lg P(辛醇水分配系數(shù))、(lg P)2,得到5個(gè)理化參數(shù)作為結(jié)構(gòu)參數(shù).

1.2.3 多元線性回歸分析和神經(jīng)網(wǎng)絡(luò)分析

將每種化合物的上述結(jié)構(gòu)參數(shù)作為自變量集,苯砜基羧酸酯的急性毒性(-lg EC50)作為因變量,應(yīng)用最佳子集回歸的方法進(jìn)行變量的壓縮和篩選,選擇最佳變量組合,構(gòu)建相應(yīng)的QSAR模型.采用逐一剔除法(leave-one-out,LOO)計(jì)算交叉驗(yàn)證系數(shù)(R2

CV)對(duì)模型的穩(wěn)定性及預(yù)測(cè)能力進(jìn)行檢驗(yàn),一般公認(rèn)R2CV≥0.5,所建模型具有良好的穩(wěn)定性及較強(qiáng)的預(yù)測(cè)能力[9].

采用QSAR模型中的最佳變量組合為神經(jīng)網(wǎng)絡(luò)的輸入層,利用人工神經(jīng)網(wǎng)絡(luò)的BP算法,建立神經(jīng)網(wǎng)絡(luò)模型,模型的相關(guān)性顯著提高.

2 多元線性回歸模型的構(gòu)建和分析討論

2.1 多元線性回歸模型的構(gòu)建

將由上述自變量集及因變量集輸入MINITAB統(tǒng)計(jì)軟件,利用其中的Best Subsets Regression方法,選擇最佳變量組合,建立最佳QSAR模型為:

其中:n、R、R2、R2adj、S、F分別為樣本數(shù)、相關(guān)系數(shù)、校正判定系數(shù)、估計(jì)標(biāo)準(zhǔn)誤差、Fischer檢驗(yàn)值.用式

(2)計(jì)算所得的預(yù)測(cè)值列于表1(Prep.1),平均誤差為0.154.

2.2 模型的質(zhì)量檢驗(yàn)

利用MINITAB分析軟件計(jì)算模型(式(2))的交叉驗(yàn)證系數(shù)(R2CV)為0.844.符合R2CV≥0.5的標(biāo)準(zhǔn),同時(shí)該模型的R2CV比R2(0.896)略小,交叉驗(yàn)證標(biāo)準(zhǔn)偏差SCV(0.193)比S(0.157)略大,而且所建模型的R2adj與R2CV相差為0.039,遠(yuǎn)小于0.3.這些均說明該模型具有良好的穩(wěn)定性和預(yù)測(cè)能力,且沒有過擬合、不存在不相關(guān)的其他變量或數(shù)據(jù)中存在離域點(diǎn)[10].

另外,根據(jù)一般的統(tǒng)計(jì)標(biāo)準(zhǔn),一個(gè)具有良好預(yù)測(cè)能力的QSAR模型,其R2≥0.80[11].模型(式(2))的R2=0.896,反映了影響苯砜基羧酸酯化合物急性毒性的89.6%,僅有10.4%的隨機(jī)因素未被揭示,因此,具有良好預(yù)測(cè)能力.

2.3 模型(式(2))的物理意義

進(jìn)入模型的電性距離矢量有m7、m24、m85、m90,它們依次代表第一類碳原子(C-)與第七類氮原子(>N-)、第二類碳原子(-C-)與第十二類硫原子(>S<)、第十類氧原子(-O-)與第十三類鹵原子(-X)、第十二類硫原子(>S<)與第十三類鹵原子(-X)之間的相互作用.其中-CH3、-CH2-為非極性基團(tuán),-NO2、-SO2-、-O-、-X為極性基團(tuán),它們之間的相互作用分別反映了分子的疏水能力和親水能力.模型中還有理化參數(shù)V和(lg P)2,其中(lg P)2進(jìn)入模型進(jìn)一步驗(yàn)證了疏水性對(duì)急性毒性的影響.另外,分子的體積也是影響因素之一,分子的體積越大,空間位阻效應(yīng)越大,化合物越不容易進(jìn)入生物的體內(nèi),則其毒性越小.

3 人工神經(jīng)網(wǎng)絡(luò)模型

人工神經(jīng)網(wǎng)絡(luò)[12-13]作為一種新的數(shù)學(xué)模型,由于具有出色的非線性函數(shù)逼近能力,可實(shí)現(xiàn)高符合度的網(wǎng)絡(luò)輸入符與輸出目標(biāo)之間的非線性映射關(guān)系[14].其中廣泛使用的是Rumelhart等在1986年提出的前饋型神經(jīng)計(jì)算模型和用于調(diào)節(jié)該模型神經(jīng)元聯(lián)結(jié)強(qiáng)度的誤差往回傳播學(xué)習(xí)算法,即著名的BP網(wǎng)絡(luò)[15-16].本研究采用Matlab提供的神經(jīng)網(wǎng)絡(luò)工具箱中的BP算法進(jìn)行建模,其中輸入層單元選用對(duì)苯砜基羧酸酯急性毒性起主要作用的6個(gè)結(jié)構(gòu)參數(shù),即多元線性回歸模型中的6個(gè)自變量m7、m24、m85、m90、V和(lg P)2.為了避免過訓(xùn)練和過擬合,根據(jù)許碌[17]和Andrea[18]的建議規(guī)則尋找最佳隱蔽層的單元數(shù)(H),即:

其中:N、M分別是樣本數(shù)和網(wǎng)絡(luò)總權(quán)重.M被定義為:

式中:I、H、Q分別為輸入層、隱蔽層和輸出層的單元數(shù).由于I=6,Q=1及N=56,可得3.056<H≤4.875.所以本研究采用6∶4∶1的網(wǎng)絡(luò)結(jié)構(gòu)建立模型.

在BP算法中,為了進(jìn)一步避免過擬合和過訓(xùn)練,將樣本分為3個(gè)集:訓(xùn)練集、驗(yàn)證集和測(cè)試集,各集化合物個(gè)數(shù)依次為33個(gè)、11個(gè)、12個(gè).由此建立的模型訓(xùn)練集、驗(yàn)證集和測(cè)試集的相關(guān)系數(shù)分別為0.991 0、0.996 4、0.997 0,總體的相關(guān)系數(shù)R為0.993 0(R2=0.986),彼此均比較接近,說明模型具有很高的穩(wěn)健性.該模型給出的預(yù)測(cè)值(見表2,列于Pre.2)與實(shí)驗(yàn)值非常接近,平均誤差為0.04,優(yōu)于多元線性回歸模型給出的預(yù)測(cè)值(見圖2).該模型的權(quán)重和偏置列于表2.

表2BP-ANN模型的權(quán)重和偏置Tab.2Weights and biases of BP-ANN model

4 結(jié)論

1)電性距離矢量和理化參數(shù)全面揭示了影響苯砜基羧酸酯急性毒性的本質(zhì)因素,由進(jìn)入模型的結(jié)構(gòu)參數(shù)可推測(cè)苯砜基羧酸酯的急性毒性主要和疏水性及分子體積有關(guān).

2)BP人工神經(jīng)網(wǎng)絡(luò)模型和多元線性回歸模型相比具有更好的相關(guān)性、穩(wěn)定性和預(yù)測(cè)能力.急性毒性和進(jìn)入模型的6個(gè)結(jié)構(gòu)參數(shù)呈現(xiàn)良好的非線性關(guān)系.利用BP-ANN預(yù)測(cè)模型預(yù)測(cè)苯砜基羧酸酯的急性毒性是可行的.本研究既可以有效地預(yù)測(cè)苯砜基羧酸酯的急性毒性,又對(duì)探討化合物急性毒性的機(jī)理提供一定的理論依據(jù).

[1]杭燁超,李方實(shí).苯砜基羧酸酯類化合物急性毒性的QSAR研究[J].南京工業(yè)大學(xué)學(xué)報(bào),2006,28(4):104-107.

[2]李吉來,杭燁超,耿彩云,等.苯砜基羧酸酯類急性毒性的QSAR研究[J].高等學(xué)?;瘜W(xué)學(xué)報(bào),2007,28(1):117-120.

[3]陳艷,岳瑋,王彬.含氮雜環(huán)化合物理化性質(zhì)和生物活性的QSPR/QSAR分析[J].武漢大學(xué)學(xué)報(bào)(理學(xué)版),2014,50(1):52-56.

[4]劉樹深,劉堰,李志良,等.一個(gè)新的分子電性距離矢量(MEDV)[J].化學(xué)學(xué)報(bào),2000,58(11):1 353-1 357.

[5]LIU S S,YIN C S,LI Z L,et al.QSAR study of steroid benchmark and dipeptides based on MEDV-13[J].Journal of Chemical Information and Computer Sciences,2001,41(2):321-329.

[6]LIU S S,LIU H L,YIN C S,et al.VSMP:a novel variable selection and modeling method based on the prediction[J].Journal of Chemical Information and Computer Sciences,2003,43(3):964-969.

[7]胡黔楠,梁逸曾,王亞麗,等.直觀隊(duì)列命名法的基本原理及其在矩陣與拓?fù)渲笖?shù)計(jì)算中的應(yīng)用[J].計(jì)算機(jī)與應(yīng)用化學(xué),2003,20(4):386-390.

[8]張婷,梁逸曾,趙晨曦,等.基于分子結(jié)構(gòu)預(yù)測(cè)氣相色譜程序升溫保留指數(shù)[J].分析化學(xué),2006,34(11):1 607-1 610.

[9]DOUGLAS M H,SUBHASH C B,DENISE M.Assessing model fit by cross-validation[J].Journal of Chemical Information and Computer Sciences,2003,43(2):579-586.

[10]馮長(zhǎng)君.手性有機(jī)酸保留指數(shù)的手性指數(shù)及原子類型電拓?fù)渲笖?shù)模型[J].物理化學(xué)學(xué)報(bào),2010,26(1):193-198.

[11]馮子雅,馮長(zhǎng)君.鹵代苯對(duì)呆頭魚、發(fā)光菌急性毒性的構(gòu)效關(guān)系研究[J].廣州化工,2013,41(6):16-18.

[12]WANG B C,QIAN J Z,F(xiàn)AN Y,et al.The QSAR study of flavonoid-metal complexes scavenging OH free radical[J].Journal of Molecular Structure,2014,1 075(5):204-212.

[13]ZHENG F,ZHAN M,HUANG X Q,et al.Modeling in vitro inhibition of butyrylcholinesterase using molecular docking,multilinear regression and artificial neural network approaches[J].Bioorganic&Medicinal Chemistry,2014,22(1):538-549.

[14]堵錫華,史小琴,馮長(zhǎng)君,等.基于野韭菜揮發(fā)性成分的色譜保留指數(shù)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014,49(1):468-473.

[15]馮長(zhǎng)君,沐來龍,楊偉華,等.用拓?fù)渲笖?shù)和神經(jīng)網(wǎng)絡(luò)研究有機(jī)污染物的生物富集因子[J].化學(xué)學(xué)報(bào),2008,66(19): 2 093-2 098.

[16]陳艷,堵錫華,吳雅萍.用拓?fù)渲笖?shù)和神經(jīng)網(wǎng)絡(luò)研究擬除蟲菊酯類農(nóng)藥的急性毒性[J].化學(xué)通報(bào),2014,77(4):341-345.

[17]許祿,邵學(xué)廣.化學(xué)計(jì)量學(xué)方法[M].2版.北京:科學(xué)出版社,2004:441.

[18]ANDREA T A,KALAYEH H.Applications of neural networks in quantitative structure-activity relationships of dihydrofolate reductase inhibitors[J].J Med Chem,1991,34(9),2 824-2 836.

(責(zé)任編輯:林曉)

Prediction model of the acute toxicity of phenylsulfonyl carboxylate compound

CHEN Yan1,ZHANG Changmin2,QU Cuiling1
(1.School of Chemistry and Chemical Engineering,Xuzhou Institute of Technology,Xuzhou,Jiangsu 221111,China; 2.Jiangsu Lanfeng Bio-chem Company,Xinyi,Jiangsu 221400,China)

The molecular electrongativity distance vector(mk)and physicochemical parameters of 56 phenylsulfonyl carboxylates were calculated by the software of MATLAB and Hyper chem8.0 for establishing the prediction model of the acute toxicity(-lg EC50)of these compounds.The multiple liner regression(MLR)model was constructed by leaps-and-bounds regression:-lg EC50=4.724+30.275m7+ 0.061m24+6.468m85+0.880m90-0.003V-0.096(lg P)2.The model is highly reliable and has good predictive ability.The six structural parameters were used as the input neurons of artificial neural network,and a 6∶4∶1 network architecture was employed.A satisfied model was constructed with the back-propagation algorithm,the correlation coefficient(R2)was 0.986.It can be concluded that the prediction results of BP-ANN model are better than MLR-QSAR model.

phenylsulfonyl carboxylates;acute toxicity;molecular electrongativity distance vector; artificial neural network;QSAR

O641

A

10.7631/issn.1000-2243.2016.06.0891

1000-2243(2016)06-0891-05

2015-02-08

陳艷(1968-),教授,主要從事有機(jī)化學(xué)及物質(zhì)構(gòu)效學(xué)方面研究,chenyan681110@126.com

國(guó)家自然科學(xué)基金資助項(xiàng)目(21272095)

猜你喜歡
電性羧酸矢量
一種適用于高軌空間的GNSS矢量跟蹤方案設(shè)計(jì)
矢量三角形法的應(yīng)用
基于神經(jīng)網(wǎng)絡(luò)的聚羧酸系超緩凝減水劑性能研究及應(yīng)用
攪拌對(duì)聚羧酸減水劑分散性的影響
攪拌站廢水對(duì)聚羧酸減水劑性能的影響
用于燃燒正電性金屬的合金的方法
推力矢量對(duì)艦載機(jī)安全起降的意義
基于半導(dǎo)體聚合物量子點(diǎn)的羧酸酯酶比率熒光傳感
于8塊沙三上亞段沉積微相研究
三角形法則在動(dòng)態(tài)平衡問題中的應(yīng)用
长子县| 施秉县| 应用必备| 浙江省| 南和县| 合江县| 通河县| 广安市| 营口市| 聊城市| 托克逊县| 河东区| 克什克腾旗| 雷山县| 安国市| 北宁市| 泰顺县| 连江县| 蒙山县| 怀化市| 广东省| 边坝县| 濮阳市| 台州市| 宁武县| 兰坪| 广东省| 福建省| 金塔县| 沾化县| 阿尔山市| 华蓥市| 辽宁省| 汝阳县| 伊金霍洛旗| 类乌齐县| 长子县| 色达县| 拉萨市| 佛坪县| 和平县|