国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于支持向量回歸的非線性變量篩選用于酚類化合物QSAR建模的研究

2014-04-29 00:44:03徐鏡善王凱袁哲明
安徽農(nóng)業(yè)科學(xué) 2014年13期

徐鏡善 王凱 袁哲明

摘要 首先基于支持向量回歸(SVR)依均方根誤差最小原則確定最優(yōu)核函數(shù),再以最優(yōu)核函數(shù)為基礎(chǔ),進行SVR非線性自變量篩選,最后以所選自變量進行建模預(yù)測。將該方法應(yīng)用于酚類化合物的QSAR研究,最優(yōu)核函數(shù)確定為徑向基核,最終保留自變量為疏水性參數(shù)(lgP)與拓撲指數(shù)(Am3)。結(jié)果表明:基于SVR進行變量篩選能有效地剔除無關(guān)自變量,進一步改進SVR對小樣本數(shù)據(jù)的建模預(yù)測能力。該方法在農(nóng)業(yè)環(huán)境毒性污染物的QSAR研究領(lǐng)域有較廣泛的應(yīng)用前景。

關(guān)鍵詞 支持向量回歸;自變量篩選;定量構(gòu)效關(guān)系;酚類化合物

中圖分類號 S11+1 文獻標識碼

A 文章編號 0517-6611(2014)13-03799-03

Abstract Firstly,the optimal kernel function was determined in accordance with the minimum root mean square error based on support vector regression (SVR),and then on the basis of the optimal kernel function,the independent variables were screened nonlinearly using SVR.Finally,modeling was conducted on the training set and prediction was performed on the test set using the selected independent variables.The method was applied to QSAR study of phenolic compounds,the optimal kernel function was determined as RBF kernel,the retained independent variables as hydrophobic parameter (lgP) and topological index Am3.The results show that irrelevant variables can be effectively eliminate using SVR to screen variables and prediction ability was further improved for SVR modeling on small sample data,this method has a potential application prospect in the QSAR research field of environmental toxic pollutants of agriculture.

Key words Support vector regression; Independent variable screening; Quantitative structureactivity relationships; Phenol compounds

據(jù)統(tǒng)計,當(dāng)今人類50%的財富來自于化學(xué)品。隨著工業(yè)的高速發(fā)展,10萬多種化學(xué)制品被投入環(huán)境中。由于人們無限制地生產(chǎn)和濫用化學(xué)制品,一些有毒化學(xué)品必會被大量投放到環(huán)境中。酚類化合物是有機化學(xué)工業(yè)的基本原料,被廣泛用于工業(yè)制造如酚醛樹脂、合成纖維、炸藥、農(nóng)藥、石料及染料等[1]。與之相關(guān)的各類工業(yè)廢水、廢氣被大量地排放到生活環(huán)境中,給農(nóng)業(yè)生產(chǎn)、人類生活帶來極大的傷害。所以,正確評價酚類化合物等有機化合物的毒性效應(yīng)是十分必要的。

化合物的分子結(jié)構(gòu)可決定其性質(zhì)。怎樣由化合物的分子結(jié)構(gòu)預(yù)知其性質(zhì),并且確立其結(jié)構(gòu)和性質(zhì)之間定量化關(guān)系是一個關(guān)鍵問題。定量構(gòu)效關(guān)系[2](Quantitative structure activity relationship,QSAR)是解決這一難題的途徑,可用來預(yù)測化合物的生物活性。酚類化合物種類繁多且分布廣泛,開展實地試驗費力、費時,而QSAR方法可以有效地估算這些化合物在環(huán)境中的毒性。

應(yīng)用特征篩選方法選擇包含豐富信息的描述符是定量構(gòu)效關(guān)系研究的重要步驟。常用方法有回歸分析、主成分分析(Principal component analysis,PCA)、逐步判別分析、偏最小二乘法分析(PLS)、遺傳算法(Genetic algorithm,GA)和人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)等[3]。以統(tǒng)計學(xué)習(xí)理論為基礎(chǔ)的支持向量機(Support vector machine,SVM)基于結(jié)構(gòu)風(fēng)險最小,較好地解決了局極小、非線性、過學(xué)習(xí)等問題,具有優(yōu)異泛化推廣能力[4-6]。QSAR方法首先利用理論計算計算得到化合物分子的結(jié)構(gòu)參數(shù)或理化性質(zhì),再利用這些參數(shù)或性質(zhì)對化合物進行分析,比傳統(tǒng)實驗測定省時、省力,甚至能對一些無法實驗測定的化合物進行分析[7-9]。結(jié)合SVM,筆者對酚類化合物進行了QSAR分析,以揭示對環(huán)境的影響。

1 材料與方法

1.1 數(shù)據(jù)來源

3 結(jié)論

采用SVR不同核函數(shù)對酚類化合物進行QSAR建模,再以最優(yōu)核函數(shù)基于SVR進行非線性變量篩選。對于該酚類化合物,首先SVR的最優(yōu)核函數(shù)確定為徑向基核,徑向基核函數(shù)也被其他研究者認可,并且得到廣泛使用;其次,保留的自變量為lgP與Am3,而V和V2均未保留,表明分子的拓撲結(jié)構(gòu)與疏水性影響酚類化合物的麻醉毒性;最后,以保留自變量進行建模預(yù)測,其預(yù)測精度(Q2pred=0.934)優(yōu)于不經(jīng)變量篩選的SVR預(yù)測精度(Q2pred=0.898),亦優(yōu)于PLS與MLR的預(yù)測精度(Q2pred分別為0.894與0.895),其中PLS與MLR的建模效果相當(dāng)。將不同的建模方法用于該酚類化合物的QSAR分析,結(jié)果表明SVR基于結(jié)構(gòu)風(fēng)險最小化原則,使得其對獨立測試樣本表現(xiàn)出較好的預(yù)測效果,泛化能力優(yōu)異;基于SVR的非線性變量篩選方法可有效地去除了冗余、不相關(guān)自變量,提升SVR的建模預(yù)測能力。該方法在環(huán)境毒性污染物(如酚類化合物)等的QSAR研究領(lǐng)域有較廣泛應(yīng)用前景。然而,SVR也存在許多問題有待解決,例如最優(yōu)核函數(shù)的選取及核函數(shù)參數(shù)的優(yōu)化均需要理論、應(yīng)用上的改進。

參考文獻

[1] 金相燦.有機化合物污染化學(xué)[M].北京:清華大學(xué)出版社,1990:49-73.

[2] 王連生,韓朔瞪,支正良.有機物定量結(jié)構(gòu)-活性相關(guān)[M].北京:中國環(huán)境科學(xué)出版社,1993.

[3] 許祿,邵學(xué)廣.化學(xué)計量學(xué)方法[M].北京:科學(xué)出版社,1995.

[4] VAPNIK V.The nature of statistical learning theory[M].NY:Springer,2000.

[5] 鄧乃揚,田英杰.數(shù)據(jù)挖掘中的新方法:支持向量機[M].北京:科學(xué)出版社,2004.

[6] 馬曉光,胡非.利用支撐向量機預(yù)報大氣污染物濃度[J].自然科學(xué)進展,2004,14(3):349-353.

[7] 鐘國華,胡美英.QSAR 及其在農(nóng)藥設(shè)計中的應(yīng)用和進展[J].農(nóng)藥學(xué)學(xué)報,2001,3(2):1-11.

[8] 印家健,李夢龍,文志寧,等.支持向量回歸用于氨基酸描述符在肽 QSAR 建模中的性能評價[J].四川大學(xué)學(xué)報:自然科學(xué)版,2006(2):30.

[9] XIAO M,ZHENG G,YU T,et al.Quantitative structure and activity relationship studies on the toxicity of polychlorinated naphthalenes using support vector machines[J].Journal of Analytical Science,2007,23(2):143.

[10] 李劍,陳德釗,吳曉華,等.優(yōu)化的徑向基-循環(huán)子空間網(wǎng)絡(luò)為藥物定量構(gòu)效關(guān)系建模[J].分析化學(xué),2005,33(6):28-32.

[11] 郭明,許祿.酚類化合物的QSAR研究[J].環(huán)境科學(xué)學(xué)報,1998,18(12):122-127.

[12] TROPSHA A,GRAMATICA P,GOMBAR V K.The importance of being earnest:validation is the absolute essential for successful application and interpretation of QSPR models[J].QSAR & Combinatorial Science,2003,22(1):69-77.

濮阳县| 滁州市| 惠安县| 吕梁市| 谢通门县| 黄石市| 虞城县| 靖远县| 开封市| 石嘴山市| 神农架林区| 诸暨市| 萍乡市| 安泽县| 渑池县| 舟曲县| 韶关市| 河南省| 沅陵县| 宜丰县| 竹山县| 甘南县| 行唐县| 敦煌市| 永州市| 溧水县| 金昌市| 潢川县| 饶阳县| 保靖县| 焉耆| 从江县| 南京市| 贵港市| 佛学| 南丰县| 松阳县| 红安县| 丹巴县| 社旗县| 平和县|