張曉彤, 國晶晶, 任 創(chuàng), 宋麗娟*, 孫 挺
(1.遼寧石油化工大學(xué)遼寧省石油化工重點(diǎn)實(shí)驗(yàn)室,遼寧撫順113001;2.東北大學(xué)理學(xué)院,遼寧沈陽110004)
人工神經(jīng)網(wǎng)絡(luò)方法對鹵代聯(lián)苯化合物的QSRR研究
張曉彤1,2, 國晶晶1, 任 創(chuàng)1, 宋麗娟1*, 孫 挺2
(1.遼寧石油化工大學(xué)遼寧省石油化工重點(diǎn)實(shí)驗(yàn)室,遼寧撫順113001;2.東北大學(xué)理學(xué)院,遼寧沈陽110004)
將鹵代聯(lián)苯化合物作為研究體系,利用基于原子類型的電子拓?fù)浣Y(jié)構(gòu)(E-state)和基于13種原子類型的電性距離矢量描述子(MEDV-13)作為描述符,分別應(yīng)用多元線性回歸、人工神經(jīng)網(wǎng)絡(luò)中的誤差反向傳播神經(jīng)網(wǎng)絡(luò)和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的方法建立了55種鹵代聯(lián)苯化合物的QSRR模型。使用人工神經(jīng)網(wǎng)絡(luò)的方法預(yù)測的結(jié)果比多元線性回歸的方法的結(jié)果稍好,相關(guān)系數(shù)R可以達(dá)到0.99以上,說明使用人工神經(jīng)網(wǎng)絡(luò)的方法能夠準(zhǔn)確地預(yù)測鹵代聯(lián)苯化合物的氣相色譜和液相色譜的保留指數(shù)。
QSRR; 鹵代聯(lián)苯化合物; 多元線性回歸; 人工神經(jīng)網(wǎng)絡(luò)
色譜保留指數(shù),又稱科瓦茨指數(shù)(Kovats index),是色譜定性指標(biāo)的一種重要參數(shù)。它是一種重現(xiàn)性較其它保留指數(shù)都好的定性參數(shù),其主要優(yōu)點(diǎn)是它只受色譜柱和柱溫的影響,而與其它因素?zé)o關(guān)。定量結(jié)構(gòu)-色譜保留相關(guān)(Quantitative Structure-Retention Relationships,QSRR)研究的主要任務(wù)是建立分子結(jié)構(gòu)參數(shù)和色譜保留值之間的定量關(guān)系,對于色譜保留值的預(yù)測、色譜分離條件的選擇以及色譜保留機(jī)制的探索等都具有重要的意義。因此,QSRR研究在色譜科學(xué)領(lǐng)域得到了廣泛關(guān)注[1]。鹵代聯(lián)苯化合物被廣泛地應(yīng)用于工業(yè)絕緣材料和阻燃材料,這些物質(zhì)很難降解,對環(huán)境以及人類的健康造成很大的影響[2]。氣相色譜和液相色譜是比較有效的分析方法之一。建立有效的鹵代聯(lián)苯化合物QSRR模型可以節(jié)省大量的人力財(cái)力,同時也可以給許多分析化學(xué)工作者提供一定的便利。
鹵代聯(lián)苯化合物的氣相色譜的保留值是在25 m×0.25mm DB-210-CB毛細(xì)管柱,膜厚度為0.2μm條件下得到的。液相色譜數(shù)據(jù)是采用C18柱以甲醇作為流動相而得到的[2]。它應(yīng)用基于原子類型的電子拓?fù)浣Y(jié)構(gòu)(E-state)和基于13種原子類型的電性距離矢量描述子(MEDV-13)作為描述符[3]。為了確保整個數(shù)據(jù)集在QSRR模型中具有統(tǒng)計(jì)意義,應(yīng)該把零值的描述符舍去。最后得出MEDV-13描述符的x14,x15,x25,x26,x36和x916個不都是零的值。應(yīng)用同樣的方法,得到E-state的3個描述符包括ST(~CH~),ST(-C≈),ST(-F)。鹵代聯(lián)苯化合物名稱及編號見表1。
表1 鹵代聯(lián)苯化合物的名稱Table 1 Compounds of Polyhalogenated Biphenyls
多元線性回歸模型是最早被采用來預(yù)測色譜保留值的方法,也是目前在實(shí)際操作中應(yīng)用最普遍的方法。多元線性回歸是將保留指數(shù)RI由特定的自變量參數(shù)xi來線性表達(dá)。
利用SPSS 11.5對所有的描述符進(jìn)行統(tǒng)計(jì)分析,最后得出描述符和保留值之間的線性關(guān)系為:RIGC=1 836.982-4.552x15-124.906x25-178.722x26-240.601x91-55.581ST(~CH~)+141.413ST(-C≈)+1.385ST(-F)RILC=4 274.259-4.552x15-99.562x25-83.087x26-159.951x91-191.019ST(~CH~)+141.413ST(-C≈)+1.385ST(-F)
一個可靠的回歸模型應(yīng)該具有較高的相關(guān)系數(shù)(R),本回歸模型的相關(guān)系數(shù)R分別為0.985 4和0.981 4。
多元線性回歸的結(jié)果列于表2中(限于篇幅,表2中只列出前10種和后10種物質(zhì)的相關(guān)數(shù)據(jù)),與實(shí)驗(yàn)值的對比列于圖1中。
Fig.1 Plot of the predicted RI against the experimental values based on MLR for the GC and LC圖1 基于MLR的GC和LC預(yù)測值和實(shí)驗(yàn)值之間的關(guān)系
在約定顯著性水平α=0.05下,對本回歸方程進(jìn)行F檢驗(yàn),查表得臨界值F(7,47)=3.35,而該方程的F值分別為224.875,175.348,F(xiàn)>F(7,47),說明模型的精密度檢驗(yàn)結(jié)果是顯著性的。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network ANN)方法是QSRR研究中處理非線性問題常用的方法。人工神經(jīng)網(wǎng)絡(luò)有多種算法,其中最常用的前饋神經(jīng)網(wǎng)絡(luò)模型是誤差反向傳播神經(jīng)網(wǎng)絡(luò)(Error Back Propagation,BP)和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network,RBF)。QSRR數(shù)據(jù)的非線性統(tǒng)計(jì)結(jié)果比線性有較好的預(yù)測能力,神經(jīng)網(wǎng)絡(luò)也廣泛的應(yīng)用于QSRR模型的建立[3-4]。
2.2.1 誤差反向傳播神經(jīng)網(wǎng)絡(luò) BP網(wǎng)絡(luò)可廣泛應(yīng)用于函數(shù)逼近,模式識別,數(shù)據(jù)的預(yù)測等等,也可以用于QSRR模型的建立[5]。BP網(wǎng)絡(luò)是多層前饋型網(wǎng)絡(luò),分為輸入層、隱含層和輸出層,層與層之間采用全連接的方式,同一層神經(jīng)元不存在相互連接。BP網(wǎng)絡(luò)的基本處理單元為非線性輸入—輸出關(guān)系,其學(xué)習(xí)過程由正向傳播和反向傳播組成。在正向傳播過程中,輸入信息從輸入層經(jīng)隱含層(net)逐層處理并傳向輸出層(out),每一層的神經(jīng)元狀態(tài)只影響下一層神經(jīng)元的狀態(tài)。如果輸出層得不到期望輸出,則轉(zhuǎn)入反向傳播過程,將誤信息原來的連接線路返回,不斷修改各層神經(jīng)元的權(quán)值,以達(dá)到期望輸出[6]。
選用3層的BP網(wǎng)絡(luò)來實(shí)現(xiàn)鹵代聯(lián)苯化合物的QSRR建模。在計(jì)算之前要對所有的數(shù)據(jù)進(jìn)行歸一化。歸一化的公式為:
BP網(wǎng)絡(luò)在MATLAB中編譯實(shí)現(xiàn)。前44個數(shù)據(jù)作為訓(xùn)練集,后11個數(shù)據(jù)作為檢測集。建立3層BP神經(jīng)網(wǎng)絡(luò),隱層神經(jīng)元數(shù)目設(shè)為7,輸出層有1個神經(jīng)元,傳遞函數(shù)分別為tansig和logsig。BP神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果見圖2。
應(yīng)用BP神經(jīng)網(wǎng)絡(luò)建立的模型所得到的相關(guān)系數(shù)分別為0.992 5和0.999 0。
2.2.2 徑向基函數(shù)神經(jīng)網(wǎng)絡(luò) RBF網(wǎng)絡(luò)也是一種常用的神經(jīng)網(wǎng)絡(luò)模型,它具有最佳逼近的特性,以及優(yōu)化過程簡單和訓(xùn)練速度快的優(yōu)點(diǎn),在許多領(lǐng)域得到廣泛的應(yīng)用[7-8]。RBF網(wǎng)絡(luò)屬于前饋型層狀神經(jīng)網(wǎng)絡(luò),以訓(xùn)練樣本的輸入量與隱含層節(jié)點(diǎn)權(quán)重向量的歐式距離作為輸入,通常采用反映概率密度的高斯型函數(shù)作為隱含層的作用函數(shù)。它的結(jié)構(gòu)可以用3層網(wǎng)絡(luò)來描述:第1層為輸入層,第2層為隱含層,即徑向基函數(shù)層,第3層為輸出層。本模型徑向基函數(shù)采用高斯核函數(shù):
Fig.2 Plot of the predicted RI against the experimental values based on BP for the GC and LC圖2 基于BP的GC和LC預(yù)測值和實(shí)驗(yàn)值之間的關(guān)系
RBF網(wǎng)絡(luò)在MATLAB中編譯實(shí)現(xiàn)。同樣將前44個數(shù)據(jù)作為訓(xùn)練集,后11個數(shù)據(jù)作為檢測集。利用2-2-1結(jié)構(gòu)的RBF。預(yù)先設(shè)定均方差精度為0.000 1和散布常數(shù)1.0來預(yù)測鹵代聯(lián)苯化合物的保留指數(shù)。預(yù)測結(jié)果見圖3。
應(yīng)用RBF神經(jīng)網(wǎng)絡(luò)建立的模型所得到的相關(guān)系數(shù)分別為0.996 6和0.996 0。
分別采用線性方法(MLR)和非線性方法(ANN)建立了鹵代聯(lián)苯化合物氣相色譜和液相色譜保留值與其結(jié)構(gòu)參數(shù)間的線性和非線性定量關(guān)系模型。表3比較了采用不同方法建立的QSRR模型的預(yù)測結(jié)果,可以看出采用非線性方法(ANN)建模的結(jié)果比線性的方法(MLR)稍好,相關(guān)系數(shù)可達(dá)0.99以上。
Fig.3 Plot of the predicted RI against the experimental values based on RBF for the GC and LC圖3 GC和LC基于RBF的預(yù)測值和實(shí)驗(yàn)值之間的關(guān)系
表2 保留指數(shù)的數(shù)據(jù)集和相應(yīng)的實(shí)驗(yàn)值Table 2 Molecular structures the selected descriptors and corresponding experimental values of RI
表3 不同建模方法的R值Table 3 Different method values ofR
通過基于原子類型的電子拓?fù)浣Y(jié)構(gòu)(E-state)和基于13種原子類型的電性距離矢量描述子(MEDV-13)這兩個描述符可以成功地對鹵代聯(lián)苯化合物的氣相色譜和液相色譜的保留值進(jìn)行預(yù)測。建立適用廣泛的色譜保留行為模型,將為色譜保留機(jī)理、選擇性、優(yōu)化分離條件和預(yù)測保留值研究奠定良好的理論基礎(chǔ)。
[1]楊學(xué)瑾,李延?xùn)|,王善偉,等.二茂鐵衍生物疏水參數(shù)及其保留指數(shù)與結(jié)構(gòu)定量關(guān)系的研究[J].色譜,1996,14(2):86-90.
[2]Lu C,Abraham F,Adamowiciz L,et al.QSRR study for gas and liquid chromatographic retention indices of polyhalogenated biphenyls using two 2D decriptors[J].Chromatographia,2007,66(9-10):717-724.
[3]Zupan J,Gasteiger J.Neural network in chemistry and drug design[M].Weinheim:Wiley/VCH Verlag,1999.
[4]Sharma R,Singh K,Singhal D.Neural network applications for detecting process faults in packed towers[J].Chemical engineering and processing,2004,43(7):841-847.
[5]Zhang Xiaotong,Ding Ling,Sun Zhaolin.Study on quantitative structure-retention relationships for hydrocarbons in FCC gasoline[J].Chromatographia,2009,70(3-4):511-518.
[6]張曉彤,李興明,代敏,等.GBP網(wǎng)絡(luò)在改性石蠟性質(zhì)預(yù)測中的應(yīng)用[J].石油化工高等學(xué)校學(xué)報(bào),2004,21(17):1-5.
[7]Sboner A,Echer C,Blanzieri E.Amultiple classifier system for early melanoma diagnosis[J].Artificial intelligence in medicine,2003,27(1):29-44.
[8]李紅利,張曉彤,蘭立柱,等.基于遺傳算法的RBF神經(jīng)網(wǎng)絡(luò)的優(yōu)化設(shè)計(jì)方法[J].石油化工高等學(xué)校學(xué)報(bào),2003,20(11):67-69.
(Ed.:YYL,Z)
QSRR Study for Polyhalogenated Biphenyls Using Artificial Neural Network
ZHANG Xiao-tong1,2,GUO Jing-jing1,REN Chuang1,SONG Li-juan1*,SUN Ting2
(1.Liaoning Key Laboratory of Petrochemical Engineering,Liaoning Shihua University,F(xiàn)ushun Liaoning113001,P,R.China;2.College of Sciences,Northeastern University,Shenyang Liaoning110004,P.R.China)
A series of polyhalogenated biphenyls have been used to develop quantitative structure-retention relationship for their gas and liquid chromatographic retention index by using two 2Ddescriptors of the atom type electrotopogical state index and the molecular electronegativity distance vector based on 13atomic types.QSRR of 55kinds of polyhalogenated biphenyls models were built by multiple liner regression and artificial neural network.The results show that using artificial neural network method is better than using multivariate linear regression,the predictive correlation coefficientRcan reach above 0.99.It is demonstrated that using artificial neural network method can accurately predict polyhalogenated biphenyls gas and liquid chromatographic retention index.
Quantitative structure-retention relationship;Polyhalogenated biphenyls;Multiple liner regression;Artificial neural network
TQ645
A
10.3696/j.issn.1006-396X.2011.01.006
2010-12-02
張曉彤(1970-),男,遼寧撫順市,副教授,在讀博士。
遼寧省教育廳資助項(xiàng)目(2008T110)。
*通訊聯(lián)系人。
1006-396X(2011)01-0026-04
Received2December2010;revised28December2010;accepted5January2011
*Corresponding author.Tel.:+86-413-6860048;e-mail:lsong@lnpu.edu.cn