国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

MOLMAP指數(shù)及其在變異性預(yù)測(cè)中的應(yīng)用

2012-11-30 10:33張慶友龍海林馮秀林索凈潔張丹丹李靜亞
物理化學(xué)學(xué)報(bào) 2012年3期
關(guān)鍵詞:化學(xué)鍵描述符變異性

張慶友 龍海林 馮秀林 索凈潔 張丹丹 李靜亞

許力壯2 許 祿3,*

(1河南大學(xué)化學(xué)化工學(xué)院環(huán)境與分析科學(xué)研究所,河南開封475004;

2深圳市人民醫(yī)院,廣東深圳518020;3中國(guó)科學(xué)院長(zhǎng)春應(yīng)用化學(xué)研究所,長(zhǎng)春130022)

MOLMAP指數(shù)及其在變異性預(yù)測(cè)中的應(yīng)用

張慶友1龍海林1馮秀林1索凈潔1張丹丹1李靜亞1

許力壯2許 祿3,*

(1河南大學(xué)化學(xué)化工學(xué)院環(huán)境與分析科學(xué)研究所,河南開封475004;

2深圳市人民醫(yī)院,廣東深圳518020;3中國(guó)科學(xué)院長(zhǎng)春應(yīng)用化學(xué)研究所,長(zhǎng)春130022)

分子映射(MOLMAP)指數(shù)是以分子的化學(xué)鍵描述符為基礎(chǔ),通過Kohonen自組織映射依據(jù)一定的算法而衍生.化學(xué)鍵描述符是由化學(xué)鍵的物理化學(xué)性質(zhì),如兩端原子的電荷差和拓?fù)湫再|(zhì),鍵連雜原子數(shù)量等所組成.本文將分子映射指數(shù)應(yīng)用于4075個(gè)有機(jī)物質(zhì)(Ames實(shí)驗(yàn)結(jié)果:2305個(gè)結(jié)構(gòu)有誘變性,1770個(gè)結(jié)構(gòu)無誘變性)的變異性預(yù)測(cè).通過隨機(jī)森林,分別采用三種類型的指數(shù)建立模型:(1)采用不同維數(shù)的分子映射指數(shù);(2)采用全局分子描述符;(3)將分子映射指數(shù)與全局分子描述符相結(jié)合.整個(gè)數(shù)據(jù)集的集外(out-of-bag)交叉驗(yàn)證的正確預(yù)測(cè)率達(dá)到85.4%.為了檢驗(yàn)?zāi)P偷姆€(wěn)定性,采用所建模型預(yù)測(cè)源于另一數(shù)據(jù)庫(kù)的472個(gè)化合物,正確預(yù)測(cè)率為86.7%,與此前的研究相比,兩個(gè)預(yù)測(cè)結(jié)果均有所提高.

分子映射指數(shù);Kohonen自組織映射;隨機(jī)森林;誘變性;結(jié)構(gòu)-活性關(guān)系

1 引言

MOLMAP指數(shù)在化合物反應(yīng)性預(yù)測(cè)和化學(xué)反應(yīng)的分類預(yù)測(cè)均有應(yīng)用.14-18本文作者和Airesde-Sousa19合作,采用Gasteiger等20-22提出的7個(gè)經(jīng)驗(yàn)的化學(xué)鍵物理化學(xué)性質(zhì),例如共振穩(wěn)定性和化學(xué)鍵裂解能等,依據(jù)一定的算法生成MOLMAP指數(shù),并實(shí)現(xiàn)了有機(jī)物質(zhì)的變異性預(yù)測(cè).本文在此基礎(chǔ)上進(jìn)一步探索化學(xué)鍵性質(zhì)的描述,采用27種物理化學(xué)性質(zhì)及41種拓?fù)湫再|(zhì)描述化學(xué)鍵,然后生成分子MOLMAP指數(shù),并通過隨機(jī)森林應(yīng)用于一個(gè)較大型的數(shù)據(jù)集(4075個(gè)物質(zhì)),預(yù)測(cè)物質(zhì)的變異性.此外還采用該模型預(yù)測(cè)了源于另一數(shù)據(jù)庫(kù)的數(shù)據(jù)集,檢驗(yàn)所建模型的穩(wěn)定性.

2 數(shù)據(jù)集

數(shù)據(jù)集由4083個(gè)有機(jī)物質(zhì)所組成,10由于所用軟件ChemAxon23的Marvin不能計(jì)算其中的8個(gè)分子,因而采用余下4075個(gè)有機(jī)物質(zhì)作為研究對(duì)象,相應(yīng)的Ames實(shí)驗(yàn)結(jié)果為:2305個(gè)結(jié)構(gòu)是誘變性物質(zhì),1770個(gè)結(jié)構(gòu)是非誘變性物質(zhì).測(cè)試集源于另外一個(gè)數(shù)據(jù)庫(kù),是由Young等24收集的472個(gè)化合物,其中305個(gè)結(jié)構(gòu)為誘變性物質(zhì),167個(gè)結(jié)構(gòu)是非誘變性物質(zhì).

3 方法

3.1 化學(xué)鍵描述符

本文計(jì)算了68種化學(xué)鍵性質(zhì),其中包括化學(xué)鍵的電荷差、化學(xué)鍵的軌道電負(fù)性差、鄰接原子的最大及最小極化率、鍵端原子的電荷密度等27種物理化學(xué)性質(zhì)和化學(xué)鍵的類型、鍵端原子的類型、鍵連雜原子的數(shù)目等41種拓?fù)湫再|(zhì),23由每個(gè)化學(xué)鍵衍生一個(gè)68維的矢量.

眾所周知,化學(xué)反應(yīng)的基本特征就是化學(xué)鍵的生成和斷裂,而物質(zhì)的變異性與化學(xué)反應(yīng)密切相關(guān),故本文通過Kohonen自組織映射采用化學(xué)鍵的性質(zhì)衍生MOLMAP指數(shù).

3.2 Kohonen自組織映射

Kohonen自組織映射(SOM)是由Kohonen25在1982年首先提出,它是一種無管理的人工神經(jīng)網(wǎng)絡(luò),SOM是由二維神經(jīng)元所組成,每一個(gè)神經(jīng)元代表一個(gè)向量,其長(zhǎng)度與輸入向量的維數(shù)(本文為化學(xué)鍵描述符)相同,26,27見圖1.在應(yīng)用過程中,首先采用訓(xùn)練集的化學(xué)鍵描述符對(duì)SOM進(jìn)行訓(xùn)練,然后,遞交測(cè)試集的化學(xué)鍵描述符到被訓(xùn)練的SOM進(jìn)行預(yù)測(cè),其過程簡(jiǎn)述如下,

該工廠于3月份投產(chǎn),目前生產(chǎn)板材厚度為2~35 mm。其日產(chǎn)量為650 m3,由此Action Tesa公司成為印度最大的MDF生產(chǎn)商,年產(chǎn)能 51.1 萬 m3。

SOM訓(xùn)練時(shí),首先進(jìn)行隨機(jī)數(shù)的初始化,其次,提交化學(xué)鍵描述符矢量至SOM,并計(jì)算其與各神經(jīng)元的歐式距離,找到與該描述符最接近的神經(jīng)元,稱為贏元,然后,調(diào)整贏元和鄰近神經(jīng)元的權(quán)值,使其與輸入向量更相似,調(diào)整幅度隨著與贏元的距離增大而減小.多次遞交訓(xùn)練集中所有的描述符矢量,重復(fù)上述操作達(dá)到預(yù)先指定的次數(shù)時(shí)停止.經(jīng)過上述訓(xùn)練,相似的神經(jīng)元將處于鄰近的位置.若遞交未知的化學(xué)鍵描述符到被訓(xùn)練的SOM,則所得贏元代表該化學(xué)鍵.SOM的特點(diǎn)為相近的輸入向量將落入相同的或相近的神經(jīng)元,由此描述符相似的化學(xué)鍵將落入相同或者鄰近的位置.

圖1 Kohonen自組織映射(SOM)模型Fig.1 Kohonen self-organization mapping(SOM)model

3.3 分子MOLMAP指數(shù)生成

分子MOLMAP指數(shù)是通過Kohonen提出的自組織映射,由分子中所有化學(xué)鍵描述符所衍生. MOLMAP指數(shù)是一個(gè)基于化學(xué)鍵類型的分子指數(shù),相同類型的化學(xué)鍵是指物理化學(xué)性質(zhì)或拓?fù)湫再|(zhì)相似的化學(xué)鍵.分子MOLMAP指數(shù)的生成過程簡(jiǎn)述如下:28(1)計(jì)算數(shù)據(jù)集中所有化合物的化學(xué)鍵描述符;(2)從中隨機(jī)選取一定數(shù)量的化學(xué)鍵作為訓(xùn)練集,本文為4999個(gè)化學(xué)鍵及其描述符;(3)以此4999個(gè)化學(xué)鍵訓(xùn)練SOM,得到被訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò);(4)從數(shù)據(jù)集中提取所有的化學(xué)鍵描述符,并遞交到已經(jīng)被訓(xùn)練的SOM,其贏元代表相應(yīng)的化學(xué)鍵.

如遞交一個(gè)分子的所有化學(xué)鍵描述符到上述被訓(xùn)練的SOM,然后依據(jù)這一分子的所有化學(xué)鍵在SOM上的分布,進(jìn)一步可將SOM上的輸出轉(zhuǎn)換為數(shù)值形式.即將每個(gè)化學(xué)鍵的贏元(與該化學(xué)鍵描述符最相似神經(jīng)元)賦值為1.0,則考慮到鄰近神經(jīng)元的相似性,那么贏元周圍的8個(gè)鄰接神經(jīng)元譬如可賦值為0.3,由此可轉(zhuǎn)化為數(shù)字的形式.另外,如果分子中幾個(gè)化學(xué)鍵落入同一個(gè)神經(jīng)元,則所得到的數(shù)值相加.

圖2為一個(gè)通過Kohonen SOM生成144(12× 12)維的MOLMAP指數(shù)示例.圖2a所示為一個(gè)有機(jī)分子的所有化學(xué)鍵經(jīng)訓(xùn)練后在SOM中的映射,其中有4個(gè)等價(jià)的Cl―C鍵落入第1行第9列.若按照前述規(guī)則轉(zhuǎn)化為數(shù)值形式,則見圖2b,其中第1行第9列包含4個(gè)Cl―C鍵,因而其數(shù)值為4.0=4×1.0.最后以從左向右的順序一列接一列的裁剪,并依次把列列首尾相接就得到分子MOLMAP指數(shù),本例為144 (12×12)維.可見,分子MOLMAP指數(shù)的維數(shù)僅僅與二維神經(jīng)元的維數(shù)有關(guān),而與分子中化學(xué)鍵的數(shù)量無關(guān).該指數(shù)的每一個(gè)變量對(duì)應(yīng)著SOM的一個(gè)神經(jīng)元,每一個(gè)神經(jīng)元可以看成一種新化學(xué)鍵類型.本文采用前述68維的化學(xué)鍵描述符,故同一類型的化學(xué)鍵是指具有相似物理化學(xué)和拓?fù)湫再|(zhì)因而落入同一神經(jīng)元的化學(xué)鍵.

為了檢驗(yàn)MOLMAP指數(shù)的維數(shù)對(duì)模型預(yù)測(cè)能力的影響,本文分別采用了維數(shù)為625(25×25)、900 (30×30)和1296(36×36)的SOM生成MOLMAP指數(shù).

3.4 全局分子描述符

除前述MOLMAP指數(shù)外,本文還計(jì)算出35種分子的物理化學(xué)性質(zhì)和拓?fù)湫再|(zhì),23構(gòu)成35維的全局分子描述符矢量(global molecular descriptor).其中包括原子數(shù)目、化學(xué)鍵的數(shù)目、分子質(zhì)量、芳香原子數(shù)目、極化率、NH鍵的數(shù)目、NH2鍵的數(shù)目、氧原子的數(shù)目、氮原子的數(shù)目、最小原子電荷、最大原子電荷、氫原子的最小電荷、氫原子的最大電荷、重原子數(shù)目、羥基數(shù)目、氫鍵受體個(gè)數(shù)、氫鍵給體個(gè)數(shù)、logP、直鏈數(shù)目、脂肪環(huán)數(shù)目、芳香環(huán)數(shù)目、最小環(huán)的大小、雜環(huán)數(shù)目、雜芳香環(huán)數(shù)目、可旋轉(zhuǎn)鍵數(shù)目、分子表面積、分子極性面積、分子最大投影面積、分子最小投影面積、折射率、平均分子極化度、芳香鍵數(shù)目、共振結(jié)構(gòu)的數(shù)目、芳香稠環(huán)的數(shù)目和脂肪稠環(huán)的數(shù)目.其中一些性質(zhì)已經(jīng)廣泛應(yīng)用于構(gòu)效關(guān)系研究中.29,30

圖2 分子MOLMAP指數(shù)的生成Fig.2 Generation of the MOLMAPdescriptor for a molecule

3.5 隨機(jī)森林

隨機(jī)森林(random forest)是Breiman在Bagging算法之后,提出的一種利用樹的集合進(jìn)行分類預(yù)測(cè)和回歸預(yù)測(cè)的組合算法,31,32隨機(jī)森林程序來源于P-program的2.10.1版本,33該算法已經(jīng)在實(shí)踐中得到成功的應(yīng)用.34

隨機(jī)森林通過隨機(jī)的方式生成大量的樹來建立數(shù)學(xué)模型,35每一棵樹類似于一個(gè)分類回歸樹,但不進(jìn)行修剪.對(duì)于每一棵樹,在采用訓(xùn)練集進(jìn)行訓(xùn)練時(shí)首先隨機(jī)選取一個(gè)變量子集,然后從選取的子集中選擇變量來劃分結(jié)點(diǎn),對(duì)輸入矢量的每一個(gè)變量找到一個(gè)最佳的分割點(diǎn)(能夠最有效分類的值),其中分類效果最好的變量作為從父結(jié)點(diǎn)到子結(jié)點(diǎn)的判據(jù),然后根據(jù)該結(jié)點(diǎn)內(nèi)的多數(shù)票來決定該結(jié)點(diǎn)屬于哪一類.每棵樹均獨(dú)立的進(jìn)行訓(xùn)練,并用于未知樣本的預(yù)測(cè).隨機(jī)森林中樹的數(shù)量由人為設(shè)定(本文為1000棵樹),每一棵樹的預(yù)測(cè)相當(dāng)于一票,最終的結(jié)果由所有樹的多數(shù)票決定.如某化合物在900棵樹中被預(yù)測(cè)為變異性物質(zhì),100棵樹中被預(yù)測(cè)為非變異性物質(zhì),則該化合物被預(yù)測(cè)為變異性物質(zhì).隨機(jī)森林提供了變量重要性的量化評(píng)價(jià),評(píng)價(jià)主要依據(jù)兩種方式:(1)隨機(jī)地交換某變量的值,由所引起的誤分類變化評(píng)價(jià)該變量;(2)采用某變量進(jìn)行結(jié)點(diǎn)分類,由所產(chǎn)生子節(jié)點(diǎn)的分類效果來量化該變量的重要性.變量重要性可以作為變量選擇的依據(jù),同時(shí)變量重要性結(jié)果有助于發(fā)現(xiàn)與活性密切相關(guān)的化合物結(jié)構(gòu)特征,從而提供對(duì)活性研究有啟示意義的信息.

在訓(xùn)練隨機(jī)森林過程中,每一棵樹均把訓(xùn)練集隨機(jī)分成兩部分,一部分?jǐn)?shù)據(jù)作為訓(xùn)練集,另一部分則作為測(cè)試集,并綜合每棵樹所建模型對(duì)測(cè)試集的預(yù)測(cè)結(jié)果來評(píng)價(jià)整個(gè)訓(xùn)練集,稱為集外(OOB)交叉驗(yàn)證.

4 結(jié)果與討論

采用訓(xùn)練集的4075個(gè)有機(jī)物質(zhì)訓(xùn)練隨機(jī)森林,并分三種情況建立物質(zhì)變異性的預(yù)測(cè)模型:(1)僅采用全局分子描述符;(2)僅采用MOLMAP指數(shù),其中MOLMAP指數(shù)的維數(shù)為:625(25×25)、900(30× 30)或1296(36×36);(3)MOLMAP指數(shù)和全局分子描述符相結(jié)合.此外,前述每一個(gè)預(yù)測(cè)模型均應(yīng)用于獨(dú)立測(cè)試集的472個(gè)化合物.

首先僅采用全局分子描述符建立預(yù)測(cè)模型,所得結(jié)果見表1第2行.其中訓(xùn)練集的OOB交叉驗(yàn)證結(jié)果為81.7%;獨(dú)立測(cè)試集的預(yù)測(cè)結(jié)果為77.6%.

本文的MOLMAP指數(shù)由兩類化學(xué)鍵描述符,即物理化學(xué)性質(zhì)及拓?fù)湫再|(zhì)所衍生.故分別采用化學(xué)鍵描述符中的27個(gè)物理化學(xué)性質(zhì)描述符和41個(gè)拓?fù)湫再|(zhì)描述符建立物質(zhì)變異性預(yù)測(cè)模型,則訓(xùn)練集所有化合物的OOB交叉驗(yàn)證結(jié)果及測(cè)試集預(yù)測(cè)結(jié)果見表1與表2,其中表1所示為由化學(xué)鍵的物理化學(xué)性質(zhì)衍生MOLMAP指數(shù)的預(yù)測(cè)結(jié)果;表2所示為由化學(xué)鍵的拓?fù)湫再|(zhì)衍生MOLMAP指數(shù)的預(yù)測(cè)結(jié)果.

由于Kohonen SOM采用隨機(jī)數(shù)進(jìn)行初始化,為了得到較穩(wěn)定的預(yù)測(cè)模型,采用化學(xué)鍵描述符訓(xùn)練SOM三次,每次均得到一個(gè)MOLMAP指數(shù),并分別采用三個(gè)MOLMAP指數(shù)進(jìn)行預(yù)測(cè).對(duì)于一個(gè)化合物來說,若其中兩個(gè)MOLMAP指數(shù)的預(yù)測(cè)結(jié)果為變異性,而一個(gè)預(yù)測(cè)為非變異性,則預(yù)測(cè)該化合物為變異性.即以三個(gè)模型的多數(shù)票作為最終預(yù)測(cè)結(jié)果.

由表1可知:若僅采用化學(xué)鍵的物理化學(xué)性質(zhì)衍生的MOLMAP指數(shù)建立預(yù)測(cè)模型,則訓(xùn)練集的OOB交叉驗(yàn)證結(jié)果為84.3%-84.7%,獨(dú)立測(cè)試集的預(yù)測(cè)結(jié)果為84.8%-85.0%,均顯著好于僅采用全局分子描述符的結(jié)果.若進(jìn)一步將MOLMAP指數(shù)與全局分子描述符相結(jié)合,則訓(xùn)練集的交叉驗(yàn)證結(jié)果在84.8%-84.9%之間;測(cè)試集的預(yù)測(cè)結(jié)果在84.3%-85.0%之間.

表1 基于35維全局分子描述符和由化學(xué)鍵物理化學(xué)性質(zhì)衍生的MOLMAP指數(shù)的隨機(jī)森林預(yù)測(cè)結(jié)果Table 1 Correct predictions of random forest based on 35 global molecular descriptors and MOLMAPdescriptors derived from physiochemical properties of chemical bonds

表2 基于35維全局分子描述符和由化學(xué)鍵的拓?fù)湫再|(zhì)衍生的MOLMAP指數(shù)的隨機(jī)森林預(yù)測(cè)結(jié)果Table 2 Correct predictions of random forest based on 35 global molecular descriptors and MOLMAPdescriptors derived from topological properties of chemical bonds

表3 基于35維全局分子描述符和由化學(xué)鍵的物理化學(xué)性質(zhì)與拓?fù)湫再|(zhì)衍生的MOLMAP指數(shù)的隨機(jī)森林預(yù)測(cè)結(jié)果Table 3 Correct predictions of random forest based on 35 global molecular descriptors and MOLMAPdescriptors derived from physiochemical properties and topological properties of chemical bonds

由表2可知:若采用化學(xué)鍵的拓?fù)湫再|(zhì)衍生MOLMAP指數(shù)與全局分子描述符相結(jié)合,則訓(xùn)練集的交叉驗(yàn)證結(jié)果在85.3%-85.5%之間;測(cè)試集的預(yù)測(cè)結(jié)果在84.8%-86.2%之間,所得結(jié)果略優(yōu)于表1的結(jié)果.

在此基礎(chǔ)上,合并27維的物理化學(xué)描述符和41維的拓?fù)湫再|(zhì)描述符衍生68維的化學(xué)鍵描述符,由化學(xué)鍵描述符生成MOLMAP指數(shù),并采用前述方法通過隨機(jī)森林構(gòu)建預(yù)測(cè)模型和進(jìn)行預(yù)測(cè),則所得結(jié)果見表3.由表3可知:若MOLMAP指數(shù)與35個(gè)全局分子描述符相結(jié)合,則OOB的交叉驗(yàn)證結(jié)果為85.3%-85.6%,測(cè)試集的預(yù)測(cè)結(jié)果為85.6%-86.7%.在此前研究19中同一訓(xùn)練集的OOB交叉驗(yàn)證最佳結(jié)果為84.1%,測(cè)試集為84.5%.可見,本文結(jié)果好于該結(jié)果.

MOLMAP指數(shù)的每一個(gè)變量均衍生于Kohonen自組織映射的神經(jīng)元,而每一個(gè)神經(jīng)元均代表著“化學(xué)鍵類型”.根據(jù)隨機(jī)森林的變量重要性, MOLMAP指數(shù)中最重要的兩個(gè)變量和第四重要的變量均是由N=O雙鍵所衍生,這些化學(xué)鍵主要是來源于硝基,也有少部分來源于C―N=O和O=N―N基團(tuán).第三重要的變量由苯并化合物上苯環(huán)的碳碳鍵所衍生.這說明該類基團(tuán)是影響變異性的重要基團(tuán).在文獻(xiàn)10中指出,含有上述兩個(gè)基團(tuán)的化合物通常具有變異性,這表明上述模型不僅僅能夠建立較好的模型,還有助于發(fā)掘引起變異性的重要化學(xué)鍵類型.

綜上可見,采用化學(xué)鍵的物理化學(xué)描述符衍生MOLMAP指數(shù)所建立的模型預(yù)測(cè)結(jié)果最差;若采用化學(xué)鍵的拓?fù)湫再|(zhì)則預(yù)測(cè)能力有所提高;而將二者相結(jié)合則預(yù)測(cè)能力最佳.

5 結(jié)論

對(duì)于由4075個(gè)化合物所組成的比較大型的數(shù)據(jù)集,本文基于Kohonen自組織映射,采用所提取的68種化學(xué)鍵的物理化學(xué)性質(zhì)和拓?fù)湫再|(zhì),在此基礎(chǔ)上生成625(25×25)、900(30×30)、1296(36×36)三種維數(shù)的MOLMAP指數(shù),并結(jié)合35維全局分子描述符,通過隨機(jī)森林建立變異性預(yù)測(cè)模型,從而實(shí)現(xiàn)了有機(jī)物質(zhì)變異性的自動(dòng)預(yù)測(cè).通過源于另一個(gè)數(shù)據(jù)庫(kù)的獨(dú)立數(shù)據(jù)集進(jìn)行檢驗(yàn),模型穩(wěn)健性較好,比此前的預(yù)測(cè)能力有所提高,說明通過化學(xué)鍵描述符的改進(jìn),能夠建立更加穩(wěn)定的變異性物質(zhì)預(yù)測(cè)模型.

(1) Patlewicz,G.;Rodford,R.;Walker,J.D.Environ.Toxicol. Chem.2003,22,1885.

(2) Benigni,R.Chem.Rev.2005,105,1767.

(3) Hansen,K.;Mika,S.;Schroeter,T.;Sutter,A.;Laak,A.T.; Steger-Hartmann,T.;Heinrich,N.Muller,K.R.J.Chem.Inf. Model.2009,49,2077.

(4) Casalegno,M.;Benfenati,E.;Sello,G.J.Chem.Inf.Model. 2011,51,1564.

(5)Ames,B.N.;McCann,J.;Yamasaki,E.Mutation Res.1975,3, 347.

(6) Mortelmans,K.;Zeiger,E.Mutation Res.2000,455,29.

(7) Meier,J.R.Mutation Res.1988,196,211.

(8) Zheng,M.Y.;Liu,Z.G.;Xue,C.X.Zhu,W.L.;Chen,K.X.; Luo,X.M.;Jiang,H.L.Bioinformatics 2006,22,2099.

(9) Liao,Q.;Yao,J.H.;Yuan,S.G.Molecular Diversity 2007,11, 59.

(10) Kazius,J.;McGuire,R.;Bursi,R.J.Med.Chem.2005,48,312.

(11) Helma,C.;Cramer,T.;Kramer,S.;Raedt,L.D.J.Chem.Inf. Comput.Sci.2004,44,1402.

(12) Popelier,P.L.A.;Smith,P.J.;Chaudry,U.A.J.Comput.-Aided Mol.Des.2004,18,709.

(13) He,L.N.;Jurs,P.C.;Custer,L.L.;Durham,S.K.;Pearl,G.M. Chem.Res.Toxicol.2003,16,1567.

(14) Gupta,S.;Matthew,S.;Abreu,P.M.;Aires-de-Sousa,J.Bioorg. Med.Chem.2006,14,1199.

(15) Zhang,Q.Y.;Aires-de-Sousa,J.J.Chem.Inf.Model.2005,45, 1775.

(16) Latino,D.A.R.S.;Aires-de-Sousa,J.Angew.Chem.Int.Edit. 2006,45,2066.

(17) Latino,D.A.R.S.;Zhang,Q.Y.;Aires-De-Sousa,J. Bioinformatics 2008,24,2236.

(18) Latino,D.A.R.S.;Aires-de-Sousa,J.J.Chem.Inf.Model. 2009,49,1839.

(19) Zhang,Q.Y.;Aires-de-Sousa,J.J.Chem.Inf.Model.2007,47, 1.

(20) Gasteiger,J.;Marsili,M.;Hutchings,M.G.;Saller,H.;L?w,P.; R?se,P.;Rafeiner,K.J.Chem.Inf.Comput.Sci.1990,30,467.

(21) Simon,V.;Gasteiger,J.;Zupan,J.J.Am.Chem.Soc.1993,115, 9148.

(22) Gasteiger,J.Mini-Rev.Med.Chem.2003,3,789.

(23) http://www.chemaxon.com/.

(24) Young,S.S.;Gombar,V.K.;Emptage,M.R.;Cariello,N.F.; Lambert,C.Chem.Int.Lab.Syst.2002,60,5.

(25) Kohonen,T.Biol.Cybern.1982,43,59.

(26) Aires-de-Sousa,J.Chem.Int.Lab.Syst.2002,61,167.

(27) http://www.dq.fct.unl.pt/staf/jas/jatoon/.

(28) Long,H.L.;Feng,X.L.;Suo,J.J.;Zhang,D.D.;Li,J.Y.; Zhang,Q.Y.;Xu,L.Computers and Applied Chemistry accepted.[龍海林,馮秀林,索凈潔,張丹丹,李靜亞,張慶友,許 祿.計(jì)算機(jī)與應(yīng)用化學(xué),已接受.]

(29) Dai,Z.J.;Zhou,W.;Yuan,Z.M.Acta Phys.-Chim.Sin.2011, 27,1654.[代志軍,周 瑋,袁哲明.物理化學(xué)學(xué)報(bào),2011,27, 1654.]

(30) Yang,G.B.;Li,Z.R.;Rao,H.B.;Li,X.Y.;Chen,Y.Z.Acta Phys.-Chim.Sin.2010,26,3351.[楊國(guó)兵,李澤榮,饒含兵,李象遠(yuǎn),陳宇綜.物理化學(xué)學(xué)報(bào),2010,26,3351.]

(31) Breiman,L.Machine Learning 1996,24,123.

(32) Díaz-Uriarte,R.;Andrés,S.A.D.BMC Bioinformatics 2006,7, 3.

(33) http://www.R-project.org.

(34) Svetnik,V.;Liaw,A.;Tong,C.;Culberson,J.C.;Sheridan,R. P.;Feuston,B.P.J.Chem.Inf.Comput.Sci.2003,43,1947.

(35) Breiman,L.Machine Learning 2001,45,5.

October 27,2011;Revised:December 19,2011;Published on Web:December 28,2011.

MOLMAP Descriptor and Its Application to Mutagenicity Prediction

ZHANG Qing-You1LONG Hai-Lin1FENG Xiu-Lin1SUO Jing-Jie1ZHANG Dan-Dan1LI Jing-Ya1XU Li-Zhuang2XU Lu3,*
(1Institute of Environmental and Analytical Sciences,College of Chemistry and Chemical Engineering,Henan University,Kaifeng 475004,Henan Province,P.R.China;2Renmin Hospital of Shenzhen,Shenzhen 518020,Guangdong Province,P.R.China;3Changchun Institute of Applied Chemistry,Chinese Academy of Sciences,Changchun 130022,P.R.China)

The molecular mapping of atom-level properties(MOLMAP)descriptor was generated on the basis of chemical bond descriptors of a molecule by Kohonen self-organizing map with a specific algorithm. The bond descriptors were composed of the physiochemical properties of the chemical bond,such as the difference of the charges between the two atoms and topological properties,such as the number of hetero-atoms connected to the two atoms.In this paper,the MOLMAP descriptors were used to predict the mutagenicity of 4075 organic substances(2305 mutagens and 1770 nonmutagens in Ames test).Random forests were used to construct mathematical models with three kinds of descriptors:(1)MOLMAP descriptors of different size;(2)global molecular descriptors;(3)the combination of MOLMAP descriptors and global molecular descriptors.The correct prediction percentage of out of bag(OOB)cross-validation of the whole data set reached 85.4%.To test the stability of the prediction model,it was used to predict the properties of a test set that was composed of 472 compounds collected from another database.The percentage of correct prediction of the test set was 86.7%.The prediction results were improved compared with the results of previous work.

MOLMAP descriptor;Kohonen self-organizing map;Random forest;Mutagenicity; Structure-activity relationship

10.3866/PKU.WHXB201112281

O641

?Corresponding author.Email:luxu@ciac.jl.cn;Tel:+86-431-85262239.

The project was supported by the National Natural Science Foundation of China(20875022),Scientific Research Foundation for the Returned

Overseas Chinese Scholars,Ministry of Education of China(2009(1001)),and International Science and Technology Cooperation of Henan Province, China(114300510009).

國(guó)家自然科學(xué)基金(20875022),教育部留學(xué)回國(guó)人員科研啟動(dòng)基金(2009(1001))及河南省國(guó)際科技合作項(xiàng)目(114300510009)資助

猜你喜歡
化學(xué)鍵描述符變異性
基于結(jié)構(gòu)信息的異源遙感圖像局部特征描述符研究
基于AKAZE的BOLD掩碼描述符的匹配算法的研究
基于深度學(xué)習(xí)的局部描述符
特征聯(lián)合和旋轉(zhuǎn)不變空間分割聯(lián)合的局部圖像描述符
基于學(xué)科觀念建構(gòu)的“化學(xué)鍵”教學(xué)嘗試
運(yùn)動(dòng)、健康與心率變異性的研究進(jìn)展
基于微觀認(rèn)識(shí)的“化學(xué)鍵”教學(xué)設(shè)計(jì)
化學(xué)鍵與分子間作用力考點(diǎn)精析
咳嗽變異性哮喘的中醫(yī)治療近況
清肺止咳湯治療咳嗽變異性哮喘40例