朱祥偉,陳 浮(1.青島農(nóng)業(yè)大學(xué)環(huán)境科學(xué)系,山東 青島 66109;.浙江大學(xué)藥學(xué)院,浙江 杭州 310058)
ToxCast化學(xué)品對CYP450異構(gòu)酶抑制的QSAR研究
朱祥偉1*,陳 浮2(1.青島農(nóng)業(yè)大學(xué)環(huán)境科學(xué)系,山東 青島 266109;2.浙江大學(xué)藥學(xué)院,浙江 杭州 310058)
研究收集美國國立健康研究所化學(xué)基因組中心利用高通量篩選測定的1萬多種化合物對5種細胞色素P450(CYP450)酶的抑制數(shù)據(jù),利用隨機森林法構(gòu)建MOE 2D描述符的分類模型. 采用五折交叉驗證建模策略保證模型的預(yù)測能力. 模型對1A2、2C9、2C19、2D6和3A4等酶抑制劑預(yù)測的正確分類率分別高達84.4%、82.5%、82.1%、78.4%和80.0%, 結(jié)構(gòu)分析表明, 鹵代(氯/氟)芳烴結(jié)構(gòu)在抑制劑中出現(xiàn)概率顯著高于非抑制劑. 最后, 利用上述模型對ToxCast項目954個化合物進行虛擬篩選. 實例化合物分析驗證了模型預(yù)測與實際效應(yīng)的吻合程度. 構(gòu)建的模型可進一步對其它環(huán)境化學(xué)品的CYP450酶抑制活性進行預(yù)測, 加快對化學(xué)品健康風(fēng)險的初步篩選.
環(huán)境化學(xué)品;定量構(gòu)效關(guān)系;虛擬篩選;隨機森林;細胞色素P450
隨著工業(yè)化程度的發(fā)展,每年都有大量化學(xué)品排放到環(huán)境.中國環(huán)境保護部 2013年發(fā)布的“化學(xué)品環(huán)境風(fēng)險防控“十二五”規(guī)劃”顯示我國現(xiàn)有生產(chǎn)使用的化學(xué)物質(zhì)達4萬多種[1].2015年版《危險化學(xué)品名錄》收錄的有害化學(xué)物質(zhì)近3千余種.美國國立環(huán)境健康科學(xué)研究所(NIEHS)評估顯示,環(huán)境化學(xué)品如持久性有機污染物、殺蟲劑、鹵代烴類等會導(dǎo)致多種健康風(fēng)險如癌癥、自身免疫性疾病[2-3].美國環(huán)境保護局(EPA)實施的ToxCast項目[4]即旨在利用計算毒理學(xué)手段研究環(huán)境中使用最廣泛、接觸最多的化學(xué)品的健康危害.歐盟REACH計劃及美國EPA都支持以定量構(gòu)效關(guān)系(QSAR)[5]為主要手段的計算毒理學(xué)在化學(xué)品毒理與藥效預(yù)測、優(yōu)先污染物篩選方面應(yīng)用.
人體肝臟中50多種細胞色素P450(CYP450)異構(gòu)酶,通過氧化、還原、水解及水合等 I類代謝反應(yīng)等將底物生物轉(zhuǎn)化.異構(gòu)酶中以 1A2、2C9、2C19、2D6和3A4最為重要[6],代謝的化合物占所有酶代謝總量的 90%.非底物分子結(jié)合CYP450酶會引起酶活性抑制[7],增加健康風(fēng)險.許多研究利用QSAR方法構(gòu)建了CYP450異構(gòu)酶抑制劑預(yù)測的分類模型.Zhou等[8]利用支持向量機(SVM)建立了基于826個CYP3A4抑制劑與873個非抑制劑的分類模型.對 166個抑制劑與677個非抑制劑的驗證集的預(yù)測準(zhǔn)確率達到83%.Yap等[9]利用 SVM 建立了 CYP3A4、CYP2D6和CYP2C9的底物與抑制劑分類模型,預(yù)測準(zhǔn)確率大于90%.然而,很少有模型用于大規(guī)模化學(xué)品的篩選.Sun等[10]利用美國國立化學(xué)基因組中心(NCGC)測定的1萬多個化合物對5種CYP450 (1A2、2C9、2C19、2D6和3A4) 酶活性抑制數(shù)據(jù),構(gòu)建了5組SVM分類模型.不同模型對各自占總化合物數(shù)目約 50%的檢驗集分子預(yù)測準(zhǔn)確率都在 80%以上.然而該研究沒有對所建分類模型采用嚴(yán)格的外部交叉驗證.
本文收集 NCGC測定的化合物對 5種CYP450 酶活性抑制數(shù)據(jù),將分子結(jié)構(gòu)進行標(biāo)準(zhǔn)化校正[11],采用嚴(yán)格的外部交叉驗證流程建立CYP450抑制劑預(yù)測的分類模型.以ToxCast項目化學(xué)品為對象進行虛擬篩選.著重考察其對CYP450酶的抑制特點,為評估這些環(huán)境化學(xué)品的健康風(fēng)險提供數(shù)據(jù)支撐.
1.1 化合物結(jié)構(gòu)校正標(biāo)準(zhǔn)化
下載NCGC測定的1萬多種化合物對5組CYP450酶的抑制效應(yīng)數(shù)據(jù)(https://pubchem.ncbi. nlm.nih.gov/bioassay/1851).針對每一組 CYP450異構(gòu)酶數(shù)據(jù),刪除活性不明確(inconclusive)物質(zhì),保留活性與非活性數(shù)據(jù).針對大量不適合計算化學(xué)描述符的有機鹽、帶電離子、混合物等分子,首先剔除有機重金屬化合物、混合物.利用ChemAxon Standardizer(v.5.4)軟件,通過分子中性化(去電荷)、消除互變異構(gòu)體、芳香環(huán)化(六元環(huán)由單雙鍵交替形式轉(zhuǎn)化成環(huán)狀結(jié)構(gòu))、結(jié)構(gòu)平面化等步驟生成標(biāo)準(zhǔn)SMILES結(jié)構(gòu).最后,檢測并剔除重復(fù)化合物.
1.2 分子結(jié)構(gòu)描述符
為實現(xiàn)快速建模,采用數(shù)量較少的MOE 2D (http://chembench.mml.unc.edu)描述符,共184種,包括分子拓?fù)浣Y(jié)構(gòu)、物理性質(zhì)、化學(xué)鍵信息.刪除標(biāo)準(zhǔn)偏差小于0.001的描述符.若2個描述符間相關(guān)系數(shù)大于0.90,則隨機刪除一個.
1.3 建模方法與流程
隨機森林(RF)算法[12]采取有放回的隨機抽樣,構(gòu)造子數(shù)據(jù)集,描述符在邏輯節(jié)點處依閾值大小分叉,訓(xùn)練分類樹,最終綜合多顆分類樹結(jié)果. RF具有學(xué)習(xí)速度快、分類準(zhǔn)確率高、不易產(chǎn)生過擬合等優(yōu)點.本文構(gòu)建500棵分類樹,隨機選取描述符總量開方值(四舍五入)個描述符變量構(gòu)建每棵分類樹
[13],通過編譯軟件包“RandomForest”[14]在R語言平臺(v.3.0.2)上建模.
描述分類模型好壞的標(biāo)準(zhǔn)有:1)敏感度,即真陽性率,描述模型對抑制劑預(yù)測的準(zhǔn)確度;2)特異度,即真陰性率,描述模型對非抑制劑預(yù)測的準(zhǔn)確度;3)正確分類率(CCR).CCR為敏感度和特異度的均值,用于矯正準(zhǔn)確率表征分類模型對非均衡數(shù)據(jù)集(如2C9、2D6)的預(yù)測能力帶來的偏差.采用 5折交叉驗證確保模型的外部預(yù)測能力[15]即將數(shù)據(jù)隨機分成5組大小相同的子集.選取4組作為建模數(shù)據(jù)集,余下1組外部驗證.此過程重復(fù)5次,確保每個子集有一次作為外部驗證集的機會.最終,每個化合物有四次機會參建模,有一次機會用于外部驗證.
在深井直孔中的鉆桿柱可視為受拉力作用的柔性桿體。正彎曲段鉆桿柱摩阻力可簡化為作用于該孔段中間點,摩阻力近似為:
Y隨機化用于確定模型的穩(wěn)健能力[18].它將訓(xùn)練集數(shù)據(jù)的活性值隨機打亂,隨后建立模型對外部驗證集進行預(yù)測.Y隨機化建模至少進行 5次.利用單尾t檢驗計算正常模型與Y隨機化模型預(yù)測CCR的顯著程度.若t檢驗大于P>0.05,即表明QSAR模型不穩(wěn)健.
2.1 5組CYP450酶活性抑制模型
2.1.1 建模數(shù)據(jù)集 剔除有機金屬分子、混合物重復(fù)分子等不規(guī)范化合物后,5組CYP450酶抑制劑(陽性)與非抑制劑(陰性)數(shù)據(jù)如表1所示.除2C9與2D6酶抑制劑明顯少于非抑制劑外,其他 3種酶抑制劑與非抑制劑數(shù)目相對均衡.5組酶用于QSAR建模的MOE描述符個數(shù)列于表1.
表1 CYP450酶抑制劑、非抑制劑及分子描述符Table 1 Chemical and descriptor information of the CYP450datasets
2.1.2 CYP450分類模型 利用RF[12]建立經(jīng)5折交叉驗證的分類模型. RF模型由500棵分類樹組成.每棵分類樹對化合物的預(yù)測有陽性(抑制劑,用1表示)或陰性(非抑制劑,用0表示).不同分類樹的預(yù)測也不相同.依據(jù)模型中陽性預(yù)測總個數(shù)占總分類樹(500棵)的比例,則化合物為抑制劑的的概率在0~1之間.根據(jù)一系列不同的分類閾值,以敏感度為縱坐標(biāo),以 1-特異度為橫坐標(biāo)繪制受試者工作特征曲線(ROC)(圖1),對角線表示隨機預(yù)測準(zhǔn)確率(0.5).1A2、2C9、2C19、2D6和3A4等5組模型的ROC曲線下面積分別為0.92、0.89、0.89、0.86和0.87,表明所建模型具有良好的分類能力,與此前模型[10]相當(dāng)(1A2、2C9、2C19、2D6及 3A4的ROC值分別為0.93、0.89、0.89、0.85及0.87).
對每組數(shù)據(jù)集的Y隨機化后,采用相同手段建模,模型CCR值均在0.5左右,與二元分類模型隨機預(yù)測準(zhǔn)確率(0.5)相當(dāng).單尾t檢驗計算(隨機取樣20%,n=1000)得到Y(jié)隨機化模型與正常模型預(yù)測CCR有顯著性的差異(P<<0.001),表明模型穩(wěn)健.
采用嚴(yán)格型應(yīng)用域(Z=0.5),75%建?;衔锛?0%的ToxCast化合物在可預(yù)測范圍內(nèi).寬松型應(yīng)用域(Z=3),超過98%的建?;衔锛?0%的 ToxCast化合物在可預(yù)測范圍內(nèi).表2為CYP450模型中最優(yōu)CCR的分類閾值.如1A2模型的閾值為0.47,即預(yù)測值小于0.47為1A2非抑制劑,大于0.47為抑制劑.需要指出,2D6模型的分類閾值為0.25,CCR為 78.4%. 2D6抑制劑的比例低(僅19.5%)導(dǎo)致分類閾值小.
圖1 5組CYP450模型的受試者工作特征曲線Fig.1 ROC curves of five CYP450 models
表2 五組模型的敏感度、特異度與CCRTable 2 Sensitivity, specificity, and CCR of the five models
對分子預(yù)測值排序發(fā)現(xiàn),1A2、2C9、2C19、2D6和3A4等模型預(yù)測值排名前5%的分子為抑制劑的比例分別為100%、92.9%、95.3%、89.8%和97.3%.各組模型預(yù)測值后5%的分子為非抑制劑的比例分別為99.2%、98.8%、97.2%、99.1%和99.3%.表明,RF模型對接近陽性或陰性兩極的分子預(yù)測正確率極高.
表3 MoSS模塊中獲取的毒性化合物亞結(jié)構(gòu)碎片Table 3 Substructural alert of toxic chemicals obtained in MoSS
2.1.3 CYP450抑制劑的結(jié)構(gòu)特征 通過KNIME軟件[19]中分子碎片分析工具MoSS模塊對抑制劑與非抑制劑的亞結(jié)構(gòu)分析.篩選條件如下:①含某碎片(例如氯苯碎片)占抑制劑總數(shù)至少8%;②相同碎片(即氯苯碎片)占非抑制劑總數(shù)不高于 3%;③最小碎片非氫原子數(shù)大于 5;④最大碎片非氫原子數(shù)小于11.表3列出CYP450抑制劑與非抑制劑差異最顯著的碎片信息. 1A2酶抑制劑與非抑制劑最顯著差異是芳香胺類碎片,其它4種酶抑制劑主要結(jié)構(gòu)特征是含有鹵(氯/氟)代芳烴分子亞結(jié)構(gòu).
1A2酶抑制劑分子碎片除芳香胺碎片外,也包括間氯代芳烴,與2C9酶分子碎片一樣.含間氯代芳烴碎片的分子占 1A2抑制劑總數(shù)的 8.4% (492個),占非抑制劑的1.4% (94個).每類CYP酶抑制劑較顯著的亞結(jié)構(gòu)都包括多種鹵代芳烴、芳胺類碎片.例如,2C19酶抑制劑亞結(jié)構(gòu)同樣包括芳香胺類碎片、氟代芳烴碎片(與3A4相同).
2D6酶抑制劑最顯著的碎片對氯甲苯同樣也存在于 2C19酶的抑制劑中.以上芳香胺族化合物羥化、鹵代芳烴還原脫鹵反應(yīng)過程中產(chǎn)生自由基離子可能對酶活性起抑制作用.同時,對重要描述符分析發(fā)現(xiàn),logS (水中溶解度對數(shù))、logP (辛醇-水分配系數(shù)對數(shù))、SlogP (辛醇-水分配系數(shù)對數(shù)(包含H))對模型預(yù)測能力影響最大.
2.2 ToxCast項目化學(xué)品虛擬篩選
環(huán)境中大量化學(xué)品與肝臟 CYP450酶的相互作用形式仍然未知.如前所述,ToxCast I 期 II期項目旨在研究使用經(jīng)濟的方法獲取約1000種化學(xué)品(包括殺蟲劑、藥物與護理品、食品添加劑等)的健康危害效應(yīng).利用5組CYP450模型對954個ToxCast化學(xué)品進行虛擬篩選.
2.2.1 虛擬篩選結(jié)果可信度 表 4統(tǒng)計了ToxCast化學(xué)品與CYP450酶化合物中約50個重復(fù)化合物.RF模型對這些分子活性的預(yù)測準(zhǔn)確率都在98%以上.這間接反映了CYP450分類模型對ToxCast化合物預(yù)測的可信度.
表4 RF模型預(yù)測重復(fù)分子的敏感度、特異度與CCRTable 4 The Sensitivity, Specificity, and CCR of RF models against overlap chemicals
將實例分子虛擬篩選結(jié)果與實際生物效應(yīng)對比,可進一步驗證分類模型的可信度.圖2 (餅狀圖)顯示羥基丁二酸二乙酯(CAS RN:6915-15-7)、咖啡堿(83-67-0)、蔗糖(57-50-1)、檸檬酸(77-92-9)等食品添加劑的CYP450酶抑制效應(yīng)預(yù)測.餅狀圖中代表每組CYP450酶的扇形面積大小與抑制效應(yīng)大小成正比.這些食品添加劑對CYP450酶幾乎沒有任何抑制效應(yīng),與實際吻合.
禾草靈(51338-27-3)是內(nèi)吸收性除草劑,對人淋巴細胞、小鼠及野鼠都有較強的毒性[18-19].模型預(yù)測顯示禾草靈嚴(yán)重影響1A2、2C9和2C19的活性.啶酰菌胺(188425-85-6)是廣譜類抗真菌劑,餅狀圖顯示它對CYP450酶特別是1A2、2C9和2C19有較強的抑制效應(yīng).
辛伐他汀(CAS RN:79902-63-9)抑制內(nèi)源性膽固醇的合成,是血酯調(diào)節(jié)藥物.預(yù)測顯示它僅強烈抑制3A4.3A4在CYP450酶中最為重要,主要負(fù)責(zé)藥物和類固醇分子的代謝,可代謝藥物占已知藥物總量的50%[22].有實驗顯示辛伐他汀抑制3A4的活性[23],與模型預(yù)測結(jié)果吻合.綜合分析發(fā)現(xiàn),抗真菌劑、有機氯、有機磷殺蟲劑或體內(nèi)代謝物、失敗藥物或個人護理產(chǎn)品、持久性有機污染物如多環(huán)芳烴對 CYP450酶抑制能力較強.而一些人用或獸用藥物、食品添加劑等對CYP450酶抑制較弱.
圖2 部分ToxCast化學(xué)品(CAS號表示)虛擬篩選結(jié)果Fig.2 Virtual screening results of ToxCast chemicals
2.2.2 ToxCast化學(xué)品整體效應(yīng)分析 采用表2中分類閾值對 ToxCast化學(xué)品分類,分別有40.1%、36.4%、37.0%、32.4%和 19.6%的化合物是1A2、2C9、2C19、2D6和 3A4酶的抑制劑.層次聚類分析發(fā)現(xiàn),ToxCast化學(xué)品對2C19與2C9的抑制效應(yīng)間聚類距離最小.化合物對 2C9與2C19的抑制效應(yīng)間確定系數(shù)(R2)為0.78(圖3).有研究表明, 2C9與2C19兩個酶蛋白在一級序列上有91%的相似度[24].這說明在高度相似一級序列基礎(chǔ)上折疊成的三級蛋白酶結(jié)構(gòu)與外源分子的相互作用方式極其相似.
而1A2與其他4組CYP450酶的聚類距離都非常遠,化合物對1A2預(yù)測抑制效應(yīng)與對2C9、 2C19、2D6、3A4間R2分別為0.28、0.44、0.079、0.077(圖3).暗示化合物對1A2的抑制模式不同于對其他酶的抑制模式有較大區(qū)別.同時,3A4同外源分子相互作用方式與2C9和2C19也有類同(R2分別為0.64與0.56).
圖3 ToxCast化學(xué)品酶抑制效應(yīng)相關(guān)圖Fig.3 Correlation analysis of ToxCast chemicals
3.1 研究構(gòu)建了經(jīng)嚴(yán)格外部驗證的CYP450酶抑制劑分類QSAR模型,5折交叉驗證顯示模型具有較高的正確分類率.同時發(fā)現(xiàn)鹵代芳烴分子亞結(jié)構(gòu)是決定化合物對 CYP450酶抑制的重要結(jié)構(gòu)特征.五個 CYP450模型已應(yīng)用于 954個ToxCast化合物的虛擬篩選.通過對一些除草劑與食品添加劑分子的實例分析,間接證明了CYP450模型預(yù)測的可信度.
3.2 根據(jù)有機化合物結(jié)構(gòu)對其CYP450酶抑制能力進行分類預(yù)測,篩選出了對 CYP450酶抑制性有較大貢獻的分子碎片結(jié)構(gòu)如芳香胺、鹵代(氯/氟)芳烴.同時,構(gòu)建的模型可進一步對其它環(huán)境化學(xué)品的 CYP450酶抑制活性進行預(yù)測,加快對化學(xué)品健康風(fēng)險的初步篩選.
[1] 環(huán)境保護部.關(guān)于印發(fā)《化學(xué)品環(huán)境風(fēng)險防控“十二五”規(guī)劃》的通知.http://www.zhb.gov.cn/gkml/hbb/bwj/201302/t20130220_ 248271.htm. 2013.
[2] Thayer K A, Heindel J J, Bucher JR, et al. Role of environmental chemicals in diabetes and obesity: a national toxicology programworkshop review [J]. Environmental Health Perspective, 2012, 120(6):779-789.
[3] Alavanja M C R, Bonner M R. Occupational pesticide exposures and cancer Risk: a review [J]. Journal of Toxicology and Environmental Health, 2012,15(4):238-263.
[4] Dix D J, Houck K A, Martin M T, et al. The ToxCast program for prioritizing toxicity testing of environmental chemicals [J]. Toxicological Science, 2007,95(1):5-12.
[5] Cherkasov A, Muratov E N, Fourches D, et al. QSAR modeling: Where have you been? Where are you going to? [J]. Journal of Medicinal Chemistry, 2014,57(12):4977-5010.
[6] Kirchmair J, Williamson M J, Tyzack J D, et al. Computational prediction of metabolism: sites, products, SAR, P450 enzyme dynamics, and mechanisms [J]. Journal Chemical Information and Modeling, 2012,52(3):617-648.
[7] Ho H K, Chan J C Y, Hardy K D, et al. Mechanism-based inactivation of CYP450enzymes: a case study of lapatinib [J]. Drug Metabolism Reviews, 2015,47(1):21-28.
[8] Zhou D, Liu R, Otmani S A, et al. Rapid classification of CYP3A4inhibition potential using support vector machine approach [J]. Letters in Drug Design & Discovery, 2007,4(3): 192-200.
[9] Yap C W, Chen Y Z. Prediction of cytochrome P450 3A4, 2D6, and 2C9inhibitors and substrates by using support vector machines. [J]. Journal of Chemical Information and Modeling, 2005,45(4):982-992.
[10] Sun H, Veith H, Xia M, et al. Predictive models for cytochrome p450isozymes based on quantitative high throughput screening data. [J]. Journal of Chemical Information and Modeling, 2011, 51(10):2474-2481.
[11] Fourches D, Muratov E, Tropsha A. Trust, but verify: on the importance of chemical structure curation in cheminformatics and QSAR modeling research [J]. Journal of Chemical Information and Modeling, 2010,50(7):1189-1204.
[12] Breiman L. Random forests [J]. Machine Learning, 2001,45(1): 5-32.
[13] Svetnik V, Liaw A, Tong C, et al. Random forest: A classification and regression tool for compound classification and QSAR modeling [J]. Journal of Chemical Information Computational Science, 2003,43(6):1947-1958.
[14] Liaw A, Wiener M. Classification and Regression by random Forest [J]. R News, 2002,2(3):18-22.
[15] Zhu X-W, Sedykh A, Zhu H, et al. The Use of pseudoequilibrium constant affords improved QSAR models of human plasma protein binding [J]. Pharmacutical Research, 2013,30(7): 1790–1798.
[16] Golbraikh A, Shen M, Xiao Z Y, et al. Tropsha A. Rational selection of training and test sets for the development of validated QSAR models [J]. Journal of Computer-Aided Molecular Design, 2003,17(2-4):241-253.
[17] Zhu X-W, Xin Y-J, Chen Q-H. Chemical and in vitro biological information to predict mouse liver toxicity using recursive random forests [J]. SAR QSAR in Environmental Research, 2016, 27(7):559-572.
[18] Rucker C, Rucker G, Meringer M. y-Randomization and its variants in QSPR/QSAR [J]. Journal of Chemical Information Modeling, 2007,47(6):2345-2357.
[19] KNIME V3.1. KNIME [Z]. 2016. http://www.knime.org/.
[20] Westlake GE, Tarrant KA, Hardy AR. Biochemical and histological effects of diclofop-methyl in mice and voles under laboratory conditions [J]. Bulletin of Environmental Contamination and Toxicology, 1988,40(1):153-158.
[21] Unal F, Yüzba??o?lu D, Y?lmaz S, et al. Genotoxic effects of chlorophenoxy herbicide diclofop-methyl in mice in vivo and in human lymphocytes in vitro. [J]. Drug and Chemical Toxicology, 2011,34(4):390-395.
[22] Li H, Sun J, Fan X, et al. Considerations and recent advances in QSAR models for cytochrome P450-mediated drug metabolism prediction. [J]. Journal of Computer-Aided Molecular Design, 2008,22(11):843-855.
[23] Hansten P D. Possible risks to patients receiving statins combined with other medications [J]. Journal of the American College of Cardiology, 2003,41(3):519-520.
[24] Williams P A, Cosme J, Ward A, et al. Crystal structure of human cytochrome P450 2C9with bound warfarin. [J]. Nature, 2003, 424(6947):464-468.
致謝:本論文受到同濟大學(xué)環(huán)境學(xué)院劉樹深教授的指導(dǎo)意見與建議,在此表示感謝.同時感謝審稿人專業(yè)而詳細的意見與建議.
QSAR studies on the inhibition of ToxCast chemicals to cytochrome p450 isozymes.
ZHU Xiang-wei1*, CHEN Fu2
(1.Department of Environmental Science, Qingdao Agricultural University, Qingdao 266109, China;2.College of Pharmaceutical Sciences, Zhejiang University, Hangzhou 310058, China). China Environmental Science, 2017,37(1):386~391
Several computational classifiers were developed using over 10000 screened compounds collected from NCGC against five major CYP450 isozymes of 1A2, 2C9, 2C19, 2D6, and 3A4. Random forest was used to develop models for these five isozymes using a set of MOE 2D descriptors. Five-fold cross-validation strategy was implemented to ensure the internal predictive ability of the models. The rigorously validated models exhibited outstanding predictive power for all five CYP450 isozymes with correct classification rates of 84.4%, 82.5%, 82.1%, 78.4%, and 80.0% for 1A2, 2C9, 2C19, 2D6, and 3A4, respectively. Structural analysis showed that halogenated (chlorine/fluorine) aromatics have significant higher frequency in CYP450 inhibitors than that in non-inhibitors. This comprehensive study yielded a compendium of validated QSAR models, which were then used to virtual screen a set of 954compounds in ToxCast project initiated by US EPA. Case studies confirmed the predictability of QSAR models through comparing the putative properties with the activities of several compounds. The proposal models carried with robustness and reliability and could be used to virtual screening other environmental chemicals for tentative risk assessment.
environmental chemicals;QSAR;virtual screening;random forest;cytochrome P450
X171
A
1000-6923(2017)01-0386-06
朱祥偉(1984-),男,山東臨沂人,講師,博士,主要從事環(huán)境毒理學(xué)研究.發(fā)表論文30余篇.
2016-05-04
國家自然科學(xué)基金資助項目(21407087)
* 責(zé)任作者, 講師, xwzhunc@gmail.com