袁金濤 浦躍樸 尹立紅
(東南大學教育部環(huán)境醫(yī)學工程重點實驗室,南京210009)
(東南大學公共衛(wèi)生學院, 南京 210009)
芳香胺可以經(jīng)過呼吸道、胃腸道和皮膚途徑進入人體,在機體內(nèi)經(jīng)過一系列活化后可與人體細胞的DNA結合,從而導致人生病甚至致癌.流行病學研究表明,間苯二胺、二氨基二苯甲烷等芳香胺可誘發(fā)泌尿系統(tǒng)的癌癥.除了突變性和致癌性之外,芳香胺還會影響腸道菌群的平衡及其他多種病癥.暴露于人類的芳香胺可來源于食品接觸材料、橡膠制品中的抗氧化劑、染料或由黑色尼龍餐具等[1-2],這些源頭廣泛存在于人類的生產(chǎn)生活中.因此,研究芳香胺致癌性具有重要意義.
關于芳香胺的結構和致癌活性的構效關系(quantitative structure-activity relationship, QSAR)研究已有報道.Yuta等[2]對157個芳香胺是否致癌建立了模式識別模型.Benigni等[3]用結構警報(structure alerts, SAs)方法分別研究了芳香胺在大鼠和小鼠中的致癌性.朱永平等[4]對芳香胺的致癌活性進行了Fisher判別研究.戴乾圜等[5]應用雙區(qū)理論對63個芳香胺的致癌活性進行了闡釋.這些研究應用不同的理論或建模方法取得了一定的成果,但筆者尚未發(fā)現(xiàn)用多種描述符建立線性判別模型的報道.因此,采用多種描述符建立線性判別模型具有一定的意義.
芳香胺除了具有強的致癌性外,還具有致突變性[6].目前,檢測致突變性的Ames試驗方法已被大量應用和報道,并且已有數(shù)量庫收集Ames試驗結果,如ISSCAN數(shù)據(jù)庫[7],但將Ames試驗和QSAR相結合的研究尚未見報道.本文以芳香胺為研究對象,采用將Ames結果作為自變量加入QSAR模型和先根據(jù)Ames結果分類后再用QSAR模型預測2種方法,對113個芳香胺的致癌性進行了研究,并將這2種方法的結果與只采用多種描述符建立的線性判別模型結果進行比較,探討Ames試驗是否對提高模型預測能力具有重要意義.
從ISSCAN數(shù)據(jù)庫[7]中篩選出具有致癌和包含Ames數(shù)據(jù)的113個芳香胺(見表1).其中,不致癌的芳香胺共計22個,致癌的芳香胺共計91個.Ames結果呈陰性的有30個,Ames結果呈陽性的有83個.
表1 113個芳香胺化合物及其致癌、Ames和QSAR數(shù)據(jù)
續(xù)表1
續(xù)表1
所有的分子結構采用HyperChem軟件畫出,再用AMPAC程序中的PM3半經(jīng)驗方法進行優(yōu)化.在Hartree-Fock水平上,采用Polar-Ribiere算法進行優(yōu)化,直至均方根梯度達到0.001.將優(yōu)化后的分子結構輸入CODESSA軟件,計算其組成、拓撲、幾何、靜電以及量化等5類描述符,以定量表征分子形狀、對稱性、原子間的連接、分子電荷分布及量子化學結構特征,總共計算得到609個描述符.logP值由ALOGPS 2.1軟件獲得[8].
SPXY(sample set partition based on jointx-ydistances)方法是對KS方法的一種擴展,計算樣本之間的歐氏距離時,將因素X和因素Y都考慮在內(nèi).此處,采用SPXY方法劃分數(shù)據(jù)集.
啟發(fā)式回歸方法是CODESSA軟件中的一種描述符篩選方法[9].該方法對數(shù)據(jù)集大小沒有限制要求,且計算較快,主要步驟如下:
① 預篩選.將數(shù)據(jù)不全和對所有結構數(shù)值都相同的描述符去掉,再將余下的描述符進行相關分析,將F檢驗值小于1.0、相關系數(shù)小于設定值、t檢驗值小于設定值、描述符間相關系數(shù)大于設定值的結果都刪除.
② 將剩下的描述符按相關系數(shù)由大到小的順序排列.從相關系數(shù)最大的描述符開始,每個描述符與余下的描述符兩兩組合,與研究性質(zhì)關聯(lián),得到F檢驗值最大的兩參數(shù)相關模型(即工作樣本).
③ 將剩余的相關程度較小的描述符依次加入工作樣本中.若加入后F檢驗值增加,說明擴展后的描述符是有效的,可用于進一步計算.
④ 若所得模型中最大描述符的個數(shù)小于設定個數(shù),則返回第③步;否則,計算結束,保存模型,從而篩選出相關系數(shù)和F檢驗值最大的模型.
模型均采用線性判別分析(LDA)方法建立,其基本原理是在n維樣本空間中通過如下計算將任意2個類別區(qū)分開:
Y=a1X1+a2X2+a3X3+…+amXm
(1)
式中,Y為判別值;X1,X2,…,Xm為與研究性質(zhì)有關的變量;a1,a2,…,am為各變量的系數(shù).判別模型質(zhì)量可通過wilk的λ統(tǒng)計量、F檢驗值、p水平、馬氏距離D2、訓練集化合物數(shù)目N以及留一法交叉驗證正確率ALOO等進行評價.建模和質(zhì)量評價在SPSS軟件中采用默認參數(shù)進行.
本文所采用的化合物數(shù)據(jù)來自ISSCAN數(shù)據(jù)庫,113個化合物被SPXY方法劃分為訓練集和測試集,其中,訓練集包含85個化合物,測試集包含28個化合物.所有描述符應用啟發(fā)式方法進行初篩選,將初篩后的描述符輸入SPSS軟件,采用正向篩選方法選出適合的描述符,建立判別模型,由此得到包含3個描述符的模型QSAR 1(見表2).模型QSAR 1中,N=85,λ=0.805,D2=1.717,F(3,81)=6.531,p<10-3,ALOO=71.8%.模型QSAR 1對訓練集和測試集的預測能力見表3.
表2 模型QSAR1中的描述符及其系數(shù)
表3 模型QSAR1和模型QSAR2的預測結果比較
為了研究Ames結果是否能提高模型的預測能力,將Ames試驗結果加入模型中,得到含5個描述符的模型QSAR 2(見表4).模型QSAR 2中,N=85,λ=0.766,D2=2.170,F(5,79)=4.830,p<10-3,ALOO=76.5%.模型QSAR 2對訓練集和測試集的預測能力見表3.由表可知,與模型QSAR 1相比,基于模型QSAR 2得到的訓練集中不致癌芳香胺和致癌芳香胺的預測正確率分別增加7.1%和2.8%,但準確率變化不大.同時,λ,ALOO,D2等模型評價指標也略有增加.
表4 模型QSAR2中的描述符及其系數(shù)
采用Ames結果將化合物分成Ames陰性和Ames陽性2類,再對其分別建立致癌性預測模型.建模前,將30個Ames陰性化合物用SPXY方法分成訓練集(21個)和測試集(9個),將83個Ames陽性化合物用SPXY方法分成訓練集(58個)和測試集(25個).Ames陰性化合物預測模型QSAR 3.1和Ames陽性化合物預測模型QSAR 3.2分別見表5和表6.模型QSAR 3.1中,N=21,λ=0.504,D2=4.367,F(2,18)=12.342,p<10-2,ALOO=81.0%.模型QSAR 3.2中,N=58,λ=0.764,D2=2.509,F(3,54)=14.672,p<10-2,ALOO=75.9%.2個模型的預測結果見表7.
表5 模型QSAR3.1中的描述符及其系數(shù)
表6 模型QSAR3.2中的描述符及其系數(shù)
由表7可知,對于113個化合物,根據(jù)模型QSAR 3.1和模型QSAR 3.2預測正確的化合物共計91個,正確率為80.5%.由表3可知,模型QSAR 1和模型QSAR 2預測正確率分別為77.0%和80.5%.因此,無論是在模型中加入Ames結果,還是用Ames結果對化合物進行分類后再分別建模,都可以小幅提高預測正確率,但提高幅度不明顯,不具有統(tǒng)計學顯著性差異.
表7 模型QSAR3.1和模型QSAR3.2的預測結果對比
將本文模型與運用其他理論或建模方法得到的模型相比較,結果見表8.由表可知,本文模型的正確率較文獻[4]中模型的正確率高,但較文獻[2,5]中模型的正確率低,這可能與選擇的描述符類型和建模方法有關.然而,本文模型采用的描述符個數(shù)最少,模型最簡潔,此外,由于采用線性判別分析方法建模,該模型易于理解.
表8 不同方法模型比較結果
與致癌性試驗比較,Ames試驗具有簡單、快速、成本低等優(yōu)點.因此,將其與QSAR方法結合用于預測致癌性具有一定的可行性.本文針對芳香胺數(shù)據(jù)集,基于由CODESSA軟件計算所得的描述符,得到簡潔的QSAR模型,且模型質(zhì)量較好.將Ames試驗結果與QSAR模型相結合預測芳香胺的致癌性,可以在一定程度上提高預測準確率,但正確率的提高程度不具有統(tǒng)計學差異.由此認為,采用QSAR預測化合物的致癌性時,需根據(jù)研究對象綜合考慮選擇適當?shù)姆椒ㄟM行研究,才能得到滿意結果.下一步需要深入研究的是,如何將Ames試驗與QSAR或其他方法結合以發(fā)揮其在化合物致癌性預測中的價值.
)
[1] 孫利,陳志鋒,儲曉剛.淺析食品接觸材料中的芳香胺問題[J].食品與機械,2006,22(6):121-126.
Sun Li, Chen Zhifeng, Chu Xiaogang. Analysis of primary aromatic amines in food contact materials[J].Food&Machinery, 2006,22(6): 121-126. (in Chinese)
[2] Yuta K, Jurs P C. Computer-assisted structure-activity studies of chemical carcinogens. aromatic amines [J].JournalofMedicalChemistry, 1981,24(3): 241-251.
[3] Benigni R, Worth A, Netzeva T, et al. Structural motifs modulating the carcinogenic risk of aromatic amines [J].EnvironmentalandMolecularMutagenesis, 2009,50(2): 152-161.
[4] 朱永平,余應年,陳星若.芳香胺致癌活性的Fisher判別研究[J].中華預防醫(yī)學雜志,1999,33(1):21-25.
Zhu Yongping, Yu Yingnian, Chen Xingruo. Fisher discriminant analysis for carcinogenic potency of aromatic amines [J].ChineseJournalofPreventiveMedicine, 1999,33(1): 21-25. (in Chinese)
[5] 戴乾圜,鄭昔英,王宗一.芳胺結構致癌活性關系的雙區(qū)理論定量闡釋[J].中國科學:化學,1990,40(7):681-688.
Dai Quanhuan, Zheng Xinying, Wang Zongyi. Di-region theory study the structure-carcinogenicity relationship of aromatic amines[J].ScientiaSinicaChimica, 1990,40(7): 681-688. (in Chinese)
[6] Benigni R. Structure-activity relationship studies of chemical mutagens and carcinogens: mechanistic investigations and prediction approaches [J].ChemicalReviews, 2005,105(5): 1767-1800.
[7] Benigni R, Bossa C, Tcheremenskaia O, et al. The new ISSCAN database on in vivo micronucleus and its role in assessing genotoxicity testing strategies [J].Mutagenesis, 2012,27(1): 87-92.
[8] Kujawski J, Bernard M K, Janusz A, et al. Prediction of logP: ALOGPS application in medicinal chemistry education [J].JournalofChemicalEducation, 2012,89(1): 64-67.
[9] Katritzky A R, Perumal S, Petrukhin R, et al. CODESSA-based theoretical QSPR model for hydantoin HPLC-RT lipophilicities [J].JournalofChemicalInformationandComputerSciences, 2001,41(3): 569-574.