雷蕾,張廣平,楊樂,李晗,李小陽,葉祖光*,王晰
1.中國中醫(yī)科學(xué)院 中醫(yī)藥信息研究所,北京 100700;
2.中國中醫(yī)科學(xué)院 中藥研究所,北京 100700
中藥保健食品是指以中醫(yī)藥理論為指導(dǎo)的,在天然食物中加入中華人民共和國國家衛(wèi)生健康委員會(huì)(以下簡(jiǎn)稱衛(wèi)健委)頒布的既是食品又是藥品的可食藥材,經(jīng)過適當(dāng)加工而成的具有某些調(diào)節(jié)人體生理功能、有益于健康的保健食品[1]。保健食品是一類適宜于特定人群食用,不以治療疾病為目的,并且一般認(rèn)為對(duì)人體不會(huì)產(chǎn)生急性、亞急性或者慢性危害,是具有調(diào)節(jié)機(jī)體功能的食品[2]。然而,中藥作為保健食品的原料比作為藥物的食用時(shí)間更長(zhǎng)、受用人群更廣。若中藥保健食品中的原料有不安全因素,則對(duì)人類健康影響更大。近年來,有諸多中藥保健食品原料典型風(fēng)險(xiǎn)物質(zhì)及其潛在毒性作用的報(bào)道,如三七含有三七總皂苷,具有肝毒性,三七總皂苷450 mg·kg-1組動(dòng)物體質(zhì)量顯著下降,肝功能指標(biāo)天門冬氨酸氨基轉(zhuǎn)移酶(AST)和丙氨酸氨基轉(zhuǎn)移酶(ALT)顯著升高[3];何首烏、決明子、番瀉葉和大黃等所含的蒽醌類成分具有肝腎毒性,大黃提取物的毒性劑量范圍10~12 g·kg-1,大黃總蒽醌的毒性劑量范圍在135~4500 mg·kg-1[4];吳茱萸中的吳茱萸堿和吳茱萸次堿等都具有肝毒性,吳茱萸次堿使肝細(xì)胞上清液中的AST、堿性磷酸酶(ALP)和乳酸脫氫酶(LDH)水平均升高[5]。如何做到對(duì)中藥肝毒性的早期預(yù)測(cè)是亟待解決的問題。
使用計(jì)算機(jī)輔助新藥篩選方法(CADD)構(gòu)建定量構(gòu)效關(guān)系(QSAR)已經(jīng)應(yīng)用在中藥保健食品評(píng)價(jià)中[6]。QSAR 通過使用數(shù)學(xué)模型來描述分子結(jié)構(gòu)和分子的某種生物活性特別是毒性效應(yīng)之間的聯(lián)系,用來預(yù)測(cè)其他已知結(jié)構(gòu)化合物的潛在毒性,有效節(jié)省時(shí)間、資金和人力。然而,目前中藥肝毒性預(yù)測(cè)模型的準(zhǔn)確率普遍不高,葉立等[7]構(gòu)建了3 種樹形算法模型,內(nèi)部交叉驗(yàn)證準(zhǔn)確率為78%~85%。He 等[8]建立了由1254個(gè)化合物組成的大規(guī)模多樣的DⅠLⅠ數(shù)據(jù)集,通過集成方法獲得最佳模型,準(zhǔn)確度(ACC)為78.3%。Zhao 等[9]基于已發(fā)表的數(shù)據(jù)和美國食品藥品監(jiān)督管理局(FDA)的肝毒性知識(shí)庫(LTKB)構(gòu)建了QSAR模型,準(zhǔn)確率為80.2%。
本研究充分考慮中藥分子的化學(xué)空間,將訓(xùn)練集先進(jìn)行聚類分析,然后針對(duì)不同的聚類構(gòu)建中藥化學(xué)成分的肝毒性QSAR 預(yù)測(cè)模型,并對(duì)衛(wèi)健委公布的113 個(gè)中藥保健食品原料成分可能的肝毒性進(jìn)行了預(yù)測(cè),為中藥保健食品安全性評(píng)價(jià)提供參考,技術(shù)路線見圖1。
圖1 中藥保健食品原料肝毒性預(yù)測(cè)技術(shù)路線
本研究使用的肝毒性數(shù)據(jù)以He 等[8]發(fā)表的建立肝毒性預(yù)測(cè)模型的1254 個(gè)化合物數(shù)據(jù)集(該數(shù)據(jù)集收集了DⅠLⅠrank、LiverTox、LTKB 等14個(gè)肝毒模型訓(xùn)練集數(shù)據(jù)并使用機(jī)器學(xué)習(xí)的方法進(jìn)行優(yōu)化)為基礎(chǔ),增加了Zhao 等[9]用來建立和驗(yàn)證肝毒性預(yù)測(cè)模型的31 個(gè)中藥成分。同時(shí)在中國知網(wǎng)、萬方和維普數(shù)據(jù)庫中以“中藥”“肝毒”為檢索詞檢索2010 年以來的文獻(xiàn),收集了43 個(gè)中藥成分肝毒性數(shù)據(jù)。合并以上數(shù)據(jù),刪除重復(fù)項(xiàng)以后,共得到1271 個(gè)化合物作為訓(xùn)練集,其中具有肝毒性的化合物653 個(gè)、無肝毒性的化合物618 個(gè)。從PubChem(https://pubchem.ncbi.nlm.nih.gov/)下載分子2D 結(jié)構(gòu),保存為.sdf格式文件。
中藥保健食品原料目錄來自《衛(wèi)生部關(guān)于進(jìn)一步規(guī)范保健食品原料管理的通知》(衛(wèi)法監(jiān)發(fā)〔2002〕51 號(hào)),共113 個(gè)中藥[10]。中藥化學(xué)成分庫來自中藥系統(tǒng)藥理學(xué)數(shù)據(jù)庫與分析平臺(tái)(TCMSP,https://tcmsp-e.com/tcmsp.php)[11]、中醫(yī)藥百科全書數(shù)據(jù)庫(ETCM,http://www.tcmip.cn/ETCM/index.php/Home/)[12]、中藥化學(xué)數(shù)據(jù)庫TCMD(https://www.neotrident.com/)[13]3個(gè)數(shù)據(jù)庫。采集113個(gè)中藥包含的化學(xué)成分,合并查重后得到3540個(gè)化合物。同樣從PubChem下載分子2D結(jié)構(gòu),保存為.sdf格式文件。
使用Discovery Studio 4.5 中的Small Molecules-Property Calculation-Calculate Molecular Properties 計(jì)算了分子的ALogP、Molecular_Weight、Num_H_Donors、Num_H_Acceptors、Num_Rotatable Bonds、Num_ Rings、Num_Aromatic Rings、Molecular_Fractional Polar Surface Area 8 個(gè)性質(zhì),使用Small Molecules-Cluster-Cluster Ligands 對(duì)1271 個(gè)化合物進(jìn)行了聚類;使用Small Molecules-Analyze-Calculate Principal Component 進(jìn)行了主成分分析,并使用Origin 2018進(jìn)行了分類結(jié)果的可視化。如果沒有特殊說明,均采用系統(tǒng)默認(rèn)值。
本研究使用FDA 公布的Mold2 軟件[14]對(duì)每個(gè)化合物的2D 結(jié)構(gòu)計(jì)算777 個(gè)分子描述符。在建立QSAR 模型時(shí),對(duì)描述符的挑選是非常重要的。使用Python按以下步驟進(jìn)行篩選:1)去掉全零和零占比超過80%的數(shù)列;2)篩選出皮爾遜相關(guān)系數(shù)>0.8 的數(shù)列,保留1 個(gè)數(shù)列;3)計(jì)算歐氏距離,取距離最大的前60 個(gè);4)計(jì)算余弦相似度,取夾角最小的前60 個(gè);5)將第3 步和第4 步篩選的數(shù)列取并集。
在預(yù)測(cè)模型構(gòu)建階段,對(duì)于2.1項(xiàng)下聚類得到的每一類,均使用9 種算法,包括樸素貝葉斯(NB)、邏輯回歸(LR)、鄰近算法(KNN)、隨機(jī)森林(RF)、支持向量機(jī)(SVM)、交叉驗(yàn)證的支持向量機(jī)(SVMCV)、梯度提升迭代決策樹(GBDT)、自適應(yīng)增強(qiáng)(AdaBoost)、布袋法(Bagging)分別構(gòu)建模型,并利用交叉驗(yàn)證方法對(duì)模型構(gòu)建方法進(jìn)行內(nèi)部評(píng)估,使用準(zhǔn)確率、精度和召回率評(píng)價(jià)模型。
計(jì)算113 個(gè)中藥保健食品原料包含3540 個(gè)化學(xué)成分的ALogP、Molecular_Weight、Num_H_Donors、Num_H_Acceptors 等8 個(gè)分子性質(zhì),然后根據(jù)這些性質(zhì)按公式(1)計(jì)算每個(gè)成分到聚類中心化合物的歐式距離(d)。根據(jù)距離遠(yuǎn)近,判斷待預(yù)測(cè)的化合物屬于哪類,進(jìn)而使用這個(gè)類對(duì)應(yīng)的QSAR 模型進(jìn)行中藥成分的肝毒性預(yù)測(cè)。
式中x和y為每個(gè)化學(xué)成分性質(zhì)投映到到多維空間后的坐標(biāo)值。
3.1.1模型訓(xùn)練集的主成分分析和聚類分析 對(duì)QSAR模型訓(xùn)練集的1271個(gè)化合物進(jìn)行聚類分析,得到3個(gè)聚類,每一類的有毒成分?jǐn)?shù)量、無毒成分?jǐn)?shù)量、成分總數(shù)、聚類的中心化合物及結(jié)構(gòu)詳細(xì)信息見表1。對(duì)1271 個(gè)化合物進(jìn)行主成分分析,結(jié)果得到4個(gè)主成分表達(dá)式(表2)。以PC1、PC2 和PC3 分別為坐標(biāo)軸來構(gòu)建化學(xué)空間,進(jìn)一步可視化聚類結(jié)果(圖2)。第1 類和第3 類的化合物數(shù)量分別為1080、181 個(gè),在化學(xué)空間中顯示聚類效果較好,可以用于下一步構(gòu)建QSAR 模型。第2 類化合物數(shù)量較少,在化學(xué)空間上也比較分散,不利于構(gòu)建模型。
圖2 肝毒性預(yù)測(cè)模型訓(xùn)練集化合物的聚類結(jié)果
表1 肝毒性預(yù)測(cè)模型訓(xùn)練集聚類分析詳細(xì)信息
表2 肝毒性預(yù)測(cè)模型訓(xùn)練集化學(xué)成分主成分分析
3.1.2第1 類訓(xùn)練集和第3 類訓(xùn)練集QSAR 模型的構(gòu)建和評(píng)價(jià) 使用Mold2 軟件分別對(duì)第1 類訓(xùn)練集(1080 個(gè)成分)和第3 類訓(xùn)練集(181 個(gè)成分)進(jìn)行了分子描述符計(jì)算,然后根據(jù)2.2項(xiàng)下方法對(duì)描述符進(jìn)行了初步篩選,分別得到170、106 個(gè)分子描述符。使用2.3項(xiàng)下方法分別構(gòu)建了2 個(gè)QSAR 模型,得到的模型準(zhǔn)確率、精確度和召回率見表3。從均值可以看出第3 類的QSAR 模型準(zhǔn)確率和精確度均高于第1類的QSAR模型。
表3 肝毒性預(yù)測(cè)模型第1類訓(xùn)練集和第3類訓(xùn)練集構(gòu)建的QSAR模型
根據(jù)2.4項(xiàng)下方法,通過比較每個(gè)成分到類中心的歐式距離,將這些成分歸到了QSAR 模型第1類(2767 個(gè)化學(xué)成分)和第3 類(783 個(gè)化學(xué)成分)中。第3 類的QSAR 模型優(yōu)于第1 類的QSAR 模型,因此,對(duì)使用第3類QSAR 模型預(yù)測(cè)的783個(gè)成分的結(jié)果進(jìn)行統(tǒng)計(jì)分析。
為了更加合理地表達(dá)預(yù)測(cè)結(jié)果,本研究使用多模型加權(quán)預(yù)測(cè)方法,按公式(2)計(jì)算加權(quán)平均概率。
在783 個(gè)成分中,肝毒性加權(quán)平均概率排列前5位的化合物見表4,中藥保健食品原料成分肝毒性預(yù)測(cè)加權(quán)平均概率分布見圖3。
圖3 中藥保健食品原料成分肝毒性預(yù)測(cè)加權(quán)平均概率分布
表4 中藥保健食品原料中的肝毒性加權(quán)平均概率排列前5位的化合物
預(yù)測(cè)結(jié)果中有肝毒性成分比例較大的10 個(gè)中藥和預(yù)測(cè)無肝毒性成分比例較大的10 個(gè)中藥見圖4。可以看到茜草包含了14 個(gè)預(yù)測(cè)有肝毒性的成分和7個(gè)預(yù)測(cè)無肝毒性的成分。
圖4 部分中藥成分的肝毒性預(yù)測(cè)統(tǒng)計(jì)結(jié)果
為了進(jìn)一步驗(yàn)證QSAR 模型的準(zhǔn)確率,采用文獻(xiàn)驗(yàn)證的方法,即從預(yù)測(cè)的結(jié)果中找出目前有文獻(xiàn)報(bào)道的結(jié)果進(jìn)行比較,得出一致結(jié)果的比例。研究結(jié)果發(fā)現(xiàn),在預(yù)測(cè)的783 個(gè)化合物中,有文獻(xiàn)報(bào)道毒理性質(zhì)的很少。經(jīng)過逐一檢索,具有肝保護(hù)作用的成分有10個(gè),包括白芍苷[15]、人參皂苷人參皂苷Rb2[17]、野漆樹苷[18]、連翹酯苷[19]、山茱萸新苷[20]、絞股藍(lán)皂苷[21]、木犀草素[22]、芍藥苷[23]、芒柄花苷[24],表明這些成分均無肝毒性,與預(yù)測(cè)結(jié)果一致。本研究預(yù)測(cè)阿魏酸的肝毒性概率0.566 9,為有肝毒,與實(shí)驗(yàn)結(jié)果相反[25]。
在113 種中藥中,肝毒性所占比例較高的中藥有茜草、番瀉葉、當(dāng)歸、大黃、丹參、厚樸、川芎、桑枝、桑白皮、五味子等,其中實(shí)驗(yàn)已經(jīng)證實(shí)具有肝毒性的有5 味藥,包括番瀉葉可引起胃腸、肝膽、神經(jīng)、泌尿等多系統(tǒng)損害,其中肝膽系統(tǒng)損害以黃疸為主,臨床表現(xiàn)為頭昏不適、發(fā)熱、尿黃等癥狀[26],大黃中的大黃蒽醌具有潛在的肝腎毒性和致癌性[4]。茜草的70%乙醇提取物長(zhǎng)期給藥劑量≥5 g·kg-1時(shí)具有輕微的肝、腎毒性[27]。當(dāng)歸提取物對(duì)正常小鼠無明顯急性肝毒性,但不同濃度劑量的提取液可能引起肝功能異常,在一定范圍內(nèi)呈劑量正相關(guān)[28]。厚樸葉、厚樸皮和厚樸花對(duì)大鼠的食物利用率、腎功能都有所影響,也影響肝、卵巢、睪丸的臟體系數(shù)[29]。
肝毒性是指藥物在肝臟代謝時(shí),藥物本身或其代謝產(chǎn)物對(duì)肝臟造成的損害。在藥物開發(fā)和使用過程中,藥物肝毒性往往是導(dǎo)致新藥研發(fā)失敗或者撤市的主要原因之一。中藥在我國臨床上已經(jīng)使用了幾千年,隨著中藥現(xiàn)代化的發(fā)展,中藥不良反應(yīng)逐漸被人們重視。對(duì)中藥肝毒性的預(yù)測(cè)將會(huì)成為輔助以中藥為原料的保健食品毒性評(píng)價(jià)的一個(gè)重要途徑。QSAR 是化藥新藥研發(fā)階段的毒性預(yù)測(cè)的常用方法之一,其可以在沒有實(shí)驗(yàn)信息的情況下,利用已知毒性的化合物,對(duì)未知化合物進(jìn)行初步預(yù)測(cè)。然而,目前構(gòu)建QSAR 模型來預(yù)測(cè)中藥肝毒性的例子不多[4,9],同時(shí)由于中藥化合物與化藥分子結(jié)構(gòu)的差異,基于化藥結(jié)構(gòu)為基礎(chǔ)的預(yù)測(cè)模型預(yù)測(cè)中藥準(zhǔn)確率也不高。
本研究考慮到QSAR 主要基于分子結(jié)構(gòu)和分子特性與毒性效應(yīng)之間的聯(lián)系來建立機(jī)器學(xué)習(xí)模型,因此首先在訓(xùn)練集的化學(xué)空間上做了聚類分析,使得每一類的內(nèi)部化合物化學(xué)空間性質(zhì)比較相似,類之間的化合物化學(xué)空間性質(zhì)差異較大,然后對(duì)每一個(gè)類分別建模,可以提高模型準(zhǔn)確率。通過研究發(fā)現(xiàn),本研究將訓(xùn)練集在化學(xué)空間上分為3類,第3類模型的準(zhǔn)確率為85%~91%,相比之前的報(bào)道有大幅度的提高。
在模型構(gòu)建上為了使預(yù)測(cè)的結(jié)果更加合理,本研究還提出了多模型加權(quán)預(yù)測(cè)方法,充分考慮到機(jī)器學(xué)習(xí)模型預(yù)測(cè)的概率性,綜合考慮多個(gè)模型的準(zhǔn)確率和預(yù)測(cè)概率,加權(quán)平均后得到總體值。最后,本研究對(duì)113種中藥保健食品原料的成分計(jì)算到第1類中心和第3類中心的歐式距離,選擇與第3類中心較近的783 個(gè)化學(xué)成分進(jìn)行預(yù)測(cè),根據(jù)加權(quán)平均概率最終預(yù)測(cè)得到肝毒性化合物48 個(gè),不具有肝毒性的化合物735 個(gè),肝毒性預(yù)測(cè)概率為0.15~0.30。為進(jìn)一步驗(yàn)證預(yù)測(cè)結(jié)果,筆者進(jìn)行了相關(guān)文獻(xiàn)調(diào)查。文獻(xiàn)數(shù)據(jù)設(shè)計(jì)中藥成分共有10 個(gè),其肝毒性均與預(yù)測(cè)結(jié)果一致。
綜上所述,本研究在傳統(tǒng)的QSAR 建模方法上進(jìn)行了2 點(diǎn)改進(jìn),其一是對(duì)訓(xùn)練集化合物進(jìn)行了聚類分析,然后對(duì)每一類分別使用NB、LR、KNN 等9種機(jī)器學(xué)習(xí)的方法構(gòu)建QSAR模型,并利用交叉驗(yàn)證方法對(duì)模型構(gòu)建方法進(jìn)行評(píng)估,得到了準(zhǔn)確率為85%~91%的最優(yōu)模型。其二是建立多模型加權(quán)預(yù)測(cè)方法,并預(yù)測(cè)了113 種中藥保健食品原料包含的783個(gè)化學(xué)成分的肝毒性,丹參、川芎、桑枝、桑白皮、五味子等預(yù)測(cè)肝毒性成分比重較高,有待進(jìn)一步驗(yàn)證。