張 遠(yuǎn),何 霞,串俊蘭,鐘 磊,喻冬柯,熊 萱
藥物基因組學(xué)是建立在“基因多態(tài)性是形成個(gè)體差異的重要原因”這一理論基礎(chǔ)之上,主要研究遺傳變異如何影響個(gè)人對(duì)藥物反應(yīng),并根據(jù)遺傳變異特點(diǎn)選擇治療指數(shù)高、毒副作用小的藥物,保障藥物治療的安全性和有效性,是列入“十三五”國(guó)家科技創(chuàng)新規(guī)劃“精準(zhǔn)醫(yī)療”的重要部分之一。但藥物的有效性和安全性并非單一基因和多態(tài)性位點(diǎn)可以決定的,針對(duì)基因-基因、基因-環(huán)境交互作用的研究是藥物基因組學(xué)未來的方向。然而,如何選取藥物相關(guān)應(yīng)答的基因及多態(tài)性位點(diǎn)是臨床研究中大多數(shù)研究者面臨的一個(gè)難題。雖然全基因組或外顯子測(cè)序可以涵蓋更全面的基因和多態(tài)性位點(diǎn),但花費(fèi)較高,難以應(yīng)用于臨床;從文獻(xiàn)中篩選位點(diǎn)猶如大海撈針,難以選擇到證據(jù)級(jí)別較高,與臨床藥物應(yīng)答相關(guān)性較大的潛在的基因和位點(diǎn)。生物信息學(xué)的誕生為解決這類問題提供了幫助。生物信息學(xué)專門從事對(duì)基因組研究相關(guān)生物信息的獲取、加工、儲(chǔ)存、分配、分析和解釋。如果能從數(shù)據(jù)庫(kù)中方便、快速地檢索到證據(jù)級(jí)別較高、臨床相關(guān)性較大的藥物相關(guān)基因和位點(diǎn),不但可以節(jié)約時(shí)間、經(jīng)費(fèi),還能一定程度上降低數(shù)據(jù)維度,為研究者進(jìn)行基因-基因、基因-環(huán)境的研究設(shè)計(jì)階段和后期數(shù)據(jù)統(tǒng)計(jì)處理提供一定的便利。
重度抑郁癥(MDD),也被稱為抑郁障礙,保守估計(jì)我國(guó)大約有7 000萬人受其影響。作為一種高致殘性疾病,抑郁障礙已經(jīng)成為我國(guó)一個(gè)重大的公共衛(wèi)生問題[1]??挂钟羲幬镫m然可以有效治療MDD,但個(gè)體間差異也較大:約30%~40%的患者沒有得到完全緩解[2]。西酞普蘭及其S-對(duì)映體艾司西酞普蘭屬于選擇性5-羥色胺再攝取抑制劑(SSRIs),是MDD一線治療用藥。然而,早有證據(jù)顯示,遺傳差異對(duì)(艾司)西酞普蘭的反應(yīng)有一定影響。美國(guó)FDA已將CYP2D6(細(xì)胞色素P450家族2D6)和CYP2C19(細(xì)胞色素P450家族2C19)的遺傳效應(yīng)寫入了藥品說明書。同時(shí),有報(bào)道,SLC6A4(溶質(zhì)載體家族6成員4) rs4795541、BDNF(腦源性神經(jīng)營(yíng)養(yǎng)因子)Val66Met、HTR2A(5-羥色胺2A受體)rs6311、TPH2(色氨酸羥化酶2)rs1800532等與西酞普蘭的藥效學(xué)或藥動(dòng)學(xué)相關(guān)[3-5]。但與其他疾病不同的是,抑郁障礙的緩解受環(huán)境因素影響也很大:如年齡、性別、婚姻狀況、教育程度、是否進(jìn)行了心理治療、居住地、職業(yè)和收入等[6-7]。因此,對(duì)于抗抑郁藥物個(gè)體化差異的研究?jī)H關(guān)注遺傳差異性是遠(yuǎn)遠(yuǎn)不夠的。本研究以抗抑郁藥物西酞普蘭為例,介紹幾種常用的生物信息學(xué)數(shù)據(jù)庫(kù)的搜索方式,為基因及多態(tài)性位點(diǎn)的篩選模式提供參考。
1.1 生物信息學(xué)數(shù)據(jù)庫(kù)搜索篩選與(艾司)西酞普蘭相關(guān)基因 本研究所選取的生物信息學(xué)數(shù)據(jù)庫(kù)均為公共免費(fèi)數(shù)據(jù)庫(kù)。GenCards數(shù)據(jù)庫(kù)是由以色列魏茨曼科學(xué)研究所(Weizmann Institute of Science)和Crown人類基因組中心(Crown Human Genome Center)整合各方資源所建立,包含了非常全面的關(guān)于基因及其產(chǎn)物的生物醫(yī)學(xué)信息。它界面友好,使用戶能方便地找到感興趣的研究?jī)?nèi)容。UniProt是由歐洲生物信息學(xué)研究所(European Bioinformatics Institute)、美國(guó)蛋白質(zhì)信息資源(Prontein Information Resource)以及瑞士生物信息研究所(Swiss Institute of Bioinformatics)等機(jī)構(gòu)共同組成的UniProt協(xié)會(huì)(UniProt Consortium)編輯、制作的一個(gè)信息資源,旨在提供一個(gè)有關(guān)蛋白質(zhì)序列及其相關(guān)功能方面的廣泛的、高質(zhì)量的并可免費(fèi)使用的共享數(shù)據(jù)庫(kù)。PharmGKB是由美國(guó)國(guó)立衛(wèi)生院創(chuàng)建,收集了史上最完整的與藥物基因組相關(guān)的基因型和表型信息,該數(shù)據(jù)庫(kù)的特點(diǎn)是提供了高證據(jù)級(jí)別的基于基因型藥物劑量指南推薦。以上3個(gè)數(shù)據(jù)庫(kù)可以直接使用藥名搜索,本研究檢索詞為 “citalopram OR escitalopram”(“西酞普蘭OR艾司西酞普蘭”)。
1.2 ClinVar篩選所選基因多態(tài)性位點(diǎn) ClinVar也是一個(gè)公共免費(fèi)數(shù)據(jù)庫(kù),由NCBI(美國(guó)國(guó)立生物技術(shù)信息中心)建立。收集了大量的基因突變與疾病或藥物的關(guān)聯(lián)信息,還對(duì)信息的級(jí)別進(jìn)行了測(cè)評(píng)和注解。將以上3個(gè)數(shù)據(jù)庫(kù)所搜索得到的基因名稱輸入ClinVar,并通過注解篩選多態(tài)性位點(diǎn)。
1.3 利用文獻(xiàn)數(shù)據(jù)庫(kù)篩選基因 為對(duì)比生物信息學(xué)數(shù)據(jù)庫(kù)搜索得到的基因和文獻(xiàn)數(shù)據(jù)庫(kù)搜索得到的基因結(jié)果一致性,本研究以“(citalopram OR escitalopram)AND gene polymorphism”為檢索詞,搜索PubMed和中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)(CBM),時(shí)間到2017年12月31日截止。研究?jī)?nèi)容為探討(艾司)西酞普蘭和基因多態(tài)性的相關(guān)性臨床試驗(yàn)。搜集文獻(xiàn)的名稱、年限、第一作者及所研究的基因。以基因研究文獻(xiàn)的篇數(shù)界定該基因是否為(艾司)西酞普蘭的臨床相關(guān)性較大的基因,即熱點(diǎn)基因。
2.1 基因篩選結(jié)果 將檢索詞輸入GeneCards,共得到140條結(jié)果(相關(guān)性得分1.1~21.2),從UniProtKB得到13條結(jié)果,從PharmGKB得到26條結(jié)果(證據(jù)級(jí)別1A級(jí)~4級(jí))(表1)。本研究選取GeneCards的前20條結(jié)果(相關(guān)性得分在5.63以上)和PharmGKB的前20條結(jié)果(證據(jù)級(jí)別均在3級(jí)以上)。3個(gè)生物信息學(xué)數(shù)據(jù)庫(kù)中有4個(gè)共同基因被確定:分別是SLC6A4、CYP2C19、CYP2D6和ABCB1(多藥耐藥基因1)(圖1)。
表1 GeneCards、PharmGKB、UniprotKB數(shù)據(jù)庫(kù)搜索(艾司)西酞普蘭相關(guān)基因
注:*前20條結(jié)果目
圖1 GeneCards、PharmGKB、UniprotKB數(shù)據(jù)庫(kù)搜索(艾司)西酞普蘭相關(guān)基因重疊數(shù)文氏圖
注:A:GeneCards;B:PharmGKB;C:UniprotKB
2.2 多態(tài)性位點(diǎn)篩選結(jié)果 將上述4個(gè)基因名稱分別輸入ClinVar數(shù)據(jù)庫(kù)中,根據(jù)“條件”(Conditions)和“臨床意義”(Clinical Significants)的描述選擇與藥物藥動(dòng)學(xué)、藥效學(xué)相關(guān)的位點(diǎn)。其中,SLC6A4基因選取的是rs1131692236;CYP2C19是rs12248560,rs28399504、rs4986893,rs4244285,rs56337013;CYP2D6是rs730882251,rs267608319,rs730882170,rs16947,rs35742686,rs3892097,rs5030865,rs5030655,rs373000587,rs267608275,rs1065852;ABCB1是rs2032582 rs1045642(表2)。
表2 ClinVar數(shù)據(jù)庫(kù)搜索基因多態(tài)性位點(diǎn)
2.3 文獻(xiàn)篩選結(jié)果 將檢索詞輸入文獻(xiàn)數(shù)據(jù)庫(kù)PubMed和CBM中,一共得到173篇文獻(xiàn),其中PubMed 159篇,CBM 14篇。查閱題目和摘要后剔除動(dòng)物實(shí)驗(yàn)、綜述、表觀遺傳學(xué)研究、全基因組關(guān)聯(lián)分析及重復(fù)研究之后一共有38篇文獻(xiàn)符合要求。其中研究基因頻率從高到低排列是SLC6A4(13/38)、CYP2C19(12/38)、CYP2D6(6/38)、TPH1(5/38)、HTR2A(4/38)、BDNF(3/28)、ABCB1(2/38)、TPH2(2/38)、CYP3A4(2/38)、MAOA(2/38)、HTR6(1/38)、HTR5A(1/38)、HTR2C(1/38)、HTR1A(1/38)、CYP3A5(1/38)、CRHBP(1/38)、CNR1(1/38)、ABCC1(1/38)、5-HT1A(1/38)。見圖2。
圖2PubMed和CBM文獻(xiàn)搜索(艾司)西酞普蘭相關(guān)基因研究頻率從高到低柱狀圖
注:A:GeneCards;B:PharmGKB;C:UniprotKB
隨著人類基因組測(cè)序的完成,基因組學(xué)已進(jìn)入“后基因時(shí)代”,也稱“功能基因組時(shí)代”,即從揭示生命所有遺傳信息到了分子水平的功能研究之上,由此誕生了一系列以研究功能為目的的“組學(xué)”科學(xué),如“藥物基因組學(xué)”、“環(huán)境基因組學(xué)”等。目前全球已有很多研究機(jī)構(gòu)通過深度測(cè)序獲得了有關(guān)疾病或藥物反應(yīng)的基因編碼,但大多數(shù)全基因組關(guān)聯(lián)分析(GWAS)雖耗費(fèi)了大量的人力物力,卻并未找到關(guān)鍵基因多態(tài)性位點(diǎn),或者結(jié)果報(bào)道不一致[8-9]。對(duì)于臨床一線的科研人員來說,重復(fù)GWAS研究或者從海量文獻(xiàn)中篩選目標(biāo)基因多態(tài)性位點(diǎn)做臨床表型的關(guān)聯(lián)分析會(huì)消耗大量的時(shí)間和經(jīng)費(fèi),幾乎難以完成。于是,了解和掌握生物信息學(xué)數(shù)據(jù)庫(kù)的使用是一個(gè)可以讓研究過程事半功倍的方法。
與文獻(xiàn)搜索對(duì)比結(jié)果顯示,GeneCards、PharmGKB和UniprotKB共有的4個(gè)基因中有三個(gè)(SLC6A4、CYP2C19、CYP2D6)是排列在文獻(xiàn)搜索結(jié)果的前3位,但ABCB1沒有在文獻(xiàn)搜索的結(jié)果前4項(xiàng)中,而是在TPH1(色氨酸羥化酶1)、HTR2A(5-羥色胺受體2A)和BDNF之后。TPH1、HTR2A和BDNF雖然都在GeneCards中出現(xiàn),但相關(guān)性得分分別為13.59、26.2、9.53,排名分別是11、1、17,TPH1、HTR2A和BDNF中任何一個(gè)都沒在UniprotKB中出現(xiàn)而PharmGKB中只有TPH1(證據(jù)級(jí)別為3級(jí))。由此看來,與搜索文獻(xiàn)數(shù)據(jù)庫(kù)相比,GeneCards數(shù)據(jù)庫(kù)較為全面和準(zhǔn)確,只是如果按相關(guān)性高低來篩選基因,可能會(huì)遺漏潛在相關(guān)性較大的基因,如果全部檢測(cè),則可能造成時(shí)間和經(jīng)費(fèi)的浪費(fèi)。當(dāng)然,僅靠文獻(xiàn)數(shù)量來確定該基因是否與臨床相關(guān)性較大是有一定片面性:雖然研究該基因的研究者多,但研究質(zhì)量可能不高,如研究樣本較少、未采用金標(biāo)準(zhǔn)檢測(cè)方法等,而研究數(shù)量少的可能反而質(zhì)量較高?;蛘?,研究藥效學(xué)的基因(如靶蛋白等,與緩解率有關(guān)[4-5,10-11])本身就比研究藥動(dòng)學(xué)的基因(如各種代謝酶或轉(zhuǎn)運(yùn)體,與不良反應(yīng)有關(guān)[12-17])吸引更多的臨床關(guān)注。此外,采用本研究的方式篩選到基因和位點(diǎn)后,還需要搜索該位點(diǎn)在特定人種中的突變頻率,如果突變位點(diǎn)頻率太低,則將其納入臨床研究中檢測(cè)的意義并不大。以這次的結(jié)果為例,在中國(guó)漢族人群中,CYP2C19*17、*4、*3的突變頻率均在10%以下,而*5沒有數(shù)據(jù)報(bào)道;對(duì)于CYP2D6,只有rs16947和*10有較高的(>10%)突變頻率,其余位點(diǎn)頻率均較低或沒有報(bào)道。突變頻率的信息可以在NCBI的dbSNP數(shù)據(jù)庫(kù)中查到。
綜上所述,采用生物信息學(xué)數(shù)據(jù)庫(kù)搜索基因+ClinVar搜索多態(tài)性位點(diǎn)的檢索模式可以節(jié)約大量時(shí)間和精力,從文獻(xiàn)中查找基因和位點(diǎn),為后續(xù)試驗(yàn)設(shè)計(jì)和統(tǒng)計(jì)帶來方便,值得向?qū)蚨鄳B(tài)性感興趣的臨床一線工作人員推薦。