魏 晶 張晨晨 張國良 張明霞 陳心春 孟志忠
(華南理工大學生物科學與工程學院,廣州510006)
據(jù)世界衛(wèi)生組織(WHO)統(tǒng)計,全球約有1/3的 人感染了結核桿菌,每年新發(fā)感染人數(shù)約800萬,每年因結核病而死亡的人數(shù)更高達200萬[1]。我國結核桿菌的感染率為44.5%,活動性肺結核患者451萬,每年死亡人數(shù)達13萬,加上目前人類免疫缺陷病毒(HIV)感染的流行,結核桿菌耐藥菌株的出現(xiàn),導致結核病疫情急劇惡化,并且機體在感染肺結核后,對病原體免疫的控制和防護的具體途徑和機制知之甚少[2,3]。人類對于疾病的認識最終是建立在對基因組及其功能的全面理解的基礎上[4],新一代高通量測序技術有助于從基因水平對疾病進行研究,并在各個領域如癌癥、HIV、肝病等都取得了較好效果[5-8]。因此本研究采用Illumina高通量測序技術對肺結核患者的mRNA表達譜進行分析,以期找到用于肺結核診斷的特異性標志物。
1.1 病人和標本收集 參照中國衛(wèi)生部《結核病臨床診療指南》,在深圳市第三人民醫(yī)院收集10例肺結核患者[男女各5例,年齡(22.1±5.13)歲]的全血20 ml,所有進行結核菌特異性IFN-Υ ELISPOT檢測斑點數(shù)>30個,無合并慢性疾病與自身免疫疾?。?]。健康對照組10例[男女各5例,年齡(23.7±5.10)歲]均來自深圳市第三人民醫(yī)院體檢人員。
1.2 外周血單個核細胞(PBMC)的分離和RNA的提取 本研究采用了Ficoll-hypaque(葡聚糖-泛影葡胺)密度梯度離心法分離全血中的PBMC(確保細胞濃度為106ml-1),并用Trizol法提取PBMC中的RNA,用NanoDrop 2000分光光度計測總RNA的濃度/純度,瓊脂糖凝膠變性電泳檢測RNA的完整性。
1.3 cDNA文庫的構建和確立及Illumina高通量測序 等量混合10例肺結核患者RNA組成RNA池,健康人群RNA也采取同樣的處理方法,按照標準的Illumina 1.5說明書構建cDNA文庫。首先用Poly(T)寡聚核苷酸從總RNA中抽取全部帶Poly(A)尾的mRNA,將所得的mRNA隨機打斷成片段,再用隨機引物和逆轉(zhuǎn)錄酶從mRNA片段合成cDNA片段。然后,對cDNA片段進行末端修復并連接測序接頭,得到將用于測序的cDNA。為了提高測序效率,本實驗還用電泳切膠法獲取長度范圍在200 bp(±25 bp)的cDNA片段,再通過 PCR擴增,得到最終的cDNA文庫。將所得的cDNA文庫加入流動槽中的各通道中,經(jīng)過橋式 PCR擴增后,用Illumina Genome Analyzer IIx測序。
1.4 高通量測序數(shù)據(jù)的標簽(tag)分析,基因表達量的標準化 測序后得到的是帶有3'接頭的原始序列數(shù)據(jù),含有各種雜質(zhì)以及少量低質(zhì)量標簽,去除一系列包含N和拷貝數(shù)小于2的標簽后,得到高質(zhì)量標簽(Clean_Tag)。將Clean_Tag與人類參考基因hg18比對,取錯配數(shù)小于2并唯一比對的基因作為進一步分析的基因。為了準確、科學地衡量每個基因的表達水平,對每個基因表達量做標準化處理,標準化結果用TPM(transcript per million clean tags)表示[10]。
1.5 差異表達基因的篩選 參照文獻[11]報道的方法,采用嚴格的算法篩選兩樣本間差異表達的基因,并對差異檢驗的P值進行多重假設檢驗校正,然后通過控制FDR(false discovery rate)假陽性率來最終決定P的閾值[12]。本研究差異表達基因定義為“FDR≤0.001”且差異倍數(shù)2倍以上(即 |log2 Ratio|≥1)的基因。
1.6 Go功能富集分析與KEGG Pathway顯著性富集分析 對于差異表達的基因進行基因本體(gene ontology,GO)分析,確定差異表達基因的功能,對P值矯正,滿足矯正P值≤0.05的GO條目被認為是顯著性富集的條目。對差異基因進行KEGG Pathway分析,其目的在于確定不同樣本間差異表達的基因所參與的最主要代謝途徑和信號轉(zhuǎn)導途徑。
2.1 整體分析高通量測序數(shù)據(jù) 為了解肺結核患者體內(nèi)基因表達的情況,我們構建了2個cDNA文庫:肺結核PBMC文庫和正常對照組PBMC文庫,然后將其用Illumina GAIIx高通量測序技術測序。對于肺結核樣本,測序后產(chǎn)生的原始標簽(raw tags為3839500,對應的標簽種數(shù)(distinct tags)為293077類,過濾掉拷貝數(shù)小于2和包含N的tag,還剩下3651827個107200類高質(zhì)量標簽(clean_tag),將clean_tag與人類參考基因組的明確的tag比較,只取唯一定位到參考序列,并且錯配數(shù)小于2的tag,最后得到2430312個36390類tag,基因數(shù)為12270個。我們所用的人類參考基因為hg18(NCBI Build 36.1),其基因數(shù)30456,明確的 tag數(shù) 275988,占總tag數(shù)的92.61%。正常對照組最后產(chǎn)生了12244個基因,其他的數(shù)據(jù)如表1所示。
表1 肺結核和正常對照樣本中序列標簽分布一覽表Tab.1 The distribution list of Tuberculosis and health control samples sequencing tags
圖1 肺結核PBMC與正常對照PBMC基因表達水平的比較Fig.1 Gene expression level A_PBMC vs B_PBMC
2.2 差異基因的篩選 將唯一比對上人類參考序列的基因表達量標準化后篩選肺結核和正常對照差異表達的基因(圖1)。取A_PBMC/B_PBMC比值的log2值,并篩選倍數(shù)≤-1(指在A_PBMC樣本中表達量低),倍數(shù)≥1(指在A_PBMC樣本中表達量低),F(xiàn)DR<0.001的基因,最終篩選出了3 097個基因,其中A_PBMC>B_PBMC(上調(diào))的基因1 601個,A_PBMC<B_PBMC(下調(diào))的基因1 469個。將log2 Ratio值進一步增大篩選標準至4倍,上調(diào)的基因數(shù)為74個,下調(diào)的基因數(shù)為269個。再對上調(diào)的基因控制A_PBMC的表達量>20,篩選出了16個差異極其顯著的基因,鑒于下調(diào)的基因數(shù)較多并且B_PBMC的表達量范圍分布較廣(圖2),因此篩選了17個表達量大于300的基因作為差異極顯著的基因(表2)
圖2 269個下調(diào)基因的表達量分布Fig.2 The expression distribution of 269 down-regulation genes
表2 差異極顯著基因Tab.2 The significant difference genes
表3 差異表達的基因KEGG通路分析Tab.3 The KEGG pathway analysis of different expression genes
圖3 差異基因GO功能富集分析結果Fig.3 The results of differences genes GO function enrichment analysis
2.3 差異基因的GO功能富集分析 本研究將篩選出的差異基因進行了一些列的GO功能富集性分析,包括細胞組成分析(Cellular component)、分子功能分析(Molecular function)、生物過程分析(Biological process)。在進行P值矯正后,取P小于0.05的GO分類條目(term),如表2、圖3所示。
2.4 差異基因KEGG代謝通路分析 篩選出差異基因后,為進一步分析這些差異基因在哪些代謝通路中發(fā)揮作用,因此我們又做了KEGG代謝通路分析,3097個差異基因能注釋到通路中的基因為1508個(人類所有的基因能注釋到KEGG通路中的基因數(shù)為9424個)取 P值小于0.01,Q值小于0.05的代謝通路作為顯著富集的通路,注釋到通路中的差異基因數(shù)量較多的通路如表3所示。
高通量測序技術的迅猛發(fā)展,以及與疾病診斷的加速結合,使得疾病的研究模式發(fā)生了重大的轉(zhuǎn)變。以數(shù)據(jù)化為導向,大規(guī)模,工業(yè)化的研究模式,極大的提高了疾病的研究效率,革新了人們對于疾病的認識,為疾病的研究,診斷,預防及治療提供了更為有效的手段。正如科學家預言:使用DNA測序,可以再現(xiàn)致命疾病(肺結核),從人到人的傳播過程,快速的識別病原體的來源和活動。這個方法直接向公眾宣告了控制感染性疾病暴發(fā)流行的新的健康策略。同樣本研究也寄希望通過新一代的測序技術,能夠找到與肺結核疾病發(fā)生相關的基因,為后續(xù)的臨床研究奠定基礎。
本研究中肺結核和健康對照樣本經(jīng)測序比對到參考基因上后,檢測到的基因總數(shù)分別為12 270,12 244,即存在一部分基因僅在肺結核或者正常樣本中表達,如僅在肺結核表達的基因包括(表達量):DEFA4(29.57)、AKR7A2(18.62)、SLC16A6(10.68)、ADRA2B(10.68)、DNAH12(3.56)等,僅在正常樣本表達的基因包括(表達量):LOC100286895(103.82)、RASAL2(42)、PMFBP1(31.79)、CYTH3(31.21)、RNF148(29.46)、THAP8(3.5)、CLIC5(3.5)等。如果這些基因被鑒定證實只在肺結核或正常對照中表達,那么這些基因就可被用作肺結核的臨床診斷標識。同時造成這種結果的還有一種可能性是某些基因的表達量很低,加上檢測靈敏度或樣品濃度不夠,可能檢測不出來。
以 FDR≤0.001,|log2 Ratio|≥1為標準篩選出了3097個差異基因,當將篩選的標準進一步縮小,設定|log2 Ratio|≥4時,發(fā)現(xiàn)有16個基因明顯明顯上調(diào)(表2)。其中OSM基因與已經(jīng)報道的結果相反[13]。IL-15具有與 IL-2相似的作用,可促進T淋巴細胞的增殖分化,誘導多種細胞因子的分泌,對結核患者的保護性免疫機制[14]。其他上調(diào)的基因目前沒有與肺結核相關的報道,因此關于上調(diào)的原因有待于進一步研究。下調(diào)的基因269個,遠遠多于上調(diào)的基因,并且其表達量的分布范圍也很廣泛(圖1、2),即可能機體在感染了肺結核以后,大部分基因的表達被抑制,以至于表達量大幅度下降。在肺結核患者中本應正常起作用的基因被抑制,那么很大程度上會對機體的正常代謝造成紊亂,甚至損傷。如果通過一定的手段提高這些基因的表達量,是否會提高機體的免疫力,有利于治療肺結核,還有待于更深入的研究。在正常對照中表達量最高的三個基因分別為 CXCR4、TWIST2、TYROBP,除了 CXCR4在結核領域研究較多外[15],其他兩個基因目前并沒有相關的報道,鑒于這三個基因差異極大,很有可能作為候選的診斷標識。
在對差異基因進行GO功能富集性分析時,發(fā)現(xiàn)差異基因主要位于細胞內(nèi),細胞內(nèi)相關的細胞器,細胞質(zhì)等,主要起著鏈接功能,如蛋白質(zhì)連接、RNA連接、酶連接、核苷酸連接等,也具有催化活性,少數(shù)基因是核糖體的結構組成部分,與甲狀腺受體結合,在代謝過程中起作用,包括細胞內(nèi)代謝、初級代謝、高分子代謝、生物高聚物代謝,還在胞內(nèi)信號級聯(lián)中起作用等。每一個GO功能相關的上調(diào)基因數(shù)基本上多于下調(diào)的基因數(shù),有可能在肺結核患者中上調(diào)的基因起主要的影響作用。同時這些差異基因也主要在MAPK信號通路、趨化因子信號通路、神經(jīng)營養(yǎng)蛋白信號通路、T細胞受體信號通路、細胞凋亡等通路中起作用,也與亨廷頓氏舞蹈病、老年癡呆癥、帕金森氏病等疾病發(fā)生相關。值得一提的是有72個差異基因與癌癥的通路(Qvalue=0.0725)有關,當今肺結核合并肺癌的患者越來越多[16],對癌癥通路的分析有助于了解肺結核導致肺癌的發(fā)生機制。
因為高通量深度測序的結果需要進一步的驗證,如qPCR,但是因為樣本和經(jīng)費的原因,未能驗證,并且差異基因的相關調(diào)控機制尚不清楚,國內(nèi)也沒有相關的報道,有待于更深入的研究,但是,我相信本研究所篩選出來的差異基因能為肺結核領域篩選診斷標識基因,藥物作用的靶點等提供參考。
1 Yew W W ,Leung C C.Update in tuberculosis 2007[J].Am J Respir Crit Care Med,2008;177(5):479-485.
2 Ottenhoff T H,Kaufmann S H.Vaccines against tuberculosis:where are we and where do we need to go?[J]PLoS Pathog,2012;8(5):e1002607.
3 Ottenhoff T H,Ellner J J,Kaufmann S H.Ten challenges for TB biomarkers[J].Tuberculosis(Edinb),2012;92(1):17-20.
4 楊 旭,焦 睿,楊 琳et al.基于新一代高通量技術的人類疾病組學研究策略[J].遺傳雜志,2011;33(8):829-846.
5 Rosa Rosa J M,Gracia Aznárez F J,Hodges E et al.Deep sequencing of target linkage assay-identified regions in familial breast cancer:methods,analysis pipeline and troubleshooting[J].PLoS One,2010;5(4):e9976.
6 Chou L S,Liu C S J,Boese B et al.DNA sequence capture and enrichment by microarray followed by next-generation sequencing for targeted resequencing:neurofibromatosis type 1 gene as a model[J].Clin Chem,2010;56(1):62-72.
7 Yin L,Liu L,Sun Y et al.High-resolution deep sequencing reveals biodiversity,population structure,and persistence of HIV-1 quasispecies within host ecosystems[J].Retrovirology,2012;9(1):108.
8 Dimitrova Z,Campo D S,Ramachandran S.Evaluation of viral heterogeneity using next-generation sequencing,end-point limiting-dilution and mass spectrometry[J].In Silico Biol,2012;11(5):183-192.
9 Chen X,Yang Q,Zhang M et al.Diagnosis of active tuberculosis in China using an in-house gamma interferon enzyme-linked immunospot assay[J].Clin Vaccine Immunol,2009;16(6):879-884.
10 Hoen P A,Ariyurek Y,Thyqesen H H et al.Deep sequencing-basd expression analysis shows major advances in robustness,resolution and inter-lab portability over five microarray platforms[J].Nucleic Acids Res,2008;36(21):e141.
11 Audic S,Clayerie J M.The significance of digital gene expression profiles[J].Genome Res,1997;7(10):986-995.
12 Benjamini Y,Yekutieli D.The control of the false discovery rate in multiple testing under dependeny[J].The Annals of Statistics,2011;29(4):1165-1188.
13 翟景南,張明霞,張潔云.肺結核患者血漿和胸水中抑瘤素-M檢測及臨床意義[J].臨床肺科,2012;17(4):675-676.
14 楊曉敏,董德瓊,李 昶 et al.白細胞介素7和15對肺結核患者Th1/Th2平衡的調(diào)節(jié)作用[J].中華結核和呼吸雜志,2006;29(6):403-406.
15 Feng L,Li L,Liu Y et al.B lymphocytes that migrate to tuberculous pleural fluid via the SDF-1/CXCR4 axis actively respond to antigens specific for Mycobacterium tuberculosis[J].Eur J Immunol,2011;41(11):3261-3269.
16 明 靜,蔣新建.肺結核合并肺癌的臨床研究進展[J].現(xiàn)代腫瘤醫(yī)學,2009;17(12):2426-2428.