錢尤雯 常顏信( 通訊作者)
(海軍軍醫(yī)大學(xué)第三附屬醫(yī)院 上海 200438)
生物信息學(xué)(Bioinformatics)是生命科學(xué)領(lǐng)域中的新興學(xué)科,是生物學(xué)、計(jì)算機(jī)科學(xué)、信息工程和統(tǒng)計(jì)學(xué)的綜合學(xué)科、交叉學(xué)科,主要內(nèi)容是使用生物算法和相關(guān)的軟件工具采集、處理、分析和解釋生物數(shù)據(jù)。其研究重點(diǎn)主要包含基因組學(xué)(Genomics)和蛋白質(zhì)組學(xué)(Proteomics)兩方面。生物信息學(xué)從核酸和蛋白質(zhì)序列出發(fā),分析序列中表達(dá)及結(jié)構(gòu)功能的生物信息,已成為當(dāng)今許多生物學(xué)領(lǐng)域的重要組成部分[1,2]。并且,生物信息學(xué)產(chǎn)生了大量新技術(shù),新方法,為尋求復(fù)雜疾病的治病靶點(diǎn),闡明其發(fā)病機(jī)制提供了幫助[3,4]。
醫(yī)學(xué)研究生教育擔(dān)負(fù)著培養(yǎng)高水平醫(yī)、教、研人才的重任,是推動(dòng)國家醫(yī)學(xué)進(jìn)步的重要途徑。教育改革形勢下,新政策和新制度的實(shí)施對(duì)醫(yī)學(xué)研究生特別是臨床醫(yī)學(xué)研究生提出了更高的要求和挑戰(zhàn),不僅要重視臨床技能的培養(yǎng),科研能力的培養(yǎng)也同樣重要[5]。然而,醫(yī)學(xué)研究生教育一般學(xué)制三年,研究生面臨著理論學(xué)習(xí)、臨床輪轉(zhuǎn)和課題研究三重任務(wù)。課題研究占據(jù)著很大的權(quán)重,很多高校畢業(yè)均有SCI 論文發(fā)表的要求,但醫(yī)學(xué)研究及論文發(fā)表的周期往往較為漫長,高質(zhì)量地完成研究并成功發(fā)表論文成為了研究生教育中的一大挑戰(zhàn)。
生物信息學(xué)分析為研究生課題完成提供了較為快捷的手段獲取相應(yīng)數(shù)據(jù),以腫瘤分子生物學(xué)研究例,分別從以下方面探討其具體應(yīng)用:
腫瘤分子生物學(xué)研究類課題一般圍繞某個(gè)基因展開,完整的研究包含:相關(guān)基因在腫瘤中的表達(dá)水平、基因在腫瘤中的生物學(xué)功能、基因發(fā)揮作用的機(jī)制、基因與臨床信息的相關(guān)性。傳統(tǒng)的研究,一般需要首先獲取一定數(shù)目的組織樣本,檢測基因在組織中的表達(dá)水平,然后進(jìn)行細(xì)胞水平與動(dòng)物水平的雙重驗(yàn)證,獲得包含預(yù)后的臨床信息,進(jìn)行相關(guān)性分析,最后多種手段去研究分子機(jī)制。其中每一步的實(shí)施都是費(fèi)時(shí)費(fèi)力,而且不一定都會(huì)得到符合預(yù)期的數(shù)據(jù)結(jié)果。尤其是課題進(jìn)行過半,若后續(xù)結(jié)果不盡人意,或迫使學(xué)生篡改數(shù)據(jù),增加了造假的動(dòng)機(jī)。抑或中止研究,發(fā)表較低質(zhì)量的論文,影響了研究生教學(xué)的成果。
而生物信息學(xué)的出現(xiàn)使得以上問題得到了很好的解決。在課題設(shè)計(jì)前,對(duì)于研究對(duì)象的選擇上可以首先進(jìn)行生物信息學(xué)分析,初步明確靶標(biāo)基因的表達(dá)情況、與臨床信息的相關(guān)性、功能的初步探討,避免盲目的實(shí)驗(yàn)。課題設(shè)計(jì)中,推薦生物信息學(xué)分析聯(lián)合分子驗(yàn)證相結(jié)合的模式開展研究。目前,腫瘤基因組圖譜數(shù)據(jù)庫(TCGA,the Cancer Genome Atlas)是全球最大的腫瘤基因組測序數(shù)據(jù)庫,是腫瘤研究最為常用的數(shù)據(jù)庫之一,該數(shù)據(jù)庫提供了多達(dá)三十余種最常見的惡性腫瘤的多種組學(xué)數(shù)據(jù),包括了基因組測序、轉(zhuǎn)錄組測序、甲基化測序和蛋白質(zhì)組學(xué)等,而且還提供了相對(duì)完整的患者臨床基本信息和隨訪數(shù)據(jù),是目前研究腫瘤多組學(xué)、數(shù)據(jù)挖掘和泛癌(Pan-cancer)研究的重要研究資料來源[6,7]。首先利用TCGA 數(shù)據(jù)庫選擇研究基因,進(jìn)而獲得基因的差異表達(dá)信息及預(yù)后信息等,如果結(jié)果可行,可以進(jìn)行后續(xù)基礎(chǔ)實(shí)驗(yàn)驗(yàn)證,完成研究并形成論文。如果分析過程中結(jié)果不一致,可以適時(shí)中止,選擇其他分子進(jìn)行研究,一定程度上減少了學(xué)術(shù)不端的發(fā)生。而且,進(jìn)行生物信息學(xué)分析所需時(shí)間很短,很快即可完成,可根據(jù)學(xué)期剩余時(shí)間決定進(jìn)行后續(xù)驗(yàn)證的深度。
根據(jù)文獻(xiàn)報(bào)道的科學(xué)前沿問題確定待研究基因。亦可下載TCGA 數(shù)據(jù)庫中特定腫瘤表達(dá)譜數(shù)據(jù),利用R 語言進(jìn)行分析,獲得表達(dá)譜及差異表達(dá)數(shù)據(jù),選擇意向分子。但R 語言一般需要一定的生物信息學(xué)及計(jì)算機(jī)編程基礎(chǔ),對(duì)于臨床研究生而言有相當(dāng)?shù)碾y度,有能力者可以自行學(xué)習(xí),因?yàn)镽 分析得到的數(shù)據(jù)最具說服力,后續(xù)可以發(fā)表影響力更高的論文[8]。簡單易行的辦法是利用針對(duì)TCGA 開發(fā)的開放數(shù)據(jù)庫。在研究基因的選擇上,推薦GEPIA(Gene Expression Profiling Interactive Analysis)及Oncomine[9,10],不用編程,通過人機(jī)模式,輸入相關(guān)參數(shù)即可獲得腫瘤的表達(dá)譜,通過比對(duì)及文獻(xiàn)檢索,獲得意向分子。然后,在以上兩種數(shù)據(jù)庫中,同樣可對(duì)相關(guān)基因在特定腫瘤中進(jìn)行差異表達(dá)分析,可以得到帶有統(tǒng)計(jì)分析的、可以直接用于發(fā)表的結(jié)果圖。由于不需編程基礎(chǔ),短時(shí)間即可完成分析,可以快速得到期望數(shù)據(jù)。
以往對(duì)基因進(jìn)行臨床相關(guān)性分析最為費(fèi)時(shí)費(fèi)力,首先要積累臨床病例,然后隨訪,數(shù)據(jù)往往不一定完整。TCGA 數(shù)據(jù)庫包含有相當(dāng)完整的包含隨訪信息的臨床數(shù)據(jù),而且樣本量一般較大,具有很強(qiáng)的說服力。獲取基因與臨床基本信息相關(guān)性,推薦UALCAN[11]數(shù)據(jù)庫,其基于TCGA 數(shù)據(jù)庫,可以分析相關(guān)基因與患者種族、性別、年齡、腫瘤分期等的相關(guān)性,并可進(jìn)行生存分析等,是一個(gè)有效的TCGA 數(shù)據(jù)在線分析和挖掘的工具。GEPIA 數(shù)據(jù)庫亦可進(jìn)行相關(guān)基因的預(yù)后分析。
功能富集分析可以初步了解某個(gè)基因潛在的生物學(xué)功能,推薦使用LinkedOmics[12]數(shù)據(jù)庫,其也是基于TCGA 數(shù)據(jù)庫的第三方在線分析工具,通過簡單的選擇數(shù)據(jù)類型,按照提示,即可獲知相關(guān)基因最相關(guān)的生物學(xué)功能、激活的信號(hào)通路等數(shù)據(jù),為后續(xù)研究提供依據(jù)。
網(wǎng)絡(luò)分析可以了解生物網(wǎng)絡(luò)中分子之間的關(guān)系,如通過了解蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò),便可得到相關(guān)基因發(fā)揮特定功能的分子機(jī)制。推薦使用GeneMANIA 數(shù)據(jù)庫和Cytoscape 軟件[13],GeneMANIA 是一個(gè)可以分析蛋白間互作網(wǎng)絡(luò)的在線工具。Cytoscape 除了可以獲得相關(guān)基因的蛋白互作網(wǎng)絡(luò),也可以分析其轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)、網(wǎng)絡(luò)聚類模塊、miRNA 調(diào)控靶標(biāo)、競爭性內(nèi)源RNA 網(wǎng)絡(luò)(ceRNA)、通路交互網(wǎng)絡(luò)等,為機(jī)制的深入研究提供較多信息。
單純的生物信息學(xué)分析盡管已經(jīng)可以發(fā)表一定影響力的論文,但是一定程度上缺少說服力。后續(xù)的生物學(xué)驗(yàn)證是完成高質(zhì)量研究生課題研究的必要補(bǔ)充。生物學(xué)驗(yàn)證主要包括在腫瘤組織、腫瘤細(xì)胞系、實(shí)驗(yàn)動(dòng)物中的表達(dá)驗(yàn)證、功能驗(yàn)證及機(jī)制驗(yàn)證,生物信息學(xué)分析聯(lián)合生物學(xué)驗(yàn)證提高了研究的、完整性與科學(xué)性[14]。
綜上,通過特定的生物信息學(xué)分析工具,降低了分析的難度,減少了整體研究的時(shí)間,加快了研究生科研的進(jìn)度與效率。一般來說,選好課題之后,生物信息學(xué)分析僅需耗費(fèi)數(shù)個(gè)工作日便可完成,結(jié)合后續(xù)生物學(xué)驗(yàn)證,使得這種模式的研究從確定研究方向到課題結(jié)束,大多半年即可完成,為后續(xù)文章撰寫及投稿見刊爭取了大量的時(shí)間,并一定程度上提高了質(zhì)量,在研究生教學(xué)中具有重要的指導(dǎo)意義。