黃悅 王婷 胡益祥 張紅偉
摘 要:為實(shí)現(xiàn)肺癌的早發(fā)現(xiàn)、早預(yù)防、早治療,從而降低肺癌的發(fā)病概率,提高發(fā)病后的治愈效果,文章從生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)(PubMed)收集已知的肺癌致病基因位點(diǎn)并建立肺癌樣本數(shù)據(jù)庫(kù),將已建立的肺癌數(shù)據(jù)庫(kù)與樣本DNA進(jìn)行序列比對(duì),根據(jù)比對(duì)結(jié)果,判斷樣本人群是否攜帶肺癌的致病基因,然后依據(jù)美國(guó)卡內(nèi)基梅隆大學(xué)的關(guān)于肺癌治療數(shù)據(jù)庫(kù),提供預(yù)防及治療意見。
關(guān)鍵詞:肺癌;數(shù)據(jù)庫(kù);DNA序列比對(duì);早期發(fā)現(xiàn);預(yù)防
肺部惡性腫瘤是一種多發(fā)的、嚴(yán)重的癌癥,其死亡率在全世界癌癥中居首位,肺癌高死亡率主要是因?yàn)榘┌Y發(fā)現(xiàn)時(shí)候已經(jīng)是晚期[1],因此,如何對(duì)肺癌的早期發(fā)現(xiàn)、干預(yù)以及治療成為現(xiàn)代醫(yī)學(xué)熱切關(guān)注的問題。癌癥的常規(guī)療法包括外科手術(shù)、化學(xué)治療和放射治療?;瘜W(xué)治療也被稱為藥物治療,在癌癥治療中一直發(fā)揮著重要作用,但是其結(jié)果卻受到其劑量依賴性毒性的影響,目前藥物治療的效果已經(jīng)進(jìn)入平臺(tái)期。而隨著對(duì)肺癌發(fā)病機(jī)制等認(rèn)識(shí)日益深化,目前研究已發(fā)現(xiàn)一些基因與肺癌相關(guān),包括EGFR,TP53,AKT1,DDR2,F(xiàn)GFR1,KRAS,PTEN等其他基因[2-8],許多針對(duì)靶基因的研究已進(jìn)入臨床實(shí)驗(yàn)階段。基因治療作為一種高效、特異性、靶向性強(qiáng)的治療方法,越來越受到廣大醫(yī)學(xué)者的重視[9]。針對(duì)肺癌的發(fā)生、發(fā)展和轉(zhuǎn)移等各個(gè)階段以及治療靶位的不同,現(xiàn)代基因療法可以概括為以下幾種類型:阻礙原癌基因過量表達(dá)治療、補(bǔ)償抑癌基因表達(dá)治療、抗血管生成基因治療、自殺基因治療和免疫基因治療[10]。另外,癌癥致病基因的早發(fā)現(xiàn)、早干預(yù)、早治療也是降低肺癌發(fā)病率、提高治療效果的關(guān)鍵。序列比對(duì)作為癌癥致病基因的早發(fā)現(xiàn)、早干預(yù)及基因治療中的關(guān)鍵步驟,以其精確的算法和高準(zhǔn)確率正成為肺癌基因治療中的研究熱點(diǎn)。本研究將增大導(dǎo)致肺癌發(fā)生風(fēng)險(xiǎn)率的基因數(shù)據(jù)存入數(shù)據(jù)庫(kù)中,將樣本人群的測(cè)序基因同數(shù)據(jù)庫(kù)中的致病基因進(jìn)行比對(duì)。根據(jù)比對(duì)結(jié)果分析是否存在患病風(fēng)險(xiǎn),并設(shè)計(jì)相應(yīng)的基因治療方案,從而實(shí)現(xiàn)肺癌的早發(fā)現(xiàn)、早干預(yù)、早治療,進(jìn)而達(dá)到降低發(fā)病概率、提高治愈效果的目的。
1 材料與方法
1.1 資料和數(shù)據(jù)
從生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)PubMed中收集文獻(xiàn)找出肺癌致病基因位點(diǎn)。從高通量基因表達(dá)譜數(shù)據(jù)庫(kù)(Gene Expression Database,GEO)中下載患者肺癌和癌旁組織樣本。每個(gè)樣本的數(shù)據(jù)大小約為15~20 GB。本項(xiàng)目篩選出69組癌與癌旁組織測(cè)序數(shù)據(jù),該批樣本中男性患者共計(jì)39名,女性患者共計(jì)30名,各年齡段患者均有涉及。
1.2 方法
1.2.1 找出肺癌致病基因位點(diǎn),創(chuàng)建肺癌DNA樣本數(shù)據(jù)庫(kù)
在高通量基因表達(dá)譜數(shù)據(jù)庫(kù)(GEO)中檢索微陣列原始數(shù)據(jù),通過R軟件對(duì)原始微陣列數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。利用GEO2R軟件篩選差異表達(dá)基因,并進(jìn)行聚類分析。利用STRING構(gòu)建由差異表達(dá)基因所翻譯的蛋白質(zhì)之間的相互作用(Protein-Protein Interaction,PPI)網(wǎng)絡(luò)。通過Cytoscape選取具有關(guān)鍵蛋白的網(wǎng)絡(luò)模塊并確定樞紐蛋白,找出肺癌致病基因位點(diǎn)。利用MySQL創(chuàng)建肺癌DNA樣本數(shù)據(jù)庫(kù),將找出的致病基因位點(diǎn)存入數(shù)據(jù)庫(kù)。
1.2.2 DNA序列比對(duì)技術(shù)
DNA序列比對(duì)是根據(jù)一個(gè)給定的計(jì)分函數(shù)計(jì)算得到兩個(gè)或多個(gè)堿基序列的最優(yōu)比對(duì),即對(duì)兩個(gè)或多個(gè)堿基(在核酸中是A,T(或U),C,G,在蛋白質(zhì)中是氨基酸殘基的單字母表示)序列通過匹配相對(duì)應(yīng)的堿基或插入“—”來顯示插入或刪除,進(jìn)行相似度分析,從而得到序列之間的最大相似性排列[11]。通過序列比對(duì),找出序列之間的相似性,發(fā)現(xiàn)與結(jié)構(gòu)相聯(lián)系的保守序列片段,以及檢測(cè)新測(cè)定序列與數(shù)據(jù)庫(kù)中已知結(jié)構(gòu)和功能的序列之間的相似性關(guān)系,從而以足夠的可信度確定新序列的結(jié)構(gòu)和功能信息。研究中將已建立的肺癌數(shù)據(jù)庫(kù)與樣本DNA序列進(jìn)行比對(duì),獲得序列在基因組上的位置信息以及相應(yīng)的比對(duì)結(jié)果。
1.2.3 根據(jù)比對(duì)結(jié)果提供預(yù)防及治療意見
使用美國(guó)卡內(nèi)基梅隆大學(xué)的關(guān)于肺癌治療數(shù)據(jù)庫(kù),將細(xì)胞類型、病人存活時(shí)間、狀態(tài)、患者生活質(zhì)量評(píng)分、治療起始時(shí)間、年齡的數(shù)據(jù)作為輸入因子,將要預(yù)測(cè)的肺癌治療手段作為輸出因子,在分析與肺癌有關(guān)的各屬性的統(tǒng)計(jì)數(shù)值之后,對(duì)其中與產(chǎn)量有著密切關(guān)系的屬性加以著重考慮,與DNA序列比對(duì)結(jié)果進(jìn)行比較,給出最佳的治療建議。技術(shù)路線如圖1所示。
2 結(jié)果
首先將已建立的肺癌樣本數(shù)據(jù)庫(kù)與用戶DNA序列進(jìn)行比對(duì),獲得序列在基因組上的位置信息以及相應(yīng)的比對(duì)結(jié)果。利用C#實(shí)現(xiàn)序列算法將用戶序列數(shù)據(jù)回帖至樣本數(shù)據(jù)庫(kù)中以獲得序列在基因組上的準(zhǔn)確位置。再通過聚類分析,識(shí)別錯(cuò)配位點(diǎn)并進(jìn)行多重校正算法檢驗(yàn),識(shí)別出癌與癌旁組織中的特異性位點(diǎn),降低識(shí)別結(jié)果中的假陽(yáng)性,為后續(xù)分析提供良好基礎(chǔ)。
將樣本人群的測(cè)序基因同數(shù)據(jù)庫(kù)中的致病基因進(jìn)行序列比對(duì),比對(duì)的結(jié)果反映了在多大程度上序列之間的相似性關(guān)系以及它們的生物學(xué)特征,指明序列間的保守區(qū)域和不同之處,為進(jìn)一步研究它們?cè)诮Y(jié)構(gòu)、功能的聯(lián)系提供了重要的參考依據(jù)。最后根據(jù)比對(duì)結(jié)果分析是否存在患病風(fēng)險(xiǎn),并設(shè)計(jì)相應(yīng)的基因治療方案,從而實(shí)現(xiàn)肺癌的早發(fā)現(xiàn)、早干預(yù)、早治療,進(jìn)而達(dá)到降低發(fā)病概率、提高治愈效果的目的。
3 討論
本研究根據(jù)篩選出的肺癌致病基因位點(diǎn)建立數(shù)據(jù)庫(kù),通過DNA序列比對(duì)算法,將樣本DNA序列和數(shù)據(jù)庫(kù)內(nèi)的致病基因進(jìn)行比對(duì),檢測(cè)樣本人群是否攜帶肺癌的致病基因,實(shí)現(xiàn)肺癌的早發(fā)現(xiàn)、早預(yù)防、早治療,從而降低發(fā)病概率,提高治愈效果。
深入分析DNA序列比對(duì)與癌癥發(fā)現(xiàn)及預(yù)防的關(guān)系,著重從創(chuàng)建肺癌DNA樣本數(shù)據(jù)庫(kù)、DNA序列比對(duì)技術(shù)、分析比對(duì)結(jié)果并提供意見這3個(gè)方面進(jìn)行研究。在分析肺癌基因位點(diǎn)并研究多序列比對(duì)技術(shù)的基礎(chǔ)上,提出了基于DNA序列比對(duì)的肺癌早期發(fā)現(xiàn)及預(yù)防方案,并采用C#程序設(shè)計(jì)語(yǔ)言和數(shù)據(jù)庫(kù)技術(shù)建立了框架和平臺(tái),實(shí)現(xiàn)了樣本數(shù)據(jù)的集成、存儲(chǔ)、管理與利用,保證了各個(gè)系統(tǒng)之間數(shù)據(jù)可共享交換,為序列比對(duì)及治療建議提供了數(shù)據(jù)支撐,為樣本數(shù)據(jù)的集成應(yīng)用奠定了基礎(chǔ)。
使用PubMed數(shù)據(jù)庫(kù)作為查找工具。PubMed是一個(gè)免費(fèi)搜尋引擎,它提供生物醫(yī)學(xué)方面的論文搜尋以及摘要,數(shù)據(jù)庫(kù)來源為MEDLINE,核心主題為醫(yī)學(xué)。MySQL是本項(xiàng)目所使用的一個(gè)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),用來寫入包含致病基因的DNA序列,關(guān)系數(shù)據(jù)庫(kù)將數(shù)據(jù)保存在不同的表中,而不是將所有數(shù)據(jù)放在一個(gè)大倉(cāng)庫(kù)內(nèi),這樣就增加了速度并提高了靈活性。MySQL目前屬于Oracle旗下產(chǎn)品,是最流行的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)之一,是最好的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(Relational Database Management System,RDBMS)應(yīng)用軟件。使用C#作為實(shí)現(xiàn)DNA序列比對(duì)算法的主要工具,用于算法開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計(jì)算的高級(jí)技術(shù)計(jì)算語(yǔ)言和交互式環(huán)境。
隨著生物信息學(xué)的迅速發(fā)展,國(guó)內(nèi)外學(xué)者對(duì)該領(lǐng)域的關(guān)注度持續(xù)增高,產(chǎn)生了許多基于基因序列比對(duì)的算法研究?;蛐蛄斜葘?duì)是生物信息學(xué)最基本、最重要的操作,是進(jìn)行基因識(shí)別、信息分析、結(jié)構(gòu)預(yù)測(cè)等問題的前提。本項(xiàng)目采用借用DNA序列比對(duì)算法對(duì)生物序列進(jìn)行相似性比較,從而判斷出用戶DNA序列與肺癌樣本數(shù)據(jù)庫(kù)中序列的一致性程度。并根據(jù)設(shè)定的閾值,結(jié)合肺癌治療數(shù)據(jù)庫(kù)提供治療建議。
[參考文獻(xiàn)]
[1]SIEGEL R L,MILLER K D,JEMAL A.Cancer statistics[J].Ca A Cancer Journal for Clinicians,2014(1):5-29.
[2]CABANERO M,SANGHA R,SHEFFIELD B S,et al.Management of EGFR-mutated non–small-cell lung cancer: practical implications from a clinical and pathology perspective[J].Current Oncology,2017(24):111-119.
[3]LABBE C,CABANERO M,KORPANTY G J,et al.Prognostic and predictive effects of TP53 co-mutation in patients with EGFR-mutated non–small cell lung cancer(NSCLC)[J].Lung Cancer,2017(111):23-29.
[4]RAO G,PIEROBON M,KIM I K,et al.Inhibition of AKT1 signaling promotes invasion and metastasis of non-small cell lung cancer cells with K-RAS or EGFR mutations[J].Scientific Reports,2017(1):7066.
[5]FATHI Z,MOUSAVI S A J,ROUDI R,et al.Distribution of KRAS,DDR2,and TP53 gene mutations in lung cancer: An analysis of Iranian patients[J].PLoS One,2018(7):633.
[6]MALCHERS F,ERCANOGLU M,SCH?TTE D,et al.Mechanisms of primary drug resistance in FGFR1-amplified lung cancer[J].Clinical Cancer Research,2017(18):5527-5536.
[7]VANDERLAAN P A,RANGACHARI D,MOCKUS S M,et al.Mutations in TP53,PIK3CA,PTEN and other genes in EGFR mutated lung cancers: correlation with clinical outcomes[J].Lung Cancer,2017(106):17-21.
[8]PROS E,LANTUEJOUL S,SANCHEZ-VERDE L,et al.Determining the profiles and parameters for gene amplification testing of growth factor receptors in lung cancer[J].International Journal of Cancer,2013(4):898-907.
[9]HANNA E,R?MUZAT C,AUQUIER P,et al.Gene therapies development: slow progress and promising prospect[J].Journal of Market Access & Health Policy,2017(1):1265293.
[10]PRABHA S,SHARMA B,LABHASETWAR V.Inhibition of tumor angiogenesis and growth by nanoparticle-mediated p53 gene therapy in mice[J].Cancer Gene Therapy,2012(8):530-537.
[11]謝少榮,王東紅,羅均,等.基于生物信息學(xué)中雙DNA序列比對(duì)算法的圖像立體匹配及其實(shí)現(xiàn)[J].光學(xué)精密工程,2007(1):106-111.
Abstract:In order to achieve early detection, early prevention and early treatment of lung cancer, thereby reducing the incidence of lung cancer and improving the healing effect after onset, the article collected known lung cancer pathogenic gene loci and established lung cancer samples from the PubMed database. The database compares the established lung cancer database with the sample DNA, and judges whether the sample population carries the disease-causing gene of lung cancer according to the comparison result, and then provides prevention and treatment advice according to the database of lung cancer treatment of Carnegie Mellon University.
Key words:lung cancer; database; DNA sequence alignment; early detection; prevention