褚皓
摘要:本文重點(diǎn)介紹了生物信息學(xué)和數(shù)據(jù)挖掘技術(shù)的基本概念,以及生物信息學(xué)的一些主要研究方向。同時(shí)也舉例了一些數(shù)據(jù)挖掘技術(shù)在生物信息學(xué)領(lǐng)域的具體應(yīng)用,強(qiáng)調(diào)了如今數(shù)據(jù)挖掘技術(shù)在生物信息學(xué)領(lǐng)域中存在部分不足以及未來(lái)廣闊的應(yīng)用前景。
關(guān)鍵詞:數(shù)據(jù)挖掘;生物信息學(xué);數(shù)據(jù)挖掘工具;生物學(xué)數(shù)據(jù)庫(kù)
中圖分類號(hào):TP399? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):1007-9416(2018)10-0000-00
1 引言
近年來(lái),基因組學(xué)和蛋白質(zhì)組學(xué)的快速發(fā)展積累了大量的生物數(shù)據(jù),為揭開(kāi)生命神秘的面紗提供了良好的數(shù)據(jù)基礎(chǔ)。生物信息學(xué),或計(jì)算生物學(xué),是用信息技術(shù)和計(jì)算機(jī)科學(xué)來(lái)解釋生物數(shù)據(jù)的跨學(xué)科科學(xué),它是伴隨基因組研究而產(chǎn)生的,其研究?jī)?nèi)容也緊隨著基因組研究而發(fā)展。
如今,在生物信息學(xué)領(lǐng)域中最受關(guān)注的一個(gè)方向就是應(yīng)用和開(kāi)發(fā)數(shù)據(jù)挖掘技術(shù)來(lái)解決生物問(wèn)題,其中包括蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、基因分類、基于微陣列數(shù)據(jù)的癌癥分類、基因表達(dá)數(shù)據(jù)的聚類以及蛋白質(zhì)相互作用的統(tǒng)計(jì)建模等。由此可見(jiàn),數(shù)據(jù)挖掘在生物信息領(lǐng)域前景廣闊。
2 生物信息學(xué)
生物信息學(xué)(Bioinformatics)是生命科學(xué)、計(jì)算機(jī)科學(xué)、信息科學(xué)和數(shù)學(xué)等學(xué)科交匯融合所形成的一門交叉學(xué)科[1]。生物信息學(xué)這個(gè)術(shù)語(yǔ)是由保利恩·霍格威格在1979年為研究生物系統(tǒng)中的信息過(guò)程而創(chuàng)造的。它自上世紀(jì)80年代末后大量應(yīng)用于基因組學(xué)和遺傳學(xué)領(lǐng)域,尤其是涉及到高通量DNA測(cè)序的基因組學(xué)領(lǐng)域。
生物信息學(xué)也可以定義為計(jì)算機(jī)技術(shù)在生物信息管理中的應(yīng)用,它是從生物序列和生物分子中提取、存儲(chǔ)、組織、分析、解釋和利用信息的科學(xué)。在過(guò)去的幾十年中,得益于DNA測(cè)序技術(shù)和生物繪圖技術(shù)的進(jìn)步以及基因組技術(shù)和電子信息技術(shù)的高速發(fā)展結(jié)合在一起產(chǎn)生了大量與分子生物學(xué)相關(guān)的數(shù)據(jù)信息。生物信息學(xué)的主要目標(biāo)是通過(guò)對(duì)這些信息的分析挖掘增加對(duì)生物過(guò)程的理解。
生物信息學(xué)研究的一些重要領(lǐng)域包括:
2.1 序列分析
序列分析是生物信息學(xué)的基礎(chǔ),主要通過(guò)應(yīng)用計(jì)算機(jī)對(duì)DNA序列或多肽序列進(jìn)行序列比對(duì)、序列數(shù)據(jù)庫(kù)和重復(fù)序列搜索等操作,研究生物序列在醫(yī)學(xué)分析和基因組定位過(guò)程中相似的位點(diǎn)以及不同的位點(diǎn)。
2.2 基因組注釋
基因組注釋在生物信息學(xué)中指通過(guò)計(jì)算的手段來(lái)為基因組中的基因或其他生物元素進(jìn)行標(biāo)注[3]。第一個(gè)基因組注釋軟件系統(tǒng)是由Owen White博士在1995年設(shè)計(jì)的。
2.3 基因表達(dá)分析
基因的表達(dá)水平可以通過(guò)運(yùn)用各種技術(shù)測(cè)量mRNA表達(dá)水平的方式來(lái)確定,比如采用微陣列技術(shù),cDNA表達(dá)序列標(biāo)簽測(cè)序(EST),基因表達(dá)系列分析(SAGE),大規(guī)模并行測(cè)序(MPSS),或各種復(fù)合原位雜交法等。以上所有技術(shù)都有著良好的抗噪性,且不受生物測(cè)量誤差影響。這一領(lǐng)域還涉及到需要開(kāi)發(fā)相應(yīng)統(tǒng)計(jì)工具以分離并移除高通量基因表達(dá)研究所產(chǎn)出信號(hào)值中的噪音。
2.4 蛋白質(zhì)表達(dá)分析
基因表達(dá)的測(cè)量方法有很多,包括mRNA表達(dá)和蛋白表達(dá)。由于蛋白質(zhì)是細(xì)胞活動(dòng)的最終催化劑,但蛋白表達(dá)水平是確定實(shí)際基因表達(dá)水平的最佳線索之一。蛋白質(zhì)微陣列和高通量質(zhì)譜(MS)可以提供生物樣品中蛋白質(zhì)的快照?qǐng)D像信號(hào)。生物信息學(xué)在蛋白質(zhì)微陣列和高通量質(zhì)譜研究中起著重要的作用。
2.5 癌癥突變分析
受癌癥影響的細(xì)胞的基因組往往以復(fù)雜乃至不可預(yù)測(cè)的方式排列,因此大量的測(cè)序工作被用來(lái)對(duì)此前未知的癌癥基因的點(diǎn)突變進(jìn)行識(shí)別。生物信息學(xué)家一直在開(kāi)發(fā)專業(yè)的自動(dòng)軟件系統(tǒng),以處理高通量測(cè)序產(chǎn)出的海量序列數(shù)據(jù)。他們不斷運(yùn)用新開(kāi)發(fā)出的算法和軟件,將測(cè)序結(jié)果與不斷完善的人類基因組序列和多態(tài)序列進(jìn)行比對(duì)。同時(shí),新的物理檢測(cè)技術(shù),比如利用寡核苷酸微陣列技術(shù)來(lái)識(shí)別染色體的增益和損耗,以及利用單核苷酸多態(tài)性陣列來(lái)檢測(cè)已知的點(diǎn)突變等,在腫瘤研究中的復(fù)發(fā)病變基因序列分析中也得到了廣泛的應(yīng)用。
2.6 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)
蛋白質(zhì)的氨基酸序列(又稱為初級(jí)結(jié)構(gòu))可以通過(guò)編碼該蛋白質(zhì)的基因序列來(lái)確定。一般情況下,蛋白質(zhì)初級(jí)結(jié)構(gòu)決定了其原生環(huán)境中的結(jié)構(gòu)。因此,深入了解這種結(jié)構(gòu)對(duì)于理解蛋白質(zhì)的內(nèi)在功能至關(guān)重要。在蛋白質(zhì)初級(jí)結(jié)構(gòu)之上還有二級(jí)結(jié)構(gòu)、三級(jí)結(jié)構(gòu)和四級(jí)結(jié)構(gòu)。蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)也是藥物設(shè)計(jì)和新型酶設(shè)計(jì)的重要內(nèi)容。
2.7 比較基因組學(xué)
比較基因組學(xué)是研究不同的物種間基因組結(jié)構(gòu)和功能的關(guān)系的學(xué)科?;虬l(fā)現(xiàn)是比較基因組學(xué)的一個(gè)重要應(yīng)用,主要應(yīng)用于發(fā)現(xiàn)基因組中新的非編碼功能元素。蛋白質(zhì)、RNA以及不同物種調(diào)控區(qū)域間差異也是比較基因組學(xué)的主要研究方向。近年來(lái),隨著生物信息學(xué)的快速發(fā)展,基因組比較算法研究在計(jì)算機(jī)科學(xué)領(lǐng)域也非常流行。
2.8 生物系統(tǒng)建模
生物系統(tǒng)建模是系統(tǒng)生物學(xué)和數(shù)學(xué)生學(xué)的重要組成部分。研究人員開(kāi)發(fā)和運(yùn)用高效的算法、數(shù)據(jù)結(jié)構(gòu)以及可視化工具,將海量生物數(shù)據(jù)進(jìn)行集成化處理,以便于最后應(yīng)用于計(jì)算機(jī)建模作業(yè)。這涉及到了使用計(jì)算機(jī)模擬生物系統(tǒng),比如代謝產(chǎn)物與酶的網(wǎng)絡(luò)、信號(hào)轉(zhuǎn)導(dǎo)通路和基因調(diào)控網(wǎng)絡(luò)之類的細(xì)胞子系統(tǒng),以觀察和分析這些細(xì)胞過(guò)程之間的復(fù)雜關(guān)系。近年來(lái),通過(guò)計(jì)算機(jī)模擬簡(jiǎn)單生命形式逐漸成為生物學(xué)家理解生物進(jìn)化過(guò)程的一種重要嘗試。
2.9 高通量圖像分析
如今,得益于計(jì)算機(jī)技術(shù)的發(fā)展,大量的生物醫(yī)學(xué)圖像數(shù)據(jù)得以在短時(shí)間內(nèi)被自動(dòng)處理、量化和分析?,F(xiàn)代圖像分析系統(tǒng)加強(qiáng)了研究人員觀測(cè)大型復(fù)雜圖像的能力。一個(gè)完善的分析系統(tǒng)甚至可以完全獨(dú)立運(yùn)行。生物醫(yī)學(xué)成像技術(shù)對(duì)于診斷和研究已經(jīng)變得越來(lái)越重要并已在實(shí)際案例中得到應(yīng)用,比如臨床圖像分析與可視化、DNA圖譜中的克隆重疊推斷、生物圖像信息學(xué)等。
2.10 蛋白質(zhì)對(duì)接
在過(guò)去的二十年中,數(shù)以萬(wàn)記的蛋白質(zhì)三維結(jié)構(gòu)已通過(guò)x射線晶體學(xué)和蛋白質(zhì)核磁共振波譜(蛋白質(zhì)NMR)技術(shù)得到確定。因此,生物學(xué)家們?nèi)缃衩媾R的一個(gè)核心問(wèn)題是不通過(guò)具體的生物學(xué)實(shí)驗(yàn),而僅僅基于這些三維結(jié)構(gòu)來(lái)預(yù)測(cè)蛋白質(zhì)間的相互作用是否可行。
3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或“挖掘”知識(shí),是在大量數(shù)據(jù)中發(fā)現(xiàn)新的模式和關(guān)系的科學(xué)。它被定義為通過(guò)挖掘存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的大量數(shù)據(jù)以發(fā)現(xiàn)有意義的新關(guān)聯(lián)、新模式和新趨勢(shì)的過(guò)程。數(shù)據(jù)挖掘有時(shí)也被稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD)。數(shù)據(jù)挖掘并不專屬于某一個(gè)學(xué)科門類,而是多學(xué)科交叉,相關(guān)學(xué)科包括數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、領(lǐng)域知識(shí)等[2]。
對(duì)于生物信息學(xué)來(lái)說(shuō),數(shù)據(jù)挖掘理論非常適用,雖然高通量測(cè)序會(huì)產(chǎn)出大量的生物數(shù)據(jù),但是在生物個(gè)體的分子水平上仍缺少一個(gè)完整的數(shù)據(jù)理論體系。同時(shí),龐大的生物信息數(shù)據(jù)庫(kù)也為知識(shí)發(fā)現(xiàn)理論的發(fā)展帶來(lái)了機(jī)遇和挑戰(zhàn)。在生物領(lǐng)域進(jìn)行數(shù)據(jù)挖掘有助于從生物學(xué)和其他相關(guān)生命科學(xué)領(lǐng)域(如醫(yī)學(xué)和神經(jīng)科學(xué)等)產(chǎn)出的海量數(shù)據(jù)中提取有用的知識(shí),或在相關(guān)領(lǐng)域取得突破。
在處理實(shí)際問(wèn)題時(shí),數(shù)據(jù)挖掘的主要目標(biāo)其實(shí)就是描述和預(yù)測(cè)。數(shù)據(jù)挖掘的主要任務(wù),包括如從數(shù)據(jù)中發(fā)掘出一些新的模式和細(xì)節(jié)的步驟,如下所列:
分類:分類是將一個(gè)數(shù)據(jù)項(xiàng)映射(分類)到某個(gè)預(yù)定義的類中。
估計(jì):根據(jù)提供的數(shù)據(jù)為一些未知的連續(xù)變量估出的值。
預(yù)測(cè):與分類和估計(jì)類似,根據(jù)一些事物未來(lái)行為或未來(lái)的估值進(jìn)行分類。
關(guān)聯(lián)規(guī)則:確定哪些工作可以同時(shí)進(jìn)行,也被稱為依賴建模。
聚類:將一個(gè)總體分成若干組或群。
可視化:運(yùn)用可視化技術(shù)描述數(shù)據(jù)。
數(shù)據(jù)學(xué)習(xí)可以分為兩類:定向(“監(jiān)督”)和無(wú)定向(“無(wú)監(jiān)督”)學(xué)習(xí)。前三個(gè)任務(wù)——分類、估計(jì)和預(yù)測(cè)——是監(jiān)督學(xué)習(xí)的例子。后面三個(gè)任務(wù)——關(guān)聯(lián)規(guī)則、聚類和可視化——是無(wú)監(jiān)督學(xué)習(xí)的例子。監(jiān)督學(xué)習(xí)的目標(biāo)是在所有變量之間建立關(guān)系,并從中發(fā)掘新的模型。
由于數(shù)據(jù)發(fā)掘和只是發(fā)現(xiàn)在現(xiàn)代生物學(xué)中的巨大作用,新的數(shù)據(jù)發(fā)掘工具的研發(fā)是如今最熱門的課題之一。
4 數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用
數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用包括基因發(fā)現(xiàn)、蛋白功能域檢測(cè)、功能基序檢測(cè)、蛋白功能推斷、疾病診斷、疾病預(yù)后、疾病治療優(yōu)化、蛋白與基因交互網(wǎng)絡(luò)重構(gòu)、數(shù)據(jù)清理、蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)等。
例如,微陣列技術(shù)經(jīng)常用于疾病診斷。根據(jù)癌癥患者基因型的微陣列數(shù)據(jù)可以預(yù)估患者的生存期,以及腫瘤轉(zhuǎn)移或復(fù)發(fā)的風(fēng)險(xiǎn)。機(jī)器學(xué)習(xí)能夠通過(guò)質(zhì)譜技術(shù)用于多肽的識(shí)別。串聯(lián)質(zhì)譜中片段離子之間相關(guān)性的研究對(duì)于通過(guò)數(shù)據(jù)庫(kù)搜索以減少多肽識(shí)別的隨機(jī)錯(cuò)配至關(guān)重要。因此,現(xiàn)在急需一種對(duì)相關(guān)性信息的進(jìn)行綜合高效評(píng)分的數(shù)據(jù)挖掘算法。
5 結(jié)語(yǔ)
在生物信息學(xué)領(lǐng)域中,數(shù)據(jù)挖掘仍然受到生物數(shù)據(jù)庫(kù)本身大小、數(shù)量、多樣性、數(shù)據(jù)質(zhì)量、數(shù)據(jù)來(lái)源以及生物本體樣本缺失等各方面的限制。隨著基因組研究的進(jìn)展與現(xiàn)代生物技術(shù)的發(fā)展,如何將眾多的數(shù)據(jù)挖掘技術(shù)應(yīng)用于生物信息分析是當(dāng)前研究的熱點(diǎn),包括適合生物信息處理的數(shù)據(jù)挖掘體系架構(gòu)、算法的開(kāi)發(fā)、新的數(shù)據(jù)挖掘分析功能研究等[4]。數(shù)據(jù)挖掘技術(shù)與生物信息學(xué)的緊密結(jié)合會(huì)得到更多更有意義的挖掘結(jié)果,對(duì)人類社會(huì)的進(jìn)步起到積極的作用。
參考文獻(xiàn)
[1]Luscombe NM,Greenbaum D, Gerstein M. What is bioinformatics? A proposed definition and overview of the field. Methods information in Medicine,2001,40(4):346-58
[2]王星,等.大數(shù)據(jù)分析:方法與應(yīng)用[M].北京:清華大學(xué)出版社,2013:13
[3]梁艷春,張琛,等.生物信息學(xué)中的數(shù)據(jù)挖掘方法及應(yīng)用[M].北京:科學(xué)出版社,2011:12.
[4]李佳,江濤.生物信息數(shù)據(jù)挖掘應(yīng)用研究[J].中國(guó)科技信息,2009,(20):42-43
Application of data mining in bioinformatics
CHU Hao
(Beijing Capitalbio Technology, Beijing? 102600)
Abstract:This article highlights some of the basic concepts of bioinformatics and data mining and some of the major research areas of bioinformatics. The main application of data mining in the domain of bioinformatics is explained as well. It also emphasizes some of the current shortcomings and promising opportunities in future of data mining in bioinformatics.
Key Word: Data mining, Bioinformatics, Data mining tool, biology database