一種改進(jìn)的基因功能相似度計(jì)算方法

2017-11-08 22:52:04田偵郭茂祖

智能計(jì)算機(jī)與應(yīng)用 2017年5期

田偵　郭茂祖

摘要：近年來，基于基因本體比較基因之間的功能相似度成為一個(gè)研究熱點(diǎn)。當(dāng)前，基因功能相似度計(jì)算方法可以分為2種類型：逐對(duì)（pair-wise）比較法和成組（group-wise）比較法。然而，由于基因本體注釋數(shù)據(jù)的豐度問題，造成大量的基因具有相同的本體注釋數(shù)據(jù)，從而導(dǎo)致基因功能相似度計(jì)算方法的結(jié)果存在偏差。本文提出一種改進(jìn)的基因功能相似度計(jì)算方法，對(duì)注釋集合的語(yǔ)義信息量進(jìn)行歸一化，達(dá)到準(zhǔn)確度量基因之間的功能相似度的目的。實(shí)驗(yàn)結(jié)果表明：本文提出的方法可以消除相同注釋對(duì)基因功能相似度計(jì)算方法的影響，且在測(cè)試平臺(tái)上獲得非常優(yōu)秀的結(jié)果。

關(guān)鍵詞：基因本體；基因功能相似度；相同注釋；相似度歸一化

中圖分類號(hào)： TP391.41

文獻(xiàn)標(biāo)志碼： A

文章編號(hào)： 2095-2163（2017）05-0123-04

Abstract： In recent years， comparing the functional similarity of genes based on Gene Ontology has become a research hotspot. Currently， gene functional similarity calculation methods can be mainly divided into two types： pairwise approaches and groupwise approaches. However， due to the abundance of annotation data of genes， large number of genes has the identical ontology annotation， resulting in the deviation of results for these gene functional similarity calculation methods. This paper proposes an improved method for measuring the functional similarity of genes. The semantic information content of the annotated term set is normalized for the sake of measuring the functional similarity between genes more accurately. The experimental results show that the proposed method can eliminate the influence of the identical annotation on gene functional similarity calculation methods， and obtain a very good performance on the test platform.

Keywords： Gene Ontology； gene functional similarity； identical annotation； similarity normalization

0引言

基因本體（Gene Ontology，GO）聯(lián)合會(huì)建立的數(shù)據(jù)庫(kù)，其目標(biāo)是能夠滿足跨數(shù)據(jù)庫(kù)對(duì)基因和基因產(chǎn)物進(jìn)行一致描述。GO是一個(gè)標(biāo)準(zhǔn)化、精確定義和控制（controlled vocabulary）的詞匯庫(kù)。當(dāng)前，主要包括3個(gè)本體子結(jié)構(gòu)：細(xì)胞成分（Cellular Component，CC）、分子功能（Molecular Function，MF）和生物過程（Biological Process，BP）[1]。3種子結(jié)構(gòu)之間彼此是獨(dú)立的，也就是說可以從BP、CC和MF三個(gè)方面對(duì)基因進(jìn)行描述。

在后基因組時(shí)代，基于基因本體比較和分析基因之間的功能相似性，具有重要的研究意義[2]。當(dāng)前，基因功能相似度的計(jì)算方法已經(jīng)在各種研究中得到廣泛的應(yīng)用，例如蛋白質(zhì)相互作用預(yù)測(cè)[3-4]、蛋白質(zhì)復(fù)合體識(shí)別[5-6]以及基因功能預(yù)測(cè)[7]、網(wǎng)絡(luò)預(yù)測(cè)（network prediction）[8]、疾病基因優(yōu)先排序（disease gene prioritization）[9-10]等。基于基因本體和基因的功能注釋數(shù)據(jù)，分析和比較基因之間的功能相似度，受到越來越多的關(guān)注。

1研究方法綜述

近年來，研究人員提出許多基于基因本體的計(jì)算基因功能相似性的方法[11-15]。整體上這些方法可以分為兩大類：逐對(duì)（pair-wise）比較法和成組（group-wise）比較法[16]。前者重點(diǎn)關(guān)注術(shù)語(yǔ)對(duì)之間的關(guān)系，即首先計(jì)算術(shù)語(yǔ)對(duì)之間的語(yǔ)義相似度，然后整合術(shù)語(yǔ)對(duì)之間的語(yǔ)義相似度，從而得到基因之間的功能相似度；后者則從術(shù)語(yǔ)集合的角度出發(fā)，借助術(shù)語(yǔ)集合的語(yǔ)義相似度計(jì)算基因之間的功能相似度[17]。接下來將簡(jiǎn)單回顧這2種方法的研究發(fā)展歷程。

[BT5]1.1逐對(duì)比較法

逐對(duì)比較法度量基因的功能相似性時(shí)，整體上可以分為2步。第一步計(jì)算GO術(shù)語(yǔ)之間的語(yǔ)義相似性；第二步將術(shù)語(yǔ)之間的語(yǔ)義相似性整合，最終獲得基因之間的功能相似性。計(jì)算術(shù)語(yǔ)之間語(yǔ)義相似性方法有3種類型：基于點(diǎn)（node-based）方法、基于邊（ege-based）方法和混合（hybrid）法。Resnik[18]在計(jì)算2個(gè)術(shù)語(yǔ)的語(yǔ)義相似度時(shí)，利用2個(gè)術(shù)語(yǔ)的最有信息公共祖先（most informative common ancestor，MICA）的語(yǔ)義信息量，作為二者的語(yǔ)義相似度。有時(shí)最有信息公共祖先也稱最低公共祖先節(jié)點(diǎn)（lowest common ancestor， LCA）。由于該方法相對(duì)簡(jiǎn)單，在實(shí)際的計(jì)算過程中發(fā)現(xiàn)，該方法會(huì)導(dǎo)致很多術(shù)語(yǔ)之間的語(yǔ)義相似度相同。后來，Jiang[13]及Lin[19] 在計(jì)算2個(gè)術(shù)語(yǔ)的語(yǔ)義相似度時(shí)，不僅考慮術(shù)語(yǔ)的最有公共祖先節(jié)點(diǎn)，還考慮2個(gè)術(shù)語(yǔ)自身的語(yǔ)義信息，分別提出各自的方法。上述這些方法均存在“淺注釋”（shallow annotation）的問題，即距離根節(jié)點(diǎn)較近的2個(gè)術(shù)語(yǔ)節(jié)點(diǎn)也可能獲得較高的語(yǔ)義相似度。Couto[20]通過考慮術(shù)語(yǔ)所有祖先節(jié)點(diǎn)的語(yǔ)義信息量，而不是最有信息公共祖先節(jié)點(diǎn)的語(yǔ)義信息量來計(jì)算術(shù)語(yǔ)之間的語(yǔ)義相似度。該方法的計(jì)算復(fù)雜度相對(duì)較高，在術(shù)語(yǔ)節(jié)點(diǎn)的子結(jié)構(gòu)（subgraph）簡(jiǎn)單時(shí)，實(shí)驗(yàn)結(jié)果不夠突出?；谶叺姆椒ㄍㄟ^計(jì)算連接2個(gè)術(shù)語(yǔ)邊的特性來計(jì)算術(shù)語(yǔ)之間的相似度。Pekar[21]利用最有信息祖先節(jié)點(diǎn)到根節(jié)點(diǎn)的距離以及術(shù)語(yǔ)分別到最有信息祖先節(jié)點(diǎn)距離，計(jì)算術(shù)語(yǔ)之間的語(yǔ)義相似度。但是該方法沒有考慮到本體結(jié)構(gòu)中語(yǔ)義關(guān)系的傳遞性，而是將其設(shè)定為同等看待。Cheng [22]將術(shù)語(yǔ)距離葉節(jié)點(diǎn)的距離引入語(yǔ)義相似度計(jì)算中。研究指出節(jié)點(diǎn)距離葉節(jié)點(diǎn)越近，其特異性越強(qiáng)，語(yǔ)義信息量越大。Wang[23]提出了綜合計(jì)算的方法，提出語(yǔ)義貢獻(xiàn)因子（semantic contribution factor）的概念。過程中既考慮術(shù)語(yǔ)的語(yǔ)義信息有一部分要通過語(yǔ)義關(guān)系傳遞給子孫節(jié)點(diǎn)，又考慮了在傳遞過程中，不同語(yǔ)義傳遞的強(qiáng)度不同。由此，最終提出既考慮術(shù)語(yǔ)節(jié)點(diǎn)本身、又考慮語(yǔ)義關(guān)系的綜合計(jì)算方法。Othman[24]等考慮術(shù)語(yǔ)關(guān)系所在區(qū)域的連接密度、節(jié)點(diǎn)之間語(yǔ)義信息量差異以及節(jié)點(diǎn)的深度等信息，計(jì)算術(shù)語(yǔ)之間的語(yǔ)義相似度。endprint

[BT5]1.2成組比較法

成組比較法將基因的GO注釋術(shù)語(yǔ)看成一個(gè)整體，也就說從集合的角度分析2個(gè)注釋集合的相似度，從而得到基因之間的功能相似度。成組比較法又有3種常見的類型[16]：基于集合（set-based）方法、基于圖方法和基于向量的方法。其中，基于集合的方法將基因的所有術(shù)語(yǔ)注釋作為一個(gè)集合，用傳統(tǒng)的集合之間的相似度作為基因之間的功能相似度。Gentleman [15]利用2個(gè)集合之間交集和并集的比率作為2個(gè)集合的相似度；方法simGIC[25]將術(shù)語(yǔ)的語(yǔ)義信息量引入到集合內(nèi)。該方法主要通過計(jì)算集合并集的語(yǔ)義信息量和集合交集的語(yǔ)義信息量，而后綜合求得集合之間的相似度。Teng則發(fā)現(xiàn)方法simGIC在計(jì)算術(shù)語(yǔ)集合語(yǔ)義信息量時(shí)，存在重復(fù)計(jì)算的問題，因此Teng[17]提出SORA方法，更加準(zhǔn)確度量術(shù)語(yǔ)集合的語(yǔ)義相似度，從而提高基因功能相似度計(jì)算方法的效果?；趫D的方法利用基因本體結(jié)構(gòu)和基因的所有注釋術(shù)語(yǔ)，獲取這些注釋術(shù)語(yǔ)的圖形結(jié)構(gòu)；通過圖形比對(duì)方法，計(jì)算2個(gè)圖形之間的相似度作為基因之間的功能相似度?；谙蛄康姆椒ㄊ紫葘⒒虻男g(shù)語(yǔ)集合按照一定順序，表示成0-1向量（如果基因被該位置的術(shù)語(yǔ)注釋，則用1表示，反之亦然）；用2個(gè)向量之間的余弦相似度作為2個(gè)基因之間的功能相似度。這些方法在文章[26]中已經(jīng)得到詳細(xì)的探討論述。

2問題描述

近年來，雖然基因本體數(shù)據(jù)庫(kù)獲得了巨大的發(fā)展，基因功能注釋數(shù)據(jù)也越來越豐富，科研人員可以獲得更為豐富的生物數(shù)據(jù)。然而，當(dāng)前對(duì)基因的本體注釋信息還是存在一定的問題。其中，最突出的一個(gè)問題就是相同注釋（identical annotation）問題。該問題可以簡(jiǎn)單描述為：當(dāng)2個(gè)基因具有相同的基因功能注釋信息，基因功能相似度的計(jì)算出現(xiàn)偏差（bias）。表1列舉了基因相同注釋在4種模式生物中的情況，這些數(shù)據(jù)均來自于最新的Uniprot-GOA數(shù)據(jù)庫(kù)（http：//www.ebi.ac.uk/GOA/downloads）。

而對(duì)于基因功能相似度計(jì)算方法來說，只要2個(gè)基因具有相同功能注釋，那么二者的基因功能相似度就為1.0，顯然這樣是不合理的。目前，對(duì)不同生物的研究程度不同，從而導(dǎo)致對(duì)某些基因的功能注釋信息較少；另一方面，研究相對(duì)成熟的基因也可能具有相同的功能注釋信息。因此，對(duì)于這2種情況的相同注釋問題應(yīng)該區(qū)別對(duì)待。從表1中可以看出，相同注釋在各個(gè)物種的功能注釋數(shù)據(jù)庫(kù)中普遍存在，在酵母和老鼠的功能注釋數(shù)據(jù)庫(kù)中，相同注釋出現(xiàn)的頻率非常高。所以，改進(jìn)基因功能相似度計(jì)算方法去克服相同注釋是非常必要的。

圖1具體描述了相同注釋對(duì)于基因功能相似度計(jì)算方法的影響。在圖1中，基因1（gene1）和基因2（gene2）分別被3個(gè)相同的GO注釋，分別是GO1、GO2和GO3；基因3（gene3）和基因4（gene4）分別被3個(gè)相同的GO注釋，分別是GO4、GO5、GO6。如果采用GIC[25]方法，那么基因1和基因2的功能相似度為1.0，而基因3和基因4的功能相似度也為1.0。顯然，不同基因之間的這種相同注釋，會(huì)造成明顯的誤差，存在一定的不合理性。這是因?yàn)楫?dāng)前對(duì)基因1、基因2、基因3和基因4研究的詳細(xì)程度各有不同而造成的。

表2總共包含3種本體類型的12組實(shí)驗(yàn)。其中，本文提出的方法（SimGICNorm）在MF的Seq實(shí)驗(yàn)、BP的Seq實(shí)驗(yàn)和CC的Pfam、Seq實(shí)驗(yàn)中分別獲得了第一，實(shí)驗(yàn)結(jié)果分別為0.670 2、0.797 6、0.512 5和0.736 4。與之對(duì)應(yīng)的SimGIC方法在MF的ECC和Pfam實(shí)驗(yàn)中獲得了第一名，實(shí)驗(yàn)結(jié)果分別為0.587 4和0.582 4。除此之外，Lin方法在3組實(shí)驗(yàn)中獲得第一名，而Resnik方法和SimUI方法也分別獲得了2組第一和1組第一。表2中最好的實(shí)驗(yàn)結(jié)果用粗體表示。

從上述結(jié)果中可以看出，本文提出的方法在Seq度量指標(biāo)上的性能非常出色，說明該方法和基因的序列相似性保持高度一致；由于本文提出的方法對(duì)基因之間的功能相似度進(jìn)行歸一化操作，因此可以有效克服相同注釋對(duì)相似度計(jì)算結(jié)果的影響，從而使得該方法在CESSM測(cè)試平臺(tái)上獲得了較好的實(shí)驗(yàn)結(jié)果。

5結(jié)束語(yǔ)

基于基因本體和基因功能注釋數(shù)據(jù)，計(jì)算基因之間的功能相似度具有重要的研究意義。與基因的結(jié)構(gòu)相似度和序列相似度類似，功能相似度可以從一個(gè)全新的角度理解基因之間的關(guān)系。本文針對(duì)基因的相同注釋問題提出一種改進(jìn)的方法，從而準(zhǔn)確度量基因之間的功能相似度。該方法主要基于術(shù)語(yǔ)注釋集合，使用統(tǒng)一的相似度歸一化操作，從而使基因功能相似度計(jì)算方法可以區(qū)分不同的相同注釋，最終提高計(jì)算方法的效果。具體的實(shí)驗(yàn)結(jié)果表明，本文提出的改進(jìn)方法在CESSM平臺(tái)上獲得非常出色的實(shí)驗(yàn)結(jié)果，從而證實(shí)本文提出方法的有效性和合理性。

參考文獻(xiàn)

ASHBURNER M， BALL C A， BLAKE J A， et al. Gene Ontology： Tool for the unification of biology[J]. Nature genetics， 2000， 25（1）： 25-29.

[2] MALLADI V S， ERICKSON D T， PPDDUTURI N R， et al. Ontology application and use at the ENCODE DCC[J]. Database， 2015， 2015：bav010.

[3] BRAMEIER M， WIUF C. Coclustering and visualization of gene expression data and gene ontology terms for Saccharomyces cerevisiae using selforganizing maps[J]. Journal of biomedical informatics， 2007， 40（2）： 160-173.endprint

[4] YANG Da， LI Yanhui， XIAO Hui， et al. Gaining confidence in biological interpretation of the microarray data： The functional consistence of the significant GO categories[J]. Bioinformatics， 2008， 24（2）： 265-271.

[5] KING A D， PRULJ N， JURISICA I. Protein complex prediction via costbased clustering[J]. Bioinformatics， 2004， 20（17）： 3013-3120.

[6] WU Xiaomei， ZHU Lei， GUO Jie， et al. Prediction of yeast proteinprotein interaction network： Insights from the Gene Ontology and annotations[J]. Nucleic acids research， 2006， 34（7）： 2137-2150.

[7] [JP3]MI Huaiyu， HUANG Xiaosong， MURUGANUJAN A， et al. PANTHER version 11： Expanded annotation data from Gene Ontology and Reactome pathways， and data analysis tool enhancements[J]. Nucleic acids research， 2017， 45：D183-189.[JP]

[8] LEE P H， LEE D. Modularized learning of genetic interaction networks from biological annotations and mRNA expression data[J]. Bioinformatics， 2005， 21（11）： 2739-2747.

[9] CHENG Liang， LI Jie， JU Peng， et al. SemFunSim： A new method for measuring disease similarity by integrating semantic and gene functional association[J]. PLoS One，2014，9（6）：e99415.

[10]TRANCHEVENT L C， ARDESHIRDAVANI A， ELSHAL S， et al. Candidate gene prioritization with Endeavour[J]. Nucleic acids research， 2016， 44（W1）： W117-W21.

[11]XU Yungang， GUO Maozu， SHI Wenli， et al. A novel insight into Gene Ontology semantic similarity[J]. Genomics， 2013， 101（6）： 368-375.

[12]SCHLICKER A， DOMINGUES F S， RAHNENFHRER J， et al. A new measure for functional similarity of gene products based on Gene Ontology[J]. BMC bioinformatics， 2006， 7：302.

[13]JIANG J J， CONRATH D W. Semantic similarity based on corpus statistics and lexical taxonomy[J]. arXiv preprint cmp-lg/9709008， 1997.

[14]PESQUITA C， FARIA D， BSATOS H， et al. Metrics for GO based protein semantic similarity： A systematic evaluation[J]. BMC bioinformatics， 2008， 9（S5）：S4.

[15]GENTLEMAN R， CAREY V J， HUBER W， et al. Bioinformatics and computational biology solutions using R and Bioconductor[M]//Statistics for Biology and Health. NewYork： Springer Science & Business Media， 2005：388-389.

[16]PESQUITA C， FARIA D， FALCO A O， et al. Semantic similarity in biomedical ontologies[J]. PLoS computational biology， 2009， 5（7）： e1000443.

[17]TENG Zhixia， GUO Maozu， LIU Xiaoyan， et al. Measuring gene functional similarity based on groupwise comparison of GO terms[J]. Bioinformatics， 2013， 29（11）： 1424-1432.endprint

[18]RESNIK P. Semantic similarity in a taxonomy： An informationbased measure and its application to problems of ambiguity in natural language[J]. Journal of Artifical Intelligence Research， 1999， 11：95-130.

[19]LIN Dekang. An informationtheoretic definition of similarity[C]//ICML '98 Proceedings of the Fifteenth International Conference on Machine Learning. San Francisco， CA， USA： Morgan Kaufmann Publishers Inc.， 1998： 296-304.

[20]COUTO F M， SILVA M J， COUTINHO P M. Semantic similarity over the gene ontology： Family correlation and selecting disjunctive ancestors[C]//CIKM '05 Proceedings of the 14th ACM international conference on Information and knowledge management.Bremen， Germany： ACM， 2005： 343-344.

[21]PEKAR V， STAAB S. Taxonomy learning： Factoring the structure of a taxonomy into a semantic classification decision[C]//COLING '02 Proceedings of the 19th international conference on Computational linguistics. Taipei： ACM， 2002： 1-7.

[22]CHENG J， CLINE M， MARTIN J， et al. A knowledgebased clustering algorithm driven by gene ontology[J]. Journal of biopharmaceutical statistics， 2004， 14（3）： 687-700.

[23]WANG J Z， DU Z， PAYATTAKOOL R， et al. A new method to measure the semantic similarity of GO terms[J]. Bioinformatics， 2007， 23（10）： 1274-1281.

[24]OTHMAN R M， DERIS S， ILLIAS R M. A genetic similarity algorithm for searching the Gene Ontology terms and annotating anonymous protein sequences[J]. Journal of biomedical informatics， 2008， 41（1）： 65-81.

[25]PESQUITA C， FARIA D， BASTOS H， et al. Evaluating GObased semantic similarity measures[C]//Proceedings of 10th Annual BioOntologies Meeting. [S.l.]： ISCB， 2007： 37-40.

[26]MAZANDU G K， CHIMUSA E R， MULDER N J. Gene ontology semantic similarity tools： Survey on features and challenges for biological knowledge discovery[J]. Briefings in bioinformatics， 2016： bbw067.

[27]PESQUITA C， PESSOA D， FARIA D， et al. CESSM： Collaborative evaluation of semantic similarity measures[J]. JB2009： Challenges in Bioinformatics， 2009， 157（190）：1-5.endprint

智能計(jì)算機(jī)與應(yīng)用2017年5期

智能計(jì)算機(jī)與應(yīng)用的其它文章: 金融信用風(fēng)險(xiǎn)評(píng)價(jià)中的數(shù)據(jù)挖掘技術(shù)綜述; 面向主動(dòng)運(yùn)維的Syslog日志分析方法; 關(guān)聯(lián)挖掘算法及發(fā)展趨勢(shì); 多層次灰色模糊風(fēng)險(xiǎn)分析在IP網(wǎng)絡(luò)變更中的應(yīng)用; 瓷磚鋪設(shè)方案自主設(shè)計(jì)及展示系統(tǒng)的設(shè)計(jì)與開發(fā); 高校門戶網(wǎng)站的頁(yè)面導(dǎo)航布局設(shè)計(jì)研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種改進(jìn)的基因功能相似度計(jì)算方法