, , , , ,
醫(yī)學(xué)研究已進(jìn)入分子階段,疾病表型及基因的相似性可能提示分子間的相互作用。由于大多數(shù)疾病均為多個(gè)基因共同作用的結(jié)果,基礎(chǔ)醫(yī)學(xué)研究人員通過分子實(shí)驗(yàn)確定致病基因的方式費(fèi)力而耗時(shí),臨床研究人員想要針對疾病基因進(jìn)行治療也非常困難。新興的生物信息挖掘技術(shù)可以幫助基礎(chǔ)醫(yī)學(xué)研究人員在實(shí)驗(yàn)前篩選候選基因,也可幫助臨床研究人員針對具有相似表型或基因的疾病進(jìn)行進(jìn)一步準(zhǔn)確診斷治療及老藥新用的嘗試[1]。疾病數(shù)據(jù)庫的挖掘?qū)τ诎l(fā)現(xiàn)致病基因、闡明分子通路具有重要的意義,這可以通過疾病表型及基因的相似性比較實(shí)現(xiàn)。10余年來,科研人員開發(fā)了多種疾病數(shù)據(jù)庫文本挖掘工具。本文選取eRAM、PhenUMA 、Gendoo 、G2D 4種性能良好且運(yùn)行穩(wěn)定的免費(fèi)工具進(jìn)行對比分析,并利用這些工具進(jìn)行疾病基因發(fā)現(xiàn)的實(shí)證研究,力求為疾病的遺傳學(xué)研究提供準(zhǔn)確有效的依據(jù),為臨床及基礎(chǔ)醫(yī)學(xué)研究人員提供有效的參考信息,提高疾病遺傳研究的效率。
精準(zhǔn)醫(yī)學(xué)罕見疾病注釋百科全書eRAM[2](encyclopedia of Rare Disease Annotation for Precision Medicine)(http://www.unimd.org/eRAM/)是由華東師范大學(xué)陳庚等人研發(fā)的文本挖掘工具。它整合了10個(gè)知名數(shù)據(jù)庫的疾病數(shù)據(jù),主要包括罕見病及其用藥門戶網(wǎng)站(Orphanet)、人類疾病數(shù)據(jù)庫(MalaCards)、NIH-遺傳和罕見疾病(Genetic and Rare Diseases,NGRD)、國際罕見病組織數(shù)據(jù)庫(National Organization for Rare Disorders,NORD),為15 942種罕見疾病提供了豐富的臨床和分子注釋。在其知識(shí)庫構(gòu)建過程中將大量的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為可操作利用的結(jié)構(gòu)化數(shù)據(jù),支持基因、表型、疾病間關(guān)系的可視化網(wǎng)絡(luò)構(gòu)建。分析結(jié)果有準(zhǔn)確相關(guān)基因和全部相關(guān)基因兩種參考排序方式,兩種分析結(jié)果中疾病種類及排序不盡相同,為相關(guān)疾病預(yù)測提供了更多可能。該工具可用于疾病信息檢索、基因型檢索、表型網(wǎng)絡(luò)構(gòu)建、基因網(wǎng)絡(luò)構(gòu)建和疾病對網(wǎng)絡(luò)構(gòu)建。eRAM提供豐富而準(zhǔn)確的知識(shí),不僅有助于研究人員探索罕見疾病的潛在機(jī)制,而且有助于臨床醫(yī)生做出準(zhǔn)確的診斷和治療決策。
PhenUMA[3](http://www.PhenUMA.uma.es/)是由西班牙馬拉加大學(xué)Rocío Rodríguez-López等人基于生物醫(yī)學(xué)和生物分子數(shù)據(jù)庫中的有效信息建成的獨(dú)立知識(shí)庫。它以基因功能和疾病表型關(guān)系為基礎(chǔ),構(gòu)建、分析和可視化生物網(wǎng)絡(luò),且分析功能多樣化,構(gòu)建網(wǎng)絡(luò)可視化效果好。該工具可用于研究功能相關(guān)基因之間的新的病理學(xué)關(guān)系,將疾病歸類到特定表型的簇中,發(fā)現(xiàn)與表型相關(guān)的疾病等。PhenUMA有助于臨床和基礎(chǔ)研究人員重新解釋其研究結(jié)果,并通過優(yōu)先考慮表面上非相關(guān)的隱含因素來重新設(shè)計(jì)實(shí)驗(yàn)。
Gendoo[4](Gene,Disease Features Ontology-based Overview System)(http://Gendoo.dbcls.jp/)由東京大學(xué)Takeru Nakazato 等人研發(fā),通過使用MeSH詞匯生成相關(guān)藥物的特征概況、生物現(xiàn)象和解剖結(jié)構(gòu)描述疾病和基因。該工具可用于說明基因和疾病的特征,分別比較基因和疾病特征之間的差異和相似之處,將加速從生物學(xué)和臨床角度對組學(xué)數(shù)據(jù)的分析。
G2D[5](Genes to Diseases)(http://g2d2.ogic.ca/)由加拿大渥太華健康研究所Carolina Perez-Iratxeta等人開發(fā)。它通過數(shù)據(jù)挖掘算法評估疾病映射的染色體區(qū)域中的基因優(yōu)先級。如果表型已經(jīng)與多個(gè)位點(diǎn)連鎖,則也可檢測來自兩個(gè)基因位點(diǎn)的蛋白質(zhì)之間的相互作用。G2D指出了查詢蛋白質(zhì)和基因組中序列相似性匹配的位置,并利用了現(xiàn)有的關(guān)于假基因預(yù)測的信息,對識(shí)別疾病相關(guān)基因具有極大的幫助。
對比分析eRAM、PhenUMA、Gendoo、G2D在運(yùn)算原理、數(shù)據(jù)輸入、分析功能以及結(jié)果輸出4方面的不同。運(yùn)算原理的對比項(xiàng)目包括知識(shí)庫來源、運(yùn)算方法、創(chuàng)建時(shí)間、更新周期,數(shù)據(jù)輸入的對比項(xiàng)目包括可錄入數(shù)據(jù)種類、輸入格式,分析功能的對比項(xiàng)目包括功能塊、分析起始選項(xiàng)、分析項(xiàng)目,結(jié)果輸出的對比項(xiàng)目包括輸出選項(xiàng)、可視化項(xiàng)目、結(jié)果下載格式。
以Rett綜合征為例,利用上述工具進(jìn)行疾病基因發(fā)現(xiàn)的實(shí)證研究。Rett綜合征是一種伴X染色體的遺傳疾病,多發(fā)于女性患者,其發(fā)病率為1/10 000~1/15 000。患者常表現(xiàn)為腦部發(fā)育遲緩、刻板動(dòng)作、呼吸障礙、運(yùn)動(dòng)障礙以及孤獨(dú)癥樣的社交障礙,后期可能伴有癲癇的發(fā)生[6]。
當(dāng)前國際權(quán)威的在線人類孟德爾遺傳數(shù)據(jù)庫(Online Mendelian Inheritance in Man,OMIM)中,查詢到Rett綜合征的相關(guān)基因僅有1個(gè),為甲基化CpG結(jié)合蛋白-2(methyl-CpG binding protein 2,MECP2)。因此將MECP2作為與Rett綜合征相關(guān)的已知基因。
利用上述4種工具對Rett 綜合征的相關(guān)基因進(jìn)行挖掘,選取各工具挖掘結(jié)果中得分排位高的前3種基因,篩除已知相關(guān)基因MECP2,并去重,進(jìn)一步驗(yàn)證。
驗(yàn)證方法如下:通過在PubMed、CNKI、萬方等數(shù)據(jù)庫中檢索相關(guān)文獻(xiàn),驗(yàn)證各工具分析結(jié)果中所得基因是否與Rett綜合征相關(guān);通過在蛋白質(zhì)數(shù)據(jù)庫UniProt中查詢某基因的蛋白參與的生物過程和分子功能;通過查閱該生物過程和分子功能是否與Rett 綜合征的病因或癥狀相關(guān),推斷該基因是否可能與Rett 綜合征相關(guān)。
4種工具運(yùn)算原理比較的結(jié)果見表1。
表1 4種文本挖掘工具運(yùn)算原理比較
如表1所示,eRAM整合了來自13個(gè)數(shù)據(jù)庫的知識(shí),相對完整;Gendoo 和G2D知識(shí)庫來源相對較少。eRAM是最新創(chuàng)建的,G2D創(chuàng)建較早,Gendoo 和G2D更新次數(shù)較多,但在近幾年內(nèi)沒有更新。
4種工具的運(yùn)算方法總結(jié)如下。
eRAM采用夾角余弦法,通過特征向量對之間的夾角余弦值度量。
PhenUMA采用Resnik法,使用基于Resnik方法的兩種不同的語義相似性度量計(jì)算基因之間的功能相似性和表型譜之間的表型相似性[7]。這兩種測量都基于“信息內(nèi)容”(Information Concept,IC)的概念,它使用每個(gè)術(shù)語概率(一個(gè)術(shù)語的注釋數(shù)與總注釋數(shù)的比例)的對數(shù)進(jìn)行計(jì)算。如果術(shù)語的概率降低,則信息內(nèi)容增加,因此該術(shù)語的特異性和信息含量也增加。Resnik提出,一個(gè)給定本體的兩個(gè)術(shù)語之間的語義相似性由最具信息含量的共同祖先(Most Informative Common Ancestor,MICA)的IC決定。通過從術(shù)語組中所有可能的術(shù)語對中選擇出最大MICA來獲取術(shù)語組之間的相似性分?jǐn)?shù)。
Gendoo采用通過比較OMIM條目的概況和基因表達(dá)數(shù)據(jù)的聚類結(jié)果發(fā)現(xiàn)基因組之間的相似性,將所開發(fā)的特征概況應(yīng)用于疾病相關(guān)基因的分析,但其具體運(yùn)算方法不詳。
G2D的運(yùn)算方法同PhenUMA。
4種工具數(shù)據(jù)輸入的比較結(jié)果見表2。
表2 4種文本挖掘工具數(shù)據(jù)輸入的比較
表2顯示,4種工具均允許輸入基因ID號(hào),只有eRAM、Gendoo允許輸入疾病名稱。
eRAM可錄入數(shù)據(jù)種類最多, G2D 相對可錄入數(shù)據(jù)種類較少。
PhenUMA和Gendoo支持錄入多個(gè)檢索詞,eRAM和G2D僅可輸入單個(gè)檢索詞。
4種工具分析功能的比較結(jié)果見表3。
表3 4種文本挖掘工具分析功能的比較
4種工具均支持疾病/表型相關(guān)基因檢索。eRAM和PhenUMA功能塊較多,可分析項(xiàng)目也較多。
eRAM特色功能塊為基因/表型/疾病對的網(wǎng)絡(luò)構(gòu)建;PhenUMA特色功能塊為基因/表型/疾病的網(wǎng)絡(luò)構(gòu)建和基因/疾病富集分析,且只有PhenUMA具有富集分析功能;G2D功能塊較少,但篩選項(xiàng)較完善。
4種工具結(jié)果輸出的比較見表4。
表4 4種文本挖掘工具結(jié)果輸出的比較
4種文本挖掘工具中,eRAM和PhenUMA的分析結(jié)果較完全(表4),可視化效果較好,結(jié)果中鏈接穩(wěn)定(圖1、圖2)。尤其PhenUMA中可給出4種表現(xiàn)形式的結(jié)果圖,且具有篩選功能。 G2D、Gendoo可視化效果相對較差,而且結(jié)果中的鏈接有時(shí)失效。
Gendoo在結(jié)果列表中給出與疾病相似度分?jǐn)?shù),并把分?jǐn)?shù)劃分層級,按顏色區(qū)分。
G2D在結(jié)果中給出疾病相關(guān)的Mesh詞、Mesh詞出現(xiàn)頻率及所在文章和相關(guān)基因的本體注釋,其結(jié)果以列表形式給出。
圖1 eRAM中Rett綜合征與schizophrenia間共享基因網(wǎng)絡(luò)
圖2 PhenUMA中Rett 綜合征的相關(guān)基因網(wǎng)絡(luò)
圖2的左側(cè)為網(wǎng)絡(luò)示意圖中不同顏色線段的意義說明,可通過調(diào)節(jié)滑鈕篩選結(jié)果。
OMIM數(shù)據(jù)庫顯示僅有1種基因與Rett綜合征相關(guān)。由于Rett綜合征尚未被認(rèn)定為單基因疾病,故推測仍有已被認(rèn)證但未被OMIM收錄的相關(guān)基因,以及未被認(rèn)證的相關(guān)基因。本文利用上述文本挖掘工具可快速發(fā)現(xiàn)Rett綜合征的潛在相關(guān)基因。
4種文本挖掘工具對Rett綜合征的分析結(jié)果如下:eRAM預(yù)測出6種相關(guān)基因,PhenUMA在中度置信水平下預(yù)測出21種相關(guān)基因,Gendoo預(yù)測出56種相關(guān)基因,G2D預(yù)測出100種相關(guān)基因。選取每種工具分析結(jié)果中的前3位相關(guān)基因(除MECP2,因MECP2是OMIM數(shù)據(jù)庫收錄的已知Rett 綜合征相關(guān)基因):它們分別是eRAM中的EGR2(early growth response 2)、CDKL5(cyclin-dependent kinase-like 5),PhenUMA中的BCHE(butyrylcholin esterase)、CDKL5;Gendoo中的CDKL5、DLX5(distal-less homeobox 5;D2D中的TAZ(tafazzin)、IKBKG(Inhibitor Of Nuclear Factor Kappa B Kinase Subunit Gamma)。
經(jīng)過去重,得出6種相關(guān)基因:EGR2、CDKL5、BCHE、DLX5、TAZ、IKBKG。通過查詢PubMed、UniProt中關(guān)于這些基因的先驗(yàn)知識(shí),進(jìn)一步分析它們與Rett綜合征相關(guān)的可能性。
EGR2為序列特異性DNA結(jié)合轉(zhuǎn)錄因子,其參與的腦發(fā)育、外周神經(jīng)系統(tǒng)發(fā)育、學(xué)習(xí)與記憶等生物過程與Rett綜合征的智力嚴(yán)重低下等癥狀相關(guān)。Swanberg S E等人研究表明,EGR2在出生后的人類皮層中發(fā)育增加,并在RTT和自閉癥患者皮質(zhì)中下調(diào)[8],故推測EGR2與Rett 綜合征相關(guān)。
CDKL5介導(dǎo)MECP2的磷酸化,可能調(diào)控纖毛生成。Vitorino M等人研究表明CDKL5基因突變導(dǎo)致非典型Rett綜合征[9]。
BCHE具有廣泛底物特異性的酯酶,有助于神經(jīng)遞質(zhì)乙酰膽堿的失活,可以降解神經(jīng)毒性有機(jī)磷酸酯,其參與的學(xué)習(xí)、成神經(jīng)細(xì)胞分化、對糖皮質(zhì)激素的反應(yīng)等生物過程與Rett 綜合征的智力嚴(yán)重低下、舞蹈樣動(dòng)作、肌張力低等癥狀相關(guān)。
DLX5涉及骨發(fā)育的轉(zhuǎn)錄因子,其參與的骨形態(tài)發(fā)生、口腔發(fā)育、頭部發(fā)育等生物過程與生長遲緩、獲得性小頭、永久性手的失用、進(jìn)行性行走困難,步態(tài)不穩(wěn)、軀體的失用和共濟(jì)失調(diào)等癥狀相關(guān)。Proudfoot A等人研究表明,DLX5是轉(zhuǎn)錄因子,與乳腺癌、肺癌、淋巴瘤、Rett綜合征和人類骨質(zhì)疏松癥有關(guān)[10]。
TAZ的基因編碼是在心臟和骨骼肌中高水平表達(dá)的蛋白質(zhì)。經(jīng)查閱先驗(yàn)知識(shí),推測TAZ與Rett綜合征相關(guān)可能性較小。
IKBKG的基因編碼kappaB激酶(IKK)是復(fù)合物抑制劑的調(diào)節(jié)亞基,可以激活NF-κB,導(dǎo)致參與炎癥、免疫、細(xì)胞存活和其它途徑的基因的活化。經(jīng)查閱先驗(yàn)知識(shí),推測IKBKG與Rett綜合征相關(guān)可能性較小。
OMIM庫中僅列1種Rett綜合征相關(guān)基因MECP2。本文利用上述疾病庫文本挖掘工具并結(jié)合先驗(yàn)知識(shí)推測,除OMIM數(shù)據(jù)庫所列以外的4種相關(guān)基因,這是對OMIM的有益補(bǔ)充。
eRAM、PhenUMA、Gendoo、G2D 4種工具均可用于快速獲取疾病/基因相關(guān)信息,并預(yù)測疾病與基因的潛在相關(guān)關(guān)系。eRAM和PhenUMA知識(shí)庫功能全面,可視化效果好,推薦優(yōu)先使用。Gendoo和G2D在功能項(xiàng)目上也提供有益的補(bǔ)充,將各工具結(jié)合使用可得出更加可信的分析結(jié)果。
經(jīng)實(shí)證研究推測基因EGR2、CDKL5、BCHE、DLX與Rett綜合征相關(guān),這可作為OMIM數(shù)據(jù)庫對Rett 綜合征相關(guān)基因闡述的補(bǔ)充。
基于疾病數(shù)據(jù)庫的文本挖掘工具可以有效預(yù)測疾病的相關(guān)基因,預(yù)測疾病、表型、基因間相似和相關(guān)關(guān)系,有助于疾病病因及治療等研究。