国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于疾病數(shù)據(jù)庫的文本挖掘工具對比研究

2018-03-22 02:41:02,,,,,
關(guān)鍵詞:表型工具綜合征

, , , , ,

醫(yī)學(xué)研究已進(jìn)入分子階段,疾病表型及基因的相似性可能提示分子間的相互作用。由于大多數(shù)疾病均為多個(gè)基因共同作用的結(jié)果,基礎(chǔ)醫(yī)學(xué)研究人員通過分子實(shí)驗(yàn)確定致病基因的方式費(fèi)力而耗時(shí),臨床研究人員想要針對疾病基因進(jìn)行治療也非常困難。新興的生物信息挖掘技術(shù)可以幫助基礎(chǔ)醫(yī)學(xué)研究人員在實(shí)驗(yàn)前篩選候選基因,也可幫助臨床研究人員針對具有相似表型或基因的疾病進(jìn)行進(jìn)一步準(zhǔn)確診斷治療及老藥新用的嘗試[1]。疾病數(shù)據(jù)庫的挖掘?qū)τ诎l(fā)現(xiàn)致病基因、闡明分子通路具有重要的意義,這可以通過疾病表型及基因的相似性比較實(shí)現(xiàn)。10余年來,科研人員開發(fā)了多種疾病數(shù)據(jù)庫文本挖掘工具。本文選取eRAM、PhenUMA 、Gendoo 、G2D 4種性能良好且運(yùn)行穩(wěn)定的免費(fèi)工具進(jìn)行對比分析,并利用這些工具進(jìn)行疾病基因發(fā)現(xiàn)的實(shí)證研究,力求為疾病的遺傳學(xué)研究提供準(zhǔn)確有效的依據(jù),為臨床及基礎(chǔ)醫(yī)學(xué)研究人員提供有效的參考信息,提高疾病遺傳研究的效率。

1 四種文本挖掘工具

精準(zhǔn)醫(yī)學(xué)罕見疾病注釋百科全書eRAM[2](encyclopedia of Rare Disease Annotation for Precision Medicine)(http://www.unimd.org/eRAM/)是由華東師范大學(xué)陳庚等人研發(fā)的文本挖掘工具。它整合了10個(gè)知名數(shù)據(jù)庫的疾病數(shù)據(jù),主要包括罕見病及其用藥門戶網(wǎng)站(Orphanet)、人類疾病數(shù)據(jù)庫(MalaCards)、NIH-遺傳和罕見疾病(Genetic and Rare Diseases,NGRD)、國際罕見病組織數(shù)據(jù)庫(National Organization for Rare Disorders,NORD),為15 942種罕見疾病提供了豐富的臨床和分子注釋。在其知識(shí)庫構(gòu)建過程中將大量的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為可操作利用的結(jié)構(gòu)化數(shù)據(jù),支持基因、表型、疾病間關(guān)系的可視化網(wǎng)絡(luò)構(gòu)建。分析結(jié)果有準(zhǔn)確相關(guān)基因和全部相關(guān)基因兩種參考排序方式,兩種分析結(jié)果中疾病種類及排序不盡相同,為相關(guān)疾病預(yù)測提供了更多可能。該工具可用于疾病信息檢索、基因型檢索、表型網(wǎng)絡(luò)構(gòu)建、基因網(wǎng)絡(luò)構(gòu)建和疾病對網(wǎng)絡(luò)構(gòu)建。eRAM提供豐富而準(zhǔn)確的知識(shí),不僅有助于研究人員探索罕見疾病的潛在機(jī)制,而且有助于臨床醫(yī)生做出準(zhǔn)確的診斷和治療決策。

PhenUMA[3](http://www.PhenUMA.uma.es/)是由西班牙馬拉加大學(xué)Rocío Rodríguez-López等人基于生物醫(yī)學(xué)和生物分子數(shù)據(jù)庫中的有效信息建成的獨(dú)立知識(shí)庫。它以基因功能和疾病表型關(guān)系為基礎(chǔ),構(gòu)建、分析和可視化生物網(wǎng)絡(luò),且分析功能多樣化,構(gòu)建網(wǎng)絡(luò)可視化效果好。該工具可用于研究功能相關(guān)基因之間的新的病理學(xué)關(guān)系,將疾病歸類到特定表型的簇中,發(fā)現(xiàn)與表型相關(guān)的疾病等。PhenUMA有助于臨床和基礎(chǔ)研究人員重新解釋其研究結(jié)果,并通過優(yōu)先考慮表面上非相關(guān)的隱含因素來重新設(shè)計(jì)實(shí)驗(yàn)。

Gendoo[4](Gene,Disease Features Ontology-based Overview System)(http://Gendoo.dbcls.jp/)由東京大學(xué)Takeru Nakazato 等人研發(fā),通過使用MeSH詞匯生成相關(guān)藥物的特征概況、生物現(xiàn)象和解剖結(jié)構(gòu)描述疾病和基因。該工具可用于說明基因和疾病的特征,分別比較基因和疾病特征之間的差異和相似之處,將加速從生物學(xué)和臨床角度對組學(xué)數(shù)據(jù)的分析。

G2D[5](Genes to Diseases)(http://g2d2.ogic.ca/)由加拿大渥太華健康研究所Carolina Perez-Iratxeta等人開發(fā)。它通過數(shù)據(jù)挖掘算法評估疾病映射的染色體區(qū)域中的基因優(yōu)先級。如果表型已經(jīng)與多個(gè)位點(diǎn)連鎖,則也可檢測來自兩個(gè)基因位點(diǎn)的蛋白質(zhì)之間的相互作用。G2D指出了查詢蛋白質(zhì)和基因組中序列相似性匹配的位置,并利用了現(xiàn)有的關(guān)于假基因預(yù)測的信息,對識(shí)別疾病相關(guān)基因具有極大的幫助。

2 研究方法

2.1 4種工具的對比項(xiàng)目

對比分析eRAM、PhenUMA、Gendoo、G2D在運(yùn)算原理、數(shù)據(jù)輸入、分析功能以及結(jié)果輸出4方面的不同。運(yùn)算原理的對比項(xiàng)目包括知識(shí)庫來源、運(yùn)算方法、創(chuàng)建時(shí)間、更新周期,數(shù)據(jù)輸入的對比項(xiàng)目包括可錄入數(shù)據(jù)種類、輸入格式,分析功能的對比項(xiàng)目包括功能塊、分析起始選項(xiàng)、分析項(xiàng)目,結(jié)果輸出的對比項(xiàng)目包括輸出選項(xiàng)、可視化項(xiàng)目、結(jié)果下載格式。

2.2 實(shí)證研究

以Rett綜合征為例,利用上述工具進(jìn)行疾病基因發(fā)現(xiàn)的實(shí)證研究。Rett綜合征是一種伴X染色體的遺傳疾病,多發(fā)于女性患者,其發(fā)病率為1/10 000~1/15 000。患者常表現(xiàn)為腦部發(fā)育遲緩、刻板動(dòng)作、呼吸障礙、運(yùn)動(dòng)障礙以及孤獨(dú)癥樣的社交障礙,后期可能伴有癲癇的發(fā)生[6]。

當(dāng)前國際權(quán)威的在線人類孟德爾遺傳數(shù)據(jù)庫(Online Mendelian Inheritance in Man,OMIM)中,查詢到Rett綜合征的相關(guān)基因僅有1個(gè),為甲基化CpG結(jié)合蛋白-2(methyl-CpG binding protein 2,MECP2)。因此將MECP2作為與Rett綜合征相關(guān)的已知基因。

利用上述4種工具對Rett 綜合征的相關(guān)基因進(jìn)行挖掘,選取各工具挖掘結(jié)果中得分排位高的前3種基因,篩除已知相關(guān)基因MECP2,并去重,進(jìn)一步驗(yàn)證。

驗(yàn)證方法如下:通過在PubMed、CNKI、萬方等數(shù)據(jù)庫中檢索相關(guān)文獻(xiàn),驗(yàn)證各工具分析結(jié)果中所得基因是否與Rett綜合征相關(guān);通過在蛋白質(zhì)數(shù)據(jù)庫UniProt中查詢某基因的蛋白參與的生物過程和分子功能;通過查閱該生物過程和分子功能是否與Rett 綜合征的病因或癥狀相關(guān),推斷該基因是否可能與Rett 綜合征相關(guān)。

3 結(jié)果與分析

3.1 運(yùn)算原理的比較

4種工具運(yùn)算原理比較的結(jié)果見表1。

表1 4種文本挖掘工具運(yùn)算原理比較

如表1所示,eRAM整合了來自13個(gè)數(shù)據(jù)庫的知識(shí),相對完整;Gendoo 和G2D知識(shí)庫來源相對較少。eRAM是最新創(chuàng)建的,G2D創(chuàng)建較早,Gendoo 和G2D更新次數(shù)較多,但在近幾年內(nèi)沒有更新。

4種工具的運(yùn)算方法總結(jié)如下。

eRAM采用夾角余弦法,通過特征向量對之間的夾角余弦值度量。

PhenUMA采用Resnik法,使用基于Resnik方法的兩種不同的語義相似性度量計(jì)算基因之間的功能相似性和表型譜之間的表型相似性[7]。這兩種測量都基于“信息內(nèi)容”(Information Concept,IC)的概念,它使用每個(gè)術(shù)語概率(一個(gè)術(shù)語的注釋數(shù)與總注釋數(shù)的比例)的對數(shù)進(jìn)行計(jì)算。如果術(shù)語的概率降低,則信息內(nèi)容增加,因此該術(shù)語的特異性和信息含量也增加。Resnik提出,一個(gè)給定本體的兩個(gè)術(shù)語之間的語義相似性由最具信息含量的共同祖先(Most Informative Common Ancestor,MICA)的IC決定。通過從術(shù)語組中所有可能的術(shù)語對中選擇出最大MICA來獲取術(shù)語組之間的相似性分?jǐn)?shù)。

Gendoo采用通過比較OMIM條目的概況和基因表達(dá)數(shù)據(jù)的聚類結(jié)果發(fā)現(xiàn)基因組之間的相似性,將所開發(fā)的特征概況應(yīng)用于疾病相關(guān)基因的分析,但其具體運(yùn)算方法不詳。

G2D的運(yùn)算方法同PhenUMA。

3.2 數(shù)據(jù)輸入的比較

4種工具數(shù)據(jù)輸入的比較結(jié)果見表2。

表2 4種文本挖掘工具數(shù)據(jù)輸入的比較

表2顯示,4種工具均允許輸入基因ID號(hào),只有eRAM、Gendoo允許輸入疾病名稱。

eRAM可錄入數(shù)據(jù)種類最多, G2D 相對可錄入數(shù)據(jù)種類較少。

PhenUMA和Gendoo支持錄入多個(gè)檢索詞,eRAM和G2D僅可輸入單個(gè)檢索詞。

3.3 分析功能的比較

4種工具分析功能的比較結(jié)果見表3。

表3 4種文本挖掘工具分析功能的比較

4種工具均支持疾病/表型相關(guān)基因檢索。eRAM和PhenUMA功能塊較多,可分析項(xiàng)目也較多。

eRAM特色功能塊為基因/表型/疾病對的網(wǎng)絡(luò)構(gòu)建;PhenUMA特色功能塊為基因/表型/疾病的網(wǎng)絡(luò)構(gòu)建和基因/疾病富集分析,且只有PhenUMA具有富集分析功能;G2D功能塊較少,但篩選項(xiàng)較完善。

3.4 結(jié)果輸出的比較

4種工具結(jié)果輸出的比較見表4。

表4 4種文本挖掘工具結(jié)果輸出的比較

4種文本挖掘工具中,eRAM和PhenUMA的分析結(jié)果較完全(表4),可視化效果較好,結(jié)果中鏈接穩(wěn)定(圖1、圖2)。尤其PhenUMA中可給出4種表現(xiàn)形式的結(jié)果圖,且具有篩選功能。 G2D、Gendoo可視化效果相對較差,而且結(jié)果中的鏈接有時(shí)失效。

Gendoo在結(jié)果列表中給出與疾病相似度分?jǐn)?shù),并把分?jǐn)?shù)劃分層級,按顏色區(qū)分。

G2D在結(jié)果中給出疾病相關(guān)的Mesh詞、Mesh詞出現(xiàn)頻率及所在文章和相關(guān)基因的本體注釋,其結(jié)果以列表形式給出。

圖1 eRAM中Rett綜合征與schizophrenia間共享基因網(wǎng)絡(luò)

圖2 PhenUMA中Rett 綜合征的相關(guān)基因網(wǎng)絡(luò)

圖2的左側(cè)為網(wǎng)絡(luò)示意圖中不同顏色線段的意義說明,可通過調(diào)節(jié)滑鈕篩選結(jié)果。

3.5 實(shí)證研究結(jié)果與分析

OMIM數(shù)據(jù)庫顯示僅有1種基因與Rett綜合征相關(guān)。由于Rett綜合征尚未被認(rèn)定為單基因疾病,故推測仍有已被認(rèn)證但未被OMIM收錄的相關(guān)基因,以及未被認(rèn)證的相關(guān)基因。本文利用上述文本挖掘工具可快速發(fā)現(xiàn)Rett綜合征的潛在相關(guān)基因。

4種文本挖掘工具對Rett綜合征的分析結(jié)果如下:eRAM預(yù)測出6種相關(guān)基因,PhenUMA在中度置信水平下預(yù)測出21種相關(guān)基因,Gendoo預(yù)測出56種相關(guān)基因,G2D預(yù)測出100種相關(guān)基因。選取每種工具分析結(jié)果中的前3位相關(guān)基因(除MECP2,因MECP2是OMIM數(shù)據(jù)庫收錄的已知Rett 綜合征相關(guān)基因):它們分別是eRAM中的EGR2(early growth response 2)、CDKL5(cyclin-dependent kinase-like 5),PhenUMA中的BCHE(butyrylcholin esterase)、CDKL5;Gendoo中的CDKL5、DLX5(distal-less homeobox 5;D2D中的TAZ(tafazzin)、IKBKG(Inhibitor Of Nuclear Factor Kappa B Kinase Subunit Gamma)。

經(jīng)過去重,得出6種相關(guān)基因:EGR2、CDKL5、BCHE、DLX5、TAZ、IKBKG。通過查詢PubMed、UniProt中關(guān)于這些基因的先驗(yàn)知識(shí),進(jìn)一步分析它們與Rett綜合征相關(guān)的可能性。

EGR2為序列特異性DNA結(jié)合轉(zhuǎn)錄因子,其參與的腦發(fā)育、外周神經(jīng)系統(tǒng)發(fā)育、學(xué)習(xí)與記憶等生物過程與Rett綜合征的智力嚴(yán)重低下等癥狀相關(guān)。Swanberg S E等人研究表明,EGR2在出生后的人類皮層中發(fā)育增加,并在RTT和自閉癥患者皮質(zhì)中下調(diào)[8],故推測EGR2與Rett 綜合征相關(guān)。

CDKL5介導(dǎo)MECP2的磷酸化,可能調(diào)控纖毛生成。Vitorino M等人研究表明CDKL5基因突變導(dǎo)致非典型Rett綜合征[9]。

BCHE具有廣泛底物特異性的酯酶,有助于神經(jīng)遞質(zhì)乙酰膽堿的失活,可以降解神經(jīng)毒性有機(jī)磷酸酯,其參與的學(xué)習(xí)、成神經(jīng)細(xì)胞分化、對糖皮質(zhì)激素的反應(yīng)等生物過程與Rett 綜合征的智力嚴(yán)重低下、舞蹈樣動(dòng)作、肌張力低等癥狀相關(guān)。

DLX5涉及骨發(fā)育的轉(zhuǎn)錄因子,其參與的骨形態(tài)發(fā)生、口腔發(fā)育、頭部發(fā)育等生物過程與生長遲緩、獲得性小頭、永久性手的失用、進(jìn)行性行走困難,步態(tài)不穩(wěn)、軀體的失用和共濟(jì)失調(diào)等癥狀相關(guān)。Proudfoot A等人研究表明,DLX5是轉(zhuǎn)錄因子,與乳腺癌、肺癌、淋巴瘤、Rett綜合征和人類骨質(zhì)疏松癥有關(guān)[10]。

TAZ的基因編碼是在心臟和骨骼肌中高水平表達(dá)的蛋白質(zhì)。經(jīng)查閱先驗(yàn)知識(shí),推測TAZ與Rett綜合征相關(guān)可能性較小。

IKBKG的基因編碼kappaB激酶(IKK)是復(fù)合物抑制劑的調(diào)節(jié)亞基,可以激活NF-κB,導(dǎo)致參與炎癥、免疫、細(xì)胞存活和其它途徑的基因的活化。經(jīng)查閱先驗(yàn)知識(shí),推測IKBKG與Rett綜合征相關(guān)可能性較小。

OMIM庫中僅列1種Rett綜合征相關(guān)基因MECP2。本文利用上述疾病庫文本挖掘工具并結(jié)合先驗(yàn)知識(shí)推測,除OMIM數(shù)據(jù)庫所列以外的4種相關(guān)基因,這是對OMIM的有益補(bǔ)充。

4 結(jié)論

eRAM、PhenUMA、Gendoo、G2D 4種工具均可用于快速獲取疾病/基因相關(guān)信息,并預(yù)測疾病與基因的潛在相關(guān)關(guān)系。eRAM和PhenUMA知識(shí)庫功能全面,可視化效果好,推薦優(yōu)先使用。Gendoo和G2D在功能項(xiàng)目上也提供有益的補(bǔ)充,將各工具結(jié)合使用可得出更加可信的分析結(jié)果。

經(jīng)實(shí)證研究推測基因EGR2、CDKL5、BCHE、DLX與Rett綜合征相關(guān),這可作為OMIM數(shù)據(jù)庫對Rett 綜合征相關(guān)基因闡述的補(bǔ)充。

基于疾病數(shù)據(jù)庫的文本挖掘工具可以有效預(yù)測疾病的相關(guān)基因,預(yù)測疾病、表型、基因間相似和相關(guān)關(guān)系,有助于疾病病因及治療等研究。

猜你喜歡
表型工具綜合征
SAPHO綜合征99mTc-MDP及18F-FDG代謝不匹配1例
Chandler綜合征1例
波比的工具
波比的工具
考前綜合征
豬繁殖與呼吸綜合征的預(yù)防和控制
建蘭、寒蘭花表型分析
“巧用”工具
讀者(2017年18期)2017-08-29 21:22:03
GABABR2基因遺傳變異與肥胖及代謝相關(guān)表型的關(guān)系
慢性乙型肝炎患者HBV基因表型與血清學(xué)測定的臨床意義
陆良县| 安庆市| 余干县| 利川市| 辽源市| 高台县| 虞城县| 张掖市| 腾冲县| 丽水市| 柘城县| 万山特区| 永吉县| 霞浦县| 武冈市| 遂平县| 吉安县| 德安县| 万年县| 射洪县| 中江县| 汨罗市| 福建省| 绩溪县| 宁蒗| 鹤峰县| 涞水县| 错那县| 绥棱县| 南部县| 北京市| 江门市| 夏河县| 澜沧| 新野县| 德钦县| 深州市| 同仁县| 元阳县| 登封市| 平果县|