国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

以細(xì)胞系為中心的基因-突變-疾病語義網(wǎng)絡(luò)構(gòu)建研究*

2019-08-22 07:41:50
關(guān)鍵詞:細(xì)胞系實(shí)體語義

吳 萌 李 姣 侯 麗

(中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所 北京 100020)

1 引言

語義網(wǎng)廣義上來說是對未來網(wǎng)絡(luò)的一個(gè)設(shè)想,狹義上來說是一種智能網(wǎng)絡(luò),不但能夠理解詞語和概念,而且還能夠理解它們之間的邏輯關(guān)系[1]。隨著語義網(wǎng)概念的提出,互聯(lián)網(wǎng)逐步從僅包含網(wǎng)頁之間超鏈接的文檔萬維網(wǎng)轉(zhuǎn)變?yōu)槊枋龈鞣N實(shí)體之間關(guān)系的數(shù)據(jù)萬維網(wǎng)?;诖?,知識(shí)圖譜這一概念于2012年5月由谷歌率先提出,其目標(biāo)在于描述真實(shí)世界中存在的各種實(shí)體和概念,及實(shí)體與概念之間的關(guān)聯(lián)關(guān)系,從而改善搜索結(jié)果。同時(shí), 資源描述框架(Resource Description Framework, RDF)及其模式(Resource Description Framework Schema, RDFS)在語義Web中處于核心地位, 是實(shí)現(xiàn)Web信息共享和數(shù)據(jù)交換的基礎(chǔ)。

伴隨生物醫(yī)學(xué)領(lǐng)域測序技術(shù)的飛速發(fā)展和精準(zhǔn)醫(yī)學(xué)概念的提出,越來越多的科學(xué)研究開始關(guān)注于疾病發(fā)生的內(nèi)在復(fù)雜機(jī)制,以及各個(gè)生物醫(yī)學(xué)實(shí)體之間的網(wǎng)絡(luò)調(diào)控通路和關(guān)聯(lián)關(guān)系,以提供個(gè)性化的治療方案。知識(shí)圖譜等語義網(wǎng)絡(luò)技術(shù)為多源異構(gòu)的生物醫(yī)學(xué)數(shù)據(jù)的整合和復(fù)雜關(guān)系網(wǎng)絡(luò)的建模提供新的解決方案,通過利用統(tǒng)一的數(shù)據(jù)表示標(biāo)準(zhǔn),為生物醫(yī)學(xué)數(shù)據(jù)的檢索、分析、挖掘提供基礎(chǔ)。在癌癥生物學(xué)的研究過程中,人類癌癥細(xì)胞系作為一種易于獲取、方便使用的生物模型,廣泛應(yīng)用于探索癌癥的分子特征以及相應(yīng)的治療反應(yīng)。由于臨床試驗(yàn)復(fù)雜且昂貴,而借助細(xì)胞系進(jìn)行臨床前實(shí)驗(yàn)有助于極大地提高臨床實(shí)驗(yàn)的成功率。目前,許多項(xiàng)目都致力于為細(xì)胞系及其遺傳學(xué)和基因組學(xué)數(shù)據(jù)提供系統(tǒng)的整合方案,例如癌癥體細(xì)胞突變目錄(Catalogue of Somatic Mutation In Cancer,COSMIC),使用戶在進(jìn)行生物實(shí)驗(yàn)和藥物測試時(shí)可以選擇更合適的癌癥細(xì)胞系,也為生物研究提供臨床依據(jù)[2]。本研究從NCBI gene、ClinVar、COSMIC、Cellosaurus、OMIM與NCIt 6個(gè)數(shù)據(jù)庫中分別獲取基因、突變、細(xì)胞系與疾病及其間的語義關(guān)系數(shù)據(jù),擬以細(xì)胞系數(shù)據(jù)為核心,構(gòu)建一個(gè)包含基因、突變與疾病數(shù)據(jù)及其語義關(guān)系的RDF語義網(wǎng)絡(luò)。旨在對疾病基因組學(xué)等相關(guān)領(lǐng)域中的生物醫(yī)學(xué)數(shù)據(jù)進(jìn)行建模與整合,以期為進(jìn)一步發(fā)現(xiàn)新的醫(yī)學(xué)實(shí)體語義關(guān)系,理解與分析疾病的致病機(jī)制提供數(shù)據(jù)支撐。

2 研究現(xiàn)狀

2.1 語義模型在醫(yī)學(xué)數(shù)據(jù)領(lǐng)域的應(yīng)用

2.1.1 生物醫(yī)學(xué)語義模型 隨著2015年美國總統(tǒng)奧巴馬提出精準(zhǔn)醫(yī)學(xué)計(jì)劃,世界多個(gè)國家陸續(xù)開始部署精準(zhǔn)醫(yī)學(xué)項(xiàng)目,更多的科學(xué)研究開始關(guān)注于疾病發(fā)生過程中內(nèi)在的分子機(jī)制,而所催生的大量多來源異構(gòu)的生物醫(yī)學(xué)數(shù)據(jù),迫切需要統(tǒng)一的數(shù)據(jù)整合方案。語義模型技術(shù)為多來源異構(gòu)的生物醫(yī)學(xué)數(shù)據(jù)整合提供方案,并致力于提供一套統(tǒng)一的生物醫(yī)學(xué)實(shí)體表示標(biāo)準(zhǔn),使機(jī)器和人都可以理解,其靈活性、可擴(kuò)展性以及可對語義關(guān)系進(jìn)行模型等特點(diǎn)非常適用于表示復(fù)雜的生物醫(yī)學(xué)網(wǎng)路數(shù)據(jù)。如上海曙光醫(yī)院構(gòu)建的中醫(yī)藥知識(shí)圖譜、醫(yī)學(xué)系統(tǒng)命名法-臨床術(shù)語(Systematized Nomenclature of Medicine-Clinical Terms,SNOMED-CT)和IBM Watson Health等系統(tǒng)[3]?;阪溄訑?shù)據(jù),也可以識(shí)別出新的語義關(guān)系。如Dalleau等對藥物、疾病和基因相關(guān)的6個(gè)數(shù)據(jù)庫進(jìn)行整合與鏈接,構(gòu)建藥物基因組學(xué)相關(guān)的RDF格式語義網(wǎng)絡(luò),共包含2 640 793個(gè)3元組?;跇?gòu)建的鏈接數(shù)據(jù),分別用兩種基于圖的機(jī)器學(xué)習(xí)的方法——隨機(jī)森林和圖核,對藥物與基因是否相關(guān)進(jìn)行預(yù)測,從而發(fā)現(xiàn)新的藥物-疾病關(guān)系[4]。

2.1.2 細(xì)胞系相關(guān)語義模型 細(xì)胞系目前已在許多生物醫(yī)學(xué)實(shí)驗(yàn)和研究中被廣泛使用。復(fù)雜疾病,如癌癥的發(fā)生通常開始于一系列體細(xì)胞DNA變化所導(dǎo)致的失控的細(xì)胞增殖,這些大部分變化指的是突變等特定的DNA序列變化。研究認(rèn)為細(xì)胞從正常狀態(tài)轉(zhuǎn)變到完全的惡性形態(tài)的過程,必須積累5~10個(gè)體細(xì)胞突變,每一種突變都會(huì)引發(fā)不一樣的細(xì)胞功能改變[5]。對癌癥細(xì)胞系進(jìn)行基因組測序,可以發(fā)現(xiàn)引發(fā)細(xì)胞機(jī)制發(fā)生變化的重要突變,整合并分析腫瘤發(fā)生過程中細(xì)胞系發(fā)生的突變信息,有利于更好地理解腫瘤發(fā)生的內(nèi)在分子機(jī)制,從而發(fā)現(xiàn)新的治療方案。而現(xiàn)有醫(yī)學(xué)數(shù)據(jù)的語義模型中,整合細(xì)胞系、突變和疾病等相關(guān)實(shí)體及其語義關(guān)系的語義模型還非常少見。大多數(shù)模型只聯(lián)系突變和疾病,或細(xì)胞系和疾病等實(shí)體。如細(xì)胞系本體(The Cell Line Ontology,CLO),主要描述細(xì)胞系、癌癥、細(xì)胞和有機(jī)體之間的關(guān)聯(lián)[6]。COSMIC數(shù)據(jù)庫整合細(xì)胞系、突變和疾病等實(shí)體之間的關(guān)聯(lián),但是對于疾病的描述沒有采用通用的表示方法,不利于與其他疾病數(shù)據(jù)庫進(jìn)行映射,其表示方式?jīng)]有采用語義模型。

2.2 關(guān)系數(shù)據(jù)向語義數(shù)據(jù)的轉(zhuǎn)化

隨著下一代測序技術(shù)的發(fā)展,越來越多豐富的組學(xué)數(shù)據(jù)被生產(chǎn)、注釋出來。其大多數(shù)存儲(chǔ)形式為關(guān)系型數(shù)據(jù)庫或類似的表格文件形式。而如何將關(guān)系型數(shù)據(jù)的數(shù)據(jù)資源和語義關(guān)系信息轉(zhuǎn)化為RDF語義網(wǎng)絡(luò)格式,成為一種普遍需求。許多項(xiàng)目如Bio2RDF[7],the EBI platform[8],PDBj[9]以及Linked Open Drug Data (LODD)[10]等都致力于推動(dòng)健康科學(xué)數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的鏈接數(shù)據(jù)形式。其中,Bio2RDF是一個(gè)開源的項(xiàng)目,采用語義網(wǎng)技術(shù)構(gòu)建并提供生命科學(xué)數(shù)據(jù)的鏈接數(shù)據(jù)網(wǎng)絡(luò)。Bio2RDF定義一套簡單的規(guī)則,為多來源異構(gòu)的數(shù)據(jù)集合創(chuàng)建RDF(S)兼容的鏈接數(shù)據(jù)形式。目前已為clinicaltrials.gov,dbSNP,GenAge等35個(gè)數(shù)據(jù)庫提供RDF鏈接數(shù)據(jù)結(jié)構(gòu)[7]。R2RML[11]是W3C RDB2RDF工作組于2012年9月發(fā)布的一種映射語言,可以定義關(guān)系型數(shù)據(jù)庫與RDF格式數(shù)據(jù)之間的映射規(guī)則,從而將關(guān)系型數(shù)據(jù)轉(zhuǎn)化為RDF 3元組形式。基于R2RML的常用工具如D2RQ、db2triples、OpenLink Virtuoso等都可以實(shí)現(xiàn)關(guān)系型數(shù)據(jù)庫向RDF的轉(zhuǎn)化。

由此可見,在生物醫(yī)學(xué)領(lǐng)域,構(gòu)建不同實(shí)體間的語義模型對于數(shù)據(jù)的整合、復(fù)雜網(wǎng)絡(luò)的表示及發(fā)現(xiàn)新的語義關(guān)系等都具有突出作用。而目前的研究多集中在藥物、疾病、癥狀等傳統(tǒng)醫(yī)學(xué)的關(guān)系層面,圍繞基因、突變、細(xì)胞系等精準(zhǔn)醫(yī)學(xué)領(lǐng)域?qū)嶓w的語義網(wǎng)絡(luò)尚不多見。上述關(guān)系數(shù)據(jù)轉(zhuǎn)化技術(shù)中,對比發(fā)現(xiàn)D2RQ有明顯的優(yōu)勢, 它支持任何關(guān)系數(shù)據(jù)庫的數(shù)據(jù)轉(zhuǎn)換、通用性強(qiáng), 支持靈活的映射配置文件, 提供一種標(biāo)準(zhǔn)的轉(zhuǎn)換方式生成一個(gè)虛擬的RDF (S), 確保數(shù)據(jù)庫的內(nèi)容更新便捷[12]。鑒于此,本文采用D2RQ工具將數(shù)據(jù)資源轉(zhuǎn)化為RDF格式。

3 研究思路與框架

3.1 語義模型

基因、突變、細(xì)胞系與疾病之間存在多種語義關(guān)系。對語義關(guān)系進(jìn)行有效以及規(guī)范的定義,是語義模型構(gòu)建的基礎(chǔ),也為后續(xù)語義網(wǎng)絡(luò)在文本挖掘等領(lǐng)域中的應(yīng)用提供潛能。Verspoor等人提出一種人類變異組信息注釋模式,對11種實(shí)體類型和關(guān)系進(jìn)行規(guī)范。將這種模式應(yīng)用于一個(gè)小型的以腸癌主題的全文預(yù)料庫中,通過使用這個(gè)模式進(jìn)行全文注釋,注釋結(jié)果的一致性得到顯著提高[13]。本研究參考這種模式以及多種數(shù)據(jù)庫對語義關(guān)系的命名方式,最終確定4種語義類型Gene、Mutation、Cell-line、Disease之間的6種語義關(guān)系的定義模式。根據(jù)收集的數(shù)據(jù)庫中的數(shù)據(jù)形式與數(shù)據(jù)內(nèi)容,選擇部分基本信息進(jìn)行提取,例如基因的類型、突變的位點(diǎn)和疾病的別名等。這樣,每種語義類型都有多種相關(guān)屬性進(jìn)行更為全面的描述。具體語義關(guān)系模型設(shè)計(jì),見圖1。

圖1 語義關(guān)系模型及數(shù)據(jù)來源

3.2 實(shí)驗(yàn)流程

根據(jù)所設(shè)計(jì)的語義模型,選取NCBI gene、ClinVar、COSMIC、Cellosaurus、OMIM與NCIt等6個(gè)數(shù)據(jù)庫作為基因、突變、細(xì)胞系與疾病等實(shí)體數(shù)據(jù)的來源。通過數(shù)據(jù)篩選、格式轉(zhuǎn)化及融合等數(shù)據(jù)預(yù)處理流程,形成待處理數(shù)據(jù)集,將數(shù)據(jù)集存入MySQL數(shù)據(jù)庫中,依據(jù)數(shù)據(jù)特性共存儲(chǔ)為4個(gè)實(shí)體表,以及6個(gè)關(guān)系表。其后,利用D2RQ映射工具,根據(jù)本研究設(shè)計(jì)的語義模型,定義關(guān)系型數(shù)據(jù)與RDF數(shù)據(jù)的映射規(guī)則。最后,將關(guān)系型數(shù)據(jù)庫轉(zhuǎn)化為RDF語義格式并利用D2RQ工具部署本地Web應(yīng)用,實(shí)現(xiàn)對語義網(wǎng)絡(luò)的生成、檢索與分析。實(shí)驗(yàn)流程,見圖2。

圖2 語義關(guān)系模型的構(gòu)建

4 實(shí)驗(yàn)過程與結(jié)果

4.1 數(shù)據(jù)處理

4.1.1 數(shù)據(jù)提取 (1)基因數(shù)據(jù)選自NCBI gene數(shù)據(jù)庫。NCBI gene數(shù)據(jù)庫提供了多物種的基因序列信息,包括序列、表達(dá)、結(jié)構(gòu)、功能以及引用等信息,基因的唯一標(biāo)識(shí)——Entrez_ID,在美國國家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)研發(fā)的所有數(shù)據(jù)庫中都是通用的[14]。本研究選擇NCBI gene人類物種的基因數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)的基因部分,共60 195條,包括基因ID、基因名稱、在染色體上的位置和基因類型等信息。以NCBI gene數(shù)據(jù)庫的Entrez_ID為基因數(shù)據(jù)的標(biāo)準(zhǔn)標(biāo)識(shí)。(2)突變數(shù)據(jù)與突變-基因、突變-疾病之間的關(guān)系數(shù)據(jù)選自ClinVar數(shù)據(jù)庫。ClinVar 是一個(gè)公開的數(shù)據(jù)庫,其中收集與疾病相關(guān)的人類遺傳變異[15]。本研究選擇突變概要文件variant_summary.txt中基因組參考序列版本為GRCh38的突變數(shù)據(jù),共254 030條,篩選所在基因、突變名稱、突變類型、所在染色體、相關(guān)疾病等信息。ClinVar中突變所在的基因使用NCBI gene的Entrez_ID進(jìn)行標(biāo)識(shí),可與NCBI gene進(jìn)行鏈接。突變相關(guān)的疾病整合了OMIM 的疾病ID標(biāo)識(shí),所以也可與OMIM中的疾病鏈接。ClinVar的突變標(biāo)識(shí)以RCV000000000.0.形式表示,在突變對應(yīng)多個(gè)疾病的情況下,一個(gè)突變會(huì)對應(yīng)多個(gè)突變標(biāo)識(shí)所以本研究自定義突變的唯一標(biāo)識(shí),并保留RCVaccession的信息。(3)疾病數(shù)據(jù)與疾病-基因之間的關(guān)系數(shù)據(jù)選自O(shè)MIM數(shù)據(jù)庫。在線人類孟德爾遺傳數(shù)據(jù)庫(0nline Mendelian Inheritance in Man,OMIM)是一個(gè)關(guān)于人類基因和表型的權(quán)威數(shù)據(jù)庫,目前每日更新并支持免費(fèi)獲取[16]。本研究選擇morbidmap.txt文件中7 326條疾病數(shù)據(jù),保留疾病名稱、基因名稱、基因的OMIM ID以及基因的位置信息。利用mim2gene.txt中OMIM基因與NCBI基因的映射,獲取疾病-基因之間的關(guān)系。由于有些疾病的OMIM ID缺失,所以自定義疾病的唯一標(biāo)識(shí)。(4)細(xì)胞系的數(shù)據(jù)選自Cellosaurus數(shù)據(jù)庫。Cellosaurus數(shù)據(jù)庫由瑞士生物信息研究所的團(tuán)隊(duì)在Biocuration 2016大會(huì)上提出[17]。是目前整合細(xì)胞系信息較為全面的數(shù)據(jù)庫。下載并處理68 406條細(xì)胞系數(shù)據(jù)為標(biāo)準(zhǔn)格式,篩選細(xì)胞系名稱、編碼、別名、相關(guān)疾病等信息,自定義細(xì)胞系的唯一標(biāo)識(shí)。

4.1.2 數(shù)據(jù)關(guān)聯(lián) 基于以上數(shù)據(jù)處理的步驟,可以得到大部分實(shí)驗(yàn)數(shù)據(jù)。但疾病-細(xì)胞系、突變-細(xì)胞系、基因-細(xì)胞系的關(guān)系是無法直接從已整合的數(shù)據(jù)庫獲取的,需要引入中間數(shù)據(jù)庫,才能將這些實(shí)體進(jìn)行關(guān)聯(lián)。Cellosaurus中存在疾病-細(xì)胞系的關(guān)系,但是Cellosaurus中的疾病數(shù)據(jù)使用NCIt[18]的疾病術(shù)語進(jìn)行表示,提供其在NCIt中ID編碼。所以利用NCIt將Cellosaurus細(xì)胞系與OMIM疾病進(jìn)行關(guān)聯(lián)。參考一體化醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System,UMLS)中已對NCIt的疾病術(shù)語和OMIM的疾病術(shù)語進(jìn)行整合的信息。利用兩個(gè)來源的術(shù)語在UMLS數(shù)據(jù)中是否在同一個(gè)概念下進(jìn)行同義判斷,將NCIt與OMIM的疾病術(shù)語進(jìn)行映射。對于突變-細(xì)胞系與基因-細(xì)胞系的關(guān)系,利用COSMIC數(shù)據(jù)庫作為中間數(shù)據(jù)庫來獲取這些信息。COSMIC是世界上最大最全的研究人類體細(xì)胞突變對癌癥影響的數(shù)據(jù)資源[2],其中包含細(xì)胞系和原代細(xì)胞的基因測序信息和識(shí)別的突變信息。本研究重點(diǎn)關(guān)注對細(xì)胞系與突變和基因的關(guān)聯(lián)信息的獲取。獲取突變數(shù)據(jù)與細(xì)胞系的關(guān)系,先將COSMIC的細(xì)胞系與Cellosaurus的細(xì)胞系的名稱以及別名進(jìn)行匹配,再根據(jù)突變在染色體中的位置,以及突變的類型,將COSMIC中的突變信息與ClinVar中的突變信息進(jìn)行映射,以獲得ClinVar突變與Cellosaurus細(xì)胞系之間的關(guān)聯(lián)。而COSMIC中存在NCBI基因與細(xì)胞系關(guān)系,利用之前COSMIC的細(xì)胞系與Cellosaurus的細(xì)胞系的映射,可獲得NCBI基因與Cellosaurus細(xì)胞系之間的關(guān)聯(lián)。

4.2 數(shù)據(jù)映射

4.2.1 數(shù)據(jù)存儲(chǔ) 本研究采用D2RQ工具將融合的數(shù)據(jù)資源轉(zhuǎn)化為RDF格式。D2RQ是一個(gè)開源的平臺(tái),提供以虛擬只讀的RDF數(shù)據(jù)形式訪問關(guān)系數(shù)據(jù)庫的功能。通過D2RQ,可以使用SPARQL語言對關(guān)系型數(shù)據(jù)進(jìn)行檢索,通過其自帶Web應(yīng)用瀏覽數(shù)據(jù),也可以使用工具獲取生成RDF格式的文件。根據(jù)D2RQ工具所需要的輸入文件格式,將基因、突變、細(xì)胞系、疾病4種實(shí)體類型以及相關(guān)屬性存為MySQL數(shù)據(jù)庫中相應(yīng)的4張表,6種實(shí)體間的關(guān)系存為數(shù)據(jù)庫中相應(yīng)的6張表。

4.2.2 映射規(guī)則 D2RQ提供映射語言來描述關(guān)系型數(shù)據(jù)庫模式向RDFS轉(zhuǎn)換的映射規(guī)則。一個(gè)D2RQ映射文件本身就是用Turtle語法編寫的RDF文檔。D2RQ提供一些便利的工具,例如generate-mapping工具可以自動(dòng)生成一個(gè)映射文件mapping.ttl。但是自動(dòng)生成的映射文件只包含一些基礎(chǔ)的規(guī)則設(shè)置,更多復(fù)雜的映射規(guī)則可以參考D2RQ的映射語言[19]。

本研究首先通過聲明一個(gè)數(shù)據(jù)庫為d2rq:Database類來設(shè)置數(shù)據(jù)庫的相關(guān)屬性,包括JDBC數(shù)據(jù)庫的URL,JDBC驅(qū)動(dòng)程序類名,數(shù)據(jù)庫用戶名密碼等。聲明一個(gè)相應(yīng)的實(shí)體為d2rq:ClassMap類來設(shè)置類的屬性,包括URI的模式,例如設(shè)置gene的URI模式為“gene/@@gene.Gene_ID|urlify@@”,其中g(shù)ene.Gene_ID為數(shù)據(jù)庫中g(shù)ene表的Gene_ID列。利用d2rq:PropertyBridge來設(shè)置屬性,例如屬性名稱、屬性值。實(shí)體之間的語義關(guān)系,利用其中的d2rq:refersToClassMap來定義,例如基因-突變之間的語義關(guān)系“Gene_has_the_Mutation”,將兩個(gè)實(shí)體進(jìn)行鏈接。

4.3 實(shí)驗(yàn)結(jié)果

4.3.1 實(shí)驗(yàn)結(jié)果瀏覽與獲取 本研究根據(jù)基因、突變、細(xì)胞系、疾病4種實(shí)體類型以及之間的6種語義關(guān)系對應(yīng)的表格,編寫D2RQ映射語言文件mapping.ttl。利用生成的文件,運(yùn)行d2r-server工具,啟動(dòng)D2RQ部署的本地服務(wù)http://localhost:2020/。通過這個(gè)Web應(yīng)用,可以對數(shù)據(jù)進(jìn)行瀏覽,也可以利用SPARQL執(zhí)行搜索并設(shè)定展示的條目數(shù)量。以AKT3基因?yàn)槔?,?shù)據(jù)瀏覽結(jié)果,見圖3。基因AKT3的信息頁面包含多種信息。其中,該基因相關(guān)的突變,用字段“Gene_has_the_mutation”表示;檢測該基因的細(xì)胞系樣本,用字段“The_examined_Sample_of_Gene”表示,其值對應(yīng)的鏈接,可以鏈接到相應(yīng)的突變和細(xì)胞系的信息頁面。其他屬性,例如,基因所在的染色體、基因全名和基因ID等信息也在該頁面中詳細(xì)列出。

圖3 AKT3基因信息瀏覽頁面

此外,D2RQ也提供通過命令行進(jìn)行SPARQL語言搜索的功能。通過dump-rdf命令可以將生成的RDF文件導(dǎo)出生成“TURTLE”、“RDF/XML”、“RDF/XML-ABBREV”、“N3”以及 “N-TRIPLE”等多種RDF語法格式。實(shí)驗(yàn)最終構(gòu)建的語義網(wǎng)絡(luò),共包含基因60 195個(gè),突變254 030個(gè),細(xì)胞系68 406個(gè),疾病7 326個(gè),共構(gòu)建3元組726 236個(gè)。其中,基因與突變之間的3元組254 030個(gè),基因與疾病之間的3元組15 477個(gè),基因與細(xì)胞系之間的3元組287 342個(gè),細(xì)胞系與突變之間的3元組195個(gè),細(xì)胞系與疾病之間的3元組36 377個(gè),突變與疾病之間的3元組132 815個(gè)。

4.3.2 實(shí)驗(yàn)結(jié)果對比分析 對NCBI Gene,ClinVAR,Cellosaurus,COSMIC等幾個(gè)數(shù)據(jù)庫進(jìn)行分析,對數(shù)據(jù)類型和數(shù)據(jù)格式進(jìn)行調(diào)研,與本研究模型進(jìn)行對比,發(fā)現(xiàn)本研究構(gòu)建的語義關(guān)系模型,其細(xì)胞系相關(guān)的數(shù)據(jù)類型覆蓋程度更為全面,方便用戶對細(xì)胞系及相關(guān)信息進(jìn)行瀏覽和查詢,而不用跨越多個(gè)數(shù)據(jù)庫,緣于已有效地將細(xì)胞系相關(guān)的數(shù)據(jù)進(jìn)行整合。每種數(shù)據(jù)類型都采用業(yè)內(nèi)通用的數(shù)據(jù)庫的名稱和標(biāo)識(shí),提供良好的互操作性,為細(xì)胞系的研究提供幫助。相比于NCBI Gene,本研究構(gòu)建的語義網(wǎng)絡(luò)還整合了突變和細(xì)胞系的信息,較ClinVar多細(xì)胞系信息,比 Cellosaurus數(shù)據(jù)庫的信息主要多基因和突變的數(shù)據(jù),而在數(shù)據(jù)類型覆蓋層面,COSMIC數(shù)據(jù)庫同樣覆蓋了基因、突變、細(xì)胞系和疾病的信息,但同時(shí)本語義網(wǎng)絡(luò)在疾病數(shù)據(jù)的整合方面提供疾病術(shù)語命名和編碼的標(biāo)準(zhǔn),見表1。當(dāng)然該語義網(wǎng)絡(luò)中的許多數(shù)據(jù)是從其中幾個(gè)數(shù)據(jù)庫中提取并整合的,因此整合更多細(xì)胞系相關(guān)的新數(shù)據(jù)、發(fā)現(xiàn)更多的語義關(guān)系也是本語義網(wǎng)絡(luò)應(yīng)該繼續(xù)努力的方向。

表1 本研究模型數(shù)據(jù)類型覆蓋范圍與其他幾個(gè)相關(guān)數(shù)據(jù)庫對比

注:*即COSMIC沒有提供表型標(biāo)準(zhǔn)名稱以及與其他數(shù)據(jù)庫的映射

本研究通過D2RQ部署的語義網(wǎng)絡(luò)的Web應(yīng)用,目前僅限于內(nèi)部實(shí)驗(yàn)使用,后期將持續(xù)完善細(xì)胞系語義網(wǎng)絡(luò)瀏覽平臺(tái),發(fā)布為外網(wǎng)可訪問的形式并提供多種語義網(wǎng)絡(luò)獲取方式。

5 結(jié)語

本研究利用基于RDB到RDF映射語言(R2RML)的D2RQ映射工具,對以細(xì)胞系數(shù)據(jù)為中心的包含基因、突變與疾病數(shù)據(jù)以及語義關(guān)系的數(shù)據(jù)進(jìn)行建模與整合,分析不同來源生物醫(yī)學(xué)數(shù)據(jù)的特性,發(fā)現(xiàn)數(shù)據(jù)融合的有效方法,所構(gòu)建的語義網(wǎng)絡(luò)數(shù)據(jù)類型覆蓋更為全面,可為用戶提供更加便捷的服務(wù)。但是仍有許多不足之處有待改進(jìn),今后的工作將從以下內(nèi)容展開:進(jìn)一步優(yōu)化多來源異構(gòu)數(shù)據(jù)的融合方法,多方面考慮數(shù)據(jù)的不同特性,利用實(shí)體相似計(jì)算方法提高數(shù)據(jù)的映射成功率。研究突變對于癌癥等復(fù)雜疾病帶來的內(nèi)部細(xì)胞機(jī)制的變化,豐富實(shí)體之間的語義關(guān)系。最終將數(shù)據(jù)來源擴(kuò)展至文獻(xiàn)、電子病歷等形式,從中挖掘更多的生物醫(yī)學(xué)實(shí)體之間的語義關(guān)系,從而對語義網(wǎng)絡(luò)進(jìn)行擴(kuò)展,提高語義模型的實(shí)用性。

猜你喜歡
細(xì)胞系實(shí)體語義
語言與語義
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
STAT3對人肝內(nèi)膽管癌細(xì)胞系增殖與凋亡的影響
抑制miR-31表達(dá)對胰腺癌Panc-1細(xì)胞系遷移和侵襲的影響及可能機(jī)制
E3泛素連接酶對卵巢癌細(xì)胞系SKOV3/DDP順鉑耐藥性的影響
認(rèn)知范疇模糊與語義模糊
遂平县| 赣榆县| 格尔木市| 云和县| 雷波县| 夹江县| 灵山县| 平泉县| 城口县| 启东市| 沾益县| 无为县| 昭平县| 教育| 北票市| 西畴县| 扎鲁特旗| 凤冈县| 乌什县| 邢台县| 邹城市| 达孜县| 麦盖提县| 浑源县| 红桥区| 周宁县| 宁陵县| 将乐县| 固阳县| 桃园市| 蒲江县| 天祝| 拉孜县| 长岛县| 临夏县| 荣昌县| 黑山县| 抚远县| 萍乡市| 信丰县| 赤峰市|