国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于本體參考數(shù)據(jù)的生物醫(yī)學(xué)本體融合模型研究

2018-10-24 07:59:14曹春萍
計算機應(yīng)用與軟件 2018年10期
關(guān)鍵詞:基因功能術(shù)語本體

曹春萍 張 政

(上海理工大學(xué)光電信息與計算機工程學(xué)院 上海 200093)

0 引 言

本體作為一個重要的語義描述系統(tǒng)和存儲工具被應(yīng)用到生物醫(yī)學(xué)領(lǐng)域。目前已開發(fā)的生物醫(yī)學(xué)本體是從各知識領(lǐng)域出發(fā),對事物的高度概括和總結(jié),可以提供各領(lǐng)域知識的相對全面、綜合性的標準化理解。本體對醫(yī)學(xué)知識概念的高度統(tǒng)一化和標準化,使得相關(guān)醫(yī)學(xué)本體經(jīng)常被應(yīng)用在疾病研究等方面,提供一致性的知識表示。但是,由于疾病的產(chǎn)生和發(fā)展往往具有綜合性,涉及到基因、環(huán)境、心理、體征表現(xiàn)、疾病相似性關(guān)聯(lián)等多方面的因素,來自單個領(lǐng)域的本體在疾病研究上難以全方面的準確覆蓋。為此,將現(xiàn)有本體進行融合就成為當下生物醫(yī)學(xué)中研究的重點。

1 相關(guān)工作

目前已有許多針對領(lǐng)域本體融合方法的研究。此類研究主要是從本體自身的語義和結(jié)構(gòu)上的相似性出發(fā),尋找概念間的映射關(guān)系,由局部本體向全局本體進行融合的方法。這些融合方法大多通過語義匹配的方式消除本體間的異構(gòu)。但是,由于不同領(lǐng)域本體的復(fù)雜性不同,融合后的本體往往存在局限性大,準確率不高等問題。文獻[1]提出一種基于Mediator模式的融合機制,基于本體概念的語義相似度定義了多種本體映射類型,包括直接映射、包含映射和組合映射,并根據(jù)映射類型的不同建立了不同融合連接。改進了傳統(tǒng)本體概念間進行一對一映射的不足,但缺少了對語義不一致的考慮,并且在映射關(guān)聯(lián)的建立上并沒有給出可做傾向性選擇的權(quán)值參考,不利于融合后本體的應(yīng)用。文獻[2]提出了一種?;碚摰牡乩肀倔w融合方法。運用了形式概念分析地理本體,再引入粒計算,在不同粒度下通過約簡概念格完成本體融合過程。此方法將形式概念分析與粒計算結(jié)合用于地理本體融合,打破傳統(tǒng)形式背景下的二值局限性,通過粒度劃分增加了問題求解的靈活性。文獻[3]立足于領(lǐng)域本體的結(jié)構(gòu)特征,分析本體中術(shù)語層次結(jié)構(gòu)所包含的語義信息,提出基于屬性的計算模型。在本體結(jié)構(gòu)層次中求解概念間的最小不可約集,通過對語義模型引入調(diào)節(jié)因子,提高了領(lǐng)域概念的融合效率。使用語義度量的方式將概念之間的關(guān)系進行加權(quán),同時利用本體層級關(guān)系中不同層次概念節(jié)點所表達的概念范疇的差別,將概念節(jié)點深度對于相似度的影響進行了量化,在一定程度上提高了本體融合的準確性。但在語義距離的計算過程中依然不能避免本體中語義異構(gòu)帶來的影響,并且在多領(lǐng)域本體融合過程中,各本體概念所在層級結(jié)構(gòu)信息對產(chǎn)生跨本體融合連接的作用較小。

還有一些研究借助WordNet等外部詞典工具[4-5]或者文檔信息進行融合。如基于文獻的跨本體融合方法[6],提出了在不同文獻中匹配共出現(xiàn)的本體概念對,并從文獻的語義描述中挖掘這些術(shù)語關(guān)聯(lián),從而建立本體之間的關(guān)聯(lián),形成跨領(lǐng)域間本體的融合。由于本體概念存在大量的不同實例,這會導(dǎo)致匹配效果不佳。同時在本體的關(guān)聯(lián)表達上,同樣是通過對文檔信息的描述分析做語義匹配。由于構(gòu)成文檔的語義描述信息來源復(fù)雜,即使進行關(guān)鍵語義抽取后,也可能由于數(shù)據(jù)來源的專業(yè)領(lǐng)域不同而導(dǎo)致得到的關(guān)聯(lián)表達準確度不高。

文獻[7]創(chuàng)新性地提出了一種非語義匹配的方式,使用機器學(xué)習(xí)的方法針對地理本體進行融合。雖然提高了融合效率,但隨著融合規(guī)模的擴大,概念空間也會異常復(fù)雜。本體融合方式主要是建立本體之間的映射關(guān)系,通過本體概念、實例及屬性之間語義匹配機制和映射方法,實現(xiàn)本體最小元素之間的相似對應(yīng)關(guān)系,從而實現(xiàn)本體的最終融合[8]。因此還有許多研究是通過改進概念間的相似性度量方法來提高本體融合的準確性[9-13]。

生物醫(yī)學(xué)中的本體具有較高的多樣性和復(fù)雜性,使得通過對生物醫(yī)學(xué)本體的融合以實現(xiàn)知識復(fù)用變得困難。對此,不同于上述由局部向全局進行本體融合的一般方式,在生物醫(yī)學(xué)界一般通過對重要本體的融合,為相關(guān)問題的解決提供多方位的信息支持。

GO、DO和HPO三個本體在疾病研究上的重要作用是在基因互作、疾病關(guān)聯(lián)、病癥表現(xiàn)三個方面提供通用的一致性知識表示,便于不同領(lǐng)域?qū)<覍膊⊙芯窟_成共同的理解。為此,將其進行融合后得到的標準化信息對病因的多方位研究幫助也會比較大。所以不少學(xué)者對其進行了相關(guān)研究。文獻[6]通過本體概念在文獻中的映射關(guān)系實現(xiàn)GO與DO的本體融合,但其研究側(cè)重點在于使用豐富的文獻信息增加跨本體間的術(shù)語關(guān)聯(lián)表達。在文獻[16]中,提出了在HPO中基于通路的相似度計算方法,通過與基因網(wǎng)絡(luò)的結(jié)合來進行疾病和致病基因的預(yù)測。這類研究中大多是對本體之間的關(guān)聯(lián)進行擴展,并逐步通過相關(guān)數(shù)據(jù)的集成與本體數(shù)據(jù)進行融合。這種方式?jīng)]有達到真正意義上的知識融合以形成標準化的共同理解。并且準確率和融合效率一般不高。而目前針對多個核心本體的整體融合研究也相對較少。

本文在GO、DO、HPO三個核心領(lǐng)域本體融合研究中,采用以兩兩本體融合最終達到整體融合的方式進行。由于融合方法是一致的,所以本文主要以GO與DO本體的融合為例進行論述,同樣方法以建立DO與HPO的融合。通過對基因本體GO與疾病本體DO的組織結(jié)構(gòu)和內(nèi)容描述進行分析,以本體的參考數(shù)據(jù)來源為切入點,挖掘與當前領(lǐng)域本體關(guān)聯(lián)緊密的相關(guān)生物網(wǎng)絡(luò)數(shù)據(jù)做非語義匹配。匹配過程中建立了本體注釋信息的基因字典樹,并改進相關(guān)匹配算法,提出了基于本體參考數(shù)據(jù)的生物醫(yī)學(xué)本體融合模型。

2 基于本體參考數(shù)據(jù)的本體融合模型設(shè)計

2.1 模 型

為了解決由于本體異構(gòu)導(dǎo)致的“信息孤島”問題,我們建立跨領(lǐng)域本體之間的融合連接,并在融合過程中盡可能規(guī)避繁瑣的語義匹配過程,給出了基于本體參考數(shù)據(jù)的本體融合模型(如圖1所示)。在現(xiàn)有本體基礎(chǔ)上,引入領(lǐng)域相關(guān)性較強的生物網(wǎng)絡(luò)數(shù)據(jù),將傳統(tǒng)跨本體間的概念語義匹配問題轉(zhuǎn)化為基因功能相關(guān)性表達的問題,簡化融合過程,同時提高融合結(jié)果的準確性。

圖1 模型

基于上述思想,多維度本體融合過程為:

1) 通過本體術(shù)語的參考數(shù)據(jù)源挖掘相關(guān)本體注釋的生物網(wǎng)絡(luò)數(shù)據(jù)。這里使用帶有GO與DO本體注釋信息的人類基因網(wǎng)絡(luò)數(shù)據(jù)(如圖2所示)。同理與HPO本體融合過程中使用HPO本體注釋的基因功能網(wǎng)絡(luò)數(shù)據(jù)。

(a) 基于GO標注的人類基因網(wǎng)絡(luò)(N1) (b) 人類疾病與其致病基因關(guān)聯(lián)的敘詞表(N2)圖2 人類基因網(wǎng)絡(luò)數(shù)據(jù)

2) 跨本體間術(shù)語關(guān)聯(lián)表達使用本體相關(guān)生物網(wǎng)絡(luò)中的基因做非語義匹配建立。這里通過N1與N2中的基因功能相關(guān)性表達,確定不同本體術(shù)語之間的關(guān)聯(lián)關(guān)系,并定性分析和量化這種關(guān)聯(lián)。

2.2 跨本體間術(shù)語關(guān)聯(lián)表達

使用不同本體注釋的基因功能網(wǎng)絡(luò),可以通過基因之間相等或相似的匹配來建立跨本體間的融合連接。并且,基因相關(guān)性表達的結(jié)果在一定程度上也影響著融合后本體的可檢索能力。所以,我們對基因之間的關(guān)聯(lián)從定性和定量兩方面進行了分析和研究。定性分析在粗粒度上確定本體之間融合連接的類型,而定量分析則在細粒度上區(qū)分關(guān)聯(lián)性的強弱。這樣,融合后的本體更具應(yīng)用性,本體的融合研究才具有意義。

首先,根據(jù)基因相關(guān)性計算方法不同,我們給出了兩種關(guān)聯(lián)表示方法:(1) 顯性關(guān)聯(lián)表示;(2) 隱性關(guān)聯(lián)表示。顯性關(guān)聯(lián)可以提高不同本體術(shù)語關(guān)聯(lián)的準確性和可靠性,隱性關(guān)聯(lián)則允許在一定誤差(基因功能網(wǎng)絡(luò)權(quán)重)下可接受的術(shù)語關(guān)聯(lián)。這些隱性關(guān)聯(lián)有助于產(chǎn)生新的生物關(guān)系猜想。為有價值的生物學(xué)發(fā)現(xiàn)提供有利基礎(chǔ)。

定義1顯性關(guān)聯(lián):找到完全相同的基因使用不同本體術(shù)語注釋,從而確定不同本體術(shù)語間關(guān)聯(lián)。

定義2隱性關(guān)聯(lián):借助基因功能網(wǎng)絡(luò)[14],通過基因功能相似性找到不同本體注釋術(shù)語,從而確定不同本體術(shù)語間關(guān)聯(lián)。

其次,借助基因功能網(wǎng)絡(luò)中的基因功能相似權(quán)重系數(shù),分別量化得到的每種關(guān)聯(lián)關(guān)系。由于顯性關(guān)聯(lián)是通過基因匹配的方式得到,即相同的基因注釋不同本體術(shù)語,所以通過基因相關(guān)性衡量術(shù)語相關(guān)性的權(quán)重系數(shù)wx=1。而隱形關(guān)聯(lián)是通過計算不同基因之間的功能相似性來確定術(shù)語之間的相似性得來,所以權(quán)重系數(shù)為計算得到,數(shù)值范圍在wx∈(0,1)。特別地,當基因不存在基因功能網(wǎng)絡(luò)NET中時,權(quán)重wx=0。gi和gj分別為注釋不同本體術(shù)語的基因。ti和tj為不同本體中的術(shù)語,如下所示:

(1)

2.2.1 顯性關(guān)聯(lián)表示:使用本體術(shù)語注釋的基因集做等價匹配

本體中的每個術(shù)語包含一到多個注釋基因,大量的基因匹配過程會造成較高的時空開銷,所以我們借鑒了AC自動機的思想[15]來降低暴力匹配過程中的時間復(fù)雜度。該匹配算法可以對于給定長度為n的文本和模式集合p{p1,p2,…,pm},在O(n)時間復(fù)雜度內(nèi),找到文本中的所有目標模式,而與模式集合的規(guī)模m無關(guān)。即我們在建立本體術(shù)語間的關(guān)聯(lián)表達時,可以較大程度地忽略掉基因模式的增加給基因匹配效率帶來的負擔,從而達到我們通過基因的等價匹配來實現(xiàn)跨本體術(shù)語關(guān)聯(lián)映射的目的。

具體構(gòu)造過程可以分為兩個階段:

1) 構(gòu)造基因字典樹。將每種基因逐個字符插入到字典樹中,從根節(jié)點到葉節(jié)點的任意一條路徑構(gòu)成一個完整的基因表示并對應(yīng)所注釋的本體術(shù)語表示碼。最終構(gòu)建的字典樹如圖3所示。

圖3 基因字典樹(Gene Trie)

字典樹構(gòu)建過程:從唯一的根節(jié)點q0開始,從基因集合p={p1,p2,…,pz}中,逐一插入pi(1≤i≤z),并盡可能沿著當前基因pi中字符順序路徑進行,如果pi在狀態(tài)節(jié)點q(q∈Q)中止,在q節(jié)點下標記作為pi標識符。如圖3所示,我們將用于描述每個基因的GO術(shù)語集合(集合中使用GO術(shù)語的表示碼)作為當前基因模式的標識符;如果在pi中所有字符使用完之前中止,則繼續(xù)以pi中剩下的字符作為路徑進行插入新的狀態(tài)節(jié)點。

完成根節(jié)點的轉(zhuǎn)移函數(shù)g,如果a∈Σ并且不是根節(jié)點q0出來的字符路徑上的字符,那么g(0,a)=0。(即q0初始狀態(tài))

2) 完成f失配轉(zhuǎn)移函數(shù)。這個函數(shù)在字典樹上以廣度優(yōu)先的方式得到。當計算經(jīng)過一個字符路徑a的狀態(tài)節(jié)點的f函數(shù)值時,并假設(shè)比當前節(jié)點更靠近根節(jié)點的f函數(shù)值已經(jīng)計算得到。當發(fā)生失配時,回溯到當前狀態(tài)節(jié)點的父親節(jié)點的f函數(shù)值所指的狀態(tài)節(jié)點,直到當前狀態(tài)節(jié)點到它的每個直接子節(jié)點的字符路徑有a的時候,f函數(shù)值為此狀態(tài)節(jié)點。如果一直到根節(jié)點都沒有找到,那f函數(shù)值為0。

本文在算法實現(xiàn)中f失配函數(shù)的構(gòu)建中不同于傳統(tǒng)AC自動機失配函數(shù)在普通連續(xù)字符串中的構(gòu)建方式。因為表示基因的字符是有序一體的,并且基因的字符表示有可能存在包含和被包含的關(guān)系,所以在構(gòu)建失配函數(shù)時,不能按最長公共前后綴的方式進行失配轉(zhuǎn)移。如圖4所示,當狀態(tài)7發(fā)生失配時,失配指針由父節(jié)點指向值為13的狀態(tài)節(jié)點繼續(xù)匹配可能存在的基因IF。但即使匹配成功,由于從根節(jié)點沿字符路徑進行匹配的基因CIF只是包含了基因IF,所以不能將IF的GO注釋作為CIF的注釋。

圖4 傳統(tǒng)的失配轉(zhuǎn)移

因為是基于基因的等價匹配方式,所以基因字典樹通過BFS搜索發(fā)生失配時,從基因表示的整體性上考慮,只回溯到當前失配狀態(tài)節(jié)點的父節(jié)點(已完成匹配),不再進行當前基因pi的匹配搜索,而是根據(jù)pi中下一個字符增加新的狀態(tài)節(jié)點形成新的基因表示以完成第一節(jié)階段基因字典樹的動態(tài)擴充(如圖5所示)。其實質(zhì)是不同本體參考數(shù)據(jù)所構(gòu)成的基因字典樹的疊加,最終構(gòu)成一顆多本體術(shù)語注釋的基因字典樹,增加生物醫(yī)學(xué)領(lǐng)域中其他跨本體術(shù)語關(guān)聯(lián)映射的可能。

圖5 基因字典樹動態(tài)擴充

實驗過程中,改進的匹配算法將GO標注的人類基因網(wǎng)絡(luò)中的基因在人類疾病和致病基因網(wǎng)絡(luò)中進行匹配,立起跨本體術(shù)語間的顯性關(guān)聯(lián)關(guān)系。同時,基因字典樹的建立也促使了多領(lǐng)域本體進行融合的可能性。

2.2.2 隱性關(guān)聯(lián)表示:使用基于基因功能關(guān)聯(lián)網(wǎng)絡(luò)的CroGO[14]算法進行匹配關(guān)聯(lián)

定義3基因功能網(wǎng)絡(luò)(如圖6所示):基因功能網(wǎng)絡(luò)是一個基因功能概率網(wǎng)絡(luò)。基因功能網(wǎng)絡(luò)利用了一個改進后的貝葉斯模型,整合了不同類型的生物網(wǎng)絡(luò),網(wǎng)絡(luò)中的節(jié)點代表基因,邊代表基因之間的功能關(guān)聯(lián),而邊的權(quán)重為通過貝葉斯統(tǒng)計模型計算得到的對數(shù)似然得分。如果兩個基因的對數(shù)似然得分為0,表示兩基因之間因為功能相關(guān)性而匹配的可能性不會比隨機匹配的幾率高。構(gòu)建基因功能關(guān)聯(lián)網(wǎng)絡(luò)的方法,最早由Lee等于2004年提出。

圖6 基因功能網(wǎng)絡(luò)(NET)示例

定義4直接功能距離:在基因網(wǎng)絡(luò)中任意兩個基因節(jié)點之間不經(jīng)過其他任何基因節(jié)點而直接相連,則這條邊上的權(quán)值作為這兩個基因節(jié)點之間的直接功能距離。

本文使用基因功能網(wǎng)絡(luò)找到與N2中每種疾病的致病基因關(guān)聯(lián)性強的基因集并借助N1通過CroGO算法計算得到GO與DO術(shù)語的隱性關(guān)聯(lián)。使用z-score(標準分數(shù))作為閾值,通過調(diào)整合適的閾值大小,確定隱性關(guān)聯(lián)強度。

(2)

式中:x為致病基因到相近基因的功能關(guān)聯(lián)權(quán)值,μ表示與致病基因相近基因所有權(quán)值的平均值,σ表示所有基因功能關(guān)聯(lián)權(quán)值的方差。

不同本體術(shù)語隱性關(guān)聯(lián)關(guān)系的確定過程同樣需要經(jīng)過兩個階段完成:

1) 使用人類基因功能網(wǎng)絡(luò)NET,通過基因功能的相似性發(fā)現(xiàn)N2中使用DO標注的術(shù)語t1對應(yīng)的致病基因集G1的相近基因集Gsim。

(1) 致病基因gi∈G并且gi存在于基因功能網(wǎng)絡(luò)NET中,則可以找到與基因gi存在直接功能距離的基因集合Ggi。如圖6所示,假如g3為致病基因,則與g3存在直接功能距離的基因集合Gg3={g1,g7,g6}。

(2) 使用標準分篩選基因集和Ggi中功能相關(guān)性較強的基因集Gsim?;蚬δ芫嚯x越小則基因功能相關(guān)性越低,基因功能距離越大則基因功能相關(guān)性越高。使用z-score作為閾值進行篩選,在平均數(shù)之上會得到一個正的標準分數(shù),在平均數(shù)之下會的到一個負的標準分數(shù)。所以,正的標準分數(shù)代表基因功能距離大于與當前致病基因gi所有直接功能相關(guān)基因功能距離的平均值(即功能相關(guān)性越高);負的標準分數(shù)代表基因功能距離小于與當前致病基因gi所有直接功能相關(guān)基因功能距離的平均值(即功能相關(guān)性越低)。

在生物醫(yī)學(xué)上,與致病基因存在直接功能距離,即存在相關(guān)性的基因都可能影響當前疾病的產(chǎn)生和發(fā)展。即使相似性很低,但存在就有一定的可能性,而這種低的可能性的保留可以針對疾病的深入研究提供更多可考量的方面和探索方向。但本文研究重點在于給出更精準和重要的分子水平描述依據(jù),所以需要通過標準分數(shù)篩選出重要的相似基因集。在圖6中,通過計算可以得到g3的功能相關(guān)性較強的基因集Gsim={g1}。

2) 使用CroGO算法[14]計算本體術(shù)語之間的關(guān)聯(lián)權(quán)值。

(1) 根據(jù)GO本體標注的基因網(wǎng)絡(luò)找到Gsim基因集的基因子集,記作G2(G2??),每個子集G2唯一對應(yīng)GO本體中的一條術(shù)語t2。

(2) 計算基因G1和G2的關(guān)聯(lián)性,得到t1和t2的術(shù)語相似度sim(t1,t2)作為隱性關(guān)聯(lián)強度?;趥鹘y(tǒng)的衡量兩個集合關(guān)聯(lián)關(guān)系的方法交集比并集。在功能網(wǎng)絡(luò)NET中,節(jié)點表示基因,邊表示基因之間的功能相互作用,每條邊的權(quán)重表示兩個基因之間存在的功能相關(guān)可能性。兩個基因集合G1和G2的功能相關(guān)性可以通過公式計算得到。公式如下:

(3)

式中:|X|表示集合X的大小,G1∪G2表示集合G1和G2的并集,f(G1,G2)表示兩個集合的差集,由公式計算得到:

(4)

根據(jù)基因集合G1和G2計算基因本體術(shù)語t1和疾病本體術(shù)語t2相似性,計算公式如下所示:

(5)

式中:GSA(G1,G2)由式(3)得到,Gt1和Gt2表示t1和t2所注釋的所有基因的組合。

3 實 驗

3.1 實驗環(huán)境與數(shù)據(jù)集

實驗環(huán)境配置:算法實現(xiàn)使用Python(v3.6.1)和MATLAB。服務(wù)器采用4 GB內(nèi)存,50 GB硬盤。

為了驗證所提方法的表示精度,以及在生物醫(yī)學(xué)上的表現(xiàn)效果。我們分別從KEGG(京都基因與基因組百科全書)、Rectome(人類生物學(xué)反應(yīng)及信號通路數(shù)據(jù)庫)中得到人類疾病與致病基因數(shù)據(jù),包含使用GO(基因本體)標注的人類基因9 699條和使用DO(疾病本體)標注的人類疾病1 858種進行實驗驗證。

本體選擇GO基因本體和DO疾病本體作為待融合本體。GO基因本體中選擇GO術(shù)語總數(shù)為42 716條,選擇DO本體術(shù)語總數(shù)為6 878條。由于所選擇相關(guān)生物網(wǎng)絡(luò)種類的影響,并不能將本體全部術(shù)語信息進行覆蓋。這里選擇人類相關(guān)生物網(wǎng)絡(luò)做實驗驗證。

3.2 實驗內(nèi)容及分析

為了驗證本文所述的跨本體術(shù)語關(guān)聯(lián)算法的計算過程以及本體融合效果,實驗過程主要從術(shù)語關(guān)聯(lián)精度上進行了驗證。并與同樣是對GO與DO本體進行融合研究的基于文獻的跨本體術(shù)語關(guān)聯(lián)算法ARSS[6]進行了比較。

實驗一通過本文所述方法,對基因本體術(shù)語和疾病本體術(shù)語進行關(guān)聯(lián)計算,并得到相應(yīng)的關(guān)聯(lián)權(quán)值對關(guān)聯(lián)術(shù)語對進行了定量的分析。通過多樣本測試獲得的調(diào)整的p-value[6]計算所找到的關(guān)聯(lián),通過比較本文方法與ARSS方法獲取的相關(guān)術(shù)語對是否存在統(tǒng)計上的顯著性,來驗證術(shù)語關(guān)聯(lián)的精度,即驗證本體融合方法的精度。

(6)

式中:N是全部的基因數(shù)目;M和K分別表示疾病術(shù)語和基因本體術(shù)語相關(guān)的基因數(shù)目。X是疾病術(shù)語和基因術(shù)語共同的基因數(shù)目;C(N,K)是從N中選取K的組合。得到的pvalue最終進行了假陽性檢驗。

如表1所示,分別使用本文方法和ARSS方法對疾病本體和基因本體的術(shù)語關(guān)聯(lián)對進行了識別,并從1 000、3 000、5 000(識別的術(shù)語對約數(shù))的遞增序列來進行具有統(tǒng)計上的顯著性的術(shù)語對的識別效果的比較。

表1 本文方法與ARSS方法識別跨本體術(shù)語對數(shù)目

通過兩種方法在找到的跨本體間的術(shù)語關(guān)聯(lián)中,本文方法識別出的具有統(tǒng)計上顯著性的術(shù)語關(guān)聯(lián)對數(shù)目明顯高于ARSS識別出的術(shù)語對(圖7),所以本文方法在識別精度上有一定的提高。并且由于本體參考來源數(shù)據(jù)對術(shù)語對有較高的領(lǐng)域數(shù)據(jù)貼合性,所以隨著術(shù)語對的梯度增加,識別出具有統(tǒng)計上的顯著性的術(shù)語對對數(shù)也呈線性增加。

圖7 本文方法與ARSS方法對存在統(tǒng)計上的顯著性的跨本體術(shù)語對的識別驗證結(jié)果

實驗二使用本文所述方法進行跨領(lǐng)域本體融合結(jié)果(部分)。

表2和表3中分別給出了不同本體術(shù)語間通過顯隱性關(guān)聯(lián)表達得到的部分融合連接。以疾病本體中的術(shù)語概念“精神分裂癥”為例,通過基因功能匹配分別得到與GO和HPO本體中若干術(shù)語的關(guān)聯(lián)映射,并給出關(guān)聯(lián)權(quán)值W。其中,作用基因是不同本體術(shù)語之間映射建立的連接點,權(quán)重代表通過基因相關(guān)性表達所建立的融合連接強度。相比通過語義匹配建立的關(guān)聯(lián),通過作用基因的相關(guān)性表達得到的關(guān)聯(lián)更具有確定性和傾向性,提高融合后本體的應(yīng)用能力。連接點表達了融合連接的方式和性質(zhì),而連接強度以量化的方式給出了跨本體知識檢索中術(shù)語關(guān)聯(lián)選擇的傾向。

表2 GO、DO本體融合結(jié)果(部分)

表3 DO、HPO本體融合結(jié)果(部分)

4 結(jié) 語

本體為各領(lǐng)域知識提供可共享的理解,在語義網(wǎng)的設(shè)計中起到關(guān)鍵性作用,一定程度上決定著語義網(wǎng)中元素具有的語義能力、語義正確性和推理能力,是語義網(wǎng)建設(shè)的堅實數(shù)據(jù)基礎(chǔ)。融合后的特定領(lǐng)域本體可以提供多維度的知識理解,形成更廣泛的知識表達,是本體在語義網(wǎng)絡(luò)中發(fā)揮重要作用的延伸。本文提出了生物醫(yī)學(xué)領(lǐng)域的本體融合模型,通過挖掘不同本體的來源數(shù)據(jù)和相關(guān)生物網(wǎng)絡(luò)數(shù)據(jù),再通過定性分析,形成領(lǐng)域內(nèi)多本體之間概念的量化關(guān)聯(lián),最終達到融合目的。經(jīng)實驗驗證,該融合模型具有的一定的準確性和魯棒性。

猜你喜歡
基因功能術(shù)語本體
板栗外生菌根誘導(dǎo)基因CmNRT3的表達及功能研究
Abstracts and Key Words
對姜夔自度曲音樂本體的現(xiàn)代解讀
西瓜噬酸菌Ⅲ型分泌系統(tǒng)hrcQ基因功能分析
植物保護(2019年2期)2019-07-23 08:40:58
基因組編輯系統(tǒng)CRISPR—Cas9研究進展及其在豬研究中的應(yīng)用
藥用植物萜類生物合成β—AS基因研究進展
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
Care about the virtue moral education
卷宗(2013年6期)2013-10-21 21:07:52
有感于幾個術(shù)語的定名與應(yīng)用
從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢
广河县| 寿宁县| 乐业县| 南乐县| 正定县| 全州县| 东山县| 彭山县| 姜堰市| 长宁县| 仪陇县| 安塞县| 巩留县| 祁连县| 彩票| 墨江| 台湾省| 拉孜县| 武功县| 东源县| 铅山县| 淮安市| 子洲县| 沾化县| 大宁县| 成都市| 哈尔滨市| 延长县| 来安县| 普兰县| 舒城县| 沙雅县| 沈阳市| 章丘市| 边坝县| 平遥县| 四平市| 永春县| 汤阴县| 瑞安市| 且末县|