国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于復(fù)雜關(guān)聯(lián)網(wǎng)絡(luò)的生物醫(yī)學(xué)研究結(jié)構(gòu)的挖掘

2015-03-22 03:17:30,,,,
關(guān)鍵詞:連通分支生物醫(yī)學(xué)關(guān)聯(lián)

,, ,,

隨著文獻(xiàn)數(shù)量的急速增長(zhǎng),文本挖掘技術(shù)不斷應(yīng)用于大規(guī)模文獻(xiàn)處理,基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)已經(jīng)成為文獻(xiàn)挖掘領(lǐng)域的重要內(nèi)容。1986年,Swanson教授提出基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)思想,即對(duì)非相關(guān)的文獻(xiàn)進(jìn)行整合分析,發(fā)現(xiàn)其中隱含的聯(lián)系,進(jìn)而形成新的科學(xué)假設(shè)[1-2]。基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)的核心是通過(guò)ABC模型來(lái)挖掘概念間的間接關(guān)系,即當(dāng)不相關(guān)的實(shí)體A與C同時(shí)與實(shí)體B相關(guān)時(shí),A與C也可能相關(guān),這種關(guān)聯(lián)假設(shè)的方法在藥物發(fā)現(xiàn)、藥物重定位[3-4]等領(lǐng)域得到了較好的應(yīng)用。隨著大量文獻(xiàn)富集,內(nèi)容相關(guān)性會(huì)涌現(xiàn)出知識(shí)網(wǎng)絡(luò),并通過(guò)知識(shí)網(wǎng)絡(luò)進(jìn)行關(guān)聯(lián)挖掘。如通過(guò)對(duì)文獻(xiàn)詞語(yǔ)共現(xiàn)網(wǎng)絡(luò)的研究,總結(jié)出當(dāng)前的研究熱點(diǎn),分析科研結(jié)構(gòu),發(fā)現(xiàn)研究?jī)?nèi)容的相關(guān)性等[5-6]。還有一些研究針對(duì)具體實(shí)體的關(guān)聯(lián)網(wǎng)絡(luò)進(jìn)行分析,如基因調(diào)控網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)等[7]。此外,部分研究轉(zhuǎn)向系統(tǒng)層面上考察信息間的整合分析,通過(guò)多領(lǐng)域多數(shù)據(jù)源交叉融合,發(fā)現(xiàn)間接的隱含聯(lián)系[8]。然而,面對(duì)龐大的關(guān)聯(lián)知識(shí)網(wǎng)絡(luò),如何從網(wǎng)絡(luò)微觀結(jié)構(gòu)與關(guān)聯(lián)形成的規(guī)律,探討其對(duì)文獻(xiàn)知識(shí)發(fā)現(xiàn)的影響,對(duì)提高知識(shí)發(fā)現(xiàn)的效率具有重要作用。

本文基于免費(fèi)開(kāi)放的PubMed文獻(xiàn)數(shù)據(jù)集,構(gòu)建了一個(gè)由文獻(xiàn)數(shù)據(jù)衍生出的生物醫(yī)學(xué)實(shí)體關(guān)聯(lián)演化網(wǎng)絡(luò),從而整合不同時(shí)期文獻(xiàn)中的關(guān)聯(lián)知識(shí),并利用復(fù)雜網(wǎng)絡(luò)理論分析該關(guān)聯(lián)網(wǎng)絡(luò)的拓?fù)涮卣?,從系統(tǒng)層面分析研究大量文獻(xiàn)集中于科學(xué)知識(shí)的結(jié)構(gòu)及相關(guān)性,為文獻(xiàn)的知識(shí)發(fā)現(xiàn)引入新的視角與方法,提高知識(shí)發(fā)現(xiàn)的效率,引導(dǎo)科研人員進(jìn)行知識(shí)發(fā)現(xiàn)。

1 網(wǎng)絡(luò)簡(jiǎn)介

1.1 網(wǎng)絡(luò)的定量描述

一個(gè)簡(jiǎn)單的無(wú)向無(wú)權(quán)網(wǎng)絡(luò)可標(biāo)記為G=(V,E)。其中集合V稱為節(jié)點(diǎn)集:V={v1,v2,…,vn},集合E稱為邊集:E={e1,e2,…,em},任意一條邊對(duì)應(yīng)一個(gè)節(jié)點(diǎn)的二元組:ex=(vi,vj),E是V×V的一個(gè)子集。對(duì)于用節(jié)點(diǎn)和邊描述的圖,可以用幾個(gè)定量指標(biāo)來(lái)描述圖的性質(zhì),包括節(jié)點(diǎn)的度、連通性、路徑與聚類系數(shù)。

節(jié)點(diǎn)的度:即節(jié)點(diǎn)V在圖G的度,指圖G中與節(jié)點(diǎn)V連接的邊數(shù),記為d(v)或k(v)。節(jié)點(diǎn)的度主要用于描述節(jié)點(diǎn)的連通性。

連通性:若G中每對(duì)不同節(jié)點(diǎn)U,V之間都存在一條通路,則G是連通的,即G為連通圖。

路徑:即圖的路徑,指兩個(gè)與邊交替出現(xiàn)的序列,且所有節(jié)點(diǎn)與邊都不相同。路徑長(zhǎng)度是連接兩個(gè)節(jié)點(diǎn)之間邊的數(shù)量,網(wǎng)絡(luò)距離可以通過(guò)路徑長(zhǎng)度來(lái)描述,一般采用最短路徑作為連接兩個(gè)節(jié)點(diǎn)的路徑。平均路徑長(zhǎng)度是網(wǎng)絡(luò)中所有節(jié)點(diǎn)對(duì)之間最短路徑長(zhǎng)度的平均值。

聚類系數(shù):表示圖中節(jié)點(diǎn)聚集程度的系數(shù),定義為其鄰居真實(shí)連接數(shù)目占鄰居最大可能連接數(shù)比例的平均。

1.2 網(wǎng)絡(luò)的拓?fù)湫再|(zhì)

圖是一種用來(lái)表示實(shí)際系統(tǒng)的一種模型。對(duì)于圖G=(V,E),如果存在一個(gè)映射函數(shù)f,即

f:E→V×V(公式1)

若將網(wǎng)絡(luò)中的邊映射到節(jié)點(diǎn)對(duì),那么圖是結(jié)構(gòu)化的,即圖存在一定的拓?fù)浣Y(jié)構(gòu);如果映射是隨機(jī)的,那么圖就是隨機(jī)的。通常按度序列分布與熵定義圖的結(jié)構(gòu),其中度序列分布按拓?fù)鋵?duì)圖的分類提供了一種機(jī)制,而熵提供了一種對(duì)隨機(jī)性的測(cè)量。一般來(lái)說(shuō),度序列分布表達(dá)了圖的結(jié)構(gòu)信息,熵則表達(dá)了圖的結(jié)構(gòu)是否具有規(guī)則性。

網(wǎng)絡(luò)規(guī)模很大但平均距離卻很小的性質(zhì)被稱為小世界效應(yīng)。小世界網(wǎng)絡(luò)一般是指具有相對(duì)較小的平均路徑長(zhǎng)度、相對(duì)較大的聚類系數(shù)的網(wǎng)絡(luò)。如果一個(gè)圖的度序列分布符合冪函數(shù)的形式,由于冪函數(shù)是標(biāo)度不變的,通常稱這類圖為無(wú)標(biāo)度網(wǎng)絡(luò)。無(wú)標(biāo)度網(wǎng)絡(luò)同小世界網(wǎng)絡(luò)類似,很多真實(shí)網(wǎng)絡(luò)都具有無(wú)標(biāo)度特征。

2 生物醫(yī)學(xué)實(shí)體關(guān)聯(lián)網(wǎng)絡(luò)的構(gòu)建與分析

2.1 基于共現(xiàn)方法的實(shí)體關(guān)聯(lián)提取

生物醫(yī)學(xué)文獻(xiàn)挖掘研究通常利用共現(xiàn)方法來(lái)提取實(shí)體的關(guān)聯(lián),即當(dāng)兩個(gè)詞語(yǔ)共現(xiàn)于一定的語(yǔ)境中時(shí),詞語(yǔ)之間存在一定的語(yǔ)義相關(guān)性[9]。對(duì)于實(shí)體共出現(xiàn)而言,以句子為最大分析單元最常見(jiàn)。本文基于句子共現(xiàn)的實(shí)體關(guān)聯(lián)提取的基本步驟如下。

根據(jù)基于自然語(yǔ)言的方法識(shí)別出句子的實(shí)體NP及其位置。

如果在同一個(gè)句子中得到的實(shí)體按其在句子中的順序依次為NP1、NP2、NP3,則得到關(guān)聯(lián)(NP1,NP2),(NP1,NP3),(NP2,NP3)。例如,文獻(xiàn)標(biāo)題(PMID: 20856896):β1-syntrophin modulation by miR-222 in mdx mice,提取得到實(shí)體及其位置的列表為:

[(β1-syntrophin modulation, 1),(miR-222, 4),(mdx mouse, 6)]

進(jìn)一步得到關(guān)聯(lián):(β1-syntrophin modulation, miR-222),(β1-syntrophin modulation, mdx mouse),(miR-222, mdx mouse)。

2.2 網(wǎng)絡(luò)構(gòu)建

考慮到PubMed數(shù)據(jù)庫(kù)中所有摘要的數(shù)據(jù)量過(guò)大,本文以PubMed中2000-2009年共10年記錄的標(biāo)題數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)集,抽取其中的實(shí)體及關(guān)聯(lián)后,建立關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)。為了觀察科學(xué)研究的動(dòng)態(tài)結(jié)構(gòu),構(gòu)建了按時(shí)間(年)增長(zhǎng)的演化網(wǎng)絡(luò)序列,如表1所示。

由于網(wǎng)絡(luò)過(guò)于龐大,本文未能給出關(guān)聯(lián)網(wǎng)絡(luò)的可視化效果,但從表1的統(tǒng)計(jì)結(jié)果來(lái)看,仍可以觀察到一些有用的特征與規(guī)律。從網(wǎng)絡(luò)的演化情況來(lái)看,網(wǎng)絡(luò)的節(jié)點(diǎn)與關(guān)聯(lián)每年都在增長(zhǎng),表明整個(gè)研究領(lǐng)域的知識(shí)量是不斷增加的,這與每年文獻(xiàn)數(shù)量不斷增長(zhǎng)的情況是一致的。在關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)中,每年都存在新節(jié)點(diǎn)新關(guān)聯(lián)的加入,表明在生物醫(yī)學(xué)研究領(lǐng)域每年都有新發(fā)現(xiàn),而且每年新增加的關(guān)聯(lián)數(shù)遠(yuǎn)大于新增加的節(jié)點(diǎn)數(shù)。這也反映在較短的時(shí)間內(nèi),真正具有較大創(chuàng)新性的發(fā)現(xiàn)相對(duì)較少,大部分文獻(xiàn)仍然是在已有研究問(wèn)題基礎(chǔ)上的延續(xù)研究??偟膩?lái)說(shuō),通過(guò)關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)的演化分析,一定程度上反映了知識(shí)的形成與發(fā)展的規(guī)律。關(guān)聯(lián)網(wǎng)絡(luò)中節(jié)點(diǎn)與關(guān)聯(lián)的增長(zhǎng),都能反映出新知識(shí)的不斷出現(xiàn)。

表1 關(guān)聯(lián)演化網(wǎng)絡(luò)的基本信息

2.3 關(guān)聯(lián)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)分析

2.3.1 網(wǎng)絡(luò)的連通性

從表1的計(jì)算結(jié)果可知,提取到的關(guān)聯(lián)網(wǎng)絡(luò)是一個(gè)非連通網(wǎng)絡(luò)。從2000年開(kāi)始,每一年的關(guān)聯(lián)網(wǎng)絡(luò)都有很多個(gè)連通分支,比如2009年的關(guān)聯(lián)網(wǎng)絡(luò)有11 770個(gè)連通分支。盡管存在如此多的大小不一的連通分支,但每個(gè)關(guān)聯(lián)網(wǎng)絡(luò)都有一個(gè)最大連通分支,能夠覆蓋網(wǎng)絡(luò)的絕對(duì)多數(shù)的節(jié)點(diǎn)與邊,比如2009年的關(guān)聯(lián)網(wǎng)絡(luò)中最大連通分支包含1 294 509個(gè)節(jié)點(diǎn)與6 667 590條邊,分別占整個(gè)網(wǎng)絡(luò)中節(jié)點(diǎn)的98.03%以及邊的99.78%。因此,主要對(duì)最大連通分支進(jìn)行網(wǎng)絡(luò)的特征分析。

除了最大的連通分支,關(guān)聯(lián)網(wǎng)絡(luò)中其他連通分支的規(guī)模都很小,表明科學(xué)研究的專業(yè)化變得更精細(xì),生物醫(yī)學(xué)領(lǐng)域研究?jī)?nèi)容極具豐富性與多樣性;同時(shí)也表明在一些特定的領(lǐng)域,領(lǐng)域之間缺乏互通融合,形成了一個(gè)個(gè)獨(dú)立的知識(shí)“孤島”。出現(xiàn)大量的相對(duì)極小的連通分支,也說(shuō)明在整個(gè)領(lǐng)域存在一些比較“冷門”的研究。

2.3.2 網(wǎng)絡(luò)的度序列分布

如圖1所示,關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)呈現(xiàn)冪函數(shù)形式,是一個(gè)無(wú)標(biāo)度網(wǎng)絡(luò)。根據(jù)冪律分布的特性,絕大多數(shù)節(jié)點(diǎn)擁有較少的連接數(shù),而少量的節(jié)點(diǎn)擁有極大的連接數(shù)。這些擁有極大連接數(shù)的節(jié)點(diǎn)是關(guān)聯(lián)網(wǎng)絡(luò)的HUB節(jié)點(diǎn),基本都是一些生物醫(yī)學(xué)研究領(lǐng)域通用的概念。盡管它們無(wú)法代表整個(gè)領(lǐng)域的研究重點(diǎn)或研究熱點(diǎn),但其他眾多概念都圍繞它們展開(kāi)。說(shuō)明它們?cè)谡麄€(gè)生物醫(yī)學(xué)科研體系中起著非常重要的連接橋梁的作用,而一些連接數(shù)較少的節(jié)點(diǎn)只代表某個(gè)具體的研究對(duì)象。關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)的無(wú)標(biāo)度特征表明在生物醫(yī)學(xué)領(lǐng)域中研究重點(diǎn)突出,而圍繞研究重點(diǎn)開(kāi)展了很多細(xì)致的研究工作。

圖1 2000-2009年的關(guān)聯(lián)網(wǎng)絡(luò)的度序列分布雙對(duì)數(shù)坐標(biāo)(Log-Log)

2.3.3 計(jì)算網(wǎng)絡(luò)的聚類系數(shù)

考慮到計(jì)算能力的限制,我們僅以2000年的數(shù)據(jù)作為測(cè)試數(shù)據(jù),計(jì)算得到網(wǎng)絡(luò)的平均聚類系數(shù)為 0.209390339012,而最大連通分支的平均聚類系數(shù)為0.215289709462。接下來(lái)構(gòu)建與原網(wǎng)絡(luò)、最大連通分支的節(jié)點(diǎn)數(shù)邊數(shù)都相同的隨機(jī)網(wǎng)絡(luò),其平均聚類系數(shù)分別為3.37415559158e-05與4.98993799995e-05。顯然,關(guān)聯(lián)網(wǎng)絡(luò)的聚類系數(shù)遠(yuǎn)大于隨機(jī)網(wǎng)絡(luò)的聚類系數(shù),表明關(guān)聯(lián)網(wǎng)絡(luò)具有高集群性。

關(guān)聯(lián)網(wǎng)絡(luò)的高集群性說(shuō)明圍繞一個(gè)研究主題所開(kāi)展的各種研究之間具有很高的相關(guān)性,相關(guān)研究之間更容易形成連接,而它們之間的連接可以形成新的研究成果,這有助于對(duì)研究主題進(jìn)行更深層次的分析和挖掘。根據(jù)綜合聚類系數(shù)與冪律分布的特征,可推斷出關(guān)聯(lián)網(wǎng)絡(luò)中存在很多集團(tuán),集團(tuán)內(nèi)部成員之間聯(lián)系緊密,而集團(tuán)之間的聯(lián)系相對(duì)疏遠(yuǎn),這表明某領(lǐng)域中存在一些研究重點(diǎn)和研究熱點(diǎn)。圍繞這些重點(diǎn)和熱點(diǎn)所展開(kāi)的大量相關(guān)研究之間聯(lián)系緊密,形成網(wǎng)絡(luò)結(jié)構(gòu)中的集團(tuán),并使得集團(tuán)內(nèi)部成員的聚類系數(shù)很大,最終使得整個(gè)網(wǎng)絡(luò)的聚類系數(shù)較大。

2.3.4 計(jì)算網(wǎng)絡(luò)的平均距離

根據(jù)網(wǎng)絡(luò)距離的定義,當(dāng)網(wǎng)絡(luò)不連通時(shí),網(wǎng)絡(luò)的平均距離是無(wú)窮大,該關(guān)聯(lián)網(wǎng)絡(luò)是不連通的,因此只計(jì)算關(guān)聯(lián)網(wǎng)絡(luò)中最大連通分支的平均距離。以最小的2000年的關(guān)聯(lián)網(wǎng)絡(luò)的最大連通分支作為測(cè)試對(duì)象,該連通分支的平均距離長(zhǎng)度為3.76923247599,表明關(guān)聯(lián)網(wǎng)絡(luò)中的節(jié)點(diǎn)平均只需經(jīng)過(guò)4步就可到達(dá)其他節(jié)點(diǎn)。然后根據(jù)2000年的關(guān)聯(lián)網(wǎng)絡(luò)的最大連通分支的大小,建立一個(gè)相同大小的隨機(jī)網(wǎng)絡(luò)模型。該隨機(jī)網(wǎng)絡(luò)的平均路徑長(zhǎng)度約為5.79725740556,顯然,相對(duì)于相同大小的關(guān)聯(lián)網(wǎng)絡(luò)來(lái)說(shuō)其平均路徑長(zhǎng)度相當(dāng)小。綜合關(guān)聯(lián)網(wǎng)絡(luò)的聚類系數(shù)與平均路徑長(zhǎng)度,表明該實(shí)體關(guān)聯(lián)網(wǎng)絡(luò)是一個(gè)小世界網(wǎng)絡(luò)。

關(guān)聯(lián)網(wǎng)絡(luò)的小世界特征表明,在生物醫(yī)學(xué)研究領(lǐng)域,研究主題和研究?jī)?nèi)容之間關(guān)聯(lián)的緊密程度非常高,而平均路徑長(zhǎng)度很小則說(shuō)明主題與內(nèi)容相互之間存在很強(qiáng)的影響。此外,小世界特征也說(shuō)明在同一個(gè)大的研究領(lǐng)域中,從一個(gè)研究對(duì)象可以很快轉(zhuǎn)移到另外一個(gè)研究對(duì)象,二者結(jié)合很容易形成新的研究?jī)?nèi)容。

3 結(jié)語(yǔ)

基于自然語(yǔ)言處理方法得到的網(wǎng)絡(luò)是一個(gè)普適的由文獻(xiàn)衍生的關(guān)聯(lián)知識(shí)網(wǎng)絡(luò),它不同于已有的衍生于文獻(xiàn)的生物網(wǎng)絡(luò),不依賴于任何領(lǐng)域特異性的實(shí)體關(guān)系。因此,通過(guò)該網(wǎng)絡(luò)可以更好地研究知識(shí)本身的發(fā)展規(guī)律,反映科研問(wèn)題、概念間的相互關(guān)系。

從測(cè)試數(shù)據(jù)衍生而來(lái)的關(guān)聯(lián)網(wǎng)絡(luò)的演化情況來(lái)看,網(wǎng)絡(luò)的節(jié)點(diǎn)與關(guān)聯(lián)每年都在增長(zhǎng),表明整個(gè)研究領(lǐng)域的知識(shí)量在不斷增加,每年都有新節(jié)點(diǎn)新關(guān)聯(lián)的加入。同時(shí),關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)的小世界無(wú)標(biāo)度特征,表明在生物醫(yī)學(xué)研究領(lǐng)域,研究主題和研究?jī)?nèi)容之間關(guān)聯(lián)的緊密程度非常高。在同一個(gè)研究領(lǐng)域中,從一個(gè)研究對(duì)象可以很快轉(zhuǎn)移到另外一個(gè)研究對(duì)象,二者結(jié)合很容易形成新的研究?jī)?nèi)容,這也驗(yàn)證了基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)的思想。

總的來(lái)說(shuō),關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)的演化分析,一定程度上反映了知識(shí)的形成與發(fā)展的規(guī)律。關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)中節(jié)點(diǎn)與關(guān)聯(lián)的增長(zhǎng),反映出新知識(shí)的不斷出現(xiàn),而且知識(shí)網(wǎng)絡(luò)的結(jié)構(gòu)與相關(guān)性可以更好用于發(fā)現(xiàn)有用的關(guān)聯(lián),提高文獻(xiàn)的知識(shí)發(fā)現(xiàn)效率。

猜你喜歡
連通分支生物醫(yī)學(xué)關(guān)聯(lián)
芻議“生物醫(yī)學(xué)作為文化”的研究進(jìn)路——兼論《作為文化的生物醫(yī)學(xué)》
偏序集的序連通關(guān)系及其序連通分支
靈長(zhǎng)類生物醫(yī)學(xué)前沿探索中的倫理思考
關(guān)于圖的距離無(wú)符號(hào)拉普拉斯譜半徑的下界
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
國(guó)外生物醫(yī)學(xué)文獻(xiàn)獲取的技術(shù)工具:述評(píng)與啟示
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
LED光源在生物醫(yī)學(xué)中的應(yīng)用分析
一個(gè)圖論問(wèn)題的簡(jiǎn)單證明
新課程(下)(2015年9期)2015-04-12 09:23:30
四川省| 门源| 大洼县| 连江县| 微博| 富宁县| 五莲县| 长阳| 沽源县| 惠东县| 德令哈市| 岑溪市| 湘潭市| 麻栗坡县| 邵阳县| 宁蒗| 莎车县| 缙云县| 湘潭市| 龙川县| 全椒县| 大丰市| 大宁县| 青龙| 巫山县| 南城县| 赣榆县| 延边| 沂水县| 霍城县| 临夏市| 大邑县| 健康| 肇源县| 剑川县| 颍上县| 犍为县| 秦安县| 灌南县| 徐汇区| 乌拉特中旗|