国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語(yǔ)義網(wǎng)在生物安全監(jiān)測(cè)領(lǐng)域的應(yīng)用研究

2018-06-13 07:04:36李博戚曉鵬李言飛陳強(qiáng)馬俊才孫清嵐王松旺
關(guān)鍵詞:本體關(guān)聯(lián)可視化

李博,戚曉鵬,李言飛,陳強(qiáng),馬俊才,孫清嵐,王松旺

1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 10080

2.中國(guó)科學(xué)院微生物研究所,北京 100101

3.中國(guó)科學(xué)院大學(xué),北京 10049

4.中國(guó)疾病預(yù)防控制中心公共衛(wèi)生監(jiān)測(cè)與信息服務(wù)中心,北京 102206

引言

隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)信息變得龐大而復(fù)雜,要想將這些信息整合并從這些數(shù)據(jù)中獲取一些相關(guān)數(shù)據(jù)并進(jìn)行分析從而得到些有價(jià)值的結(jié)論,并不是十分容易。而語(yǔ)義網(wǎng)的應(yīng)用及普及就顯得尤為重要。語(yǔ)義網(wǎng)的概念[1]最早是由有“互聯(lián)網(wǎng)之父”之稱的Tim Berners-Lee 在 1998 年提出來(lái)的,他指出語(yǔ)義網(wǎng)并不是單獨(dú)的 Web,而是當(dāng)前 Web 的擴(kuò)展,就是通過(guò)給 Web 上的信息賦予能被計(jì)算機(jī)理解的含義,從而使計(jì)算機(jī)和人能夠更好地協(xié)作。目前,語(yǔ)義網(wǎng)已被廣泛應(yīng)用在很多領(lǐng)域,如:劉清堂[2]等人基于語(yǔ)義網(wǎng)的技術(shù)對(duì)教育應(yīng)用的研究現(xiàn)狀進(jìn)行分析,指出當(dāng)前教育應(yīng)用研究中存在著理論研究概述過(guò)多、實(shí)用開(kāi)發(fā)技術(shù)研究過(guò)少、在基礎(chǔ)教育應(yīng)用的研究少、研究角度狹窄等問(wèn)題并提出了相應(yīng)的改進(jìn)方案;張倩倩[3]等人對(duì)國(guó)內(nèi)外的語(yǔ)義網(wǎng)技術(shù)在軍事領(lǐng)域的研究狀況進(jìn)行了綜述和總結(jié),并提出了具有我軍特色的語(yǔ)義網(wǎng)技術(shù)的研究建議和方向;等等。

在生物安全監(jiān)測(cè)領(lǐng)域,國(guó)外有很多優(yōu)秀的模型,如美國(guó)的 PHCDM[4](Public Health Conceptual Data Model),其總體目的是整理、歸檔公共衛(wèi)生所需的信息資料,并作為 NEDSS (全國(guó)電子疾病監(jiān)控系統(tǒng)) 起步的一部分,促進(jìn)數(shù)據(jù)標(biāo)準(zhǔn)化的發(fā)展。PHCDM 于1999 年就開(kāi)始開(kāi)發(fā)了,相對(duì)來(lái)說(shuō)比較成熟,本研究想要在現(xiàn)有標(biāo)準(zhǔn)體系框架的基礎(chǔ)上,建立適合我國(guó)生物安全監(jiān)測(cè)的數(shù)據(jù)標(biāo)準(zhǔn)體系,如包括病原的發(fā)現(xiàn)、檢測(cè)、診斷、干預(yù)過(guò)程等,從而為以后的數(shù)據(jù)集成和數(shù)據(jù)共享提供基礎(chǔ),應(yīng)用語(yǔ)義網(wǎng)技術(shù),就可以很好地解決這個(gè)問(wèn)題。

本文首先介紹了語(yǔ)義網(wǎng)的相關(guān)技術(shù),并對(duì)其在國(guó)內(nèi)外的研究現(xiàn)狀進(jìn)行了總結(jié)與綜述,然后具體的描述了生物安全監(jiān)測(cè)概念數(shù)據(jù)模型,最后應(yīng)用語(yǔ)義網(wǎng)技術(shù)將該數(shù)據(jù)標(biāo)準(zhǔn)可視化,直觀地展示出來(lái),方便理解。

1 語(yǔ)義網(wǎng)概述

語(yǔ)義網(wǎng)是一種智能網(wǎng)絡(luò)[5],它不但能夠理解詞語(yǔ)和概念,而且還能夠理解它們之間的邏輯關(guān)系,從而實(shí)現(xiàn)人與電腦之間的無(wú)障礙溝通。2001 年TimBerners-Lee 提出了語(yǔ)義網(wǎng)的基本體系結(jié)構(gòu)[6],指出支持語(yǔ)義網(wǎng)的三大關(guān)鍵技術(shù)為:XML (可擴(kuò)展標(biāo)記語(yǔ)言)、RDF (資源描述框架)、Ontology (本體)。

1.1 XML (可擴(kuò)展標(biāo)記語(yǔ)言)

XML 是可擴(kuò)展標(biāo)記語(yǔ)言,是 W3C 的推薦標(biāo)準(zhǔn),其本身不會(huì)做任何事情,是被設(shè)計(jì)用來(lái)結(jié)構(gòu)化、存儲(chǔ)以及傳輸信息,而且可以根據(jù)需要自行定義標(biāo)簽和屬性名,所以 XML 文件的結(jié)構(gòu)可以復(fù)雜到任意程度。再加上其特有的 NS 機(jī)制及 XML Schema 所支持的多種數(shù)據(jù)類型與校驗(yàn)機(jī)制,使其成為語(yǔ)義網(wǎng)的關(guān)鍵技術(shù)之一。

1.2 RDF (資源描述框架)

RDF[7]是一種通用的資源描述框架,本質(zhì)上是一個(gè)數(shù)據(jù)模型,即通過(guò)“資源-屬性-屬性值”的三元組形式來(lái)描述各種資源,是語(yǔ)義網(wǎng)數(shù)據(jù)表示的標(biāo)準(zhǔn)??梢院?jiǎn)單的理解為“主-謂-賓”的形式 (s,p,o),主語(yǔ)可以看成資源,可以是 URI 或空結(jié)點(diǎn);謂語(yǔ)可以看成屬性,必須是 URI;賓語(yǔ)可以看成屬性值,可以是 URI 或者空結(jié)點(diǎn)或者文字描述,其中賓語(yǔ)為URI 或者空節(jié)點(diǎn)的屬性被稱為 Object 屬性,賓語(yǔ)為文字描述的屬性被稱為 Datatype 屬性; (s,p,o) 被稱為一個(gè)陳述或者公理,每一個(gè)陳述就可以表示一個(gè)關(guān)系。由此可見(jiàn),該形式可以很容易的被計(jì)算機(jī)理解,并為數(shù)據(jù)集成、數(shù)據(jù)交換提供了方便。

1.3 Ontology (本體)

1.3.1 概念

本體 (Ontology) 本是個(gè)哲學(xué)概念,不同的領(lǐng)域紛紛采用該概念來(lái)描述客觀世界,指的是對(duì)客觀存在的抽象概念及概念間的關(guān)系的描述,是系統(tǒng)的解釋和說(shuō)明[8]。在計(jì)算機(jī)領(lǐng)域,本體被定義成“概念化的明確規(guī)范說(shuō)明”[9],被人們廣泛接受。一個(gè)本體描述了一個(gè)特定領(lǐng)域的結(jié)構(gòu)化的、易于擴(kuò)展與共享的模型,并且可以被計(jì)算機(jī)所理解。

1.3.2 本體描述語(yǔ)言

本體是由本體描述語(yǔ)言進(jìn)行描述的,有許多種本體描述語(yǔ)言,如:RDF 和 RDFS、OIL、DAML、OWL 等等,其中,OWL 本體描述語(yǔ)言[10]是由 W3C組織定義的國(guó)際通用的標(biāo)準(zhǔn)描述語(yǔ)言。與之前基于Web 的本體語(yǔ)言相比,OWL 的突出特點(diǎn)是對(duì)本體具有更強(qiáng)的描述和推理能力?,F(xiàn)在在 OWL 的基礎(chǔ)上,已經(jīng)演變到 OWL 的第二個(gè)版本 OWL2,OWL2[11]可以被看作是一種針對(duì)人類知識(shí)某些部分的強(qiáng)大而通用的建模語(yǔ)言,旨在對(duì)興趣領(lǐng)域的知識(shí)進(jìn)行明確表達(dá)(formulate)、交換和推理,具有極強(qiáng)的擴(kuò)展、交互能力,是描述本體被廣泛使用的語(yǔ)言。

1.3.3 本體的構(gòu)建

在語(yǔ)義網(wǎng)中,本體是最關(guān)鍵的一個(gè)技術(shù),具有非常重要的地位,是解決語(yǔ)義層次上 Web 信息共享和交換的基礎(chǔ),所以構(gòu)建本體就顯得尤為重要。本體一般分為通用本體和領(lǐng)域本體,通用本體如:DBpedia、freebase 等等,領(lǐng)域本體是指針對(duì)某一特定領(lǐng)域而言。本文針對(duì)的是領(lǐng)域本體,是生物安全監(jiān)測(cè)領(lǐng)域。本體構(gòu)建方法可分為兩大類[12]:一類是依靠本體專家參與整個(gè)構(gòu)建過(guò)程的純手工構(gòu)建方法;另一種是利用機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等技術(shù)進(jìn)行的自動(dòng)或者半自動(dòng)的構(gòu)建方法。顯然,手工構(gòu)建本體的方法構(gòu)建成本高、主觀性強(qiáng)、缺乏靈活性,但其準(zhǔn)確性應(yīng)該有保證;自動(dòng)或者半自動(dòng)構(gòu)建方法基本不需要人工參與,具有更加客觀、更靈活等特點(diǎn)。本研究采用的是手工構(gòu)建的方法進(jìn)行本體的構(gòu)建。

在構(gòu)建領(lǐng)域本體時(shí),研究人員往往想要一種規(guī)范的、通用的構(gòu)建方法去構(gòu)建領(lǐng)域本體,但是由于領(lǐng)域知識(shí)的不同,本體具體實(shí)現(xiàn)的目標(biāo)不同,所以目前對(duì)于本體構(gòu)建來(lái)說(shuō),還沒(méi)有一套系統(tǒng)的、完整的、通用的規(guī)范。目前比較成熟的本體構(gòu)建方法[13]有七種,分別為:IDEF5、骨架法、TOVE 法、METHONTOLOGY 法、KACTUS 法、SENSUS 法、七步法。

每個(gè)方法都有自己的特點(diǎn)和適用的領(lǐng)域,都有自己的優(yōu)點(diǎn)。除了上述列舉的典型本體構(gòu)建方法外,還有很多研究者在本體實(shí)際開(kāi)發(fā)中摸索出的適應(yīng)所研究特定領(lǐng)域的本體構(gòu)建方法。本文借鑒了已有的本體構(gòu)建方法,考慮了每個(gè)方法的特點(diǎn),結(jié)合特定的生物安全監(jiān)測(cè)領(lǐng)域,總結(jié)出了以下的本體構(gòu)建方法,強(qiáng)調(diào)了可視化本體關(guān)聯(lián)關(guān)系的重要性、本體文檔的重要性等。具體流程圖如圖 1 所示。

由圖可知,本體構(gòu)建具體過(guò)程如下:

圖1 本體構(gòu)建流程圖Fig.1 Ontology construction fl ow chart

① 首先要明確目標(biāo)知識(shí)庫(kù);

② 和領(lǐng)域?qū)<姨接?、分析,抽象并定義本體元素:類、屬性、及對(duì)屬性的限制信息等,該步中秉持的原則是盡量復(fù)用已有的本體,尋找已存在的領(lǐng)域本體,從已有的領(lǐng)域本體中尋找可描述目標(biāo)陳述的類、屬性等信息并復(fù)用;

③ 利用本體構(gòu)建工具來(lái)構(gòu)建本體的類、屬性等信息,包括類之間的關(guān)聯(lián)關(guān)系等,本文采用的是protégé 構(gòu)建工具,在此基礎(chǔ)上,利用本體可視化工具WebVowl 向領(lǐng)域?qū)<艺故径x的本體并探討可行性;

④ 迭代、改進(jìn)本體:如果本體元素不明確,返回第①步迭代改進(jìn)本體,同時(shí)在其他情況下本體需要迭代、更新均從第①步起。

1.3.4 本體構(gòu)建的工具及可視化

選擇一個(gè)合適的工具來(lái)構(gòu)建本體會(huì)事半功倍。目前比較成熟且影響力較高的本體構(gòu)建工具有 8 種[14]:Ontolingua Server、Ontosaurus、WebOnto、protégé、OntoEdit、WebODE、OILED 和 DUET,徐國(guó)虎[15]等人提出一種包括可用性、軟件結(jié)構(gòu)、文件格式、知識(shí)表達(dá)能力、推理機(jī)制 5 個(gè)方面、19 個(gè)二級(jí)指標(biāo)的綜合評(píng)價(jià)框架,并運(yùn)用該評(píng)價(jià)框架對(duì)上述 8 種工具進(jìn)行比較,全面的總結(jié)出了各個(gè)構(gòu)建工具的優(yōu)缺點(diǎn)。本研究采用的是開(kāi)源的 protégé 構(gòu)建工具。

可視化可以給人更直觀、更形象的感受和理解,可以很清楚地看到關(guān)聯(lián)關(guān)系,給本體的使用和理解提供了極大的方便,同時(shí)也便于對(duì)該領(lǐng)域不熟悉的專家快速理解。在本體可視化工具中,目前比較優(yōu)秀的是VOWL (Visual Notation for OWL Ontologies) 工具,具有強(qiáng)大的展示能力。目前使用 VOWL 來(lái)展示本體的方法有兩種:一種是使用基于 protégé 的 VOWL 插件 protégéVOWL[16]來(lái)可視化本體,該方法仍存在一些問(wèn)題,所以不推薦使用;另一種方法是先用伴隨著WebVOWL 發(fā)布的 OWL2VOWL 工具將本體文件轉(zhuǎn)換成 JSON 文件,然后再用 WebVOWL 工具可視化本體,其特點(diǎn)[17]是:基于 OWL 轉(zhuǎn)換成的 JSON 格式進(jìn)行展示,使得本體的展示更加獨(dú)立;展示的內(nèi)容、形式更加豐富,交互能力強(qiáng)。VOWL 官方推薦使用WebVOWL 來(lái)展示。本文采用的是王利鵬[18]等人提出的基于本體可視化的關(guān)聯(lián)數(shù)據(jù)集表達(dá)的方法來(lái)進(jìn)行本體的可視化,其是基于 OWL2VOWL 項(xiàng)目實(shí)現(xiàn)將關(guān)聯(lián)關(guān)系轉(zhuǎn)化為 WebVOWL 規(guī)定格式的 JSON 元素,并將其結(jié)合 WebVOWL 嵌入到發(fā)布模型中,完成關(guān)聯(lián)數(shù)據(jù)集關(guān)聯(lián)關(guān)系的發(fā)布。

2 生物安全監(jiān)測(cè)概念數(shù)據(jù)模型

本研究借鑒標(biāo)準(zhǔn)化理論,研究、整理我國(guó)現(xiàn)有生物安全監(jiān)測(cè)相關(guān)標(biāo)準(zhǔn),分析、評(píng)估其適用性,構(gòu)建覆蓋新發(fā)突發(fā)病原監(jiān)測(cè)、入侵生物監(jiān)測(cè)、口岸監(jiān)測(cè)和動(dòng)物疫病監(jiān)測(cè)等多個(gè)領(lǐng)域行業(yè)的生物安全監(jiān)測(cè)數(shù)據(jù)標(biāo)準(zhǔn)框架體系,進(jìn)一步健全和完善我國(guó)生物安全監(jiān)測(cè)標(biāo)準(zhǔn)。本文對(duì)生物安全的監(jiān)測(cè)標(biāo)準(zhǔn),利用語(yǔ)義網(wǎng)技術(shù),構(gòu)建了該領(lǐng)域的標(biāo)準(zhǔn)數(shù)據(jù)統(tǒng)一命名空間。即對(duì)該標(biāo)準(zhǔn)進(jìn)行基于 RDF (資源描述框架) 為元數(shù)據(jù)模型的關(guān)系網(wǎng)絡(luò)的構(gòu)建。最終形成可擴(kuò)展、易應(yīng)用的適合我國(guó)生物安全現(xiàn)狀的統(tǒng)一標(biāo)準(zhǔn)框架,同時(shí)也為全面的數(shù)據(jù)集成、共享提供了基礎(chǔ)。

2.1 類

本研究參考了企業(yè)架構(gòu)規(guī)劃 FEA 模型、PHCDM模型,結(jié)合我國(guó)的現(xiàn)狀,梳理了各個(gè)業(yè)務(wù)流程;合并、整理并提取各業(yè)務(wù)中的實(shí)體類;整理實(shí)體類屬性并規(guī)范屬性名稱等等,最后總結(jié)出了概念數(shù)據(jù)模型圖。概念模型共分為4大主題域:參與者、位置、材料、活動(dòng)。每個(gè)主題域都有相應(yīng)的子類、子子類,共40個(gè)類。具體如下:參與者包括組織、人、非人生命體 (如蚊蟲(chóng)、病毒) 等;位置包括行政地址、物理坐標(biāo);材料包括器具與設(shè)備、宣傳材料、消殺藥劑、標(biāo)本、疫苗;活動(dòng)包括疾病發(fā)生、觀察、干預(yù)、報(bào)告等,其中觀察包括實(shí)驗(yàn)室相關(guān)記錄、環(huán)境監(jiān)測(cè)記錄、媒介監(jiān)測(cè)記錄、人群監(jiān)測(cè)記錄等,是整個(gè)監(jiān)測(cè)的核心,具體如圖 2 所示,其余不再贅述。

2.2 本體的設(shè)計(jì)及構(gòu)建

考慮到在該領(lǐng)域的通用性,結(jié)合相應(yīng)的本體定義基本準(zhǔn)則,分析上述概念數(shù)據(jù)模型,和領(lǐng)域?qū)<矣懻摯_認(rèn)后,本文定義了 34 個(gè)基本類和 11 個(gè)關(guān)聯(lián)以及若干描述這些類的屬性。

圖2 “觀察”類圖Fig.2 Class diagram of “observation”

本體的設(shè)計(jì)思想如下:經(jīng)分析,最核心的關(guān)聯(lián)是病毒作用于載體,載體作用于人。如圖 3 所示。在此基礎(chǔ)上,進(jìn)行擴(kuò)展,如人在某個(gè)地點(diǎn),那么人和位置就關(guān)聯(lián)上了;人屬于家庭這個(gè)組織等;當(dāng)然病毒和材料也可以關(guān)聯(lián)起來(lái),因?yàn)椴牧项愔械淖宇悩?biāo)本、器具主要是針對(duì)病毒來(lái)說(shuō)的,是研究病毒的。這樣,就可以形成一個(gè)關(guān)聯(lián)的數(shù)據(jù)網(wǎng)絡(luò),即構(gòu)建了本體。

本文采用本體構(gòu)建工具 protégé 來(lái)進(jìn)行本體構(gòu)建的,構(gòu)建了本體元素,如類、屬性、屬性值的數(shù)據(jù)類型等等,如圖 4 所示。

2.3 資源描述框架成果圖

將構(gòu)建的本體可視化后,如圖 5 所示。

上圖中,實(shí)體如圖中圓圈所示,每個(gè)實(shí)體具有其Datatype 屬性,如圖中箭頭上綠色部分所示,圖中黃色部分指數(shù)值屬性的數(shù)據(jù)類型,實(shí)體和實(shí)體間的關(guān)聯(lián)如圖中箭頭上藍(lán)色部分所示,即 Object 屬性

其中,“人”類屬性及其屬性的數(shù)據(jù)類型如圖 6所示,由圖可知,“人”有 pname (名字)、birthdate (出生日期)、career (職業(yè)) 等屬性,其對(duì)應(yīng)的數(shù)據(jù)類型分別為 string、int、int 等?!叭恕焙蚮amily (家庭)、carrier(載體) 等通過(guò) belong、infect 等關(guān)聯(lián)。其余不再贅述。

圖3 核心關(guān)聯(lián)圖Fig.3 Core association diagram

圖4 本體類元素Fig.4 Ontology element

圖5 關(guān)聯(lián)關(guān)系可視化Fig.5 Association Visualization

圖6 “人”類可視化Fig.6 Human Visualization

由此可見(jiàn),利用語(yǔ)義網(wǎng)技術(shù)將其轉(zhuǎn)換成一個(gè)網(wǎng)狀結(jié)構(gòu),給關(guān)聯(lián)數(shù)據(jù)集的信息查詢帶來(lái)極大方便;將原始數(shù)據(jù)按照本體轉(zhuǎn)換成若干三元組形式,使數(shù)據(jù)挖掘變得簡(jiǎn)單、同時(shí)也實(shí)現(xiàn)了數(shù)據(jù)共享,解決了“信息孤島”的問(wèn)題。

3 結(jié)語(yǔ)

本文首先介紹了語(yǔ)義網(wǎng)的三大關(guān)鍵技術(shù) XML、RDF、Ontology 的相關(guān)知識(shí),然后介紹了本體的構(gòu)建及可視化,接著將其應(yīng)用在生物安全監(jiān)測(cè)領(lǐng)域,闡述了本體的構(gòu)建方法,最后形成了統(tǒng)一的命名空間并直觀的展現(xiàn)出來(lái),方便研究人員理解與使用,同時(shí)也為以后的數(shù)據(jù)集成、共享以及進(jìn)一步的數(shù)據(jù)挖掘提供了很大的方便。

在本文研究的基礎(chǔ)上,還有很多方向值得繼續(xù)深入研究,如可以考慮通過(guò)機(jī)器學(xué)習(xí)的方式實(shí)現(xiàn)自動(dòng)化本體的構(gòu)建、不斷學(xué)習(xí)不斷迭代更新本體、更加豐富本體展示信息等等。還可以做進(jìn)一步的研究與深化。

致謝

非常感謝中國(guó)疾控中心的支持,在本體構(gòu)建過(guò)程中不斷和王松旺老師進(jìn)行探討、迭代改進(jìn)本體,以確保數(shù)據(jù)標(biāo)準(zhǔn)符合業(yè)務(wù)場(chǎng)景。

猜你喜歡
本體關(guān)聯(lián)可視化
Abstracts and Key Words
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
基于CGAL和OpenGL的海底地形三維可視化
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
罗江县| 偃师市| 扶风县| 波密县| 苍梧县| 福安市| 谢通门县| 梨树县| 三台县| 大理市| 临西县| 邵阳市| 崇左市| 吉隆县| 延边| 台北县| 甘德县| 侯马市| 敦化市| 嘉兴市| 大连市| 盐山县| 霍城县| 苍溪县| 翁牛特旗| 靖边县| 浦江县| 高清| 佛山市| 同心县| 绥芬河市| 綦江县| 保定市| 博爱县| 宁南县| 萨嘎县| 芷江| 舟曲县| 曲松县| 资中县| 全州县|