国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于臨床領(lǐng)域本體的語義信息檢索模型研究

2016-06-13 03:03蔣秀林朱文婕謝靜陳玉娥
常州工學院學報 2016年2期
關(guān)鍵詞:查全率查準率

蔣秀林,朱文婕,謝靜,陳玉娥

(蚌埠醫(yī)學院公共課程部,安徽蚌埠233000)

?

基于臨床領(lǐng)域本體的語義信息檢索模型研究

蔣秀林,朱文婕,謝靜,陳玉娥

(蚌埠醫(yī)學院公共課程部,安徽蚌埠233000)

摘要:傳統(tǒng)的基于關(guān)鍵詞和關(guān)鍵詞向量空間的檢索模型在查全率和查準率上效率較低,在臨床領(lǐng)域本體的基礎(chǔ)上,通過分析和討論了改進的概念間語義相似度和相關(guān)度混合計算方法,提出基于臨床領(lǐng)域本體的語義信息檢索模型。實驗結(jié)果表明,該混合計算方法是可行性的,能有效提高語義信息檢索模型的查準率。

關(guān)鍵詞:臨床領(lǐng)域本體;語義相似度計算;信息檢索模型;查全率;查準率

1概述

在網(wǎng)絡(luò)技術(shù)和信息技術(shù)飛速發(fā)展的今天,信息資源飛速增長,用戶更多關(guān)注的是如何在海量的信息資源中快速高效地獲取所需要的知識。傳統(tǒng)的Web服務(wù)是通過關(guān)鍵字或關(guān)鍵字向量的相似度匹配來實現(xiàn)的,但缺乏語義關(guān)系,導致查全率和查準率不高[1]。隨著領(lǐng)域本體概念的引入和語義Web技術(shù)的發(fā)展,大大提升了服務(wù)信息的語義表達能力,且大大提高了檢索系統(tǒng)的查全率和查準率。

在醫(yī)療領(lǐng)域,語義相似度和語義相關(guān)度計算不僅可以提高檢索醫(yī)學信息資源的性能,還可以有效地促進異構(gòu)臨床知識的集成。目前國內(nèi)外已有大量的研究成果是關(guān)于概念間語義相似度和相關(guān)度計算的,這些成果中基于本體的語義相似度計算的方法主要分為基于語義距離的計算方法[2]、基于信息量的計算方法[3]、混合計算方法[4]3種,其中:第1種方法簡單直觀,但只考慮語義距離,比較片面;第2種方法具有較高的理論嚴謹性,但依賴于語料庫的選擇;第3種方法考慮因素較全面,但計算公式復雜,計算效率會降低。

針對上述情況,本文提出一種基于醫(yī)學領(lǐng)域本體的改進的語義相似度和相關(guān)度混合計算方法,并應(yīng)用在語義信息檢索模型中。

2基于臨床醫(yī)學本體的語義信息檢索模型構(gòu)建

2.1醫(yī)學本體的概念

領(lǐng)域本體(domain ontology)是專業(yè)性的本體,描述的是特定領(lǐng)域中概念和概念之間的關(guān)系,提供了某個專業(yè)學科領(lǐng)域中概念的詞表及概念間的關(guān)系,并研究如何定義特定領(lǐng)域中的概念、概念之間的關(guān)系、發(fā)生活動以及該領(lǐng)域的主要理論和基本原理[5]。

文中采用本體層次樹結(jié)構(gòu)描述醫(yī)學本體的概念體系,在層次樹中結(jié)點表示醫(yī)學本體中的概念,邊表示醫(yī)學本體中概念與概念之間的關(guān)系。采用Protégé工具編輯醫(yī)學本體,用OWL語言描述。鑒于實際使用的醫(yī)學領(lǐng)域本體的復雜性,文中給出一個簡單的醫(yī)學本體實例,如圖1所示。

圖1 醫(yī)學本體片段實例

2.2改進的語義相似度和相關(guān)度混合計算方法

2.2.1基于語義距離的相似度計算方法

在本體層次結(jié)構(gòu)樹中,概念間的相似度與概念在樹結(jié)構(gòu)中的距離有關(guān)。劉群等就認為,如果2個概念間的語義距離越大,相似度就越低,反之則越高[6-8]。

表1給出語義相似度計算的基本性質(zhì),用Sim(a,b)表示概念a和概念b之間的相似度。

表1 語義相似度計算規(guī)則

在本體層次樹中,假設(shè)邊的權(quán)值記作1,概念a所在結(jié)點到概念b所在結(jié)點的層次深度為h,概念a到概念b的語義距離為2個結(jié)點間所有連通路徑中最短路徑的邊的權(quán)重之和,記作dis(a,b)。對傳統(tǒng)的語義距離計算進行擴展,給出改進的基于語義距離的語義相似度計算公式,如式(1)所示。

(1)

式中α、β為調(diào)節(jié)因子。

2.2.2概念間的語義相關(guān)性

相似性是相關(guān)性的一個特殊方面,它僅說明2個概念在某些特殊方面有一定的重合,度量概念間語義關(guān)系的另一個重要指標是語義相關(guān)度。一般用2個概念在同一語境中共同出現(xiàn)的可能性來衡量,取值在[0,1]之間。例如圖1中的“rhododendrondauricum”和“chronicbronchitis”相似度非常低,但相關(guān)度非常高,“rhododendrondauricum”是治療“chronicbronchitis”的藥物之一。

文獻[6-7]中指出在本體層次結(jié)構(gòu)樹中,除了概念間的上下位關(guān)系外,還有概念間的關(guān)聯(lián)關(guān)系,而關(guān)聯(lián)關(guān)系通過最短路徑來描述,描述關(guān)聯(lián)關(guān)系的路徑比上下位關(guān)系的路徑要短。假設(shè)用minPath(a,b)表示概念a到概念b所經(jīng)歷的最短路徑長度,則概念a和概念b的語義相關(guān)度計算公式如下

(2)

式中φ為可調(diào)節(jié)因子,為提高計算效率,設(shè)定φ=1。當概念a和概念b不存在關(guān)聯(lián)時,minPath(a,b)為∝,Rel(a,b)=0。

2.2.3混合計算公式

結(jié)合式(1)和式(2),給出改進的混合計算公式,即

SimRel(a,b)=θ1Sim(a,b)+θ2Rel(a,b)-Sim(a,b)×Rel(a,b)

(3)

式中θ1、θ2為調(diào)節(jié)因子,本文中為提高計算效率,均設(shè)定為1。

2.3語義信息檢索模型構(gòu)建

在臨床醫(yī)療信息檢索系統(tǒng)中,信息檢索的效率決定著醫(yī)護工作人員的工作效率,為降低知識匹配的復雜性及規(guī)模,提高知識匹配的效率,本文中使用雙層知識匹配模型。首先,對用戶檢索的條件進行分詞處理,并用醫(yī)學本體(OWL語言)進行描述。其次,采用模型中的第1層OWL-S進行語義解析,得到檢索條件的語義知識,再通過推理機進行語義推理(不屬于本文研究的內(nèi)容),過濾掉不符合條件的知識本體。最后,采用第2層匹配進行精確過濾,對第1層匹配的結(jié)果和醫(yī)學本體庫中的知識,使用混合語義相似度計算方法進行相似度計算,并對計算的結(jié)果進行排序,返回給醫(yī)護人員選擇。語義信息檢索模型如圖2所示。

圖2 語義信息檢索模型

3實驗分析和結(jié)果

在圖1所示的簡單醫(yī)學本體中,取部分概念按照綜合式(3)進行語義相似度計算,并將結(jié)果與醫(yī)學領(lǐng)域?qū)<曳治龅慕Y(jié)果進行對比。為提高計算效率,設(shè)定式(1)~(3)中的調(diào)節(jié)因子α、β、φ均為1,得到實驗結(jié)果如表2所示。

表2 部分臨床醫(yī)學概念語義相似度綜合計算結(jié)果及對比

由表2可知,語義路徑的深度、語義概念間的距離以及語義概念之間的相關(guān)度對語義相似度的影響和現(xiàn)實中的臨床領(lǐng)域情況相符合。在未引入綜合計算公式時,chronic bronchitis和bronchus 的相似度值0.148 6,遠小于human body和bronchus 2個概念的相似度值0.473 2,顯然這不符合臨床領(lǐng)域的實際情況。因此,引入綜合計算公式意義重大,且計算結(jié)果與實際領(lǐng)域較接近。

上述實驗得到的數(shù)據(jù)將存放在知識庫中,在檢索臨床信息時,根據(jù)輸入的數(shù)據(jù)和查詢閾值檢索出符合要求的詞表,并按照詞的權(quán)值大小進行排序,存儲到知識庫中,為臨床信息檢索提供依據(jù),從而提高系統(tǒng)的查準率。本文以江蘇省某醫(yī)院臨床信息管理系統(tǒng)為實踐背景,試驗選取了項目組成員和5位臨床科室的工作人員測試了1周。從實驗數(shù)據(jù)中選取了部分記錄(3 106條結(jié)果)計算和分析了基于語義距離的計算方法[9]、基于信息量的計算方法、混合計算方法[10]以及本文中的計算方法在該系統(tǒng)中的檢索覆蓋范圍(查準率),如圖3所示。

圖3 4種計算方法的查準率比較

4結(jié)語

本文在傳統(tǒng)的相似度計算公式中引入語義距離、語義最短路徑和語義相關(guān)度,得到一個綜合計算語義相似度的計算機公式,并將該公式應(yīng)用于語義信息檢索模型中。通過實驗驗證了該計算方法的可行性和有效性,并驗證了本文中的語義信息檢索模型在查準率上有了一定的提高。一個好的信息檢索模型不僅要有高的查準率,還要有高的查全率,因此今后還需在查全率方面進行進一步的研究。

[參考文獻]

[1]HECHMANN D,BRANDHERM B,SCHMITZ M,et al.Gumo:The general user model ontology[C]//International Conference on User Modeling.Springer-Verlag,2005:428-432.

[2]徐德智,吳慶軍,陳建三,等.一種基于概念信息量的相似度傳播算法[J].計算機科學,2009(36):174-178.

[3]黃果,周竹榮.基于領(lǐng)域本體的概念語義相似度計算研究[J].計算機工程與設(shè)計,2007,28(10):2460-2463.

[4]RESNIK P.Using information content to evaluate semantic similarity in a taxonomy[C]//Proceedings of the 14th International Joint Conference on Artifical Intelligence.Montreal:Mogan Kaufmann,1995.

[5]蔣秀林,謝強,丁秋林.基于領(lǐng)域本體的用戶模型的研究[J].計算機應(yīng)用研究,2012(2):606-608.

[6]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J].中文計算語言學,2002,7(2):59-76.

[7]張艷霞,張英俊,潘理虎,等.一種改進的概念語義相似度計算方法[J].計算機工程,2012(12):176-178.

[8]劉宏哲,須德.基于本體的語義相似度和相關(guān)度計算研究綜述[J].計算機科學,2012(2):8-13.

[9]CASTELLS P,FERNANDEZ M,VALLET D.An adaptation of the vector-space model for ontology-based lnformation retrieval[J].Knowledge & Data Engineering IEEE Transactions on,2007,19(2):261-272.

[10]LI Zhaolong,DU Junping.A conceptual semantic similarity calculation model based on tourism domain ontology[C]// 31st Chinese Control Conference.Hefei:IEEE CPP,2012:3863-3868.

責任編輯:陳亮

Semantic Information Retrieval Model Based on Clinical Domain Ontology

JIANG Xiulin,ZHU Wenjie,XIE Jing,CHEN Yu′e

(Department of Public Curriculum,Bengbu Medical College,Bengbu 233000)

Abstract:The traditional retrieval model based on keywords and keyword vector space has a low efficiency in terms of recall and precision ratios.On the basis of the clinical domain ontology,the paper has analyzed and improved the computing methods of correlation between concepts and hybrid correlation.The paper also proposes a semantic information retrieval model based on clinical domain ontology.The experimental results show the feasibility of the method proposed,and it has effectively improved the efficiency of semantic information retrieval model in recall and precision ratios.

Key words:clinical domain ontology;semantic similarity calculation;information retrieval model;recall ratio;precision ratio

doi:10.3969/j.issn.1671- 0436.2016.02.010

收稿日期:2016- 01-13

基金項目:安徽省教育廳高等學校省級質(zhì)量工程項目(2014jyxm208);蚌埠醫(yī)學院科研項目(Byky1306;Byky1305)

作者簡介:蔣秀林(1987—),女,碩士,助教。

中圖分類號:TP391

文獻標志碼:A

文章編號:1671- 0436(2016)02- 0043- 04

猜你喜歡
查全率查準率
基于顏色網(wǎng)絡(luò)圖像檢索方法設(shè)計及應(yīng)用探討
海量圖書館檔案信息的快速檢索方法
中國最具影響力的綜合搜索引擎比較研究
基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計
基于詞嵌入語義的精準檢索式構(gòu)建方法
大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
基于深度特征分析的雙線性圖像相似度匹配算法
基于顏色特征的生豬口蹄疫監(jiān)測方法研究
基于Web的概念屬性抽取的研究
昂仁县| 蓝山县| 巨鹿县| 平陆县| 海晏县| 江安县| 五河县| 宜兰市| 沂水县| 霍城县| 芷江| 专栏| 沙湾县| 正定县| 德清县| 秭归县| 泰安市| 云浮市| 即墨市| 浦江县| 博客| 纳雍县| 嘉鱼县| 利川市| 辽源市| 松桃| 上蔡县| 安泽县| 长沙市| 吉林市| 黎城县| 宁远县| 冀州市| 胶南市| 黎平县| 台南县| 临沭县| 上虞市| 慈溪市| 衡水市| 萨迦县|