国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于UMLS的醫(yī)學(xué)資源庫(kù)語(yǔ)義擴(kuò)展檢索系統(tǒng)架構(gòu)

2014-02-25 10:52:18凌晨解曉峰王一鴻王毅
電腦知識(shí)與技術(shù) 2014年1期
關(guān)鍵詞:搜索資源庫(kù)

凌晨 解曉峰 王一鴻 王毅

摘要:基于UMLS的醫(yī)學(xué)資源庫(kù)的搜索模塊通過(guò)將搜索關(guān)鍵詞的映射到UMLS超級(jí)敘詞表中相關(guān)概念的詞串,經(jīng)過(guò)“OR”運(yùn)算,進(jìn)行語(yǔ)義擴(kuò)展的搜索??梢蕴岣卟闇?zhǔn)率和查全率??梢允褂肕etaMap映射工具,也可以直接訪問(wèn)超級(jí)敘詞表;可以采用本地?cái)?shù)據(jù)訪問(wèn)和使用WEB服務(wù)兩種方式的系統(tǒng)架構(gòu)來(lái)訪問(wèn)UMLS。

關(guān)鍵詞:UMLS;資源庫(kù);語(yǔ)義擴(kuò)展;搜索

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)01-0163-03

1 醫(yī)學(xué)資源庫(kù)的知識(shí)組織及檢索的不足

在醫(yī)學(xué)資源庫(kù)中,資源以視頻、音頻、動(dòng)畫、文檔、PPT、積件等多媒體形式存在。資源入庫(kù)必須以人工標(biāo)注的方式進(jìn)行元數(shù)據(jù)標(biāo)注。傳統(tǒng)的醫(yī)學(xué)資源庫(kù)的資源檢索采用的是關(guān)鍵詞匹配。有的檢索系統(tǒng)會(huì)在關(guān)鍵詞匹配的基礎(chǔ)上增加類別限制、時(shí)間限制、作者限制等范圍限制來(lái)提高搜索的精確性。但是語(yǔ)言常常具有多義性、同義性、模糊性,比如Aspirin(阿司匹林)和Acetylsalicylic acid(乙酰水楊酸)、Cancer(癌癥)和Malignant of neoplasm(惡性腫瘤)、Scar(傷疤)和Cicatrix(疤痕)分別都是同義詞,但是各自都是完全不同的關(guān)鍵詞。所以按照關(guān)鍵詞搜索不可避免的會(huì)影響搜索的查全率和查準(zhǔn)率。

在生物醫(yī)學(xué)領(lǐng)域中,名詞和術(shù)語(yǔ)比較多,一詞多義現(xiàn)象和多詞一義現(xiàn)象很多。除此之外,還有大量的術(shù)語(yǔ)之間的語(yǔ)義聯(lián)系,比如詞的上下位關(guān)系,關(guān)聯(lián)關(guān)系,難以通過(guò)關(guān)鍵詞搜索表現(xiàn)出來(lái)。所以,在搜索模塊中,有必要引入一個(gè)生物醫(yī)學(xué)領(lǐng)域統(tǒng)一的可控術(shù)語(yǔ)表,進(jìn)行語(yǔ)義擴(kuò)展的搜索。

2 UMLS(一體化醫(yī)學(xué)語(yǔ)言系統(tǒng))及其語(yǔ)義網(wǎng)絡(luò)介紹

一體化醫(yī)學(xué)語(yǔ)言系統(tǒng) (Unified Medical Language System,UMLS),由美國(guó)國(guó)立醫(yī)學(xué)圖書館(NLM)研制并維護(hù)。UMLS是生物醫(yī)學(xué)概念所構(gòu)成的一部廣泛全面的敘詞表和本體,是對(duì)生物醫(yī)學(xué)科學(xué)領(lǐng)域內(nèi)許多受控詞表的一部綱目式匯編。UMLS提供的是一種位于這些詞表之間的映射結(jié)構(gòu),使這些不同的術(shù)語(yǔ)系統(tǒng)之間能夠彼此轉(zhuǎn)換。 UMLS主要由超級(jí)敘詞表、語(yǔ)義網(wǎng)絡(luò)、專家詞典三個(gè)組件構(gòu)成。

超級(jí)敘詞表是UMLS的基礎(chǔ)。是由來(lái)自各種受控詞表的概念和術(shù)語(yǔ)以及它們之間的關(guān)系所構(gòu)成的集合; 超級(jí)敘詞表中收錄100多萬(wàn)個(gè)生物醫(yī)學(xué)概念和500多萬(wàn)個(gè)概念名稱。概念源自UMLS收錄的100多部受控詞表和分類系統(tǒng)。

超級(jí)敘詞表之中的每個(gè)概念都指定有至少一種“語(yǔ)義類型(Semantic type)”。某些“語(yǔ)義關(guān)系”可以存在于多種語(yǔ)義類型的成員之間。語(yǔ)義網(wǎng)絡(luò)正是這些語(yǔ)義類型和語(yǔ)義關(guān)系所構(gòu)成的一種網(wǎng)絡(luò)式目錄。這是一種相當(dāng)寬泛的分類;目前,其中共計(jì)有135種語(yǔ)義類型和54種語(yǔ)義關(guān)系。

3 基于UMLS的醫(yī)學(xué)資源庫(kù)語(yǔ)義搜索系統(tǒng)架構(gòu)

利用UMLS做語(yǔ)義擴(kuò)展恰好能彌補(bǔ)資源搜索中關(guān)鍵詞匹配種種局限。因此,該文設(shè)想在醫(yī)學(xué)資源庫(kù)的搜索模塊中將UMLS的超級(jí)敘詞表作為搜索模塊的后控詞表。UMLS本身提供了SKR(語(yǔ)義知識(shí)表達(dá))工具,可以以交互模式和批處理模式兩種進(jìn)行自然語(yǔ)言處理。其中,MTI (Medical Text Indexer)可以進(jìn)行文章的自動(dòng)標(biāo)引;MetaMap用來(lái)將自由詞映射到UMLS超級(jí)敘詞表中的詞匯;SemRep用來(lái)提取生物詞匯和短語(yǔ)中的語(yǔ)義類型。UMLS提供了WEB API來(lái)訪問(wèn)這三個(gè)工具,也可以下載這些工具的安裝程序本地安裝使用。在這些工具中,MetaMap是SKR工具的核心,可以作為用戶和超級(jí)敘詞表之間的橋梁。

除了上述工具以外,UMLS的超級(jí)敘詞表和語(yǔ)義網(wǎng)絡(luò)中的數(shù)據(jù)可以通過(guò)兩種方式直接訪問(wèn),一種是安裝MetamophorSys程序,同時(shí)將詞表文件及語(yǔ)義關(guān)系文件下載到本地,導(dǎo)入到MySQL數(shù)據(jù)庫(kù)或者Oracle數(shù)據(jù)庫(kù),使用UMLS提供的JAVA API進(jìn)行本地訪問(wèn);另一種是通過(guò)SOA服務(wù)訪問(wèn),UMLS提供了WEB服務(wù)訪問(wèn)的接口,可以使用JAVA API基于WEB服務(wù)接口訪問(wèn),實(shí)現(xiàn)基于服務(wù)的系統(tǒng)架構(gòu)。

綜合以上分析,基于UMLS的醫(yī)學(xué)資源庫(kù)的搜索模塊可以有四種形式的架構(gòu):(1)下載安裝MetaMap映射工具,使用JAVA API訪問(wèn)本地MetaMap程序來(lái)使用超級(jí)敘詞表;(2)使用WEB API訪問(wèn)MetaMap WEB服務(wù)來(lái)使用超級(jí)敘詞表;(3)安裝MetamophorSys程序,使用JAVA API直接訪問(wèn)超級(jí)敘詞表;(4)使用美國(guó)國(guó)立圖書館提供的WEB API直接訪問(wèn)UMLS的WEB服務(wù)。。該文以使用MetaMap映射工具為例給出基于UMLS的搜索的流程,如圖1所示。

4 基于UMLS的搜索效果分析

下面對(duì)基于UMLS的搜索結(jié)果進(jìn)行理論分析,以術(shù)語(yǔ)“l(fā)ung cancer(肺癌)”的搜索為例。

1) 使用MetaMap工具映射到超級(jí)敘詞表,其搜索流程如圖2所示。

MetaMap的自動(dòng)文本映射主要步驟有文本解析、變量產(chǎn)生、入選敘詞、對(duì)入選敘詞賦值、映射構(gòu)造。在入選虛詞賦值這一步驟中,MetaMap基于向心度、變異度、覆蓋度、和內(nèi)聚性四個(gè)因素進(jìn)行綜合考慮,每個(gè)因素按照不同的權(quán)值進(jìn)行計(jì)算,計(jì)算結(jié)果在0到1000以內(nèi),1000表示最佳匹配。Lung cancer經(jīng)過(guò)MetaMap的映射結(jié)果如下:

Meta Candidates (Total=13; Excluded=5; Pruned=0; Remaining=8)

1000 Lung Cancer (Malignant neoplasm of lung) [Neoplastic Process]

1000 LUNG CANCER (Carcinoma of lung) [Neoplastic Process]

861 Cancer (Malignant Neoplasms) [Neoplastic Process]

861 Lung [Body Part, Organ, or Organ Component]

861 LUNG (Structure of parenchyma of lung) [Tissue]

861 Cancer (Cancer Genus) [Eukaryote]

861 Lung (Entire lung) [Body Part, Organ, or Organ Component]

861 Cancer (Primary malignant neoplasm) [Finding]

805 E Pulmonary (Pulmonary:-:Point in time:^Patient:-) [Clinical Attribute]

805 E Pulmonary (Pulmonary (qualifier value)) [Qualitative Concept]

768 E Pneumonia [Disease or Syndrome]

768 E Pulmonary Arteries (Pulmonary artery structure) [Body Part, Organ, or Organ Component]

768 E Pulmonary artery (Entire pulmonary artery) [Body Part, Organ, or Organ Component]

我們可看到,系統(tǒng)給出13個(gè)候選的敘詞,其中前兩個(gè),“Malignant neoplasm of lung”和“Carcinoma of lung”是最佳匹配。我們也可以選擇將最佳匹配的詞做“OR”運(yùn)算,最終lung cancer的搜索轉(zhuǎn)換成[lung cancer] OR [Malignant neoplasm of lung] OR [Carcinoma of lung]。很明顯,這樣可以增加搜索的查全率和查準(zhǔn)率。

圖2

2) 直接查詢UMLS超級(jí)敘詞表。

直接搜索超級(jí)敘詞表有幾種方式,有詞匹配、精確匹配、模糊匹配等。在詞匹配的方式中,lung cancer除了匹配“Malignant neoplasm of lung”和“Carcinoma of lung”以外,還在語(yǔ)義上包含了很多上位關(guān)系詞、下位關(guān)系詞、相關(guān)關(guān)系詞、同義關(guān)系詞等。

RO | | MTH | Carcinoma of lung | C0684249

RO | | MTH | Neoplasm, uncertain whether benign or malignant | C0677041

RO | | MTH | Carcinoma, Small Cell | C0262584

RO | | MTH | Malignant neoplasm lung: [of bronchus or lung NOS] or [lung cancer] | C1578781

RB | | MTH | Squamous cell carcinoma of bronchus | C1314696

RO | | MTH | respiratory | C0521346

RB | | MTH | Bronchogenic Carcinoma | C0007121

RB | | MTH | Non-Small Cell Lung Carcinoma | C0007131

RB | | MTH | Adenocarcinoma of lung (disorder) | C0152013

RN | | MTH | Respiration Disorders | C0035204

RN | | MTH | Respiratory Tract Diseases | C0035242

RB | | MTH | Metastatic Carcinoma to the Lung | C0238254

RB | | MTH | Lung cancer stage unspecified (excl metastatic tumours to lung) | C0852936

RN | | MTH | Neoplasms | C0027651

RB | | MTH | Small cell carcinoma of lung | C0149925

RO | | MTH | Malignant neoplasm of bronchus or lung, unspecified | C0348343

RO | | MTH | Pulmonary Lunatism | C0815311

RO | | MTH | lung or tumor neoplasm | C0815116

RB | | MTH | Primary malignant neoplasm of lung | C1306460

RN | | MTH | Lung Neoplasms | C0024121

很明顯,詞匹配方式可以更加增加系統(tǒng)的查全率,但是查準(zhǔn)率有時(shí)候會(huì)有一定程度的下降,因?yàn)橛脩粲械臅r(shí)候希望的是精確匹配,只要求同義詞而并不要求語(yǔ)義的向上、向下以及關(guān)聯(lián)的擴(kuò)展。而精確匹配的結(jié)果就和使用MetaMap最終映射的結(jié)果是一樣的,各種模式可以由系統(tǒng)開(kāi)發(fā)人員決定,靈活性更高。

3) 基于Pubmed搜索引擎進(jìn)行語(yǔ)義擴(kuò)展搜索、主題詞搜索、關(guān)鍵詞搜索三種模式的搜索效果比較。選取疾病類、藥物類的術(shù)語(yǔ)進(jìn)行實(shí)驗(yàn),選取“l(fā)ung cancer”、“antibiotics”,“scar”,“gastric ulcer”, “acetylsalicylic acid”,“rash”,“insomnia”幾個(gè)術(shù)語(yǔ)。分別在搜索細(xì)節(jié)里改變搜索的模式,例如,“scar”在語(yǔ)義擴(kuò)展搜索中,最終搜索的形式是"cicatrix"[MeSH Terms] OR "cicatrix"[All Fields] OR "scar"[All Fields];在關(guān)鍵詞搜索中,最終搜索的形式是"scar"[All Fields];而在主題詞搜索模式中,最終的搜索形式是"scar"[All Fields]。三種模式搜索結(jié)果如表1:

表1

[檢索詞\&UMLS\&MeSH\&關(guān)鍵字\&lung cancer\&229725\&166485\&146230\&antibiotics\&589945\&256320\&160775\&scar\&49422\&29287\&27421\&gastric ulcer\&53158\&23370\&41206\&acetylsalicylic acid\&55029\&37073\&8046\&rash\&21427\&4494\&17674\&insomnia\&15205\&8489\&11937\&]

從上述搜索結(jié)果可以看到,基于UMLS的語(yǔ)義擴(kuò)展搜索結(jié)果明顯要比基于醫(yī)學(xué)主題詞和關(guān)鍵詞搜索要多,可以明顯提高搜索的查全率。而基于醫(yī)學(xué)主題詞和基于關(guān)鍵詞的搜索結(jié)果各有優(yōu)勢(shì),原因是醫(yī)學(xué)語(yǔ)言中大量的同義詞和近義詞存在,標(biāo)引人員的選擇不同造成了標(biāo)注的詞不同。

5 總結(jié)

利用UMLS提供的MetaMap工具訪問(wèn)超級(jí)敘詞表和直接訪問(wèn)超級(jí)敘詞表都可以進(jìn)行醫(yī)學(xué)資源庫(kù)的語(yǔ)義擴(kuò)展查詢,理論上可以增強(qiáng)查準(zhǔn)率和查全率。使用本地程序訪問(wèn)和使用WEB API訪問(wèn)各有利弊,本地程序訪問(wèn)可以提高速度,但詞表需要手動(dòng)更新,利用WEB API通過(guò)WEB服務(wù)訪問(wèn)可以簡(jiǎn)化本地的配置,并且數(shù)據(jù)是實(shí)時(shí)更新的。同時(shí),基于SOA的粗粒度系統(tǒng)模型減少了開(kāi)發(fā)人員的工作量,減少了程序模塊之間的耦合度,增加醫(yī)學(xué)資源庫(kù)系統(tǒng)本身的靈活性和獨(dú)立性。

參考文獻(xiàn):

[1] 白海燕,王莉,梁冰.UMLS及其在智能檢索中的應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2012(4).

[2] 邱君瑞.論一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)(UMLS)知識(shí)表達(dá)的語(yǔ)義學(xué)特點(diǎn)[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2002(7).

[3] 趙沛沛,謝競(jìng)博,王國(guó).基于UMLS和Lucene的集成檢索模型[J].計(jì)算機(jī)科學(xué),2010(10).

[4] 李丹亞,胡鐵軍,李亞子.UMLS多詞表整合機(jī)制研究[J].數(shù)字圖書館論壇,2012(4).

[5] 董小蕓.于一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)(UMLS)的語(yǔ)義檢索實(shí)驗(yàn)研究[D].上海大學(xué),2005.

[6] 王孝寧,陳海青,崔雷.利用MetaMap 抽取科研項(xiàng)目概念分析學(xué)科領(lǐng)域研究熱點(diǎn)的嘗試[J].中國(guó)醫(yī)學(xué)科研管理雜志,2008(6).

[7] 張晗,任志國(guó),于倩,等.基于UMLS醫(yī)學(xué)本體的挖掘文獻(xiàn)間的潛在聯(lián)系的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào),2007(9).

[8] http://skr.nlm.nih.gov/interactive/index.shtml.

[9] http://zh.wikipedia.org/wiki/UMLS.

猜你喜歡
搜索資源庫(kù)
廣州園科院木棉野牡丹種質(zhì)資源庫(kù)入選國(guó)家林木種質(zhì)資源庫(kù)
園林科技(2021年3期)2021-04-03 04:33:46
健身氣功開(kāi)放課程資源庫(kù)建設(shè)研究
貴州●石斛種質(zhì)資源庫(kù)
基于共享資源庫(kù)的混合式教學(xué)考核模式研究
電子制作(2017年10期)2017-04-18 07:22:55
高中歷史信息化教育資源庫(kù)應(yīng)用探索
福建基礎(chǔ)教育教學(xué)資源庫(kù)建設(shè)研究——以福建基礎(chǔ)教育網(wǎng)資源庫(kù)為例
優(yōu)惠信息檢索與分析
科技傳播(2016年8期)2016-07-13 22:44:16
基于Android平臺(tái)的百度地圖開(kāi)發(fā)研究
網(wǎng)上"搜索"泄密,女自領(lǐng)報(bào)復(fù)情敵引來(lái)血光之災(zāi)
關(guān)于電影《搜索》網(wǎng)絡(luò)評(píng)論的分析
洛扎县| 邓州市| 鲜城| 基隆市| 陵水| 宣威市| 长岛县| 平南县| 筠连县| 铁力市| 上思县| 城口县| 普定县| 吉木乃县| 广东省| 竹北市| 平泉县| 托克托县| 将乐县| 兰溪市| 福州市| 友谊县| 西乌珠穆沁旗| 万年县| 郯城县| 新巴尔虎左旗| 互助| 浦北县| 来安县| 芮城县| 兴义市| 蛟河市| 璧山县| 营口市| 聂拉木县| 临江市| 绥宁县| 丹棱县| 沈丘县| 祁东县| 江西省|