利用SemRep語義網(wǎng)及MeSH語義網(wǎng)表達單篇論文知識

2019-06-13 08:02:20

中華醫(yī)學(xué)圖書情報雜志 2019年1期

知識組織與表達是知識管理領(lǐng)域的核心內(nèi)容，對科學(xué)論文中蘊含知識的表達是文本挖掘和知識發(fā)現(xiàn)的基礎(chǔ)和核心。語義網(wǎng)絡(luò)作為知識表達的一種方式，為文本挖掘和知識發(fā)現(xiàn)后結(jié)果的可視化呈現(xiàn)提供了堅實基礎(chǔ)。語義網(wǎng)絡(luò)是一種文本網(wǎng)絡(luò)表示模型，隨著社會復(fù)雜網(wǎng)絡(luò)逐漸受到關(guān)注，越來越多的研究將語義網(wǎng)絡(luò)應(yīng)用于文本挖掘、知識發(fā)現(xiàn)和知識圖譜的表示[1]。

目前，有關(guān)單篇科學(xué)論文內(nèi)容表達的研究較為少見。PubMed數(shù)據(jù)庫中揭示單篇論文內(nèi)容特征的方式包括論文題目、摘要、關(guān)鍵詞及MeSH主題詞等，缺乏以語義網(wǎng)絡(luò)為基礎(chǔ)的揭示單篇科學(xué)論文內(nèi)容特征的知識表達方式。關(guān)于文獻集內(nèi)容語義網(wǎng)絡(luò)表達的典型代表為Kilicoglu等開發(fā)的Semantic MEDLINE自動摘要系統(tǒng)[2]，利用自然語言處理工具SemRep將文獻摘要集處理為概念及語義關(guān)系集，以語義網(wǎng)絡(luò)圖的形式呈現(xiàn)檢索結(jié)果，為用戶提供直觀清晰的研究內(nèi)容，但僅適用于某一研究主題的文獻集可視化呈現(xiàn)，未能實現(xiàn)單篇論文內(nèi)容的揭示與表達。

SemRep作為一種基于自然語言處理技術(shù)的數(shù)據(jù)挖掘軟件，以一體化醫(yī)學(xué)語言系統(tǒng)中的超級詞表、語義網(wǎng)絡(luò)和專家辭典為基礎(chǔ)[3]，專指性較強，反映學(xué)科知識也較具體，但從文獻中提取出的語義關(guān)系分散于其挖掘結(jié)果之中,不利于對所提取的關(guān)系進行統(tǒng)計分析[4]。以MeSH主題詞對論文內(nèi)容進行標(biāo)引是生物醫(yī)學(xué)權(quán)威文獻數(shù)據(jù)庫中組織和表達論文內(nèi)容的主要形式，其優(yōu)點是可以排除“多詞一義”、“一詞多義”和詞義含糊現(xiàn)象，使標(biāo)識與概念盡可能一一對應(yīng)，具有相當(dāng)高的專指度[5]，能較為確切地表達文獻的主題概念，缺點是不能反映MeSH主題詞間的語義關(guān)系。本文將語義網(wǎng)絡(luò)引入單篇論文內(nèi)容表達研究領(lǐng)域，并結(jié)合MeSH主題語言與SemRep對自然語言概念抽取的優(yōu)勢，以SemRep語義網(wǎng)及MeSH語義網(wǎng)的形式呈現(xiàn)單篇論文的研究內(nèi)容，并對2種網(wǎng)絡(luò)進行評價比較。

1 數(shù)據(jù)與方法

1.1 研究樣本的選擇

本文利用MedSci 2018年期刊智能查詢系統(tǒng)對醫(yī)學(xué)期刊進行檢索并排行，選取IF值(5年)≥3的10種期刊，每種期刊選取研究主題為diabetes mellitus的代表性論文2篇，共計納入20篇科學(xué)論文作為后續(xù)分析的數(shù)據(jù)集。本文是對單篇論文內(nèi)容語義網(wǎng)絡(luò)表達的探索，經(jīng)反復(fù)探索驗證后發(fā)現(xiàn)，對選取的期刊論文達到以下要求時形成的語義網(wǎng)絡(luò)效果較好。一是論文篇幅適中。因為論文過長會導(dǎo)致所形成的的語義網(wǎng)絡(luò)過于龐大復(fù)雜，不利于后續(xù)分析，過短則會導(dǎo)致形成的語義網(wǎng)絡(luò)圖不足以反映論文具體研究內(nèi)容。二是選取的論文在PubMed中標(biāo)注的MeSH主題詞數(shù)量在10～20個，且主題詞概念盡量具體。以降血糖藥為例，論文標(biāo)引的MeSH主題詞應(yīng)為具體的降血糖藥如Metformin(二甲雙胍)而非其寬泛的上位類Hypoglycemic Agents(降血糖藥)。

1.2 SemRep語義網(wǎng)及MeSH語義網(wǎng)的構(gòu)建

1.2.1 概念間關(guān)系的提取

本文使用自然語言處理工具SemRep對單篇科學(xué)論文中的概念進行抽取和語義關(guān)系表達。SemRep可以實現(xiàn)將單篇科學(xué)論文中的實義詞映射為UMLS中規(guī)范的概念詞。目前UMLS術(shù)語表已經(jīng)涵蓋了320多萬個概念、133個語義類型和54個語義關(guān)系，概念不僅被賦予至少一個語義類型，同時規(guī)定了語義類型與語義關(guān)系搭配的規(guī)則[6]，為揭示概念及概念間關(guān)系提供了獨有的優(yōu)勢，也為后期文本可視化分析奠定了基礎(chǔ)。

抽取出映射概念之間的關(guān)系。對于輸入的文本，SemRep將其中的句子處理為形如“主語|謂詞|賓語”的語義述謂項( Semantic Predication)，其中主語和賓語為UMLS中的概念，謂語為UMLS中的語義關(guān)系[7]。示例如下。

Childhood obesity is a predictor of an increased rate of death，owing primarily to an increased risk of cardiovascular disease.(1)

項(2)為SemRep對句子(1)處理后所產(chǎn)生的語義述謂項，其中Obesity為主語，PREDISPOSES為語義關(guān)系，Diabetes Mellitus and Non-Insulin-Dependent為賓語，主語及賓語的語義類型均為疾病或綜合癥(disease or syndrome，dsyn)。

1.2.2 SemRep語義網(wǎng)及MeSH語義網(wǎng)的繪制

語義網(wǎng)絡(luò)圖表示模型是以圖論為基礎(chǔ)構(gòu)建的，其基本模型可以定義為一個三元組:G=(N，E，W)，即圖元素包括節(jié)點(N)、邊(E)及邊的權(quán)重(W)[8]。本文中，節(jié)點(N)表示SemRep處理后的概念，邊(E)表示概念間的語義關(guān)系，邊的權(quán)重(W)表示SemRep處理后此概念對共現(xiàn)的頻次。利用SemRep處理單篇論文全文所產(chǎn)生的概念及概念間語義關(guān)系構(gòu)建單篇論文SemRep語義網(wǎng)，MeSH語義網(wǎng)由SemRep處理后生成的概念與該篇論文在PubMed中標(biāo)引的MeSH主題詞匹配后形成。構(gòu)建過程采用的可視化分析工具為Gephi[9]。

1.2.3 SemRep語義網(wǎng)的簡化及描述

利用Cytoscape[10]軟件中的PEWCC算法精簡網(wǎng)絡(luò)，可找到整體網(wǎng)絡(luò)的近似最大派系。PEWCC算法[9]首先利用PE-measure評估概念節(jié)點間語義關(guān)系的可靠性，然后基于加權(quán)聚類系數(shù)(WCC)的概念檢測整體網(wǎng)絡(luò)，從而抽取出與整體網(wǎng)絡(luò)最為接近的子圖。語義網(wǎng)絡(luò)簡化的目的是為了加深評價人員對SemRep語義網(wǎng)及MeSH語義網(wǎng)的理解，同時對抽取出的SemRep語義網(wǎng)子圖的內(nèi)容進行簡要的語言描述以提高評價的準(zhǔn)確性。

1.3 SemRep語義網(wǎng)及MeSH語義網(wǎng)的評價指標(biāo)

設(shè)計調(diào)查問卷評價最終形成單篇論文SemRep語義網(wǎng)及MeSH語義網(wǎng)是否能夠表達該篇論文的研究內(nèi)容，調(diào)查對象為14位中國醫(yī)科大學(xué)文本挖掘相關(guān)領(lǐng)域的研究人員，評價納入數(shù)據(jù)集(10種期刊的20篇單篇論文)SemRep語義網(wǎng)及MeSH語義網(wǎng)的全面性、準(zhǔn)確性和易用性(根據(jù)評價人員對語義網(wǎng)絡(luò)各個指標(biāo)的滿意程度評分從低到高為1～10)。利用SPSS 23.0軟件對結(jié)果數(shù)據(jù)進行統(tǒng)計分析，統(tǒng)計方法使用獨立樣本t檢驗，評價指標(biāo)具體如下。

全面性:SemRep處理后得到的概念與MeSH主題詞相比是否全面。

準(zhǔn)確性:SemRep處理后得到的概念與MeSH詞完全對應(yīng)，未標(biāo)引為MeSH詞，但經(jīng)SemRep處理后出現(xiàn)次數(shù)較多且能反映論文內(nèi)容的概念。

易用性：語義關(guān)系標(biāo)簽表達概念間關(guān)系是否準(zhǔn)確，可視化網(wǎng)絡(luò)表達論文內(nèi)容的方法是否直觀清晰。

2 結(jié)果與分析

2.1 期刊及論文選取數(shù)據(jù)集

根據(jù)研究期刊及單篇論文選取標(biāo)準(zhǔn)納入的數(shù)據(jù)分析集見表1。以期刊TheNewEnglandJournalofMedicine中的論文“Childhood adiposity,adult adiposity,and cardiovascular risk factors.” (PMID：22087679)為例進行實例研究，揭示單篇論文SemRep語義網(wǎng)及MeSH語義網(wǎng)的構(gòu)建過程。

表1 納入期刊及代表性科學(xué)論文的PMID

2.2 實例研究結(jié)果

2.2.1 單篇論文語義述謂項提取結(jié)果

對選取的期刊論文“Childhood adiposity,adult adiposity,and cardiovascular risk factors.”利用自然語言處理工具SemRep對其全文進行了概念及語義關(guān)系的提取，共得到53項語義述謂項，相同語義述謂項經(jīng)合并后最終形成了34項語義述謂項組成的單篇論文語義述謂項集。前10項語義述謂項及其在該篇論文中相應(yīng)語義述謂項出現(xiàn)的頻次見表2。

2.2.2 單篇論文的機器處理結(jié)果與人工標(biāo)引結(jié)果的比較

該篇論文在PubMed上標(biāo)引的MeSH主題詞(去除特征詞后)、經(jīng)自然語言處理工具SemRep處理與MeSH主題詞完全對應(yīng)的概念及部分未標(biāo)引為MeSH主題詞，但經(jīng)SemRep處理后能反映論文內(nèi)容的概念(表3)。

從表3中可看出，去除Adult、Child等特征詞后，該篇論文標(biāo)引的MeSH主題詞共10個，經(jīng)SemRep處理與MeSH主題詞完全對應(yīng)的UMLS概念為7個，覆蓋率達70%。此外，經(jīng)人工篩選除去與MeSH主題詞完全對應(yīng)的概念外，經(jīng)SemRep處理后能反映論文內(nèi)容的概念為7個，其中Dyslipidemias與MeSH主題詞Hypertriglyceridemia、Hypercholesterolemia概念相近，Overweight、Carotid-Atherosclerosis等雖未標(biāo)引為MeSH主題詞但也能反映論文內(nèi)容的概念，在一定程度上彌補了MeSH主題詞反映論文全文內(nèi)容不足的缺陷。

表2 單篇論文語義述謂項表達示例

表3 機器處理結(jié)果與人工標(biāo)引結(jié)果的比較

2.2.3 單篇論文SemRep語義網(wǎng)及MeSH語義網(wǎng)構(gòu)建結(jié)果

將提取出的語義述謂項集導(dǎo)入Gephi，并利用Gephi中YifanHu的多水平算法生成語義網(wǎng)絡(luò)圖(圖1，圖2)。其中，圖1表示單篇論文經(jīng)SemRep處理后形成的概念語義網(wǎng)絡(luò)圖(簡稱“SemRep語義網(wǎng)”)，圖2為SemRep處理后生成的概念與MeSH主題詞匹配后形成的MeSH語義網(wǎng)，即圖1去除與MeSH主題詞不直接相連的概念節(jié)點后所形成的語義網(wǎng)絡(luò)圖。2個圖中，邊的顏色對應(yīng)的語義標(biāo)簽為橙色(ISA)、粉色(LOCATION_OF)、深黃色(PREDISPOSES)、綠色(PROCESS_OF)、淡紫色(USES)，其中紅色填充的概念節(jié)點表示與MeSH主題詞完全對應(yīng)的概念。

圖1 SemRep語義網(wǎng)

圖2 MeSH語義網(wǎng)

2.2.4 單篇論文語義網(wǎng)絡(luò)簡化圖及結(jié)果解析

利用PEWCC算法對圖1所示的單篇論文SemRep語義網(wǎng)進行網(wǎng)絡(luò)簡化，抽取出與整體網(wǎng)絡(luò)最為接近的子圖，經(jīng)過語義標(biāo)簽設(shè)置、重復(fù)邊移除等處理之后，形成了圖3所示的該篇論文的語義網(wǎng)絡(luò)簡化圖。

從圖3看出，肥胖、超重人群易患高血壓疾病及非胰島素依賴型糖尿病，高血壓疾病是非胰島素依賴型糖尿病的一種過程。

2.2.5 單篇論文語義網(wǎng)絡(luò)的節(jié)點度數(shù)中心度分析

將得到的單篇論文語義述謂項集進行Gephi可視化處理的同時，將其導(dǎo)入Ucinet[11]對網(wǎng)絡(luò)節(jié)點度數(shù)中心度進行分析。該篇論文的語義述謂項集經(jīng)Ucinet分析后所示的概念節(jié)點度數(shù)中心度分布見表4。從表4可見，點的絕對度數(shù)中心度(Degree)大于1的概念節(jié)點。

圖3 語義網(wǎng)絡(luò)簡化圖

表4 概念節(jié)點度數(shù)中心度分布

從上述節(jié)點度數(shù)中心度分布可以看出，Obesity、Diabetes Mellitus，Non-Insulin-Dependent，Overweight，Hypertensive disease等概念節(jié)點度數(shù)中心度較高，說明在此語義網(wǎng)絡(luò)中這些概念較為重要。根據(jù)這些概念節(jié)點的度數(shù)中心度分布可初步推斷該篇論文的內(nèi)容為肥胖、超重人群易患高血壓、頸動脈粥樣硬化、非胰島素依賴型糖尿病等疾病。

2.3 SemRep語義網(wǎng)與MeSH語義網(wǎng)的結(jié)果評價

以語義網(wǎng)絡(luò)評價標(biāo)準(zhǔn)對納入數(shù)據(jù)集進行評價，在調(diào)查對象的14位研究人員中，醫(yī)學(xué)信息學(xué)院情報學(xué)、文獻學(xué)、圖書館學(xué)教研室教師各3人，均具有10年以上的研究經(jīng)驗；圖書館參考咨詢部研究人員3人，均具有3年以上的研究經(jīng)驗；情報學(xué)專業(yè)碩士研究生2人，在科室分布、研究經(jīng)驗、學(xué)歷分布上均有差異。發(fā)放問卷全部回收且有效，對其進行統(tǒng)計分析的結(jié)果見表5。

表5 文獻集SemRep語義網(wǎng)與MeSH語義網(wǎng)評價結(jié)果比較

注：表中t值為獨立樣本t檢驗的檢驗統(tǒng)計量，P<0.05表示差異具有統(tǒng)計學(xué)意義

從表5可見，評價人員對SemRep語義網(wǎng)及MeSH語義網(wǎng)在表達單篇論文內(nèi)容方面的滿意程度。從全面性看，評價人員對SemRep語義網(wǎng)和MeSH語義網(wǎng)評分均值均高于8分，且分值差異較小，說明2種網(wǎng)絡(luò)均能全面覆蓋單篇論文的主要研究內(nèi)容；從準(zhǔn)確性看，2種網(wǎng)絡(luò)的評分均值均不足8分，說明二者所揭示的論文全文的主要概念與MeSH主題詞相比還不夠準(zhǔn)確，單篇論文內(nèi)容的表達準(zhǔn)確性還有待提高；P<0.05說明2種網(wǎng)絡(luò)在表達單篇論文內(nèi)容的準(zhǔn)確性方面存在顯著性差異，且MeSH語義網(wǎng)評分高于SemRep語義網(wǎng)的主要原因為SemRep語義網(wǎng)中冗余、無用概念較多，從而造成準(zhǔn)確率的下降；從易用性看，MeSH語義網(wǎng)的評分均值為8.23，高于自然語言語義網(wǎng)，這是因為MeSH語義網(wǎng)中概念節(jié)點及語義關(guān)系較少，網(wǎng)絡(luò)清晰，更容易獲得評價人員的肯定。整體上看，MeSH語義網(wǎng)在表達單篇論文內(nèi)容的全面性、準(zhǔn)確性及易用性的評分均值均高于SemRep語義網(wǎng)，但2種網(wǎng)絡(luò)在表達單篇論文內(nèi)容的準(zhǔn)確性方面還有待提高。

3 結(jié)論

本文所構(gòu)建的2種語義網(wǎng)絡(luò)所提供的語義信息具備一定的文獻挖掘潛力，可實現(xiàn)對單篇科學(xué)論文內(nèi)容的揭示與表達。將復(fù)雜網(wǎng)絡(luò)分析方法與語義搭配模式相結(jié)合，能夠為諸如信息抽取、知識發(fā)現(xiàn)、知識圖譜及學(xué)科研究態(tài)勢分析等研究提供新的方法和思路。通過比較SemRep語義網(wǎng)及MeSH語義網(wǎng)在表達單篇論文內(nèi)容的全面性、準(zhǔn)確性及易用性方面的異同，根據(jù)評價人員對SemRep語義網(wǎng)及MeSH語義網(wǎng)的調(diào)查評價結(jié)果，發(fā)現(xiàn)MeSH語義網(wǎng)相較于SemRep語義網(wǎng)更能深入細致地揭示單篇論文中的主要概念及概念間的語義關(guān)系。其主要原因為獲得MeSH主題詞表的支持，排除了冗余、無用概念的干擾，從而實現(xiàn)單篇論文研究內(nèi)容的深度表達與揭示，對文獻的挖掘更加靈活、強大。

隨著語義網(wǎng)絡(luò)研究的深入，對文獻信息的挖掘必然從以概念為對象向以概念結(jié)合語義關(guān)系為對象的方向發(fā)展。利用MeSH語義網(wǎng)表達單篇論文知識的方法可廣泛應(yīng)用于探索施引文獻與被引文獻之間內(nèi)容上的異同，探索高質(zhì)量論文(或高被引論文)與一般論文的差別，探索單篇論文內(nèi)容的新穎程度，為科研人員進行科研績效評價提供一種新途徑。

4 討論

本文以語義網(wǎng)絡(luò)圖的形式提出了一種表達單篇論文研究內(nèi)容的新途徑。隨著信息技術(shù)的發(fā)展，不久后我們將能夠基于規(guī)則和機器學(xué)習(xí)等方法實現(xiàn)單篇論文全文概念及語義關(guān)系的自動化抽取及可視化，即將單篇論文全文輸入應(yīng)用程序，系統(tǒng)自動進行全文概念及關(guān)系的抽取，進而實現(xiàn)單篇論文全文內(nèi)容的可視化，形成單篇論文的語義網(wǎng)絡(luò)圖。用戶理解文獻內(nèi)容將不僅僅局限于參考MeSH主題詞及文獻摘要，還能夠結(jié)合單篇論文SemRep語義網(wǎng)及MeSH語義網(wǎng)快速瀏覽和分析文獻內(nèi)容，并清晰直觀地了解概念如何在語義網(wǎng)絡(luò)結(jié)構(gòu)中相互關(guān)聯(lián)。在以后的研究中，我們將能夠利用本體構(gòu)建單篇論文語義網(wǎng)絡(luò)知識庫，實現(xiàn)單篇論文語義網(wǎng)絡(luò)的規(guī)范表達。

本文的局限性主要體現(xiàn)在兩方面。一是語義網(wǎng)絡(luò)復(fù)雜性帶來的限制。如果單篇論文的篇幅過長，經(jīng)SemRep處理后所形成的語義述謂項會隨之增加，語義網(wǎng)絡(luò)復(fù)雜度也會相應(yīng)增加，不利于直觀清晰地表達單篇論文研究內(nèi)容，因此此方法還不適用于處理篇幅過長的單篇論文。二是冗余、無用的語義述謂項帶來的限制。單篇論文全文經(jīng)SemRep處理后所形成的語義述謂項存在冗余、無用現(xiàn)象，同一實體概念搭配過多特征詞概念，影響單篇論文內(nèi)容的表達。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡