国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

構(gòu)建中醫(yī)醫(yī)案知識圖譜關(guān)鍵技術(shù)研究綜述

2021-01-06 03:42:25羊艷玲李燕
世界最新醫(yī)學信息文摘 2021年58期
關(guān)鍵詞:醫(yī)案分詞詞典

羊艷玲,李燕

(甘肅中醫(yī)藥大學,甘肅 蘭州 730000)

0 引言

中醫(yī)歷經(jīng)幾千年發(fā)展過程,積累了大量珍貴的臨床經(jīng)驗,形成了無數(shù)經(jīng)典理論,產(chǎn)生的醫(yī)案成為推動學術(shù)發(fā)展的重要文本載體。近代著名學者章太炎說:“中醫(yī)之成績,醫(yī)案最著”[1]。名老中醫(yī)是中醫(yī)學術(shù)造詣最深、臨床水平最高的群體,是將中醫(yī)理論、前人經(jīng)驗與當今臨床實踐相結(jié)合的典范。通過對名老中醫(yī)理論思維與臨床實踐經(jīng)驗的總結(jié)和傳播,推動了中醫(yī)藥傳承工作的進一步開展,亦是中醫(yī)藥創(chuàng)新發(fā)展的新思路[2]。如何借助信息科學技術(shù)將潛藏于醫(yī)案中的理論、實踐及辨證方法可視化,是推動中醫(yī)藥信息化進一步發(fā)展中值得探究的問題。知識圖譜是數(shù)據(jù)時代的新興技術(shù),其作為知識管理和服務的工具應用于知識工程領(lǐng)域,可將醫(yī)學知識嵌入到網(wǎng)絡用來指導和豐富文本得以表示,為中醫(yī)臨床知識的關(guān)聯(lián)、整合與分析提供了理想手段[3]。已有學者在中醫(yī)藥知識圖譜構(gòu)建中進行了嘗試與探索,袁凱琦等[4]自底向上地對知識圖譜應用于醫(yī)學領(lǐng)域所需的關(guān)鍵技術(shù),就數(shù)據(jù)存在的跨語種、高技術(shù)、多結(jié)構(gòu)等特點進行了全面分析。孫華君[5]研究團隊簡要論述知識圖譜的發(fā)展概況,分析知識圖譜與本體的關(guān)系,最后總結(jié)了知識圖譜在中醫(yī)基礎、臨床、養(yǎng)生保健的典型應用。然而,在知識圖譜應用于醫(yī)學領(lǐng)域的現(xiàn)有研究中,由于數(shù)據(jù)多結(jié)構(gòu)和高專業(yè)性要求的特點,其構(gòu)建存在著一定困難。本文就中醫(yī)知識圖譜概述、關(guān)鍵技術(shù)、目前存在的問題及未來發(fā)展趨勢進行述評。

1 構(gòu)建醫(yī)學知識圖譜

1.1 知識圖譜的概述

知識圖譜是以結(jié)構(gòu)化的方式描述客觀世界中概念、實體及其關(guān)系,以“語義網(wǎng)絡”為框架搭建起來的大型知識庫系統(tǒng),將分散的知識進行匯總與整合,為解決“知識孤島”問題提供了理想的技術(shù)手段[6]。目前醫(yī)學知識圖譜的構(gòu)建過程主要包括數(shù)據(jù)獲取、知識抽取、知識融合、知識加工4個步驟,其中數(shù)據(jù)獲取是構(gòu)建過程的基礎,數(shù)據(jù)源包含結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),其主要來源為醫(yī)學專業(yè)論文、書籍文獻、醫(yī)案和電子病歷等;知識抽取是把已有非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中的知識從不同種格式或表示方法中提煉出來,處理為相同形式數(shù)據(jù)的過程,包括實體抽取、關(guān)系抽取和屬性抽取3個部分;在獲取實體、關(guān)系及屬性后,要對其進行清理和整合的過程即知識融合,包括共指解析和實體消歧,保證知識的正確性和邏輯性;最后通過知識加工,包括本體抽取、知識推理、知識發(fā)現(xiàn)和質(zhì)量評估,提高醫(yī)學知識圖譜的可信度與準確度[7]。

1.2 知識圖譜在中醫(yī)藥領(lǐng)域中的應用

目前,知識圖譜在中醫(yī)藥領(lǐng)域主要運用在以下四個方面:

一是檢索中醫(yī)知識,對中醫(yī)術(shù)語及實體指定的路徑查詢等基本知識檢索服務,以交互式圖形化的方式展示出檢索結(jié)果。于彤等[8]以中醫(yī)藥學語言系統(tǒng)作為骨架,集成了中醫(yī)藥領(lǐng)域的一系列知識圖譜,并將其嵌入中醫(yī)藥知識服務平臺中加以利用;Yu et al.[9]利用中醫(yī)藥領(lǐng)域積累的數(shù)字化資源,構(gòu)建了面向中醫(yī)養(yǎng)生領(lǐng)域的知識圖譜,從而實現(xiàn)術(shù)語、文獻、數(shù)據(jù)庫等知識資源的相互關(guān)聯(lián)和系統(tǒng)組織,促進中醫(yī)養(yǎng)生知識的共享、傳播與利用。

二是分析中醫(yī)醫(yī)案,為醫(yī)案的臨床診斷和理解醫(yī)案思路打下基礎。鄭子強[10]以中醫(yī)在治療慢性腎臟病方面的醫(yī)案為數(shù)據(jù)支撐構(gòu)建知識圖譜,并通過特征發(fā)現(xiàn)對知識圖譜進行推理,從而實現(xiàn)了對學習的有效指導及對臨床的輔助決策。

三是輔助診療,基于知識圖譜結(jié)合多種中醫(yī)辨證方法進行辨證論治的策略。張瑩瑩[11]基于構(gòu)建的中醫(yī)藥知識圖譜設計了舌診系統(tǒng),根據(jù)用戶癥狀辨證論治,為用戶提供初步診斷以實現(xiàn)輔助診療。

四是分析名老中醫(yī)個性化知識,基于知識圖譜進行漸進式中醫(yī)學術(shù)思想的發(fā)現(xiàn),為進一步的中醫(yī)經(jīng)驗傳承和臨床知識總結(jié)進行探索。鄧宇等[12]基于名老中醫(yī)醫(yī)案構(gòu)建知識圖譜,分析蘊涵的知識和關(guān)系,將隱含在其中非結(jié)構(gòu)化的診療經(jīng)驗系統(tǒng)地顯式出來。

2 基于中醫(yī)醫(yī)案本體的中文分詞

想要在海量的中醫(yī)醫(yī)案中更高效地挖掘出重要的診療信息就需要對醫(yī)案文本進行預處理,前提須解決中文序列切分問題——中文分詞。中文分詞是通過某種方法或方法的組合,將輸入的中文文本基于某種需求并按照特定的規(guī)范劃分為“詞”的過程。中文分詞模型算法主要經(jīng)歷以下三個階段:

(1)基于字符串匹配算法按照規(guī)定策略將分詞對象與適用詞典進行匹配來確定詞的劃分,常見的匹配算法包括:正向最大匹配法(Forward Maximum Matching,F(xiàn)MM)、逆向最大匹配法(Reverse Maximum Matching,RMM)、雙向最大匹配法、全切分法等。由于算法簡單,機械分詞具有分詞速度快的天然優(yōu)勢;然而,分詞準確率與詞典的好壞成正相關(guān),在未登錄詞較多的情況下,算法的準確率無法保證。

(2)基于統(tǒng)計的機器學習算法充分利用漢語組詞的規(guī)律來分詞,該方法需要大量預先分好的語料進行支撐,另外特征選擇的好壞是決定結(jié)果的關(guān)鍵性因素;傳統(tǒng)機器學習算法需要人工設計特征模塊,影響分詞效率。最初影響力較大的模型是最大熵模型(Maximum Entropy,ME)[13-14]和隱馬爾可夫模型(Hidden Markov Model,HMM)[15]。最大熵馬爾可夫模型(Maximum Entropy Markov Model,MEMM)[16]集成了上述兩個模型的優(yōu)點,將上下文信息引入到模型中,可以選擇任意特征,模型學習和識別的準確率都有所提升。但是模型對每個節(jié)點進行獨立歸一化,存在偏置問題。條件隨機場(CRF)[17-18]結(jié)合了多方面優(yōu)勢,對所有的特征進行全局歸一化,避免了偏置問題,成為傳統(tǒng)機器學習中應用最多、最具代表性的模型算法之一,但模型復雜導致分詞效率略低。

(3)2011年,Collobert等[19]首次將深度學習算法引入自然語言處理任務中。該方法可以通過最終的分詞標注訓練集,有效學習原始特征和上下文表示。隨后CNN[20-21]、GRN[22]、LSTM[23]、BiLSTM[24]等深度學習模型都被引入到中文分詞任務中,并結(jié)合中文分詞進行多種改進?;诶斫獾纳疃葘W習算法讓計算機模擬人類思維,對句子進行結(jié)構(gòu)語義分析,無須進行特征行為選擇,可以有效保留長距離句子信息,是對機器學習的有效補充。

中醫(yī)醫(yī)案具有明顯個體差異性、實用性與地域性等特點[25],故醫(yī)案具有一定的復雜性。綜合現(xiàn)階段中醫(yī)分詞研究文獻來看,我們需要將文本中實體的多種描述方式與標準實體進行對應。目前影響分詞精度的主要問題是歧義性和多樣性問題[26],同時針對中醫(yī)醫(yī)案,大量專業(yè)術(shù)語的集合亦嚴重影響著分詞性能。此外,古代醫(yī)案多用晦澀的文言文,屬于具有籠統(tǒng)模糊的特性,使得中醫(yī)醫(yī)案研究學者既要考慮現(xiàn)代中文語法又要考慮到中文古漢語用詞特點,增加了分詞難度以及歧義詞的消解工作;且中醫(yī)領(lǐng)域詞典不完善,缺乏規(guī)范與條理,將傳統(tǒng)醫(yī)案轉(zhuǎn)化為數(shù)字醫(yī)案的過程中,醫(yī)學術(shù)語、計量單位、癥狀名稱等內(nèi)容受地域、個人影響極大,給數(shù)據(jù)處理帶來極大困難[25]。綜上現(xiàn)有問題,王莉軍等[27]為解決中醫(yī)文獻內(nèi)容多,術(shù)語雜的問題,使用通用領(lǐng)域分詞構(gòu)建了基于BILSTM-CRF的模型對中醫(yī)領(lǐng)域文獻進行分詞,結(jié)果表明基于該模型的分詞取得了優(yōu)秀的分類性能和魯棒性。王冰[28]為解決中醫(yī)醫(yī)案中存在組合型歧義字段問題,分別構(gòu)建了中醫(yī)文本消歧模型和中醫(yī)文本分詞模型,通過醫(yī)案驗證了模型的有效性和高效性。張帆[29]等基于JAVA實現(xiàn)采用層疊隱馬模型的漢語詞法分析系統(tǒng)ICTCLAS,通過建立相關(guān)中醫(yī)領(lǐng)域詞典及測試語料庫,經(jīng)過分詞和評測得出方法的性能。該方法能初步解決中醫(yī)醫(yī)案文獻的分詞問題,對現(xiàn)代醫(yī)案文獻的詞性標注也基本正確,但對古代醫(yī)案文獻的詞性標注上有待進一步的研究改進。

經(jīng)過多年努力,中文分詞研究已經(jīng)取得了一定進展,但對于中醫(yī)醫(yī)案的分詞仍面臨諸多挑戰(zhàn)。目前的分詞方法研究已不再局限于某個單一分詞方法的應用,經(jīng)過實驗驗證將幾種方法融合到一起的分詞模型相較于單一分詞方法在中醫(yī)文獻分詞上具有更高的準確性和強大的泛化能力;同時分詞方法的性能要求也從著重追求有效性轉(zhuǎn)變?yōu)榧骖櫢咝浴?/p>

3 構(gòu)建實體抽取領(lǐng)域模型

實體抽取是從文本中自動獲取實體間關(guān)系事實的任務。目前人工提取的代價太大,因此自動獲取是目前重點研究方向,也是將來構(gòu)建知識圖譜的趨勢。醫(yī)學領(lǐng)域的實體抽取是從醫(yī)學數(shù)據(jù)源中提取出來特定類型的命名實體,將醫(yī)學實體的抽取方法分為以下三類:

3.1 基于醫(yī)學詞典及規(guī)則的方法

該方法通過人工定義規(guī)則和模式匹配生成詞典,Wu等[30]基于醫(yī)學詞典從醫(yī)學領(lǐng)域的無結(jié)構(gòu)化數(shù)據(jù)中提取醫(yī)療實體。優(yōu)點是足夠簡單,計算復雜度低,且不需要人工標注數(shù)據(jù);但缺點也較明顯,首先目前沒有完整的中醫(yī)詞典囊括所有的命名實體,所以簡單的文本匹配是不足以應對實體識別;其次過分依賴專家編寫的詞典和規(guī)則,在通用性和擴展性方面表現(xiàn)較差。因此,該方法只能適用于某些特定的場景下,很難應用到大規(guī)模醫(yī)療數(shù)據(jù)中。

3.2 基于醫(yī)學數(shù)據(jù)源和數(shù)據(jù)模型的統(tǒng)計方法

該方法通過使用統(tǒng)計學和機器學習方法,集合醫(yī)學數(shù)據(jù)源的特點訓練模型進行實體識別。目前常用的方法有支持向量機模型(SVM)、隱馬爾可夫模型(HMM)、條件隨機場模型(CRF)等。王世昆等[31]基于CRF對明清古醫(yī)案中癥狀、病機進行自動識別,不需要醫(yī)學詞典就能取得較滿意的結(jié)果,并且具有不錯的穩(wěn)定性。然而該方法需要人工定義特征模板,并且某些模板具有較大的局限性,這就會限制模型的泛化能力。

3.3 基于深度學習方法

近年來,深度學習方法被成功應用于實體抽取任務中,能夠自動學習有效特征,無需人工定義的特征模板。常見的實體抽取神經(jīng)網(wǎng)絡包括卷積神經(jīng)網(wǎng)絡(CNN)和循環(huán)神經(jīng)網(wǎng)絡(RNN)。基于深度學習的抽取需要大量的標注樣本,而人工標注費時費力,因此有研究學者提出了遠程監(jiān)督[32]的思想。這種思想類比兩個現(xiàn)實世界的實體在某種程度上具有關(guān)聯(lián),則只要某句子含該實體對,它就會被自動標注為知識庫中所對應的實體。遠程監(jiān)督一定程度上不僅免除了繁瑣的人工標記,還可以有效地針對大規(guī)模數(shù)據(jù)進行處理,但遠程監(jiān)督也引入了數(shù)據(jù)噪聲問題,使得模型訓練效果可能受到一定程度的影響。為了緩解遠程監(jiān)督帶來的數(shù)據(jù)噪聲問題,研究學者提出多實例學習[33](Multi-Instance Learning)的方法,它將包含相同實體對的句子放置在同一個包(Bag)內(nèi),用包級數(shù)據(jù)取代原來的句子級別數(shù)據(jù)對模型進行訓練。還有研究學者把遠程監(jiān)督思想與多實例學習方法相結(jié)合[33],采用At-Least-One的多實例學習機制,每次從包中選取最大概率的句子進行訓練,該機制的應用使得模型取得較好的預測效果。Wang[34]將基于詞典和深度學習方法結(jié)合,應用于中文電子病例進行命名實體識別,結(jié)果達到了最優(yōu)水平。趙立鵬[35]研究中醫(yī)文本實體識別的方法,采用了雙向長短記憶神經(jīng)網(wǎng)絡和條件隨機場相結(jié)合的模型來實現(xiàn)對中醫(yī)文本實體對的識別。綜合近幾年相關(guān)文獻研究來看,基于深度學習的實體抽取模型經(jīng)過不斷優(yōu)化在中醫(yī)領(lǐng)域?qū)嶓w抽取上表現(xiàn)出了更好的預測性以及更為廣泛的適用性。

值得注意的是上述方法都是面向句子級別的實體識別和關(guān)系抽取,而中文醫(yī)療領(lǐng)域的文本往往是以篇章形式存在,因此本文后續(xù)將探索更好的句子切分方法,使得模型在文檔級醫(yī)療識別任務重取得更好的效果。

4 展望與小結(jié)

本文提出了研究與醫(yī)學任務配對的醫(yī)學知識圖譜,即用知識圖譜表示醫(yī)學文本,這是中醫(yī)藥信息研究的重要方向之一,是通往魯棒性可解釋性人工智能的必由之路,是“互聯(lián)網(wǎng)+醫(yī)學”的雙向驅(qū)動意義所在。我們通過知識圖譜可以更加行之有效地對這些臨床病例歸納與總結(jié),養(yǎng)成理論聯(lián)系實際的臨床思維模式,構(gòu)建出臨床可用、理論適用的路徑體系,從而更好地應用到實際工作中,為祖國醫(yī)學的傳承與發(fā)展貢獻微薄之力。目前知識圖譜主要應用于中醫(yī)證候分析、計算機輔助治療等階段,而有關(guān)中醫(yī)醫(yī)案挖掘與分析研究較少,且不論是數(shù)據(jù)還是技術(shù)上都存在著一些不足。

(1)在數(shù)據(jù)層面上,醫(yī)案數(shù)據(jù)利用率不高。隨著醫(yī)療信息化水平的提高,雖然已經(jīng)積累了大量的醫(yī)案,但數(shù)據(jù)停留在淺層面無法推進。中醫(yī)醫(yī)學詞典和知識庫較少,增加了學者研究醫(yī)學知識圖譜的成本和難度。此外,由于中醫(yī)醫(yī)案尚未統(tǒng)一、保持著多樣化特點,對于醫(yī)案術(shù)語、計量單位等未作明確要求,同一實體有多種表達形式,為醫(yī)學實體消歧帶來困難,也難以適應信息時代的要求。

(2)在技術(shù)層面上,中文醫(yī)療文本工具相對缺乏,醫(yī)案數(shù)據(jù)大多基于非結(jié)構(gòu)化或半結(jié)構(gòu)化為主,需要利用自然語言進行處理。但大量的中醫(yī)專業(yè)術(shù)語,縮略語等增加了知識抽取的難度。同時,知識圖譜的構(gòu)建匯集了理、工、醫(yī)等多學科知識,且圍繞著大數(shù)據(jù)與人工智能、科學與工程計算等重大戰(zhàn)略的關(guān)鍵技術(shù)問題展開研究,對研究人員各方面能力有較高的要求。

為解決現(xiàn)存問題,我們需要進行多學科交叉融合研究,大力培養(yǎng)兼具計算機和中醫(yī)知識儲備的復合型人才。同時,專業(yè)機構(gòu)應加強中文專業(yè)術(shù)語詞典和知識庫的構(gòu)建,為醫(yī)學領(lǐng)域提供更多規(guī)范化的詞典和知識庫。人工智能作為數(shù)據(jù)時代的研究熱點,據(jù)此產(chǎn)生的新技術(shù)新工具不斷涌現(xiàn),今后可利用人工智能相關(guān)技術(shù)建立更加適合中醫(yī)領(lǐng)域的有效模型及算法,為中醫(yī)學理論體系發(fā)展提供支撐,為探索中醫(yī)發(fā)展提供新思路。

猜你喜歡
醫(yī)案分詞詞典
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
結(jié)巴分詞在詞云中的應用
智富時代(2019年6期)2019-07-24 10:33:16
醫(yī)案聊齋續(xù)篇 吐瀉案
醫(yī)案聊齋續(xù)篇 晨泄案
評《現(xiàn)代漢語詞典》(第6版)
詞典例證翻譯標準探索
值得重視的分詞的特殊用法
新加香薷飲醫(yī)案6則
古醫(yī)籍中刺絡放血醫(yī)案淺析
高考分詞作狀語考點歸納與疑難解析
文登市| 武陟县| 乌海市| 安平县| 禄劝| 平凉市| 博乐市| 独山县| 益阳市| 延津县| 乌兰察布市| 伊金霍洛旗| 会东县| 闵行区| 遂溪县| 乌审旗| 乌拉特后旗| 夏邑县| 博爱县| 黎川县| 邵东县| 利川市| 南雄市| 公安县| 霍林郭勒市| 平乡县| 水城县| 永平县| 大邑县| 武夷山市| 金山区| 板桥市| 鄯善县| 龙里县| 营口市| 巴南区| 张家港市| 蒙自县| 油尖旺区| 洛宁县| 利川市|