国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Neo4j的中醫(yī)體質(zhì)干預(yù)知識圖譜構(gòu)建實(shí)驗(yàn)綜述

2024-12-20 00:00張璐瑤
電腦知識與技術(shù) 2024年30期

關(guān)鍵詞:知識圖譜;中醫(yī);圖數(shù)據(jù)庫

0 引言

知識圖譜作為一種系統(tǒng)化組織人類知識的技術(shù),是人工智能領(lǐng)域的核心技術(shù)之一,廣泛應(yīng)用于搜索引擎、問答系統(tǒng)和智能對話等多種應(yīng)用場景。在中醫(yī)藥領(lǐng)域,知識圖譜的應(yīng)用也得到了廣泛的關(guān)注,例如基于知識圖譜的智能問答系統(tǒng)[1]和中醫(yī)問診模型[2]。知識圖譜通過圖數(shù)據(jù)結(jié)構(gòu)組織和存儲信息,相較于傳統(tǒng)的關(guān)系型數(shù)據(jù)結(jié)構(gòu),圖結(jié)構(gòu)更適合建模復(fù)雜關(guān)系,尤其適合處理現(xiàn)實(shí)中的復(fù)雜場景。Neo4j是一個開源的非關(guān)系型NoSQL圖數(shù)據(jù)庫,通過節(jié)點(diǎn)和關(guān)系的方式組織數(shù)據(jù),能夠高效處理大量復(fù)雜、互相連接且低結(jié)構(gòu)化的數(shù)據(jù)。掌握知識圖譜的構(gòu)建技術(shù)對于完善中醫(yī)藥知識體系具有重要意義。本文以中醫(yī)體質(zhì)辨識任務(wù)為切入點(diǎn),對構(gòu)建知識圖譜的實(shí)驗(yàn)過程進(jìn)行了綜述,旨在為中醫(yī)藥領(lǐng)域研究者提供參考和借鑒。

1 中醫(yī)藥領(lǐng)域知識圖譜研究現(xiàn)狀

知識圖譜是一種由若干節(jié)點(diǎn)和邊組成的結(jié)構(gòu)化知識表示語義網(wǎng)絡(luò)。知識圖譜通常采用三元組或圖模型表示知識,并利用關(guān)系型數(shù)據(jù)庫或Neo4j、Janus?Graph等圖數(shù)據(jù)庫進(jìn)行存儲。一般來說,知識圖譜的構(gòu)建技術(shù)包括知識抽取、知識融合和知識加工等。具體而言,知識抽取即從結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)中抽取實(shí)體、關(guān)系和屬性數(shù)據(jù)。知識融合技術(shù)則將抽取到的實(shí)體數(shù)據(jù)鏈接到知識庫中對應(yīng)的實(shí)體對象中,消除實(shí)體指代項(xiàng)與實(shí)體對象之間的歧義。知識加工旨對已形成的事實(shí)表達(dá)數(shù)據(jù)進(jìn)行本體抽取、知識推理和質(zhì)量評估。

中醫(yī)藥領(lǐng)域知識圖譜研究主要包括基于古籍的基礎(chǔ)知識圖譜構(gòu)建、基于知識圖譜的臨床知識挖掘和基于知識圖譜的中醫(yī)藥文獻(xiàn)可視化分析三個方面?;诠偶幕A(chǔ)知識圖譜構(gòu)建側(cè)重運(yùn)用知識抽取、知識融合和知識加工等技術(shù)從非結(jié)構(gòu)化數(shù)據(jù)中提煉中醫(yī)藥知識并可視化。韓夢嬌等以《藥性賦》為數(shù)據(jù)源,提取中藥性味、歸經(jīng)、功用和主治等要素數(shù)據(jù)及關(guān)系,利用Neo4j圖數(shù)據(jù)庫存儲、展示知識圖譜[3]。陳瑩璇等對中醫(yī)古籍《靈樞》進(jìn)行分詞、抽取實(shí)體與關(guān)系,經(jīng)人工校正后存入Neo4j數(shù)據(jù)庫,構(gòu)建了能充分展示經(jīng)脈理論內(nèi)容的知識圖譜[4]?;谥R圖譜的臨床知識挖掘則是基于已建好的知識圖譜,利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等算法,挖掘臨床診療中隱性知識。吳娟等構(gòu)建小兒腹瀉知識圖譜,對中藥頻次、功效等數(shù)據(jù)進(jìn)行分析,并利用關(guān)聯(lián)網(wǎng)絡(luò)分析方法對小兒腹瀉病證方藥知識元進(jìn)行聚類分析,從而篩選出特色藥對及核心處方,進(jìn)一步指導(dǎo)臨床實(shí)踐[5]。劉燕君等基于已有知識圖譜,利用聚類分析、關(guān)聯(lián)規(guī)則等算法對路志正治療干燥綜合征特色用藥的隱性知識進(jìn)行挖掘,從數(shù)據(jù)可視化視角分析、總結(jié)名醫(yī)臨證經(jīng)驗(yàn)與學(xué)術(shù)思想[6]?;谥R圖譜的中醫(yī)藥文獻(xiàn)可視化分析主要利用知識圖譜工具對中醫(yī)藥文獻(xiàn)分析、總結(jié),從可視化視角探討領(lǐng)域研究現(xiàn)狀、熱點(diǎn)及未來發(fā)展趨勢。龐舒文等基于已發(fā)表的中醫(yī)藥治療冠心病領(lǐng)域相關(guān)文獻(xiàn),運(yùn)用CiteSpace軟件對領(lǐng)域發(fā)文作者、科研機(jī)構(gòu)及關(guān)鍵詞進(jìn)行知識圖譜繪制與分析,從而總結(jié)出中醫(yī)藥治療冠心病的用藥規(guī)律、安全性等規(guī)律[7]。

構(gòu)建中醫(yī)藥領(lǐng)域知識圖譜,以可視化語義關(guān)系網(wǎng)絡(luò)視角揭示中醫(yī)藥知識元內(nèi)在關(guān)聯(lián),對中醫(yī)藥科學(xué)研究具有一定借鑒與參考價值。

2 實(shí)驗(yàn)內(nèi)容

基于真實(shí)的中醫(yī)體質(zhì)辨識數(shù)據(jù),構(gòu)建干預(yù)知識圖譜。利用Neo4j圖數(shù)據(jù)庫存儲數(shù)據(jù),并使用Python語言進(jìn)行處理,創(chuàng)建相應(yīng)知識圖譜,并針對特定問題編寫圖數(shù)據(jù)庫查詢腳本。

3 實(shí)驗(yàn)環(huán)境

Windows10操作系統(tǒng)64位,8G內(nèi)存,Neo4j desk?top 1.5.9 版本,Protégé 5.6.4 版本,Jupyter Notebook平臺和相關(guān)數(shù)據(jù)文件。

4 實(shí)驗(yàn)流程與步驟

知識圖譜構(gòu)建流程包括設(shè)計模式層、知識抽取、知識融合、知識存儲和可視化展示等環(huán)節(jié)。首先,在中醫(yī)專家和醫(yī)生指導(dǎo)下,參考《中醫(yī)藥學(xué)系統(tǒng)語義網(wǎng)絡(luò)框架》,設(shè)計中醫(yī)體質(zhì)辨識干預(yù)知識本體層;其次,從已整理好的實(shí)驗(yàn)數(shù)據(jù)中提取實(shí)體及關(guān)系;然后在中醫(yī)專家指導(dǎo)下,按照相關(guān)規(guī)則進(jìn)行知識融合及實(shí)體對齊操作,統(tǒng)一實(shí)體及關(guān)系命名;最后,利用Neo4j圖數(shù)據(jù)庫對中醫(yī)體質(zhì)干預(yù)知識進(jìn)行存儲及可視化展示。知識圖譜構(gòu)建流程如圖1所示。

(1) 實(shí)驗(yàn)數(shù)據(jù)與預(yù)處理

實(shí)驗(yàn)使用中醫(yī)體質(zhì)辨識真實(shí)數(shù)據(jù)構(gòu)建氣虛體質(zhì)辨識干預(yù)知識圖譜。數(shù)據(jù)以二維表格形式存儲,內(nèi)容包含舌象、體質(zhì)、干預(yù)措施等,詳細(xì)數(shù)據(jù)如表1所示。

實(shí)驗(yàn)數(shù)據(jù)存在冗余信息,且數(shù)據(jù)語義屬性缺失,需要對數(shù)據(jù)進(jìn)行去重、增加類別信息。在去除重復(fù)值后,篩選出體質(zhì)、舌象、干預(yù)手段等數(shù)據(jù),給每組數(shù)據(jù)賦予類別屬性信息,如“舌苔潤”的數(shù)據(jù)類別是“舌象”。

(2) 設(shè)計模式層

知識圖譜模式層是用于規(guī)范領(lǐng)域中實(shí)體、關(guān)系和屬性之間的聯(lián)系,是知識圖譜的核心。首先梳理實(shí)驗(yàn)數(shù)據(jù)所對應(yīng)中醫(yī)藥術(shù)語的語義類型,如證候、中醫(yī)診斷、辨證、中醫(yī)預(yù)防等。舌象數(shù)據(jù)屬于中醫(yī)診斷術(shù)語中辨證子術(shù)語類別,體質(zhì)數(shù)據(jù)屬于病因、病機(jī)和疾病術(shù)語中證候子術(shù)語類別,干預(yù)手段數(shù)據(jù)、飲食數(shù)據(jù)、運(yùn)動數(shù)據(jù)、情志數(shù)據(jù)和起居數(shù)據(jù)屬于中醫(yī)預(yù)防術(shù)語類別。隨后,根據(jù)《中醫(yī)藥學(xué)系統(tǒng)語義網(wǎng)絡(luò)框架》,結(jié)合術(shù)語語義類型結(jié)構(gòu)圖,明確中醫(yī)藥術(shù)語間層次關(guān)系,確定了“ 體質(zhì)-舌象-干預(yù)類型-干預(yù)措施”的語義層次關(guān)系[8]。最后,確定構(gòu)建氣虛體質(zhì)辨識干預(yù)知識圖譜所需要的4種類別(體質(zhì)、癥狀、干預(yù)類型、措施)及4種關(guān)系(舌象、干預(yù)措施、建議、不宜)。

(3) 知識抽取

知識抽取包括實(shí)體抽取和關(guān)系抽取。將表1中已整理的列數(shù)據(jù),通過編寫python腳本,轉(zhuǎn)換、存儲為實(shí)體節(jié)點(diǎn)文件Nodes.csv。根據(jù)模式層定義的4種關(guān)系,在舌象與體質(zhì)節(jié)點(diǎn)數(shù)據(jù)中增加關(guān)系數(shù)據(jù)“體質(zhì)”;在體質(zhì)與干預(yù)類型節(jié)點(diǎn)數(shù)據(jù)中增加關(guān)系數(shù)據(jù)“干預(yù)措施”;在干預(yù)類型與措施節(jié)點(diǎn)數(shù)據(jù)中增加關(guān)系數(shù)據(jù)“建議”和“不宜”,最后將這些關(guān)系數(shù)據(jù)整理為<實(shí)體,關(guān)系,實(shí)體>三元組數(shù)據(jù)并存儲為Relation.csv。

(4) 知識融合

知識融合是指通過實(shí)體鏈接、指代消解等方式將抽取的實(shí)體及關(guān)系數(shù)據(jù)與模式層的類與關(guān)系對應(yīng)起來,確保構(gòu)建的圖譜節(jié)點(diǎn)與關(guān)系命名統(tǒng)一、規(guī)范。實(shí)驗(yàn)采用人工方式核對抽取的實(shí)體與關(guān)系數(shù)據(jù)的類別及關(guān)系類別,消除實(shí)體同義詞的多表述現(xiàn)象。

(5) 知識存儲與可視化展示

實(shí)驗(yàn)利用Cypher圖數(shù)據(jù)庫查詢語言在Neo4j數(shù)據(jù)庫中創(chuàng)建知識圖譜實(shí)例。實(shí)例的創(chuàng)建包括實(shí)體節(jié)點(diǎn)的創(chuàng)建和關(guān)系的創(chuàng)建。

① 創(chuàng)建Neo4j圖數(shù)據(jù)庫

第一步,打開Neo4j 程序,點(diǎn)擊左上角new按鈕,選擇create project創(chuàng)建數(shù)據(jù)庫。第二步,點(diǎn)擊右上角add按鈕,選擇local DBMS。第三步,在密碼欄中輸入密碼。第四步,點(diǎn)擊create按鈕,完成本地圖數(shù)據(jù)庫創(chuàng)建。

② 創(chuàng)建實(shí)體節(jié)點(diǎn)

第一步,打開Jupyter notebook 平臺,編寫連接Neo4j圖數(shù)據(jù)庫腳本。第二步,讀取節(jié)點(diǎn)數(shù)據(jù)。第三步,依次創(chuàng)建體質(zhì)、舌象、干預(yù)類別、干預(yù)措施4個實(shí)例節(jié)點(diǎn)。

③ 創(chuàng)建關(guān)系

讀取關(guān)系文件數(shù)據(jù),根據(jù)模式層定義的4種關(guān)系,依次創(chuàng)建4種關(guān)系,分別是舌象節(jié)點(diǎn)與體質(zhì)節(jié)點(diǎn)間的無向關(guān)系(體質(zhì)),體質(zhì)節(jié)點(diǎn)到干預(yù)類型節(jié)點(diǎn)的有向關(guān)系(干預(yù)措施),干預(yù)類型節(jié)點(diǎn)到干預(yù)措施節(jié)點(diǎn)的有向關(guān)系(建議),干預(yù)類型節(jié)點(diǎn)到干預(yù)措施節(jié)點(diǎn)的有向關(guān)系(不宜)。

④ 知識圖譜展示

編寫查詢圖譜腳本語句,將查詢語句復(fù)制到Neo4j數(shù)據(jù)庫中,展示氣虛體質(zhì)干預(yù)知識圖譜。

(6) 知識查詢

知識圖譜創(chuàng)建好后便可進(jìn)行查詢。實(shí)驗(yàn)設(shè)置查詢問題為“患者舌質(zhì)偏淡,建議飲食有哪些?”分析發(fā)現(xiàn),查詢問題涉及到的節(jié)點(diǎn)有舌象、體質(zhì)、干預(yù)類別和干預(yù)措施,涉及的關(guān)系有辨證、預(yù)防手段和建議。編寫相關(guān)查詢cypher語句,執(zhí)行查詢結(jié)果。

5 實(shí)驗(yàn)結(jié)果

(1) 設(shè)計模式層

實(shí)驗(yàn)利用Protégé本體建模工具,采用“七步法”繪制氣虛體質(zhì)辨識干預(yù)知識圖譜模式層次結(jié)構(gòu),如圖7 所示。

(2) 創(chuàng)建實(shí)體節(jié)點(diǎn)

執(zhí)行創(chuàng)建實(shí)體節(jié)點(diǎn)腳本,創(chuàng)建實(shí)體節(jié)點(diǎn)如圖8 所示。

(3) 創(chuàng)建關(guān)系

執(zhí)行創(chuàng)建關(guān)系腳本,創(chuàng)建關(guān)系節(jié)點(diǎn)如圖9所示。

(4) 展示知識圖譜

執(zhí)行知識圖譜展示腳本,創(chuàng)建的氣虛體質(zhì)辨識干預(yù)知識圖譜如圖10所示。

(5) 問題查詢結(jié)果

執(zhí)行問題查詢腳本,查詢問題結(jié)果如圖11所示。

6 結(jié)束語

本文對基于Neo4j圖數(shù)據(jù)庫的中醫(yī)領(lǐng)域知識圖譜構(gòu)建進(jìn)行實(shí)驗(yàn)綜述,重點(diǎn)介紹了知識圖譜的創(chuàng)建過程。知識圖譜作為一種結(jié)構(gòu)化知識表示工具,憑借其圖數(shù)據(jù)結(jié)構(gòu)的優(yōu)勢,有效處理復(fù)雜關(guān)系信息,從而提升中醫(yī)藥知識體系的系統(tǒng)性和應(yīng)用效率。同時,以Neo4j為代表的圖數(shù)據(jù)庫工具在處理復(fù)雜的、互相關(guān)聯(lián)的數(shù)據(jù)方面具有顯著優(yōu)勢。本文綜述的實(shí)驗(yàn)過程和方法,為后續(xù)知識圖譜的相關(guān)研究提供了一定參考和實(shí)踐指導(dǎo)。