摘要:構(gòu)建面向在線健康社區(qū)用戶生成內(nèi)容(User Generated Content,UGC)數(shù)據(jù)的醫(yī)療健康知識圖譜,探究基于用戶潛在需求的健康知識抽取,對優(yōu)化在線健康社區(qū)信息組織與檢索,支撐在線健康社區(qū)知識服務創(chuàng)新具有重要意義。提出基于在線健康社區(qū)UGC數(shù)據(jù)的實體識別組合模型LDA-BERT-BiLSTM-CRF,首先利用LDA主題模型對在線健康社區(qū)UGC數(shù)據(jù)進行主題聚類分析從而提取實體類型,基","Introduction":"","Columns":"知識組織","Volume":"","Content":"
摘要:構(gòu)建面向在線健康社區(qū)用戶生成內(nèi)容(User Generated Content,UGC)數(shù)據(jù)的醫(yī)療健康知識圖譜,探究基于用戶潛在需求的健康知識抽取,對優(yōu)化在線健康社區(qū)信息組織與檢索,支撐在線健康社區(qū)知識服務創(chuàng)新具有重要意義。提出基于在線健康社區(qū)UGC數(shù)據(jù)的實體識別組合模型LDA-BERT-BiLSTM-CRF,首先利用LDA主題模型對在線健康社區(qū)UGC數(shù)據(jù)進行主題聚類分析從而提取實體類型,基于細分實體類型利用BERTBiLSTM-CRF模型進行命名實體識別;然后采用MC-BERT-CasRel模型抽取在線健康社區(qū)UGC數(shù)據(jù)中的重疊三元組,并通過SBERT模型實現(xiàn)實體對齊;最后利用Neo4j圖數(shù)據(jù)庫完成知識圖譜的存儲和可視化。以小兒腹瀉病為例,基于所提方法最終構(gòu)建包含939個實體和3 224個關系的小兒腹瀉病知識圖譜。與目前主流模型進行對比實驗,結(jié)果表明,所采用的組合模型LDA-BERT-BiLSTM-CRF與關系抽取模型MC-BERT-CasRel較傳統(tǒng)方法知識抽取更準確,實體分類也更具針對性。
關鍵詞:知識圖譜構(gòu)建;在線健康社區(qū);用戶生成內(nèi)容;LDA;知識抽取
中圖分類號:G250.73 DOI:10.3772/j.issn.1673-2286.2024.08.002
引文格式:孟秋晴,鄭銘瑞,田玥璐,等. 面向在線健康社區(qū)UGC的醫(yī)療健康知識圖譜構(gòu)建研究:以小兒腹瀉病為例[J]. 數(shù)字圖書館論壇,2024,20(8):9-18.
*本研究得到貴州省科技廳科技計劃“‘互聯(lián)網(wǎng)+醫(yī)療’背景下基于用戶特征挖掘的醫(yī)療資源推薦研究”(編號:黔科合基礎-ZK[2021]一般336)、貴州省教育廳青年科技人才成長項目“基于知識圖譜的在線醫(yī)療社區(qū)信息推薦研究”(編號:黔教合KY字[2022]192號)資助。
在“互聯(lián)網(wǎng)+醫(yī)療健康”背景下,在線健康社區(qū)逐漸成為民眾獲取醫(yī)療健康信息的主要渠道,為用戶提供了疾病知識檢索、健康問答和在線問診等多種形式的信息服務,也因此積累了海量醫(yī)患交互信息。醫(yī)患交互信息作為在線健康社區(qū)中的用戶生成內(nèi)容(User Generated Content,UGC)[1],受到了相關領域?qū)W者的廣泛關注。在線健康社區(qū)UGC作為網(wǎng)絡健康信息資源的重要部分,蘊含了用戶所關注的豐富的醫(yī)療健康知識。但不同于傳統(tǒng)健康信息資源,在線健康社區(qū)UGC的海量及碎片化特征加大了對其進行知識組織的難度[2]。在醫(yī)療健康領域,基于知識圖譜的應用研究蓬勃發(fā)展,研究對象從過去的電子病歷和醫(yī)學文獻等結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),逐步延伸到在線健康社區(qū)醫(yī)患交互信息等非結(jié)構(gòu)化數(shù)據(jù)。對在線健康社區(qū)UGC數(shù)據(jù)進行知識抽取,構(gòu)建醫(yī)療健康知識圖譜,一方面,可以幫助各類在線健康社區(qū)對其中的UGC數(shù)據(jù)進行細粒度整合,盡可能地實現(xiàn)對自有資源的有效組織與利用;另一方面,在線健康社區(qū)UGC大多涉及用戶最關心的健康話題,能夠體現(xiàn)用戶潛在健康需求,以在線健康社區(qū)UGC為數(shù)據(jù)源進行知識圖譜構(gòu)建能夠拓寬現(xiàn)有醫(yī)療健康知識圖譜的知識范圍,特別是能夠從用戶視角挖掘其關心的健康知識,為后續(xù)的健康信息檢索及個性化信息服務奠定堅實基礎。
在線健康社區(qū)醫(yī)患問答文本中包含了大量醫(yī)療健康知識,具有專業(yè)性、多樣性、實時性等特點。抽取并整合這類非結(jié)構(gòu)化數(shù)據(jù)中有價值的醫(yī)療健康信息,并構(gòu)建知識圖譜,能夠為患者提供更便捷的知識查詢和獲取途徑,有利于提高醫(yī)療健康信息服務的質(zhì)量和效率。然而,在線健康社區(qū)UGC存在著表述隨意、主觀性強和個體性差異等問題,準確、有效地抽取UGC中的醫(yī)療健康知識成為構(gòu)建在線健康社區(qū)知識圖譜的挑戰(zhàn)之一。因此,本文選取在線健康社區(qū)醫(yī)患問答文本,提出基于主題聚類的知識抽取框架,通過優(yōu)化命名實體識別和關系抽取技術,構(gòu)建面向在線健康社區(qū)UGC的醫(yī)療健康知識圖譜,并以小兒腹瀉病為例,驗證所提方法的可行性和有效性,以期為醫(yī)療健康領域知識圖譜構(gòu)建研究提供方法借鑒。
1 相關研究
醫(yī)療健康知識圖譜構(gòu)建主要包括醫(yī)學知識表示、醫(yī)學知識抽取和醫(yī)學知識融合等內(nèi)容。其中,醫(yī)學知識抽取是構(gòu)建知識圖譜的核心環(huán)節(jié),主要包括命名實體識別和關系抽取。
目前,雙向長短期記憶網(wǎng)絡(Bidirectional Long Short Term Memory Network,BiLSTM)[3]與條件隨機場(Conditional Random Field,CRF)[4]模型成為命名實體識別方法中的主流模型。Zhang等[5]在基于Transformers的雙向編碼器表示(Bidirectional Encoder Representations from Transformers,BERT)[6]基礎上加入BiLSTM和CRF,構(gòu)建BERT-BiLSTM-CRF模型進行中文臨床文本醫(yī)學命名實體識別,顯著提高了醫(yī)學命名實體識別的準確率和召回率。目前的醫(yī)學命名實體識別研究大多集中在深度學習方法的應用和調(diào)優(yōu)上,忽視了實體劃分對實體識別任務最終效果的影響。多位學者對5類醫(yī)學領域?qū)嶓w——疾病、癥狀、藥物、檢查、治療進行抽取[7-8]。然而,針對不同數(shù)據(jù)來源,應基于數(shù)據(jù)源特征有針對性地細化實體類型及關系類型,否則,會導致抽取出的醫(yī)療健康知識不夠全面、知識抽取的準確率和召回率不高等問題。黃瓊影[9]在對糖尿病社區(qū)問答文本進行實體識別時,利用詞云(WordCloud)工具對5類基礎實體進行了細分,該方法雖提升了實體識別效果,但實體類型劃分具有較大主觀性,并且無法有效驗證最佳實體類型數(shù)量。
關系抽取研究方面,目前,聯(lián)合學習方法抽取效果較好,可進一步細分為基于參數(shù)共享和基于序列標注方式的兩類聯(lián)合模型[10],Zheng等[11]采用了基于序列標注的聯(lián)合解碼實現(xiàn)實體、關系的聯(lián)合抽取。然而,采用序列模式抽取實體關系會削弱模型捕捉長距離依賴關系的能力,不能有效提取非結(jié)構(gòu)化數(shù)據(jù)中的重疊三元組。重疊三元組是指在關系抽取任務中多個實體對之間存在相同關系的情況,會導致模型在預測時難以確定實體對之間的具體關系,從而增加預測的難度。2020年,Wei等[12]提出了一種基于級聯(lián)二元標記的三元組抽取框架CasRel,也稱層疊指針網(wǎng)絡,用來應對重疊三元組抽取任務,并在公開數(shù)據(jù)集上進行了實驗,取得了不錯的效果。周俊等[13]基于RoBERTa-wwm編碼改進CasRel,抽取特定領域文本的實體間關系,F(xiàn)1值提升到了91.86%。
綜上,目前知識抽取任務中的實體類型劃分主要基于主觀判斷,缺乏客觀驗證。另外,在線健康社區(qū)醫(yī)患問答文本中存在大量的重疊三元組,例如,在語句“小兒腹瀉可以采用思密達和媽咪愛來治療”中,“思密達”和“媽咪愛”都與“小兒腹瀉”存在“藥物治療疾病”關系,當這種同一實體在同一關系中被重復計算的情況出現(xiàn),會導致傳統(tǒng)模型的關系分類器產(chǎn)生混亂,從而增加關系預測的難度,且現(xiàn)有研究中還沒有較好的可處理醫(yī)療健康文本中重疊三元組的方法。因此,針對現(xiàn)有問題,主要開展以下3個方面的工作。
(1)提出實體識別組合模型LDA-BERT-BiLSTMCRF,旨在通過挖掘最佳的實體類型,提升實體識別效果。
(2)提出關系抽取模型MC-BERT-CasRel,旨在解決醫(yī)療健康文本中重疊三元組的抽取問題,提高醫(yī)療健康文本關系抽取的準確性。
(3)將在線健康社區(qū)醫(yī)患問答文本作為UGC數(shù)據(jù)來源,以小兒腹瀉病為例進行知識圖譜構(gòu)建及可視化展示,從而驗證所提方法的可行性和有效性。
2 研究設計
2.1 研究框架
面向在線健康社區(qū)UGC的醫(yī)療健康知識圖譜構(gòu)建框架如圖1所示,整體構(gòu)建流程包括數(shù)據(jù)獲取、LDABERT-BiLSTM-CRF組合模型實體識別、關系抽取、知識融合、知識存儲5個子模塊。首先采集在線健康社區(qū)醫(yī)患問答文本并進行數(shù)據(jù)預處理;然后利用LDABERT-BiLSTM-CRF組合模型進行實體識別,利用MCBERT-CasRel模型抽取重疊三元組,并通過SBERT模型計算詞匯相似度,對數(shù)據(jù)進行實體對齊;最后通過Neo4j圖數(shù)據(jù)庫對知識圖譜進行存儲和可視化展示。
2.2 實體識別組合模型
LDA-BERT-BiLSTM-CRF組合模型架構(gòu)如圖2所示,由LDA主題聚類層、BERT層、BiLSTM層和CRF層組成。通過LDA主題聚類層對在線健康社區(qū)醫(yī)患問答文本進行主題聚類,得到數(shù)個主題以及各個主題對應的特征詞,并根據(jù)特征詞歸納出各主題對應的實體類型,從而對文本進行實體標注。BERT層將經(jīng)過標注的文本序列a1、…、am逐詞映射為向量表示,并導入BiLSTM層,利用兩個相反方向的LSTM進一步捕捉序列中的前后依賴關系。CRF層利用全局特征對序列進行聯(lián)合建模,更好地捕捉標簽序列之間的依賴關系,確保生成的標簽序列滿足一定的約束條件,如BIO規(guī)則。
2.3 MC-BERT-CasRel
CasRel為級聯(lián)二元標記框架,利用兩級聯(lián)步驟提取三元組[12],主要包括編碼層和解碼層。為了在醫(yī)患問答文本關系抽取任務中進一步提高CasRel編碼層的語言特征表示能力,在編碼層采用生物醫(yī)學領域預訓練語言模型MC-BERT[14]。與傳統(tǒng)BERT掩蔽隨機詞匯的方法不同,MC-BERT通過掩蔽醫(yī)學實體,將生物醫(yī)學知識注入中國生物醫(yī)學表征傾向,并在生物醫(yī)學特定領域的大型語料庫中進行了預訓練。針對目前醫(yī)療健康文本中存在大量重疊三元組的問題,選用MC-BERTCasRel作為關系抽取模型,試圖提高已有模型抽取重疊三元組的能力。
3 小兒腹瀉病知識圖譜構(gòu)建
3.1 實驗數(shù)據(jù)
隨著三孩政策的實施,公眾對嬰幼兒健康問題的關注度日益增加。腹瀉病是嬰幼兒的常見病,有關數(shù)據(jù)顯示,我國5歲以下兒童腹瀉病發(fā)病率為201%,平均每年每個兒童發(fā)病3.5次,死亡率為0.51%[15],因此,小兒腹瀉病的預防與診治引起廣泛關注。選取“尋醫(yī)問藥網(wǎng)”有問必答版塊下的小兒腹瀉病醫(yī)患問答文本作為研究對象,運用Python 3.10程序爬取網(wǎng)頁信息,采集信息包括病情描述和醫(yī)生回復。共采集到4 761條數(shù)據(jù),對其進行數(shù)據(jù)清洗,剔除醫(yī)生回復為空值的8條數(shù)據(jù)和100條無關數(shù)據(jù),共得到4 653條有效數(shù)據(jù)。由于每條數(shù)據(jù)的病情描述與醫(yī)生回復高度匹配,將病情描述與醫(yī)生回復進行拼接,并轉(zhuǎn)化為15 411個語句,供后續(xù)知識抽取實驗所用,實驗數(shù)據(jù)如表1所示。
3.2 實體識別
根據(jù)提出的LDA-BERT-BiLSTM-CRF組合模型,首先通過LDA主題模型對小兒腹瀉病醫(yī)患問答文本進行主題聚類,從而得到最佳主題數(shù)量下主題對應特征詞的概率分布;然后對各主題下概率排名靠前的特征詞進行場景描述[16],歸納出每個主題對應的醫(yī)療健康實體類型,從而對文本進行實體標注;最終將標注好的文本序列輸入BERT-BiLSTM-CRF模型進行訓練和預測,完成對小兒腹瀉病醫(yī)患問答文本的實體識別。
3.2.1 實體類型提取
(1)數(shù)據(jù)預處理。對小兒腹瀉病醫(yī)患問答文本進行數(shù)據(jù)預處理,包括去重、分詞、去停用詞等。在“哈工大停用詞表”的基礎上,結(jié)合詞頻統(tǒng)計方法,將“你好”“您好”“謝謝”等出現(xiàn)頻次高但無實際意義的詞刪除,最終構(gòu)建的停用詞表包含1 913個詞。為避免在分詞過程中誤判專有醫(yī)學詞,構(gòu)建自定義詞表,在詞表中添加“媽咪愛”“蒙脫石散”“雙歧桿菌”等詞,最終構(gòu)建的自定義詞表包含167個詞。
(2)LDA主題建模。在數(shù)據(jù)預處理的基礎上,使用CountVectorizer參數(shù)對小兒腹瀉病醫(yī)患問答文本進行特征提取,將原始文本數(shù)據(jù)轉(zhuǎn)化為向量表示,以捕獲詞匯的出現(xiàn)頻率、權(quán)重等信息,供LDA主題模型進行訓練和推斷,并采用Scikit-learn中的LatentDirichletAllocation庫構(gòu)建主題模型。
在使用LDA主題模型對文本進行分析時,通常需要設置主題數(shù)量k。Blei等[17]提出的困惑度(Perplexity)作為衡量語言模型預測性能的重要指標,已被廣泛應用于判斷最優(yōu)主題數(shù)量,因此,采用困惑度來確定小兒腹瀉病醫(yī)患問答文本的最優(yōu)主題數(shù)量。當k設定為10時,模型的困惑度較低,值為196.05,且一致性(Coherence)較高,值為0.473 3,主題分類效果較好,因此,最終將k設定為10。
(3)實體類型提取。實體類型提取過程與結(jié)果如表2所示。通過LDA主題分析得到小兒腹瀉病醫(yī)患問答文本的10個主題,以及每個主題對應的概率排名前15的特征詞。結(jié)合小兒腹瀉病患者在實際問診中的語料特征,對每個主題下的高概率特征詞進行場景描述[16],總結(jié)歸納出最符合當前主題下高概率特征詞的醫(yī)療健康實體類型。例如:Topic 1中,感染性、細菌、病毒、輪狀病毒等特征詞都代表病因,疾病、癥狀等特征詞貼合某種病因誘發(fā)疾病或癥狀的場景,故將Topic 1定義為“病因”,場景描述為“病因誘發(fā)疾病”“病因?qū)е掳Y狀”;Topic 2中,食物、生冷、油膩、刺激性等特征詞都代表食物,癥狀、拉肚子、腸炎等特征詞體現(xiàn)了由食物引起的某類癥狀或疾病,以及因疾病或癥狀不宜食用某類食物的情景,故將Topic 2定義為“食物”,場景描述為“食物誘發(fā)癥狀”“食物誘發(fā)疾病”“癥狀不適宜食物”“疾病不適宜食物”。根據(jù)主題聚類結(jié)果,在疾病、癥狀、藥物、治療和檢查5類實體的基礎上增加了食物、病因、部位、人群和預防措施5類實體,并增加對10類醫(yī)療健康實體的場景描述。
3.2.2 命名實體識別
(1)數(shù)據(jù)標注。為了驗證實體類型提取的效果,利用Doccano文本標注工具,以5類基礎醫(yī)療健康實體(疾病、癥狀、藥物、治療、檢查)和提出的10類醫(yī)療健康實體(疾病、癥狀、藥物、治療、檢查、食物、病因、部位、人群、預防措施)分別標注1 000個相同的小兒腹瀉病醫(yī)患問答語句,并抽取其中的800個語句作為訓練集、200個語句作為測試集。
采用BIO標注策略,按照B-X、I-X和O進行標注,其中:B代表一個實體的開始位置,I代表一個實體的內(nèi)部位置,X代表具體的實體類型;B-X即當前字符是實體類型的起始部分,I-X即當前字符是實體類型的中間或結(jié)束部分,O即當前字符不屬于任何實體。例如,語句{腹瀉是許多病毒感染的常見癥狀。},BIO標注應為{‘B-Symptom’,‘I-Symptom’,‘O’,‘O’,‘O’,‘B-Reason’,‘I-Reason’,‘I-Reason’,‘I-Reason’,‘O’,‘O’,‘O’,‘O’,‘O’,‘O’},其中“腹瀉”為實體“癥狀”,“病毒感染”為實體“病因”。
(2)實驗對比。采用BERT-BiLSTM-CRF模型分別對5類基礎醫(yī)療健康實體標注數(shù)據(jù)和提取的10類醫(yī)療健康實體標注數(shù)據(jù)進行訓練,采用準確率、召回率和F1值對實驗結(jié)果進行評價。模型參數(shù)設置如表3所示。
兩組實驗結(jié)果如表4所示,可以看出,基于LDA主題聚類提取實體類型的實驗組的準確率、召回率和F1值均高于對照組,其中,準確率提升到0.842 3,召回率提高了0.093 1,F(xiàn)1值提高了0.063 1。結(jié)果表明,提取實體類型的實體識別效果比未提取實體類型的實體識別效果更好。因此,將小兒腹瀉病醫(yī)患問答文本的實體類型確定為10類(疾病、癥狀、藥物、治療、檢查、食物、病因、部位、人群、預防措施)。
(3)實體識別。在15 411個語句中選取3 500個語句作為實驗數(shù)據(jù)進行標注,并抽取其中的2 800個語句作為訓練集、700個語句作為測試集,導入BERTBiLSTM-CRF模型進行訓練。該模型測試下的各項評價指標結(jié)果如表5所示。
從表5可以看出,準確率、召回率和F1值的平均值都超過0.800 0,表明模型實體識別的整體效果較好,其中,準確率達到了0.914 1,F(xiàn)1值達到了0.873 6。少數(shù)實體的個別評價指標表現(xiàn)一般,例如疾病和癥狀。這是因為在數(shù)據(jù)標注任務中,將“小兒腹瀉”和“嬰幼兒腹瀉”等詞視為疾病實體,而將“腹瀉”視為一種具體的臨床癥狀,并標注為癥狀實體,模型容易因為人工標注的問題而產(chǎn)生混淆,從而導致評價指標表現(xiàn)一般。并且由于涉及身體部位的語料不多,訓練樣本量較少,部位實體識別的各項評價指標表現(xiàn)不太理想。除此之外,其他實體識別的準確率、召回率和F1值表現(xiàn)優(yōu)秀,均在0.900 0左右。因此,使用改良的模型對剩余11 911個語句進行實體抽取,共抽取出8 199個醫(yī)療健康實體。
3.3 關系抽取
3.3.1 實體關系規(guī)則設計
綜合表2所示的10個實體類型對應的場景描述,以及小兒腹瀉病醫(yī)患問答文本的語料特點,設計了25條小兒腹瀉病醫(yī)患問答文本實體關系規(guī)則,如表6所示。
3.3.2 模型參數(shù)設置及數(shù)據(jù)標注
采用MC-BERT-CasRel模型抽取小兒腹瀉病醫(yī)患問答文本的實體間關系,模型參數(shù)設置如表7所示。
從15 411個小兒腹瀉病醫(yī)患問答語句中選取5 600個語句進行實體間關系標注,抽取其中4 480個語句作為訓練集、1 120個作為測試集。語句標注示例如表8所示。
3.3.3 實體間關系抽取
利用MC-BERT-CasRel模型對小兒腹瀉病醫(yī)患問答文本進行關系抽取,同時,與傳統(tǒng)關系抽取模型BiLSTM-CRF進行對比實驗,各項評價指標的對比結(jié)果如表9所示。
可以看出,在關系抽取實驗中,MC-BERT-CasRel的準確率、召回率和F1值均高于傳統(tǒng)關系抽取模型BiLSTM-CRF。結(jié)果表明,相比傳統(tǒng)關系抽取模型,MC-BERT-CasRel能夠更好地處理在線健康社區(qū)醫(yī)患問答文本重疊三元組的問題。MC-BERT-CasRel模型下各細分關系抽取的準確率、召回率和F1值如表10所示。利用訓練好的MC-BERT-CasRel模型對未經(jīng)過關系抽取的數(shù)據(jù)進行三元組提取,將提取出的4 357個結(jié)果存入[‘Subject’,‘Relation’,‘Object’]關系列表。
3.4 實體對齊
在線醫(yī)患問答文本中存在實體共指的現(xiàn)象,例如“受涼”“著涼”“受寒”都指代相同意義。這種現(xiàn)象可能是命名規(guī)則不同、名稱簡寫和變體等原因造成的,會導致實驗中存在大量的冗余數(shù)據(jù),從而降低知識圖譜的構(gòu)建質(zhì)量。為了解決這個問題,采用語義相似度模型SBERT[18],通過微調(diào)預訓練模型BERT將詞匯映射到向量空間中,計算詞匯嵌入向量之間的余弦相似度,捕捉詞匯之間的語義關系和相似性,從而判斷多個詞匯表達是否對應同一個實體。首先,利用小兒腹瀉病醫(yī)患問答數(shù)據(jù)微調(diào)BERT模型,并且經(jīng)過Pooling操作生成每個詞匯固定長度的嵌入向量表示;然后,選擇重要詞匯,使用余弦相似度公式計算該嵌入向量與其他嵌入向量之間的相似度,通過計算得到的相似度值,可以評估兩個詞匯之間的語義關系和相似性,值越接近1表示兩個詞匯在語義上越相似;最后,通過SBERT模型計算與該詞匯語義較接近的5個詞匯,部分相似詞匯如表11所示。
由表11可知,在訓練好的SBERT模型中查詢“受涼”詞向量,獲取和“受涼”相似度較高的5個詞匯(著涼、受寒、受風、受風寒、吹風),并且將這5個詞匯歸類為實體“受涼”。同理,查詢其他詞匯并獲取與該詞相似度較高的詞匯,進行統(tǒng)一歸類,能夠減少冗余數(shù)據(jù),提高知識圖譜的構(gòu)建質(zhì)量。最終對所抽取的8 199個實體和4 357個三元組進行實體對齊操作,得到939個實體與3 224個三元組。
3.5 基于Neo4j的知識存儲與可視化
Neo4j是一個高性能的圖數(shù)據(jù)庫,其中節(jié)點表示實體,邊表示實體間的語義關系,采用查詢語言Cypher執(zhí)行復雜的圖形查詢操作。將經(jīng)過實體對齊的實體與實體間關系存儲到Neo4j圖數(shù)據(jù)庫中,構(gòu)建可視化的小兒腹瀉病知識圖譜。知識圖譜中存儲了10類小兒腹瀉病相關實體節(jié)點與25類實體間關系,共包含939個節(jié)點與3 224個關系。
對小兒腹瀉病知識圖譜進行查詢,可以獲取與小兒腹瀉病有關聯(lián)的實體,例如癥狀、病因、藥物等實體,用戶根據(jù)幼兒自身表現(xiàn)的癥狀確定病因,從而對癥下藥;還能夠查詢到宜食和忌食食物,以及預防措施等實體,從而做好對小兒腹瀉病的預防和護理。利用MATCH查詢語句對DNF(疾病不適宜食物)進行查詢,查詢結(jié)果如圖3所示。由查詢結(jié)果可見,小兒腹瀉病不適宜的食物有凍品、變質(zhì)食物、乳糖制品等。由于本研究基于在線健康社區(qū)UGC數(shù)據(jù),該領域數(shù)據(jù)不僅包括具體食物的名稱,還包括描述食物性質(zhì)的詞匯,例如溫軟、溫熱、辛辣等,在數(shù)據(jù)標注過程中將該類詞匯歸類為食物,并在小兒腹瀉病知識圖譜中以食物節(jié)點呈現(xiàn),有助于用戶在查詢信息時獲取到可食用或不可食用食物的特征。小兒腹瀉病知識圖譜還可以根據(jù)已存在的邏輯關系發(fā)現(xiàn)新的實體間關系,實現(xiàn)對隱性知識的挖掘[19],例如通過查詢小兒腹瀉病及其相關聯(lián)癥狀的宜食和忌食食物,能夠定制符合病患發(fā)病機理的常規(guī)食譜,從用戶角度推動了個性化醫(yī)療的發(fā)展[20]。
4 結(jié)語
本文針對在線健康社區(qū)中的UGC數(shù)據(jù)進行醫(yī)療健康知識圖譜構(gòu)建,提出了實體識別組合模型LDABERT-BiLSTM-CRF,旨在精準提取UGC中的醫(yī)療健康實體。首先,該組合模型有效提升了基于BERTBiLSTM-CRF的5類基礎醫(yī)療健康實體識別的準確率、召回率和F1值。其次,采用MC-BERT-CasRel模型解決在線健康社區(qū)醫(yī)患問答文本中重疊三元組的抽取問題,實驗結(jié)果表明,相比傳統(tǒng)的關系抽取模型,MCBERT-CasRel能夠更好地處理重疊三元組問題。最后,通過SBERT模型對知識抽取的結(jié)果進行實體對齊,利用Neo4j圖數(shù)據(jù)庫構(gòu)建可視化的小兒腹瀉病知識圖譜,為醫(yī)療健康領域知識圖譜構(gòu)建提供參考借鑒。通過本文提出的知識圖譜構(gòu)建方法,從小兒腹瀉病醫(yī)患問答文本中抽取健康知識,能夠根據(jù)數(shù)據(jù)特征有效識別出疾病、癥狀、藥物、治療、檢查、食物、病因、部位、人群和預防措施10個實體類型以及各實體類型之間的關系,從而獲取社區(qū)用戶所關注的醫(yī)療健康知識,提高醫(yī)療健康信息獲取和理解的效率和質(zhì)量,進而支撐后續(xù)醫(yī)療健康知識服務應用。
由于本研究僅針對小兒腹瀉病文本進行實驗,且所獲取的實驗數(shù)據(jù)量有限,包含部位等實體信息的語料略顯欠缺,知識抽取結(jié)果可能不夠全面。未來可在大規(guī)模數(shù)據(jù)集上進行模型訓練,提升模型的抽取效果,同時可在本研究構(gòu)建的知識圖譜基礎上利用其知識推理與檢索優(yōu)勢,進一步開展知識推薦和智能問答等應用研究。此外,所構(gòu)建的小兒腹瀉病知識圖譜僅基于在線健康社區(qū)UGC中的醫(yī)患交互數(shù)據(jù),未來可拓寬UGC數(shù)據(jù)來源范圍,并可進一步結(jié)合醫(yī)學文獻、電子病歷以及生物信息學數(shù)據(jù)庫等,構(gòu)建多源異構(gòu)醫(yī)療健康知識圖譜。
參考文獻
[1] 陳旖旎,周曉英,岳麗欣,等. 移動UGC社區(qū)用戶健康信息采納行為意愿的影響因素[J]. 圖書情報知識,2022,39(5):82-95.
[2] 畢崇武,王冰艷,楊瑞仙,等. 基于群體認知圖式的健康UGC知識標注研究[J]. 情報理論與實踐,2023,46(10):182-191.
[3] SCHUSTER M,PALIWAL K K. Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing,1997,45(11):2673-2681.
[4] LAFFERTY J,MCCALLUM A,PEREIRA F C N. Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proc. 18th International Conf. on Machine Learning,2001.
[5] ZHANG M Y,WANG J,ZHANG X J. Using a pre-trained language model for medical named entity extraction in Chinese clinic text[C]//2020 IEEE 10th International Conference on Electronics Information and Emergency Communication(ICEIEC),2020:312-317.
[6] DEVLI J,CHANG M W,LEE K,et al. BERT:pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics,2018:4171-4186.
[7] 蘇婭,劉杰,黃亞樓. 在線醫(yī)療文本中的實體識別研究[J]. 北京大學學報(自然科學版),2016,52(1):1-9.
[8] 張帆,王敏. 基于深度學習的醫(yī)療命名實體識別[J]. 計算技術與自動化,2017,36(1):123-127.
[9] 黃瓊影. 在線醫(yī)療社區(qū)問答文本的知識圖譜構(gòu)建研究[D]. 廣州:華南理工大學,2020.
[10] 董美,常志軍. 一種面向中醫(yī)領域科技文獻的實體關系抽取方法[J]. 圖書情報工作,2022,66(18):105-113.
[11] ZHENG S C,WANG F,BAO H Y,et al. Joint extraction of entities and relations based on a novel tagging scheme[J]. ArXiv e-Prints,2017:arXiv:1706.05075.
[12] WEI Z P,SU J L,WANG Y,et al. A novel cascade binary tagging framework for relational triple extraction[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics,2020:1476-1488.
[13] 周俊,鄭彭元,袁立存,等. 基于改進CASREL的水稻施肥知識圖譜信息抽取研究[J]. 農(nóng)業(yè)機械學報,2022,53(11):314-322.
[14] ZHANG N Y,JIA Q H,YIN K P,et al. Conceptualized representation learning for Chinese biomedical text mining[EB/ OL]. [2024-02-05]. https://www.semanticscholar.org/reader/2b0 1b3334ce950c76c9c3c2c9146a7f0ce79cc50.
[15] 小兒腹瀉病[EB/OL]. [2023-11-03]. https://baike.baidu.com/ item/小兒腹瀉病/12677256?fr=ge_ala.
[16] 李倩,王帥. LDA模型下我國公共圖書館微信平臺閱讀推廣內(nèi)容主題研究[J]. 圖書情報工作,2022,66(8):72-83.
[17] BLEI D M,NG A Y,JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research,2003(3):993-1022.
[18] REIMERS N,GUREVYCH I. Sentence-BERT:sentence embeddings using Siamese BERT-Networks[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing,2019:3982-3992.
[19] 曾楨,趙浩宇. 基于文獻的中國近代史知識圖譜構(gòu)建與實證研究[J]. 數(shù)字圖書館論壇,2022(4):35-42.
[20] 廖開際,黃瓊影,席運江. 在線醫(yī)療社區(qū)問答文本的知識圖譜構(gòu)建研究[J]. 情報科學,2021,39(3):51-59,75.
作者簡介
孟秋晴,女,博士,副教授,研究方向:網(wǎng)絡信息組織、信息服務。
鄭銘瑞,男,碩士研究生,通信作者,研究方向:數(shù)據(jù)挖掘與數(shù)據(jù)分析,E-mail:442823913@qq.com。
田玥璐,女,碩士研究生,研究方向:數(shù)據(jù)挖掘與信息服務。
劉逸品,女,碩士研究生,研究方向:數(shù)據(jù)挖掘與信息服務。
王瓊弟,男,碩士研究生,研究方向:數(shù)據(jù)挖掘與數(shù)據(jù)分析。
Construction of Medical Health Knowledge Map for UGC in Online Health Community: Taking Child Diarrheal Disease as an Example
MENG QiuQing1 ZHENG MingRui1 TIAN YueLu1 LIU YiPin1 WANG QiongDi2
(1. School of Information, Guizhou University of Finance and Economics, Guiyang 550025, P. R. China; 2. Software Institute, Nanjing University, Nanjing 210008, P. R. China)
Abstract: It is of great significance to construct the medical health knowledge map oriented to the user generated content (UGC) data of online health community and explore the health knowledge extraction based on the potential needs of users to optimize the information organization and retrieval of online health community and support the knowledge service innovation of online health community. This paper proposes a combined entity recognition model LDABERT-BiLSTM-CRF based on UGC data of online health communities. We use the LDA topic model to perform thematic cluster analysis on UGC data of online health communities to extract entity types. Based on subdivision entity type, BERT-BiLSTM-CRF model is used to identify named entity. Then, MCBERT-CasRel model is used to extract overlapping triples from UGC data in online health communities. Entity alignment is realized by SBERT model. Finally, the storage and visualization of knowledge map are realized by using Neo4j graph database. Taking child diarrheal disease as an example, a knowledge map of child diarrheal disease containing 939 entities and 3 224 relationships is constructed based on this method. Compared with the current mainstream models, the results show that the combined model LDA-BERT-BiLSTM-CRF and the relationship extraction model MC-BERT-CasRel are more accurate than the traditional knowledge extraction methods, and the entity classification is more targeted.
Keywords: Knowledge Map Construction; Online Health Community; UGC; LDA; Knowledge Extraction
(責任編輯:王瑋)