国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向真實世界的知識挖掘與知識圖譜補全研究(二):非結(jié)構(gòu)化電子病歷信息抽取方法及進展

2023-10-28 11:31:46閻思宇李緒輝陳沐坤朱海鋒譚杰駿王永博任相穎靳英輝王行環(huán)
醫(yī)學(xué)新知 2023年5期
關(guān)鍵詞:術(shù)語結(jié)構(gòu)化病歷

閻思宇,李緒輝,陳沐坤,朱海鋒,譚杰駿,高 曠,王永博,黃 橋,任相穎,靳英輝,王行環(huán)

1.武漢大學(xué)中南醫(yī)院循證與轉(zhuǎn)化醫(yī)學(xué)中心(武漢 430071)

2.武漢大學(xué)計算機學(xué)院(武漢 430072)

2015年我國相繼出臺了《關(guān)于積極推進“互聯(lián)網(wǎng)+”行動的指導(dǎo)意見》和《促進大數(shù)據(jù)發(fā)展行動綱要》,2016年國務(wù)院辦公廳印發(fā)了《關(guān)于促進和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見》,指出“健康醫(yī)療大數(shù)據(jù)是國家重要的基礎(chǔ)性戰(zhàn)略資源”[1]。健康醫(yī)療大數(shù)據(jù)已被提升至國家戰(zhàn)略高度。在2022年中國醫(yī)學(xué)發(fā)展大會上沈洪兵院士同樣提到“要關(guān)注基于健康醫(yī)療大數(shù)據(jù)的臨床真實世界研究,注重與信息技術(shù)、人工智能交叉融合”。隨著健康醫(yī)療大數(shù)據(jù)的指數(shù)級增長,如何對健康醫(yī)療大數(shù)據(jù)進行充分挖掘和分析,提煉數(shù)據(jù)價值,已成為當(dāng)今的研究趨勢。真實世界研究并非方法學(xué)上新的研究類型,而是基于真實世界數(shù)據(jù)(real-world data,RWD)進行的研究,具有外部有效性高、數(shù)據(jù)來源廣泛、易獲取等優(yōu)點,日益受到研究者的青睞[2-3]。

醫(yī)院電子病歷(electronic medical record,EMR)主要用于日常醫(yī)療實踐管理,記錄有真實世界下患者詳細的就診數(shù)據(jù),是健康醫(yī)療大數(shù)據(jù)及RWD的重要來源之一。中國已有超過九成的醫(yī)院在應(yīng)用EMR[4]。隨著EMR的普及和診療數(shù)據(jù)的不斷積累,雖然數(shù)據(jù)量一直在增長,但如何基于EMR數(shù)據(jù)生成高質(zhì)量真實世界證據(jù)的困境一直存在。已有研究指出,醫(yī)療保健領(lǐng)域的最大問題是大約80%的醫(yī)療數(shù)據(jù)在創(chuàng)建后仍然是非結(jié)構(gòu)化和未開發(fā)的(例如,文本、圖像、信號等)[5-6]。為了便于醫(yī)生靈活描述,EMR中很大比例的信息是使用自由文本記錄的非結(jié)構(gòu)化數(shù)據(jù),如病程記錄、病理報告、影像學(xué)報告、手術(shù)記錄、出院記錄等。雖然EMR數(shù)據(jù)量大,但其中非結(jié)構(gòu)化數(shù)據(jù)占比高,這讓計算機難以理解,因此基于EMR數(shù)據(jù)的研究依然有限[7]。

機器學(xué)習(xí)、人工智能(artificial intelligence,AI)和其他現(xiàn)代統(tǒng)計方法正為利用先前尚未開發(fā)且極速增長的數(shù)據(jù)資源提供新的機會,以期讓患者獲益[8]。利用計算機算法從醫(yī)療健康數(shù)據(jù)中獲取信息,以補充知識發(fā)現(xiàn)、促進循證醫(yī)學(xué)、協(xié)助制定臨床決策,已成為當(dāng)前研究的熱點[9]。

針對上述電子病歷數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)普遍存在且處理困難的問題,本文將對現(xiàn)有的技術(shù)方法及新進展進行總結(jié),以提供參考。

1 非結(jié)構(gòu)化醫(yī)學(xué)數(shù)據(jù)信息抽取的研究方法

從非結(jié)構(gòu)化數(shù)據(jù)中提取結(jié)構(gòu)化信息通常屬于信息抽?。╥nformation extraction,IE)、文本挖掘(text mining,TM)或自然語言處理(natural language processing,NLP)領(lǐng)域的內(nèi)容。一系列研究已經(jīng)證明了從臨床敘述性文本中提取結(jié)構(gòu)化信息的可行性。一項納入263篇有關(guān)IE在臨床應(yīng)用研究的綜述顯示,IE可用于腫瘤、循環(huán)系統(tǒng)疾病等多個疾病研究領(lǐng)域,藥物提取、藥物不良反應(yīng)等藥物相關(guān)研究以及質(zhì)量管理、不良事件等臨床工作流程優(yōu)化研究,所使用的非結(jié)構(gòu)化數(shù)據(jù)主要包括出入院記錄、手術(shù)記錄等的臨床記錄和影像學(xué)報告、病理報告等的診斷報告[7]。

綜合多項研究[10-12],該領(lǐng)域的研究方法大體上可分為基于詞典或規(guī)則的方法、基于統(tǒng)計的方法和基于認知模型的方法,這些方法也可混合使用以提升性能。每種方法的釋義及在臨床中的應(yīng)用舉例總結(jié)如下,見圖1。

圖1 從非結(jié)構(gòu)化文本數(shù)據(jù)中提取結(jié)構(gòu)化數(shù)據(jù)的方法學(xué)發(fā)展Figure 1.Methodology development for extracting structured data from unstructured text data

1.1 基于詞典和規(guī)則的方法

(1)基于詞典的方法:是指依靠術(shù)語詞典,采取匹配算法進行簡單文本匹配,該方法較為基本和直接,具有較強可解釋性。適合于簡單任務(wù),如識別特定藥物,但不適合復(fù)雜任務(wù)。早期醫(yī)療領(lǐng)域的多種代表性實體識別工具如MedLEE、IBM的MedKAT和 Mayo Clinic 的cTAKES都是采用基于詞典的方法[13]。朱彥等的研究通過建立中醫(yī)藥領(lǐng)域?qū)I(yè)詞典,來解決方劑數(shù)據(jù)自動結(jié)構(gòu)化的問題[14]。

(2)基于規(guī)則/模式匹配的方法:通常使用正則表達式技術(shù),構(gòu)建目標提取字段的模式(pattern),完成匹配和搜索。例如,使用基于模式匹配(pattern matching)的NLP算法解析非結(jié)構(gòu)化電子健康記錄數(shù)據(jù),以識別研究人群中的老年綜合征病例[15];使用正則表達式從前列腺癌病理學(xué)報告中提取Gleason評分[16];基于標注結(jié)果抽取模板,生成正則表達式,抽取中文電子病歷中的糖尿病病史[17];基于規(guī)則的模式匹配方法對乳腺癌患者的病理報告進行信息抽取[18];使用正則表達式構(gòu)建規(guī)則完成中醫(yī)古籍中“崩漏”疾病相關(guān)的知識抽取[19]。

基于詞典或規(guī)則的方法依賴于手工建立的詞典、抽取模式或規(guī)則,規(guī)則融合了領(lǐng)域知識和語言知識,領(lǐng)域相關(guān)性較高但可移植性較差?;谠~典或規(guī)則的方法不涉及太復(fù)雜的計算機算法,對臨床醫(yī)生來說可解釋性高,適用于較為簡單、規(guī)范的非結(jié)構(gòu)化文本的信息抽取任務(wù),也適合于醫(yī)學(xué)知識豐富、但無法掌握復(fù)雜計算機算法的臨床醫(yī)生。因此,臨床NLP一直以基于規(guī)則的方法為主。一項有關(guān)臨床信息抽取應(yīng)用研究的綜述顯示,使用基于規(guī)則的方法進行信息抽取的文獻在納入的263篇文獻中占比達65%[7];另一項有關(guān)臨床概念提取的方法學(xué)綜述顯示,使用基于規(guī)則的方法進行信息抽取的文獻在納入的228個文獻中占比達48%[20]。但并非所有的自然語言都可以用確定性的規(guī)則來刻畫,且捕獲所有可能的變化需要大量的規(guī)則,規(guī)則的維護和更新也比較困難,因此學(xué)術(shù)NLP領(lǐng)域仍以基于統(tǒng)計的方法為主導(dǎo)。

1.2 基于統(tǒng)計的方法

基于統(tǒng)計的方法是通過構(gòu)造模型進行信息抽取,可分為傳統(tǒng)機器學(xué)習(xí)(machine learning,ML)方法和更先進的深度學(xué)習(xí)(deep learning,DL)算法。

(1)傳統(tǒng)機器學(xué)習(xí)方法:按是否有標記的訓(xùn)練數(shù)據(jù)可分為無監(jiān)督和有監(jiān)督的ML方法。無監(jiān)督機器學(xué)習(xí)方法指使用無任何標記數(shù)據(jù)的統(tǒng)計模型,最經(jīng)典的方法為聚類,利用的是非結(jié)構(gòu)化數(shù)據(jù)中上下文的相似性。如使用無監(jiān)督機器學(xué)習(xí)方法從乳腺X線影像報告中自動提取信息[21];使用自動化手術(shù)術(shù)語聚類進行手術(shù)文本數(shù)據(jù)的預(yù)處理[22]。有監(jiān)督機器學(xué)習(xí)方法指使用標記的訓(xùn)練數(shù)據(jù)來訓(xùn)練模型,常用模型包括支持向量機、條件隨機場模型、隱馬爾可夫模型、決策樹等。如使用支持向量機方法進行藥物不良反應(yīng)檢測[23];使用條件隨機場方法從急診患者記錄中提取兒科闌尾炎評分[24]。

(2)基于深度學(xué)習(xí)的方法:常用模型包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)、Word2Vec模型、基于變換器的雙向編碼器表示技術(shù)(bidirectional encoder representation from transformers,BERT)等。如使用多任務(wù)深度神經(jīng)網(wǎng)絡(luò)[25]、卷積神經(jīng)網(wǎng)絡(luò)從癌癥病理報告中自動提取信息[26];使用BERT等算法提取公開臨床語料庫中的臨床概念[27]。

基于機器學(xué)習(xí)和深度學(xué)習(xí)的方法是學(xué)術(shù)NLP領(lǐng)域的主流,但對于臨床醫(yī)生來說,較難掌握其復(fù)雜的算法。有學(xué)者指出信息抽取技術(shù)在臨床EMR數(shù)據(jù)中未得到充分利用的原因之一就是NLP專家與臨床醫(yī)生缺乏密切合作[7],EMR非結(jié)構(gòu)化數(shù)據(jù)的提取工作需要多學(xué)科團隊的參與。例如2016年美國啟動的全球首個“癌癥先進計算解決方案的聯(lián)合設(shè)計”(Joint Design of Advanced Computing Solutions for Cancer,JDACS4C)項目,即為國家癌癥研究所與美國能源部的跨機構(gòu)合作,旨在借助計算、數(shù)據(jù)科學(xué)的深度學(xué)習(xí)技術(shù)加快抗癌研究,其中試點3項目就重點針對癌癥患者病歷數(shù)據(jù)的自動分析[28]。

此外,ML、DL算法在中文醫(yī)學(xué)文本挖掘領(lǐng)域應(yīng)用的另一制約因素是國內(nèi)標注數(shù)據(jù)的稀缺性。醫(yī)學(xué)領(lǐng)域目前沒有像一般語料那樣豐富的標記數(shù)據(jù),尤其是電子病歷數(shù)據(jù),如何在共享中保護患者的隱私是需要考慮的問題。另一方面,醫(yī)療數(shù)據(jù)包含復(fù)雜、多樣的醫(yī)學(xué)知識,標注難度較大。雖然國內(nèi)已有學(xué)者標注了部分臨床文本,但尚無完整、公開共享的已標注的電子病歷數(shù)據(jù)集[29]。因此,在使用ML、DL算法開展EMR非結(jié)構(gòu)化數(shù)據(jù)信息抽取時,仍需要投入大量的時間、精力進行數(shù)據(jù)標注,這對時間寶貴的臨床醫(yī)生來說是個不小的挑戰(zhàn)。

1.3 基于認知模型的方法

因語言理解具有明顯的認知過程,所以除了上述方法外,基于認知科學(xué)的信息抽取研究也越來越多,常見的為基于本體的方法[10]。學(xué)者們較為認可的本體(ontology)的定義是德國學(xué)者Studer等于1998年提出的“本體是共享概念模型的明確的形式化規(guī)范說明”[30]。本體可用來描述特定領(lǐng)域的知識,借助本體進行文本挖掘,相當(dāng)于給挖掘過程“配備”了一名“領(lǐng)域?qū)<摇?,指?dǎo)整個挖掘過程[31],可增強對語義內(nèi)容的理解、推理。由于本體具有能通過概念之間的關(guān)系來表達概念語義的能力,所以將本體應(yīng)用于NLP領(lǐng)域,能夠提高系統(tǒng)的召回率和準確率,優(yōu)化提取結(jié)果。領(lǐng)域本體與信息抽取的結(jié)合,是當(dāng)前的研究熱點[32]?;诒倔w的信息抽取一般是先建立領(lǐng)域本體,進而根據(jù)本體描述的概念、關(guān)系、層次結(jié)構(gòu)和概念與關(guān)系間的約束等生成抽取規(guī)則,然后再根據(jù)規(guī)則對文檔進行抽取[10]。

為了適應(yīng)特定的臨床問題,通常將知識驅(qū)動的視角(如生物醫(yī)學(xué)本體)與模型相結(jié)合,以定制模型[20]。例如將Word2vec模型與心血管疾病本體相結(jié)合,提供定制解決方案,從生物醫(yī)學(xué)文獻中提取更相關(guān)的心血管疾病相關(guān)術(shù)語[33]。Feichen等的研究提供了一種基于不同知識存儲庫選擇的人類表型本體生成自定義節(jié)點嵌入的方法,以便通過分析臨床敘述中的患者表型表征來加速罕見病鑒別診斷[34]。Popejoy等的研究描述了一種護理協(xié)調(diào)本體,該本體旨在從護理筆記中識別和提取護理協(xié)調(diào)活動,并展示了如何量化這些活動[35]。

2 非結(jié)構(gòu)化電子病歷數(shù)據(jù)處理時的標準化問題

使用EMR數(shù)據(jù)進行臨床研究時,EMR數(shù)據(jù)應(yīng)滿足臨床研究數(shù)據(jù)的質(zhì)量標準,如賴俊愷等的研究借鑒使用了臨床數(shù)據(jù)交換標準協(xié)會(The Clinical Data Interchange Standards Consortium,CDISC)標準用于EMR數(shù)據(jù)到臨床研究數(shù)據(jù)的標準轉(zhuǎn)化,應(yīng)用了AI領(lǐng)域的NLP技術(shù),開發(fā)了臨床研究中非結(jié)構(gòu)化文本數(shù)據(jù)的電子來源(eSource)模式,根據(jù)CDISC標準填寫病例報告表,以滿足數(shù)據(jù)收集中的監(jiān)管和可追溯性要求[36]。

匯集不同來源的EMR數(shù)據(jù)時,需要構(gòu)建一致性標準,以實現(xiàn)共享,具體包括對數(shù)據(jù)項類型、屬性等的定義,或進行術(shù)語映射。如將提取到的標簽與CDISC ODM特定術(shù)語表、國際疾病分類(ICD-10)進行映射,建立研究專用術(shù)語庫[36]。但ICD-10作為標準術(shù)語仍比較粗糙,無法完全匹配需抽取的臨床術(shù)語。國外有比較成熟、廣泛應(yīng)用的醫(yī)學(xué)術(shù)語系統(tǒng)、標準或本體,如醫(yī)學(xué)系統(tǒng)命名法-臨床術(shù)語(systematized nomenclature of medicine-clinical terms,SNOMED CT)、統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(unified medical language system,UMLS),用于臨床用語的規(guī)范化表達。這些術(shù)語集可以協(xié)調(diào)一致地在不同的學(xué)科、專業(yè)和機構(gòu)之間實現(xiàn)對于臨床數(shù)據(jù)的標引、存儲、檢索和聚合,便于計算機處理。它與EMR系統(tǒng)的結(jié)合可以實現(xiàn)在不同EMR系統(tǒng)之間協(xié)調(diào)一致地交換臨床信息,方便數(shù)據(jù)挖掘與決策分析。如,英國制訂的服務(wù)于電子病歷管理的國民健康信息基礎(chǔ)架構(gòu)(National Health Information Infrastructure,NHII)就參考使用了SNOMED CT等一系列的術(shù)語標準[37]。而國內(nèi)只在2002年由原衛(wèi)生部授權(quán)對全國住院病人的診斷數(shù)據(jù)編碼使用ICD標準,但尚未應(yīng)用SNOMED CT、UMLS等普遍被認可的術(shù)語系統(tǒng)[4]。此外,這些術(shù)語系統(tǒng)基本基于英語語言開發(fā),中英文的轉(zhuǎn)換工作及中文醫(yī)學(xué)術(shù)語的開發(fā)國內(nèi)有學(xué)者團隊正在進行。如,中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所開發(fā)了與UMLS對應(yīng)的中醫(yī)藥語言系統(tǒng)(Traditional Chinese Medicine Language System,TCMLS),與SNOMED CT對應(yīng)的中醫(yī)臨床術(shù)語系統(tǒng)(Traditional Chinese Medicine Clinical Terminology System,TCMCTS),與MeSH醫(yī)學(xué)主題詞表對應(yīng)的中醫(yī)藥學(xué)主題詞表(Chinese Medical Subject Headings,CMeSH)。但這些中文術(shù)語系統(tǒng)的推廣使用目前還比較有限,尚未發(fā)現(xiàn)其與EMR系統(tǒng)結(jié)合的實踐。非結(jié)構(gòu)化中文醫(yī)學(xué)文本挖掘的標準化工作需要國內(nèi)更多可用的、細粒度的中文標準醫(yī)學(xué)術(shù)語的開發(fā)和完善來推動。

3 非結(jié)構(gòu)化電子病歷數(shù)據(jù)處理的透明化報告問題

如何公開、透明地報告RWD數(shù)據(jù)治理過程,尤其是非結(jié)構(gòu)化數(shù)據(jù)的處理,也是提高真實世界研究可信度的重要議題。2019年哈佛醫(yī)學(xué)院Shirley V.WANG團隊發(fā)表了《使用非結(jié)構(gòu)化電子健康數(shù)據(jù)開展真實世界研究比較效果和安全性研究的報告規(guī)范》[38],列出了使用NLP和ML算法進行非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)挖掘相關(guān)研究中應(yīng)公開報告的9項內(nèi)容,如提供NLP和ML算法的完整描述,包括軟件包的名稱和版本、帶有用于映射臨床概念的本體引文或附錄、算法中包含的輸入和調(diào)整參數(shù)、輸出的詳細信息等,以規(guī)范相關(guān)算法研究的開展和報告。在進行非結(jié)構(gòu)化電子病歷數(shù)據(jù)處理時,各學(xué)者應(yīng)進行過程的透明化報告,確保非結(jié)構(gòu)化數(shù)據(jù)中提取變量的準確性和可復(fù)現(xiàn)性,以提升真實世界研究的質(zhì)量。

4 結(jié)語

EMR是開展真實世界研究的重要數(shù)據(jù)來源之一,但是由于其主要產(chǎn)生于日常醫(yī)療實踐管理而非科研,其數(shù)據(jù)呈現(xiàn)多源異構(gòu)的特點。大量非結(jié)構(gòu)化數(shù)據(jù)的存在,增加了數(shù)據(jù)處理難度,顯著制約了RWD向真實世界證據(jù)的轉(zhuǎn)化效率。因此,有必要對現(xiàn)有非結(jié)構(gòu)化電子病歷數(shù)據(jù)標準化技術(shù)方法進行系統(tǒng)總結(jié)和分析。

處理非結(jié)構(gòu)化電子病歷數(shù)據(jù)可借助多種信息抽取或NLP技術(shù),包括基于詞典或規(guī)則的方法,基于傳統(tǒng)機器學(xué)習(xí)或深度學(xué)習(xí)的方法,以及最近越來越熱門的基于本體的方法,或者多種方法的融合使用。基于詞典或規(guī)則的方法依賴于專家知識手工建立詞典或規(guī)則,不涉及復(fù)雜的計算機算法,適合于較為簡單、規(guī)范的非結(jié)構(gòu)化數(shù)據(jù)處理任務(wù),在臨床NLP中應(yīng)用廣泛,但可移植性較差?;跈C器學(xué)習(xí)或深度學(xué)習(xí)的方法是學(xué)術(shù)NLP的主流方法,大部分需要有已標注的訓(xùn)練數(shù)據(jù)、選擇及訓(xùn)練模型,對計算機算法的掌握水平要求較高,因此應(yīng)積極創(chuàng)建臨床醫(yī)生和計算機專家合作的環(huán)境,促進跨學(xué)科的交流,加速醫(yī)療數(shù)據(jù)合作挖掘,同時也應(yīng)積極推動中文電子病歷語料庫的建設(shè),在保護患者隱私的同時積極探索資源的共享模式。在信息的使用、重用、共享和互操作性方面,本體已經(jīng)成功地應(yīng)用于生成和提供領(lǐng)域知識?;诒倔w的方法,以本體知識為支撐,整合其他信息抽取技術(shù),借助本體對領(lǐng)域共享概念的知識表達和推理能力,可優(yōu)化提取結(jié)果,促進結(jié)果的標準化、共享、重用和互操作性,為進一步的數(shù)據(jù)融合打下基礎(chǔ)。但當(dāng)前中文醫(yī)學(xué)本體、醫(yī)學(xué)知識圖譜的語義資源還非常稀缺,尤其缺乏細粒度的醫(yī)學(xué)本體,因此需要加速中文醫(yī)學(xué)本體的發(fā)展,以促進和帶動基于本體的醫(yī)學(xué)信息抽取的發(fā)展,最終助力健康醫(yī)療大數(shù)據(jù)的價值轉(zhuǎn)化。

猜你喜歡
術(shù)語結(jié)構(gòu)化病歷
強迫癥病歷簿
趣味(語文)(2021年9期)2022-01-18 05:52:42
促進知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
“大數(shù)的認識”的診斷病歷
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
計算機教育(2020年5期)2020-07-24 08:53:00
為何要公開全部病歷?
村醫(yī)未寫病歷,誰之過?
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
計算機工程(2015年8期)2015-07-03 12:20:35
基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
有感于幾個術(shù)語的定名與應(yīng)用
封丘县| 天祝| 林西县| 逊克县| 宜川县| 高安市| 巢湖市| 汽车| 泗阳县| 罗山县| 扶绥县| 昂仁县| 沙田区| 大兴区| 洮南市| 汾阳市| 澜沧| 壤塘县| 涟源市| 尤溪县| 巨鹿县| 白朗县| 定陶县| 铁岭县| 托里县| 洛阳市| 隆德县| 永顺县| 临西县| 广州市| 霸州市| 隆昌县| 葵青区| 新巴尔虎右旗| 怀集县| 工布江达县| 金秀| 沙湾县| 江川县| 海南省| 远安县|