榮雯雯,汪 剛,朱其立
1. 上海市胸科醫(yī)院,上海交通大學附屬胸科醫(yī)院統(tǒng)計中心,上海 200030;2. 上海交通大學電子信息與電氣工程學院,上海 200240
在當下的大數(shù)據(jù)時代,數(shù)據(jù)可通過挖掘來實現(xiàn)其自身的價值[1]。作為臨床診療活動的重要場所,醫(yī)院應當充分利用其院內(nèi)海量的醫(yī)療數(shù)據(jù),供醫(yī)師開展相關臨床研究,挖掘出深層次的規(guī)律[2]。有報道[3]顯示,加強與重視醫(yī)院的臨床研究的開展,不僅可以推動臨床上新技術(shù)的發(fā)展,還能夠提高診療水平。目前,絕大多數(shù)醫(yī)師收集科研數(shù)據(jù)仍需要從病案室借閱病歷,再通過手工記錄加以整理;即使部分醫(yī)院已實現(xiàn)了電子病歷無紙化,即將病案首頁中的結(jié)構(gòu)化數(shù)據(jù)整理成數(shù)據(jù)庫,但對于電子病歷文本中的大量非結(jié)構(gòu)化數(shù)據(jù)的使用,仍需要醫(yī)師通過手動來查找。一方面,手工查找費時費力,效率較低[4];另一方面,通過該種方式使用如此海量的醫(yī)療數(shù)據(jù),或?qū)⒔o臨床研究造成極大的信息資源浪費。因此,如何通過人工智能(artificial intelligence,AI)實現(xiàn)對電子病歷文本信息的有效利用,以輔助臨床醫(yī)師挖掘醫(yī)學規(guī)律、提高臨床診療水平成為了當下的研究熱點[5]?;诖?,本研究以某三甲專科醫(yī)院為例,通過采用AI 技術(shù)將電子病歷文本信息結(jié)構(gòu)化形成數(shù)據(jù)庫,以期為臨床研究的順利開展提供價值支撐。
為進一步提升某三甲??漆t(yī)院臨床研究的廣度和深度,在保障數(shù)據(jù)安全、準確及完整的前提下,收集2007年10 月—2019 年9 月于該三甲??漆t(yī)院就診患者的全部電子病歷文本信息。
1.2.1 專病數(shù)據(jù)庫的系統(tǒng)設計 采用基于容器技術(shù)的分布式架構(gòu)(Kubernetes,K8s)實現(xiàn)對專病數(shù)據(jù)庫的建設。該平臺能夠采集醫(yī)院現(xiàn)有的業(yè)務應用系統(tǒng)[如醫(yī)院信息系統(tǒng)(hospital information system,HIS)、實驗室信息系統(tǒng)(laboratory information system,LIS)、放射信息系統(tǒng)(radiology information system,RIS)、電子病歷系統(tǒng)(electronic medical record,EMR)等]的臨床數(shù)據(jù),從而實現(xiàn)患者從門診、急診、住院及隨訪等的就診、住院及預后信息的集成。其臨床數(shù)據(jù)采集范圍包括出院小結(jié)、病案首頁、手術(shù)記錄、檢查檢驗報告、病程記錄等。通過自然語言處理、知識圖譜、機器學習等AI 引擎實現(xiàn)各類醫(yī)學文本數(shù)據(jù)的結(jié)構(gòu)化、標準化和歸一化等處理。該專病數(shù)據(jù)庫的設計將為臨床研究提供專病概覽、智能科研檢索、隊列發(fā)現(xiàn)、科研統(tǒng)計分析等功能模塊。其系統(tǒng)設計見 圖1。
圖1 專病數(shù)據(jù)庫的系統(tǒng)設計流程圖Fig 1 System design flowchart of specialized disease database
1.2.2 專病數(shù)據(jù)庫實現(xiàn)的關鍵技術(shù)
(1)復制技術(shù)和變更捕獲技術(shù) 在專病數(shù)據(jù)庫的建設過程中,需采用數(shù)據(jù)庫復制技術(shù)和變更數(shù)據(jù)捕獲(change data capture,CDC)技術(shù)建立實時復制庫,在復制庫中進行實時數(shù)據(jù)集成。數(shù)據(jù)庫復制的方式包括2 種,即關系型數(shù)據(jù)庫SQL Server(structured query language server )利用發(fā)布訂閱的方式進行復制,以及Oracle GoldenGate[6]數(shù)據(jù)復制技術(shù)。在復制數(shù)據(jù)庫的同時,采用CDC 技術(shù)對日志文件(任何操作都會寫進其中)中發(fā)生變更的數(shù)據(jù)進行實時捕獲,如增、刪、改等操作。該技術(shù)會把更改應用到數(shù)據(jù)文件中,同時將符合要求的數(shù)據(jù)標記為需要添加跟蹤的項。數(shù)據(jù)實時集成的技術(shù)架構(gòu)見圖2。
圖2 數(shù)據(jù)實時集成的技術(shù)架構(gòu)圖Fig 2 Technical architecture diagram of real-time data integration
(2)醫(yī)學自然語言處理 基于醫(yī)院的海量病歷文書,使用無監(jiān)督學習、監(jiān)督式學習、主動學習、遷移學習等機器學習方法建立一整套針對中文醫(yī)學文本的分層式自然語言處理(natural language processing,NLP)系統(tǒng),對醫(yī)學文本進行信息抽取、結(jié)構(gòu)化轉(zhuǎn)換以及標準化處理,包括醫(yī)學文本分詞、醫(yī)學詞性標記、醫(yī)學命名實體識別、實體標準化和實體關系抽取、醫(yī)學文本語義依存分析等環(huán)節(jié)。① 醫(yī)學文本分詞:對電子病歷文本采用IKAnalyzer 開源分詞工具[7],按照正向最大匹配法將文本中的字符串與充分大的機器詞典的詞條進行匹配。若在詞典中找到某一長度的字符串,則匹配成功。②醫(yī)學詞性標記:采用基于規(guī)則的標注方法[8],對電子病歷文本中的每個詞的詞性加以標注。③醫(yī)學命名實體識別:醫(yī)學領域中的命名實體包括疾病名稱、藥物名稱、檢查項目名稱、手術(shù)操作名稱、癥狀、器官部位等,采用融合注意機制(Attention)的雙向長短期記憶網(wǎng)絡(bidirectional long short-term memory,Bi-LSTM)[9]設計的主動型深度學習對醫(yī)學命名實體進行識別,平均精度可超過97%。④實體標準化和實體關系抽?。翰捎脵C器學習法實現(xiàn)對實體標準化和實體關系的抽取。⑤醫(yī)學文本語義依存分析:包括確信度分類、時序解析、關聯(lián)抽取、語義樹構(gòu)建的整套流程,針對各種內(nèi)容和類型的醫(yī)學文本的行文方式建立語言學模型,并以結(jié)構(gòu)學習的形式完成端對端的解析,信息抽取覆蓋度占文本內(nèi)包含可提取信息的96%以上。
(3)數(shù)據(jù)質(zhì)量評估 專病數(shù)據(jù)庫建成后,定期進行數(shù)據(jù)完整性和準確性評估,即根據(jù)不同病種的實際特點,采用標準化AI 自動糾錯功能,將糾錯后數(shù)據(jù)與原數(shù)據(jù)進行對比查詢,追溯到前端系統(tǒng),以提高數(shù)據(jù)錄入的準確性;同時,還需從專病數(shù)據(jù)庫中隨機抽調(diào)數(shù)據(jù),與目前的病案首頁系統(tǒng)中的數(shù)據(jù)進行比對,以確保數(shù)據(jù)的準 確性。
當前,本研究已完成肺癌、食管癌、縱隔腫瘤3 個專病全量數(shù)據(jù)庫的建設,包含2007—2019 年肺癌就診患者71 263 例、食管癌就診患者5 883 例、縱隔腫瘤就診患者5 438 例,住院文書記錄結(jié)構(gòu)化數(shù)量253 000 條,形成3 個專病相關變量集,即肺癌包含485 個變量、食管癌559 個變量、縱隔腫瘤481 個變量,自動填充率為40%~56%。與傳統(tǒng)的數(shù)據(jù)庫相比,該專病數(shù)據(jù)庫存在如下優(yōu)勢:①實現(xiàn)了臨床文本信息的后結(jié)構(gòu)化,擴大了檢索范圍即支持全文本檢索,解決了臨床研究中數(shù)據(jù)采集范圍受限的問題。②不僅支持按照已設定的變量進行數(shù)據(jù)檢索,還支持關鍵字模糊檢索,從而縮短了檢索周期,提升了臨床研究中數(shù)據(jù)檢索的效率。③解決了數(shù)據(jù)沉淀不足導致無法直接使用的問題,滿足了臨床醫(yī)生的科研需求。具體應用實例見 圖3 ~圖5。
截至2019 年底,申請使用該數(shù)據(jù)庫的前3 個科室分別為呼吸科、放療科及腫瘤外科,申請次數(shù)分別為9、4和2 次;已有多位臨床醫(yī)師利用專病數(shù)據(jù)庫中預處理后的數(shù)據(jù)構(gòu)建臨床事件的預測模型,并采用機器學習的方式對疾病的發(fā)生及發(fā)展等影響因素進行多因素分析;同時,也有部分臨床醫(yī)師采用數(shù)據(jù)庫中的數(shù)據(jù)進行臨床隊列研究。目前,已有臨床醫(yī)師利用專病數(shù)據(jù)庫中的數(shù)據(jù)進行胸腔鏡肺手術(shù)轉(zhuǎn)開胸的危險因素及影響的研究,并成功發(fā)表文章。
圖3 專病數(shù)據(jù)庫變量選擇的界面Fig 3 Interface of variable selection of specialized disease database
圖4 病理報告中關鍵詞的檢索結(jié)果Fig 4 Retrieval results of key words in pathological reports
圖5 檢索結(jié)果溯源、定位顯示的界面Fig 5 Interface for tracing and displaying of search results
本研究就病歷文本信息進行二次利用,構(gòu)建專病數(shù)據(jù)庫。與建設前相比,該數(shù)據(jù)庫存在如下優(yōu)勢:①支持全文本數(shù)據(jù)檢索及關鍵字模糊匹配檢索,極大地縮短了檢索周期,減輕了臨床醫(yī)師數(shù)據(jù)整理的負擔。②檢出的數(shù)據(jù)可直接用于基本的統(tǒng)計描述功能如性別比、年齡構(gòu)成等,從而為臨床研究提供了病歷篩選和數(shù)據(jù)分析的模型支持,滿足科研需求。③隨著院外隨訪數(shù)據(jù)與該數(shù)據(jù)庫的成功對接,可直接使用預處理后的海量原始數(shù)據(jù)進行臨床隊列研究訓練,實現(xiàn)對研究對象的全面分析,獲得更充分的研究結(jié)果。
然而,在專病數(shù)據(jù)庫的建設過程中也遇到一些困難:①針對同一種特征描述,醫(yī)師有多種寫法。例如,對于陰性癥狀的描述,則有“否認某癥狀”“無某癥狀”“某癥狀(-)”“未觸及某癥狀”等。需向NLP 系統(tǒng)提供更高的提取精度、歸一化術(shù)語表達,實現(xiàn)醫(yī)學術(shù)語標準化。②提取變量時存在部分字段缺失。需通過缺失值填補形成智能化數(shù)據(jù)庫,以提高數(shù)據(jù)完整性。③在建成初期,數(shù)據(jù)庫系統(tǒng)不穩(wěn)定導致數(shù)據(jù)調(diào)取時間延遲等。需及時向技術(shù)人員進行反饋并加以維護,同時需提高技術(shù)人員工作的嚴謹性。此外,該數(shù)據(jù)庫也存在一些不足,如在數(shù)據(jù)抽取的方法上,未來可采用準確率更高的方法,即考慮結(jié)合深度學習相關的算法模型等,更加充分地利用數(shù)據(jù)本身的特征實現(xiàn)信息化抽取。綜上,專病數(shù)據(jù)庫的建設是一個不斷探索的過程,需逐步積累經(jīng)驗、學習新的信息化技術(shù),未來或?qū)榕R床研究提供有力的價值支撐。
參·考·文·獻
[1] 劉利釗, 洪江水, 劉莉莉, 等. 面向大數(shù)據(jù)圖像處理的尺度空間挖掘算法及應用[J]. 上海交通大學學報, 2015, 49(11): 1731-1735.
[2] 王忠慶, 邵尉, 彭程, 等. 醫(yī)療大數(shù)據(jù)時代對醫(yī)院統(tǒng)計工作的新思考[J]. 中國衛(wèi)生統(tǒng)計, 2015, 32(3): 542-543.
[3] 王藜篥. 加強醫(yī)院科研發(fā)展與管理對提升醫(yī)院核心競爭力的影響[J]. 中國衛(wèi)生產(chǎn)業(yè), 2017, 14(16): 126-127.
[4] 甘霖. 基于云計算的電子病歷全文檢索系統(tǒng)[J]. 中國數(shù)字醫(yī)學, 2016, 11(12): 41-43.
[5] 彭紅波, 韓晟, 王婷婷. 基于Solr的電子病歷全文檢索系統(tǒng)的設計與實現(xiàn)[J]. 中國醫(yī)療設備, 2019, 34(3): 102-105.
[6] 宓正宇. 基于Goldengate 的數(shù)據(jù)庫異地災備實現(xiàn)[J]. 電信科學, 2018, 34(4): 136-143.
[7] 柴潔. 基于IKAnalyzer和Lucene的地理編碼中文搜索引擎的研究與實現(xiàn)[J]. 城市勘測, 2014(6): 45-50.
[8] 彭濤, 戴耀康, 朱楓彤, 等. 一種基于規(guī)則的無監(jiān)督詞性標注方法[J]. 吉林大學學報(理學版), 2015, 53(5): 956-962.
[9] 劉飛龍, 郝文寧, 陳剛, 等. 基于雙線性函數(shù)注意力Bi-LSTM 模型的機器閱讀理解[J]. 計算機科學, 2017, 44(S1): 92-96, 122.