姬娜,李桂祥,陳鵬崗
西安交通大學第二附屬醫(yī)院 信息網(wǎng)絡部,陜西 西安 710004
近年來,臨床決策支持系統(tǒng)成為各大醫(yī)療機構關注與發(fā)展的熱點,隨著醫(yī)院規(guī)模的不斷擴張和醫(yī)療數(shù)據(jù)的爆發(fā)式增長,如何利用大數(shù)據(jù)處理技術從海量業(yè)務數(shù)據(jù)中發(fā)掘有針對性的信息,構建疾病模式知識庫,輔助醫(yī)生進行臨床決策,成為未來醫(yī)院醫(yī)療信息化建設發(fā)展的趨勢[1-2]。
目前,臨床醫(yī)生在疾病診斷的過程中大都綜合臨床癥狀、體征和輔助檢查來做出判斷,所以對診斷質量和標準把握不高,無法利用電子病歷信息系統(tǒng)所積累的數(shù)據(jù)來做臨床決策支持。精準醫(yī)療是一種基于病人定制的醫(yī)療模式,通過醫(yī)學數(shù)據(jù)和專業(yè)知識分析患者病癥,提供個性化疾病治療方案,基于這種迫切的需求,臨床決策支持系統(tǒng)(Clinical Decision Support System,CDSS)的開發(fā)與應用將被進一步有效推動[3-4]。
基于疾病模式的臨床決策支持系統(tǒng)構建將當前醫(yī)療行為過程中記錄的散落診療數(shù)據(jù)整合成標準的患者疾病模式。然后對不同疾病的不同核心信息進行轉換和識別之后確定“這是一個什么樣的患者”“哪些是相似的患者”“這是一種什么疾病”“如何評價一個診療過程質量”。因此,構建的系統(tǒng)有助于為患者個體的疾病診斷和治療提供精準的決策,從而提高醫(yī)生的診療水平及醫(yī)療質量,最終受益于患者。
美國典型的臨床決策支持系統(tǒng)包括QMR、DXplain、MYCIN、Isabel、VisualDX等在發(fā)展過程中的問題及經(jīng)驗值得我們借鑒[5-6]。2007年,IBM開發(fā)的“沃森(Watson)”人工智能系統(tǒng)不斷與各醫(yī)院、診所、疾病研究中心合作,將“沃森”應用到醫(yī)療的各個方面,但“沃森”在中國的工作仍面臨著本土化問題[7-8]。國內臨床決策支持系統(tǒng)主要以單病種或單學科的診斷為主,多處于探索階段。真正具有基于不同患者的個性化分析及輔助決策功能的臨床決策支持系統(tǒng)還未實現(xiàn)[9-10]。
臨床決策支持系統(tǒng)的推理方法——基于規(guī)則、基于案例和基于模型等[11-13]?;谝?guī)則效率高、知識庫構造簡單,但表述規(guī)則難度大和存在知識瓶頸?;谀P拖啾然谝?guī)則的方法,降低了知識表示與抽取的難度?;诎咐饕咐靡延薪?jīng)驗。陳全福等[11]使用案例推理(Case-Based Reasoning,CBR),通過對案例的學習來拓展臨床思維,然后采用智能神經(jīng)算法進行自我學習,但由于病情多樣性、案例多屬性、屬性值的復雜性和不確定性,案例表示具有局限性,對噪音數(shù)據(jù)敏感,案例修正規(guī)則獲取困難。徐云偉[12]將文本形式的臨床指南基于適當?shù)慕P纬捎嬎銠C可讀的形式,通過執(zhí)行指南,在診療過程中提供針對性建議。但大多數(shù)臨床指南是基于靜態(tài)文本的自然語言,因此計算機無法對未經(jīng)結構化的、基于自由文本的指南進行分析。劉永斌等[13]提出基于知識庫的臨床決策支持系統(tǒng)技術框架,但權威知識庫建設困難、醫(yī)學知識更新迅速、臨床診斷中不確定因素較多、推理機制復雜。
疾病識別通常采用專家醫(yī)師根據(jù)自身的經(jīng)驗進行分析,得出結果。疾病模式識別是以識別疾病特征的方法研究疾病科學問題,疾病特征識別就是從數(shù)據(jù)集的數(shù)據(jù)中識別出某類事物最具代表性特征子集的過程。通過度量不同特征與類別的相關程度,實現(xiàn)在高維特征中選取與類別相關度高的特征子集[14-15]。根據(jù)病患在真實臨床條件下所生成的數(shù)據(jù)出發(fā),對這些在醫(yī)院內積累的大量數(shù)據(jù)進行深度治理、分析和挖掘,尋找體征、診斷、用藥、治療方式等的相關性,結合醫(yī)學知識圖譜,最終形成患者畫像,疾病模式生成如圖1所示:
圖1 疾病模式生成示意圖
建立每個疾病的專屬疾病模式,除疾病中基本信息、一訴五史、體格檢查、??茩z查、診斷等之外,每個疾病都有自己專屬的疾病信息,各類??葡到y(tǒng)疾病信息,包括疾病名、縮寫、別名、ICD疾病代碼、臨床表現(xiàn)、并發(fā)癥、實驗室檢查、其它輔助檢查、診斷、鑒別診斷、手術、治療、預后、隨訪等。
疾病模式的建立有賴于臨床信息化進程中產生的大量真實醫(yī)療數(shù)據(jù),這些數(shù)據(jù)的產生以醫(yī)生與患者的診療活動為核心,并以結構化與非結構化數(shù)據(jù)的形式存在于HIS、LIS、PACS、腦卒中信息系統(tǒng)以及遠程會診系統(tǒng)等中。首先,結構化數(shù)據(jù)包括:患者人口學信息、檢驗結果、醫(yī)囑信息、診斷信息等,將這些數(shù)據(jù)進行標準化、歸一化直接與現(xiàn)有知識庫關聯(lián)。其次,非結構化數(shù)據(jù)包括:入院記錄、病程記錄、出院小結、手術記錄、影像學報告、病例學報告等。這些數(shù)據(jù)進入自然語言處理模塊進行處理,關聯(lián)臨床醫(yī)學術語標準(SNOMED CT)、國際疾病分類(ICD 10)、面向藥物的命名系統(tǒng)RxNorm、針對觀測指標的編碼系統(tǒng)LOINC、基因本體(gene ontology)、DRUGBANK等國際標準術語集[16],提取隱含事實信息,包括醫(yī)學義元顆粒度分詞、醫(yī)學命名實體識別、語義依存分析、語法結構解析等模塊,從非結構化文本中提取標準有效的信息,使其得到有效治理,形成結構化的數(shù)據(jù)倉庫。
在已經(jīng)完成清洗、標準化(歸一)、結構化的數(shù)據(jù)之上,通過機器學習,進一步豐富患者畫像(特征向量),通過概率統(tǒng)計、因果推斷、主成分分析(Principal Component Analysis,PCA)、高斯混合模型(Gaussian Mixture Model,GMM)等方法去推薦可能的疾病診斷,最終產生服務于臨床診療、診斷、治療、預后的疾病模式。糖尿病和白血病兩種疾病模式建立,見圖2。
圖2 兩種疾病模式建立示意圖
患者畫像是對當前病人疾病狀況的刻畫。通過收集和處理大量數(shù)據(jù),接入疾病模式,構建以患者為中心的疾病畫像?;颊呒膊【S度的畫像,是指以患者的各個活動記錄為元數(shù)據(jù),每次就診的病歷為組織,以病歷主診斷聚合出來的“疾病軸”為對象,將患者疾病的各個屬性(疾病癥狀、各種不同的治療方案、病情的檢驗、檢查體現(xiàn)等)抽象成特征向量,然后建模,通過權重的調節(jié)和條件的設置,建立相似患者和合并疾病、并發(fā)疾病等模式。
數(shù)據(jù)處理平臺基于主流的云計算和大數(shù)據(jù)技術,采用多節(jié)點服務器堆疊技術(Hadoop2.0)框架及Spark并行計算框架,采取應用與計算能力的架構設計和Docker封裝技術?;趦却妗SD高效存儲介質的搜索引擎通過數(shù)據(jù)分片技術,構建在整個私有云分布式計算框架之上,實現(xiàn)院內數(shù)據(jù)的“百度”,支持在癥狀、用藥、患者特征等診療維度的統(tǒng)計分析。
對疾病數(shù)據(jù)源進行預處理后,整理成能進行分析的格式或結構,形成以疾病為中心、元數(shù)據(jù)為基礎的知識庫數(shù)據(jù),分析出疾病參數(shù)與疾病發(fā)生之間的一些規(guī)則,得到需要的臨床知識,給出治療和藥品用量、用法、用次等方面的建議,供醫(yī)生和患者協(xié)調選擇,對超過范圍的醫(yī)療指標進行報警,指出不合理的醫(yī)囑等意見,保證診斷結果的客觀性、科學性。系統(tǒng)架構,見圖3。
數(shù)據(jù)處理平臺需要解決數(shù)據(jù)獲取、數(shù)據(jù)清洗等方面的工作,通過將醫(yī)院當前HIS和兩個歷史HIS、LIS、PACS、手麻、心電、病理等系統(tǒng)的數(shù)據(jù)通過ETL進行抽取、匯集、結構化、映射到兼容國際國內醫(yī)療數(shù)據(jù)規(guī)范標準的全局Schema中,對字段信息清洗和語義歸一,為上層應用服務提供準確的基礎數(shù)據(jù)支撐和業(yè)務模型訓練。
標準化保證后續(xù)應用的準確性和統(tǒng)計口徑的一致性,參照ICD10、ICD9、LOINC、藥品基本數(shù)據(jù)庫、醫(yī)療服務價格項目、醫(yī)用耗材基本數(shù)據(jù)庫、醫(yī)學一體化語言系統(tǒng)(Uni fi ed Medical Language System,UMLS)、醫(yī)學主題詞表(Medical Subject Headings,MeSH)、臨床醫(yī)療術語集(Systematized Momenclature of Medicine-Clinical Terms,SMOMEDCT)、中文醫(yī)療健康知識圖譜等國內外通用標準,對現(xiàn)有數(shù)據(jù)的診斷、手術、藥品、檢驗、檢查以及科室等信息進行標準化、規(guī)范化,形成以患者為中心的數(shù)據(jù),也可自定義數(shù)據(jù)采集表,通過醫(yī)生或患者進行錄入或批量導入,還可結合平臺自身客觀數(shù)據(jù),包括公共衛(wèi)生數(shù)據(jù)、基因檢測數(shù)據(jù)、第三方開放數(shù)據(jù)等。
結構化保證數(shù)據(jù)隱含的高價值信息被完整的提取和應用。通過自然語義處理模塊,結合醫(yī)療專業(yè)術語的語義結構,將醫(yī)療語義信息從原始的自然語言表達,擴展分析為結構化的Key-Value模式,主要從若干個獨立維度來進行,對癥狀、體征、過敏史、診斷、鑒別診斷、病理診斷等字段進行劃分,臨床數(shù)據(jù)結構化處理軟件框架,見圖4。
圖4 臨床數(shù)據(jù)結構化處理軟件框架
CDSS的功能在于能夠模擬醫(yī)療專家診斷疾病的思維過程,Hadoop開源云計算平臺存儲和處理數(shù)據(jù)平臺所整合的大數(shù)據(jù),通過大數(shù)據(jù)技術來獲取和處理多元異構的各類數(shù)據(jù),將統(tǒng)計分析方法與機器學習相結合,在經(jīng)過標準化和結構化數(shù)據(jù)之后,利用SPSS統(tǒng)計工具,以糖尿病為例,將各階段患者的多次生理指標作為研究對象,進行Logistic回歸分析,采用分類、聚類、關聯(lián)規(guī)則對糖尿病原始數(shù)據(jù),包含診斷、生化、糖化、檢驗等多個臨床指標及用藥數(shù)據(jù)進行多維度分析和計算,并由此構建糖尿病數(shù)據(jù)倉庫,提取葡萄糖、甘油三酯、血清尿酸、載脂蛋白、總膽紅素、血清白蛋白等14個屬性作為特征變量,通過決策樹機器學習方法實現(xiàn)對糖尿病的分類,糖化血紅蛋白測定值在4%~6%(或己糖激酶GLU-HK在3.9~6.1 mmol/L)為正常參考范圍;糖化血紅蛋白>6.5%均視為糖尿病,分類為“糖尿病”“妊娠期糖尿病”“糖尿病合并冠心病”等共計8類,選取與8類相關的處理后的結構化病歷數(shù)據(jù)作為樣本數(shù)據(jù),供機器學習,形成知識庫。
系統(tǒng)構建在虛擬化平臺上,采用VMware虛擬化軟件。虛擬化軟件運行在3臺高檔服務器和2臺高檔存儲上,服務器配置4顆Intel Xeon E7-4820 v4緩存,內存256 GB DDR4 2400 MHz,硬盤5×600 GB;存儲配置2個SAN+NAS統(tǒng)一存儲節(jié)點,支持SAN和NAS存儲模式;存儲網(wǎng)絡交換機2臺,各含12個16 GB短波SFP,交換能力≥768 GB/s。虛擬主機安裝Windows Server 2003 R2操作系統(tǒng),使用多臺虛擬主機分別運行應用服務軟件、數(shù)據(jù)集成平臺、數(shù)據(jù)庫服務軟件。
系統(tǒng)通過集成平臺Health Connet與醫(yī)院其他信息系統(tǒng)的數(shù)據(jù)進行集成,抽取當前HIS和兩個歷史HIS庫中病歷數(shù)據(jù)488916份到數(shù)據(jù)中心,通過疾病名篩選、樣本病例庫數(shù)據(jù)的標準化、專家修訂和機器自學建立糖尿病、白血病兩種疾病模式,將臨床決策支持系統(tǒng)模塊嵌入我院門診醫(yī)生工作站,輔助醫(yī)生臨床診療決策。
基于疾病模式的臨床決策支持系統(tǒng)構建是在對醫(yī)院產生的醫(yī)療真實數(shù)據(jù),采用人工智能等大數(shù)據(jù)處理方法建立起疾病模式的基礎上,依據(jù)信息系統(tǒng)獲取的病人的當前信息,實現(xiàn)對醫(yī)生診療過程的個性化建議。將CDSS整合到門診醫(yī)生站后,幫助門診醫(yī)生進行臨床診斷輔助決策支持。統(tǒng)計入院方式為門診入院的確診糖尿病病人,以今年3月份277例出院糖尿病門診診斷符合率為98.2%和去年3月份252例出院糖尿病門診診斷符合率為95.2%比較,門診診斷質量有所提高。下一步針對肺結核、肺癌等疾病,構建相應疾病模式,開展進一步探討,提升臨床診療質量和安全管理能力,更好的服務于患者。