王永艷 魚兆虎
摘要:醫(yī)院數(shù)據(jù)平臺(tái)的重要任務(wù)之一,是建立臨床數(shù)據(jù)存儲(chǔ)庫,實(shí)現(xiàn)以患者為中心的,即時(shí)性的,互操作性的集成臨床數(shù)據(jù),提供出全景的患者數(shù)據(jù)視圖。該文旨在探索復(fù)雜數(shù)據(jù)資源集成整合、數(shù)據(jù)分析和預(yù)測(cè),更好的挖掘數(shù)據(jù)價(jià)值。通過建立一組統(tǒng)一的數(shù)據(jù)接口,將各個(gè)系統(tǒng)中分散的數(shù)據(jù)整合匯總,通過對(duì)數(shù)據(jù)的解析、梳理和重構(gòu)做出面向不同角色不同層面的應(yīng)用。在Linux平臺(tái)上,建立基于B/S結(jié)構(gòu)的一個(gè)醫(yī)院數(shù)據(jù)可視化分析。通過這個(gè)網(wǎng)站,可以更加方便查看、統(tǒng)計(jì)、分析數(shù)據(jù)。可用于管理決策類應(yīng)用:決策支持(BI)、患者隨訪、臨床路徑統(tǒng)計(jì)、疾病追溯、患者安全控制以及病歷的查詢、數(shù)據(jù)上報(bào)等。
關(guān)鍵詞:大數(shù)據(jù)MVC;ETL;分布式數(shù)據(jù)庫;數(shù)據(jù)可視化分析
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)22-0007-02
Abstract: One of the important tasks of hospital data platform is to set up clinical data repository, realize the integrated clinical data with patients as the center, and provide a panoramic view of patient data. This paper aims to explore the integration of complex data resources, data analysis and prediction, and to better explore the value of data. By establishing a set of unified data interfaces, the scattered data in each system is integrated and summarized, and the application to different roles and different levels is made by analyzing, sorting, and reconstructing the data. On the Linux platform, a hospital data visualization analysis based on the B/S structure is established. Through this website, it is more convenient to view, count and analyze data. It can be used for management decision-making applications: business intelligence (BI), patient follow-up, clinical path statistics, disease tracing, patient safety control, and medical record inquiries, data reporting, etc..
Key words: big data; ETL; MVC; distributed database; data visualization analysis
1 背景
在我院的信息系統(tǒng)中累積了大量的、寶貴的臨床數(shù)據(jù)資源,尤其是結(jié)構(gòu)化的電子病歷系統(tǒng)更是產(chǎn)生了大量的、臨床科研必需的病歷信息,大型醫(yī)院平均每年增加幾十個(gè)TB的數(shù)據(jù)。由于這些數(shù)據(jù)增長很快且結(jié)構(gòu)復(fù)雜,給數(shù)據(jù)管理和利用帶來較大的壓力,存儲(chǔ)和管理成本不斷提高、數(shù)據(jù)利用困難,利用率低。該文設(shè)計(jì)并實(shí)現(xiàn)了基于對(duì)象存儲(chǔ)、分布式數(shù)據(jù)庫技術(shù)的醫(yī)院數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一存儲(chǔ)和使用。通過與傳統(tǒng)的醫(yī)院信息系統(tǒng)進(jìn)行協(xié)同工作,對(duì)現(xiàn)有單節(jié)點(diǎn)醫(yī)療數(shù)據(jù)庫中存放的各類醫(yī)療數(shù)據(jù)轉(zhuǎn)為分布式存儲(chǔ)管理,并通過ETL技術(shù)實(shí)現(xiàn)對(duì)數(shù)據(jù)的解析、整理與導(dǎo)出,獲得臨床科研、運(yùn)營管理、健康風(fēng)險(xiǎn)評(píng)估等的數(shù)據(jù)分析報(bào)告。
2 系統(tǒng)功能的設(shè)計(jì)與實(shí)現(xiàn)
根據(jù)我院醫(yī)療數(shù)據(jù)信息化建設(shè)的情況,該文設(shè)計(jì)的醫(yī)療數(shù)據(jù)分析系統(tǒng)有四個(gè)模塊:數(shù)據(jù)抽取模塊、數(shù)據(jù)存儲(chǔ)模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)展現(xiàn)模塊。系統(tǒng)結(jié)構(gòu)如圖1所示。
2.1 數(shù)據(jù)來源
研究對(duì)象為醫(yī)院主要的業(yè)務(wù)系統(tǒng),包括HIS,LIS,RIS,PACS等以及在醫(yī)院信息系統(tǒng)中存儲(chǔ)的大量的臨床科研所需的患者診療信息,如電子病歷、收費(fèi)、醫(yī)囑、藥品、檢驗(yàn)、RIS/PACS、手術(shù)麻醉、病理等信息;數(shù)字、文字、影像等各種混合數(shù)據(jù)。
2.2 數(shù)據(jù)抽取模塊
數(shù)據(jù)抽取模塊負(fù)責(zé)對(duì)現(xiàn)有的HIS、LIS、RIS、EMR等醫(yī)療數(shù)據(jù)庫中存放的各類數(shù)據(jù)通過ETL技術(shù)實(shí)現(xiàn)對(duì)數(shù)據(jù)的抽取和清洗、轉(zhuǎn)換和裝載。ETL(Extract-Transform-Load)使用圖形化的配置方式,簡單、靈活而且對(duì)于解決存儲(chǔ)于不同平臺(tái)、數(shù)據(jù)源異構(gòu)等問題具有優(yōu)勢(shì)。在ETL過程中,抽取屬于數(shù)據(jù)的輸入過程,解決的主要是異構(gòu)數(shù)據(jù)的統(tǒng)一問題;而數(shù)據(jù)的裝載可視為數(shù)據(jù)的輸出過程,主要完成從統(tǒng)一的數(shù)據(jù)存儲(chǔ)裝載到目標(biāo)數(shù)據(jù)倉庫中。而中間的轉(zhuǎn)換(包括清洗)主要是對(duì)數(shù)據(jù)質(zhì)量進(jìn)行優(yōu)化。該階段不僅可以對(duì)數(shù)據(jù)的冗余、缺失、錯(cuò)誤等問題進(jìn)行檢查和修正,更重要的是可以使用默認(rèn)或自定義的規(guī)則對(duì)數(shù)據(jù)中的某些字段進(jìn)行合并、轉(zhuǎn)換等操作,大大提高數(shù)據(jù)的正確性、一致性、完整性和可用性[3]。
2.3 標(biāo)準(zhǔn)數(shù)據(jù)接口
數(shù)據(jù)接口方面采用ETL(Extract-Transform-Load的縮寫,即數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程)來抽取原有系統(tǒng)中現(xiàn)有的數(shù)據(jù),提供MQ消息隊(duì)列,XML/RESTful/JSON格式來供新系統(tǒng)或其他應(yīng)用來讀寫數(shù)據(jù)。支持高并發(fā)、分布式計(jì)算,實(shí)現(xiàn)低耦合、高內(nèi)聚設(shè)計(jì)。打破醫(yī)療信息孤島,實(shí)現(xiàn)醫(yī)療數(shù)據(jù)共享。如圖2所示。
2.4 數(shù)據(jù)存儲(chǔ)模塊
通過抽取清洗過的數(shù)據(jù)采用Mongodb進(jìn)行存儲(chǔ)分析,建立創(chuàng)新的底層構(gòu)架和數(shù)據(jù)管理方式為將來的醫(yī)療大數(shù)據(jù)提供海量、橫向擴(kuò)展,高并發(fā),高可用的數(shù)據(jù)服務(wù)。Mongodb數(shù)據(jù)庫的特點(diǎn):一是具有極高的并發(fā)讀寫性能。二是可以在海量數(shù)據(jù)中快速查詢數(shù)據(jù)。三是面向可擴(kuò)展的分布式數(shù)據(jù)庫,它解決了傳統(tǒng)數(shù)據(jù)庫的缺陷, 可以適應(yīng)數(shù)據(jù)量的增加及數(shù)據(jù)結(jié)構(gòu)的變化[4]。
2.5 數(shù)據(jù)展示模塊
數(shù)據(jù)展示模塊采用MVC(Model-View-Controller)三層架構(gòu)。MVC三層架構(gòu)即主要負(fù)責(zé)業(yè)務(wù)邏輯以及數(shù)據(jù)庫交互的模型層(Model)、用于顯示數(shù)據(jù)和提交數(shù)據(jù)的視圖層(View)和用于捕獲請(qǐng)求并控制請(qǐng)求轉(zhuǎn)發(fā)的控制器層(Controller),采用三層架構(gòu)設(shè)計(jì)模式能夠把視圖設(shè)計(jì)與數(shù)據(jù)進(jìn)行分離,降低了耦合性,易于擴(kuò)展,提高程序開發(fā)的效率[5]。數(shù)據(jù)分析系統(tǒng)是建立在Linux平臺(tái)上,基于B/S結(jié)構(gòu)的一個(gè)醫(yī)院數(shù)據(jù)可視化分析。通過這個(gè)網(wǎng)站,可以更加方便查看、統(tǒng)計(jì)、分析數(shù)據(jù)。用戶想要查看的信息由自己創(chuàng)建搜索器查詢保存,然后綁定到視圖上,視圖再綁定到工作臺(tái)上,最終在工作臺(tái)顯示。用戶再次登錄的時(shí)候就無需再次創(chuàng)建搜索器,只需點(diǎn)開工作臺(tái)即可,如圖3所示。
數(shù)據(jù)分析系統(tǒng)用mysql事務(wù)處理型數(shù)據(jù)庫用來存儲(chǔ)用戶信息、搜索器信息、視圖信息、工作臺(tái)信息。主要的數(shù)據(jù)庫表如圖4所示。
3 效果分析
通過該系統(tǒng)能夠整合現(xiàn)有醫(yī)療信息數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行調(diào)研、清洗、抽取理順醫(yī)療數(shù)據(jù)之間關(guān)系;建立對(duì)象數(shù)據(jù)庫,集中存放各種數(shù)據(jù),保證業(yè)務(wù)系統(tǒng)的穩(wěn)定運(yùn)行提供通用數(shù)據(jù)讀寫訪問接口;將業(yè)務(wù)和數(shù)據(jù)進(jìn)行分離提供全面、準(zhǔn)確、多樣、靈活的數(shù)據(jù)查詢:醫(yī)院管理員可以隨時(shí)查看醫(yī)院的經(jīng)營狀況,全院信息共享,可做到及時(shí)決策。醫(yī)院醫(yī)生可以直接利用該系統(tǒng)的數(shù)據(jù)進(jìn)行科研。
4 結(jié)束語
健康醫(yī)療大數(shù)據(jù)既包括個(gè)人健康,又涉及醫(yī)藥服務(wù)、疾病防控、健康保障和食品安全、養(yǎng)生保健等多方面數(shù)據(jù)的匯聚。
利用健康醫(yī)療大數(shù)據(jù),改進(jìn)健康醫(yī)療服務(wù)模式,是我們醫(yī)院IT人追求的目標(biāo)。目前數(shù)據(jù)分析平臺(tái)的使用還存在一些問題:一是本系統(tǒng)只實(shí)現(xiàn)了基本功能,更強(qiáng)大的數(shù)據(jù)挖掘功能還沒能實(shí)現(xiàn),需要逐步完善。二是該系統(tǒng)的用戶反映雖然搜索功能強(qiáng)大但搜索器的管理比較麻煩,我們將針對(duì)方便用戶,簡化操作來做進(jìn)一步調(diào)整。三是由于我院尚未接入?yún)^(qū)域衛(wèi)生信息平臺(tái),未來區(qū)域衛(wèi)生信息平臺(tái)的接入將為我們探索新的高效的數(shù)據(jù)組織方式提供更多思路。
參考文獻(xiàn):
[1] Jone A R. ASP. NET從入門到精通[M]. 高春蓉, 譯. 北京: 電子工業(yè)出版, 2002.
[2] 馬建光, 姜巍. 大數(shù)據(jù)的概念特征及應(yīng)用[J]. 國防科技, 2013, 34(2): 10-17.
[3] 徐俊剛, 裴瑩. 數(shù)據(jù)ETL研究綜述[J]. 計(jì)算機(jī)科學(xué), 2011, 38(4): 15-20.
[4] 劉愉, 王立軍. 基于MongoDB的EHR存儲(chǔ)方案研究與設(shè)計(jì)[J]. 中國數(shù)字醫(yī)學(xué), 2013, 8(6): 20-24.
[5] 王松林, 何貞銘. 基于MVC架構(gòu)模式的員工信息管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 電腦知識(shí)與技術(shù), 2014, 10(33): 7885-7889.
【通聯(lián)編輯:謝媛媛】