翟油華
[摘 要]醫(yī)院信息系統(tǒng)(HIS)的建立,為醫(yī)療單位提供了大量的基礎(chǔ)數(shù)據(jù)。但在較小影響在線運行數(shù)據(jù)庫的前提下,如何為管理決策提供足夠信息,成為一個日益突出的問題。在大量醫(yī)療數(shù)據(jù)中進行有效分析,了解醫(yī)療業(yè)務(wù)的發(fā)展情況,就要充分利用數(shù)據(jù)倉庫技術(shù)來進行數(shù)據(jù)組織、存儲和分析。本文以對出院病人情況分析的主題為例,簡單說明了數(shù)據(jù)倉庫在醫(yī)院信息系統(tǒng)中的應(yīng)用。
[關(guān)鍵詞]數(shù)據(jù)倉庫 醫(yī)院信息系統(tǒng) 數(shù)據(jù)挖掘
[中圖分類號]TP311[文獻標(biāo)識碼]A[文章編號]1007-9416(2009)11-0059-02
目前, 隨著醫(yī)療信息技術(shù)的發(fā)展,大部分醫(yī)院已廣泛使用醫(yī)院信息管理系統(tǒng)。由于該系統(tǒng)大部分都是事務(wù)處理型的,數(shù)據(jù)的組織和存儲均是圍繞事務(wù)處理進行的,這樣的數(shù)據(jù)組織方式不利于大量的數(shù)據(jù)分析和處理,難以提供有效的決策支持信息。隨著數(shù)據(jù)庫技術(shù)的發(fā)展,出現(xiàn)了以支持決策為目的的數(shù)據(jù)倉庫技術(shù)。本文對此進行了討論。
1 數(shù)據(jù)倉庫簡介
1.1 數(shù)據(jù)倉庫的特點
數(shù)據(jù)倉庫之父 W.H.Inmon 定義數(shù)據(jù)倉庫是面向主題的、集成的、非易失的、并且隨時間變化的數(shù)據(jù)集合, 并用來支持管理人員的決策。所謂主題就是在較高的層次上將信息系統(tǒng)中的數(shù)據(jù)綜合、歸類, 并進行分析利用。集成是指對不同來源的數(shù)據(jù)進行清理和歸整后, 以面向主題的數(shù)據(jù)結(jié)構(gòu)統(tǒng)一收集。非易失性則是指一般情況下不能對數(shù)據(jù)倉庫的數(shù)據(jù)進行修改。時間性變化是指不斷捕捉信息系統(tǒng)中的新數(shù)據(jù)加入到數(shù)據(jù)倉庫中。
1.2 數(shù)據(jù)倉庫的結(jié)構(gòu)
數(shù)據(jù)倉庫的總體層次結(jié)構(gòu)由基本功能層、管理層和環(huán)境支持層三部分組成。①基本功能層:包括從數(shù)據(jù)源抽取數(shù)據(jù),對所抽取的數(shù)據(jù)進行篩選、清理,將清理后的數(shù)據(jù)加載到數(shù)據(jù)倉庫中,根據(jù)用戶的需求完成數(shù)據(jù)倉庫的復(fù)雜查詢、決策分析和知識的挖掘等功能;②管理層:包含數(shù)據(jù)管理與元數(shù)據(jù)管理兩部分,主要負責(zé)對數(shù)據(jù)倉庫中數(shù)據(jù)的抽取、清理、加載、更新和刷新等操作進行管理。只要使這些操作正常完成,才能源源不斷地為數(shù)據(jù)倉庫提供新的數(shù)據(jù)源,為使用者正確利用數(shù)據(jù)倉庫進行決策分析和知識挖掘;③環(huán)境支持層: 主要包含數(shù)據(jù)傳輸和數(shù)據(jù)倉庫基礎(chǔ)兩大部份。包括網(wǎng)絡(luò)協(xié)議、網(wǎng)絡(luò)操作系統(tǒng)、數(shù)據(jù)存貯系統(tǒng)等。
1.3 數(shù)據(jù)倉庫的設(shè)計過程
數(shù)據(jù)倉庫是一個循環(huán)往復(fù)的過程,通常涉及數(shù)據(jù)的選擇、變換、建模、評估、解釋模型、運用和鞏固模型等步驟。(數(shù)據(jù)倉庫設(shè)計的基本過程如下圖所示)。
2 在醫(yī)院信息決策系統(tǒng)中的應(yīng)用
在醫(yī)院信息系統(tǒng)中,存儲動態(tài)增長迅速的明細表主要有門診收費信息、住院收費信息、醫(yī)囑信息、各種藥品或物資的進出庫明細等。這些信息可以是以病種、病人來源、治療方案、診治費用、采購計劃等為主題,來分析不同病種、發(fā)展趨勢、治療方法及治療效果、診治費用等等,以支持醫(yī)院內(nèi)部控制和決策管理。有些流行病學(xué)的數(shù)據(jù),也可利用數(shù)據(jù)倉庫進行主題研究。將醫(yī)院信息系統(tǒng)中的各部分應(yīng)用集成在一起是一個復(fù)雜的工作,需要建立一個綜合的體系結(jié)構(gòu),這需要建立一個信息中心管理數(shù)據(jù)倉庫。以住院系統(tǒng)中出院病人情況為主題,并以 Microsoft Analysis Services為工具,簡要說明一下數(shù)據(jù)倉庫在醫(yī)院信息系統(tǒng)中的應(yīng)用過程。數(shù)據(jù)倉庫的設(shè)計過程示意圖(見圖1)
2.1 確定主題
數(shù)據(jù)倉庫的所有數(shù)據(jù)是圍繞某一主題而進行組織和展開的,是在一個較高管理層次上對信息系統(tǒng)中的數(shù)據(jù),按照某一具體的管理對象進行綜合、歸類而形成的分析對象。本文中,筆者研究的主題是對出院病人進行分析, 分析的內(nèi)容為人數(shù)和費用。確定主題的過程, 就是確定事實表中所需數(shù)據(jù)的過程。
2.2 確定變化因素
變化因素是分析者認為可能對研究主題產(chǎn)生有意義影響的因素。變化因素的分析是數(shù)據(jù)倉庫建立的重要環(huán)節(jié),在數(shù)據(jù)倉庫中, 也就是維度表的設(shè)計。這不僅要確定分析因素的內(nèi)容,還要對分析因素進行粒度分析。所謂粒度分析,就是確定對因素的劃分程度。粒度的劃分,取決于問題的需要、原始數(shù)據(jù)的形態(tài)及設(shè)備的處理能力。本例中,對出院病人分析條件有:性別、年齡、住址、費用類別(公費、自費等) 、病種、轉(zhuǎn)歸、手術(shù)類別、住院天數(shù)、入院時間、出院時間等。其中,性別的粒度只有一層: 男、女和未定; 費用類別的粒度有兩層:第一層分完全自費和不完全自費, 第二層中不完全自費再分為各種比例付費方式; 住址的粒度有五層:第一層是國家,第二層是我國的大地區(qū)(如中南地區(qū)、東北地區(qū)等),第三層是省或直轄市及地區(qū),第四層是縣市,第五層是本市的行政區(qū)。
2.3 建立中間數(shù)據(jù)庫
中間數(shù)據(jù)庫是事務(wù)數(shù)據(jù)庫與數(shù)據(jù)倉庫數(shù)據(jù)庫的橋梁。中間數(shù)據(jù)庫中應(yīng)包含凈化整理后的事實表和維度表。事實表由事務(wù)數(shù)據(jù)中相關(guān)的表, 經(jīng)過獲取、過濾、轉(zhuǎn)換、清理、合并,將所關(guān)心的數(shù)據(jù)重新整理而得來的。用 SQLServer 2005企業(yè)管理器,建 立 一 個 數(shù) 據(jù) 庫 實 例DW_mid。在其中建立相應(yīng)所需的表。本例的事實表, 包括出院病人的ID號碼( 住院號)、姓名、性別、年齡、住址、費用類別、病種、轉(zhuǎn)歸、手術(shù)類別、住院天數(shù)、入院時間、出院時間、出院科室、病案等級、分類費用及總費用等。這些數(shù)據(jù)可從事務(wù)數(shù)據(jù)庫的備份文件,經(jīng)整理而得。事實表具體設(shè)計見表1:事實表。
2.4 建立數(shù)據(jù)倉庫數(shù)據(jù)庫
根據(jù)主題要求, 運用建庫工具, 建立數(shù)據(jù)倉庫。運用 Microsoft Analysis Services 建立數(shù)據(jù)倉庫的主要步驟如下:
2.4.1 建立與分析服務(wù)器與中間數(shù)據(jù)庫的聯(lián)接
在分析器管理工具中新建一個數(shù)據(jù)庫 original,并對數(shù)據(jù)源進行配置(連接 DW_mid),測試連接成功后即可使用。
2.4.2 創(chuàng)建多維數(shù)據(jù)集
創(chuàng)建數(shù)據(jù)倉庫的最終目的是要從大量的數(shù)據(jù)中尋找出可以用于決策的數(shù)據(jù), 而多維數(shù)據(jù)集提供一種便于使用的查詢數(shù)據(jù)機制,不但快捷,而且響應(yīng)時間一致。最終用戶可以使用客戶端應(yīng)用程序,連接到分析管理器, 并查詢該服務(wù)器上的多維數(shù)據(jù)集。
(1)創(chuàng)建維度。維度是多維數(shù)據(jù)集的一種結(jié)構(gòu)特性,是描述事實數(shù)據(jù)表中數(shù)據(jù)類別( 級別) 的有組織的層次結(jié)構(gòu)。
維度表中,各標(biāo)準(zhǔn)維度表(非時間維度) 一般要根據(jù)數(shù)據(jù)特點和分析需要來建立。如性別、地址、費用類別等,這有些類似于事務(wù)數(shù)據(jù)庫中的字典表。時間維度表可選擇系統(tǒng)提供的,本例選的是年、季、月、日型的時間維度表。
Microsoft Analysis Services 中, 維度的建立可以用向?qū)Чぞ叻奖銓崿F(xiàn)。
(2)維度是創(chuàng)建多維數(shù)據(jù)集所必需的條件,創(chuàng)建多維數(shù)據(jù)集是對數(shù)據(jù)倉庫進行數(shù)據(jù)分析和挖掘的前提。有時候,多維數(shù)據(jù)集也稱為立方體。
多維數(shù)據(jù)集中,要從數(shù)據(jù)源中選擇事實數(shù)據(jù)表,并從中選擇用于定義度量值的數(shù)字列;再從已建立的維度中,選擇適用于本事實數(shù)據(jù)表的維度, 由此建立多維數(shù)據(jù)集。
Microsoft Anal-ysis Services 中,多維數(shù)據(jù)集的建立也可以用向?qū)Чぞ叻奖銓崿F(xiàn)。
3 建立數(shù)據(jù)倉庫的思考
在醫(yī)院數(shù)據(jù)倉庫的建設(shè)過程中, 需要解決以下若干問題:
3.1 設(shè)計數(shù)據(jù)提取模式, 建立數(shù)據(jù)模型
要解決提取什么數(shù)據(jù)和如何整合編排數(shù)據(jù)的問題。例如, 對“院內(nèi)感染監(jiān)測指導(dǎo)系統(tǒng)”主題進行模式劃分, 確定從各個系統(tǒng)中所要抽取的表, 并確定表的關(guān)系模式。與院內(nèi)感染密切相關(guān)的項目主要包括體溫的變化、醫(yī)囑的變化、病人診斷上的變化、檢驗、檢查結(jié)果的變化等。由此可以定義分析維度和分析度量。分析維度包括: 科室、病種、住院第幾天、住院總天數(shù)、體溫、診斷、檢驗項目、檢驗結(jié)果、醫(yī)囑等; 分析度量包括: 數(shù)量、對比值等。
3.2 數(shù)據(jù)的格式化問題
醫(yī)院的醫(yī)療信息系統(tǒng)是各類型數(shù)據(jù)的集合, 部分數(shù)據(jù)類型并不適用于建立數(shù)據(jù)庫。根據(jù)數(shù)據(jù)倉庫的特點, 解決數(shù)據(jù)的規(guī)范化和格式化問題是建立醫(yī)院數(shù)據(jù)倉庫的一個首要問題。在數(shù)據(jù)采集時采取格式化錄入, 是解決這個問題的有效方法, 但目前的 HIS、PACS 還有相當(dāng)多的信息錄入沒有固定格式。另外, 自由格式醫(yī)療文檔以及圖像、圖表的信息如何運用在數(shù)據(jù)倉庫中也是需要解決的難題。
3.3 結(jié)合臨床實施需求, 實現(xiàn)臨床數(shù)據(jù)倉庫的有效運用
通過廣泛收集臨床一線醫(yī)務(wù)人員對診療信息的需求,建立面向臨床實際的數(shù)據(jù)倉庫的應(yīng)用模式,充分發(fā)揮臨床數(shù)據(jù)倉庫在提高診療質(zhì)量,為病人提供優(yōu)質(zhì)服務(wù)的作用。
4 結(jié)語
應(yīng)用數(shù)據(jù)倉庫技術(shù)后,查詢分析系統(tǒng)的面貌將煥然一新,不僅便于領(lǐng)導(dǎo)從眾多復(fù)雜的數(shù)據(jù)中及時、方便地獲取有價值的信息, 把握醫(yī)院動態(tài),了解醫(yī)院需求,加強宏觀管理,輔助決策分析,同時也便于專業(yè)分析人員快速、準(zhǔn)確地進行信息處理和預(yù)測分析,這對促進醫(yī)院持續(xù)、快速、健康地發(fā)展都具有很強的現(xiàn)實和戰(zhàn)略意義。
[參考文獻]
[1] 陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:電子工業(yè)出版社,2002.
[2] 馬應(yīng)章.數(shù)據(jù)倉庫的概念、技術(shù)及應(yīng)用[J].中國計算機用戶,2003,4.
[3] 康博創(chuàng)作室.SQLServer 2000 數(shù)據(jù)倉庫設(shè)計和使用指南[M].清華大學(xué)出版社,2001.