王大鵬,張麗天
(內(nèi)蒙古醫(yī)科大學(xué)第二附屬醫(yī)院,內(nèi)蒙古 呼和浩特 010030)
隨著“大數(shù)據(jù)時(shí)代”的來臨,信息化技術(shù)作為新時(shí)代的全新技術(shù),已經(jīng)全面存在于各大領(lǐng)域,其中,數(shù)據(jù)挖掘技術(shù)得到了最廣泛的應(yīng)用[1]。醫(yī)院作為面向所有人民的一種基礎(chǔ)服務(wù)機(jī)構(gòu),每年接收的病人以萬為單位,對于每一個(gè)病人,對其信息都要進(jìn)行詳細(xì)的記錄。并且,隨著醫(yī)院醫(yī)療制度、醫(yī)療設(shè)備的完善,醫(yī)院醫(yī)療水平的不斷提高,醫(yī)院所需要記錄的信息越來越多。可想而言,經(jīng)過幾十年來歷史信息的積累,醫(yī)院的信息數(shù)據(jù)是極其龐大的。這些數(shù)據(jù)是寶貴的,不僅是對于醫(yī)院本身來說,對于國家的醫(yī)療科研工作亦是如此。因此,傳統(tǒng)的統(tǒng)計(jì)分析方法已經(jīng)無法滿足現(xiàn)在的需求,必須引入新技術(shù),而信息化技術(shù)是一個(gè)很好的選擇。
通過應(yīng)用信息化技術(shù),對醫(yī)院數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,分析和發(fā)現(xiàn)出其中的一些有深度的、潛藏的問題或者有價(jià)值的內(nèi)在規(guī)律,并對這些問題進(jìn)行解決、對這些內(nèi)在規(guī)律進(jìn)行分析應(yīng)用,就能夠不斷的提高和完善醫(yī)院的各個(gè)方面,例如醫(yī)院的人員管理、對病人治療效果、各種信息的管理等。
數(shù)據(jù)挖掘技術(shù),也被稱為“數(shù)據(jù)采集”和“資料探勘”,作為一種全新的技術(shù),它屬于信息技術(shù)領(lǐng)域,可以實(shí)現(xiàn)對數(shù)據(jù)的處理和分析,從而幫助人們建立全方位的、完整的信息框架,做到信息的規(guī)范化[2-3]。數(shù)據(jù)挖掘技術(shù)經(jīng)歷了四個(gè)階段,其中包括電子郵件階段、信息發(fā)布階段、電子商務(wù)階段、全程電子商務(wù)階段,到現(xiàn)在該項(xiàng)技術(shù)已經(jīng)基本完善,并逐漸形成一門學(xué)科。
醫(yī)院面對這長久以來積累的數(shù)據(jù)資源和臨床信息,即使是對信息進(jìn)行整理、規(guī)范化,傳統(tǒng)的統(tǒng)計(jì)分析方法都幾乎難以實(shí)現(xiàn),更別奢想從這龐大且復(fù)雜的、數(shù)以萬計(jì)的信息中發(fā)現(xiàn)問題,獲取內(nèi)在規(guī)律了。所以,必須充分應(yīng)用數(shù)據(jù)挖掘技術(shù),才能從海量的數(shù)據(jù)中發(fā)現(xiàn)潛在的問題、提取對于醫(yī)院來說有價(jià)值的信息,從而為醫(yī)院在以后各方面管理的科學(xué)決策提供數(shù)據(jù)基礎(chǔ)。
(1)信息目標(biāo)的確定。根據(jù)醫(yī)院的實(shí)際情況,確定所需要解決的問題、或是想要了解醫(yī)院某些方面的情況,從而確定進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)對象。確定數(shù)據(jù)對象后,進(jìn)而在醫(yī)院信息系統(tǒng)中進(jìn)行相應(yīng)的查詢,找出所有有關(guān)的數(shù)據(jù),并提取出來進(jìn)行單獨(dú)保存,以方便后續(xù)的工作[4]。
(2)數(shù)據(jù)清理。由于查詢出來的數(shù)據(jù)各式各樣,格式盡不相同,再加上醫(yī)院的數(shù)據(jù)本身就存在一定的冗余性和重復(fù)性,所以必須在數(shù)據(jù)分析前進(jìn)行相應(yīng)的數(shù)據(jù)清理,也就是數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)預(yù)處理工作[5-6]。對于數(shù)據(jù)中一些不需要的字段、或者重復(fù)的、錯(cuò)誤的字段進(jìn)行刪除,對一些與此次數(shù)據(jù)挖掘目的不相干的數(shù)據(jù)特征剔除掉,從而減少數(shù)據(jù)的特征維度、數(shù)據(jù)的樣本個(gè)數(shù),避免在后期對數(shù)據(jù)進(jìn)行分析時(shí),造成時(shí)間上的浪費(fèi)。
(3)數(shù)據(jù)轉(zhuǎn)換。在選定好數(shù)據(jù)挖掘模型后,根據(jù)模型對數(shù)據(jù)格式的需求,在必要情況下,對數(shù)據(jù)進(jìn)行變換,例如對數(shù)據(jù)行歸一化或者數(shù)據(jù)概化,如果模型只能分享離散型數(shù)據(jù),還得對數(shù)據(jù)進(jìn)行離散化[7]。
(4)數(shù)據(jù)挖掘。這是最關(guān)鍵、最重要的一步,根據(jù)實(shí)際目標(biāo),選擇好合適的模型與挖掘算法,從而對數(shù)據(jù)進(jìn)行挖掘、分析。實(shí)現(xiàn)數(shù)據(jù)挖掘的方法有很多,例如回歸模型、決策樹模型、關(guān)聯(lián)分析、分類與預(yù)測模型、神經(jīng)網(wǎng)絡(luò)和偏差分析等。對于挖掘出來的結(jié)果,在實(shí)際運(yùn)用前,還需要進(jìn)行多次檢驗(yàn),以保證其正確性。
(1)對數(shù)據(jù)進(jìn)行匯總。統(tǒng)計(jì)匯總方式有兩種,一種是單向統(tǒng)計(jì),另一種是復(fù)合統(tǒng)計(jì)[8]。根據(jù)醫(yī)院的實(shí)際需求情況,選擇合適的統(tǒng)計(jì)方法,對一段時(shí)間內(nèi)的數(shù)據(jù)進(jìn)行綜合整理。例如想對醫(yī)院的工作質(zhì)量進(jìn)行匯總的這種單方面工作,就采用單向匯總;想對醫(yī)院中的不同護(hù)理模式進(jìn)行比較,就采用復(fù)合統(tǒng)計(jì)。
(2)對數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)得到匯總之后,就可以對其進(jìn)行統(tǒng)計(jì)分析。統(tǒng)計(jì)分析有兩個(gè)部分,一種是統(tǒng)計(jì)描述,它是對特定的統(tǒng)計(jì)指標(biāo)進(jìn)行統(tǒng)計(jì),主要功能是指標(biāo)的計(jì)算和統(tǒng)計(jì)制圖,統(tǒng)計(jì)描述的特點(diǎn)就是“描述”二字,可以通過圖表或者圖形對現(xiàn)實(shí)情況的規(guī)律進(jìn)行描述;另一種是統(tǒng)計(jì)推斷,是通過一部分樣本的信息和規(guī)律推斷到總體的一種方法,它主要包括對總體未知數(shù)的估計(jì)、假設(shè)和檢驗(yàn),比如邏輯斯特回歸分類模型、EM算法和馬爾科夫模型等,它們都是以概率論或者統(tǒng)計(jì)學(xué)為基礎(chǔ)[9-10]。
(3)為科學(xué)決策提供數(shù)據(jù)。通過數(shù)據(jù)統(tǒng)計(jì)分析,獲取了許多有價(jià)值的信息。在醫(yī)院的未來規(guī)劃和發(fā)展上、在醫(yī)院的一些人事管理上、在醫(yī)院的醫(yī)療制度的改善上等,通過統(tǒng)計(jì)分析得到的規(guī)律和結(jié)論都能得到應(yīng)用,為醫(yī)院提供更為合理的、有數(shù)據(jù)根據(jù)的科學(xué)決策。
近年來,隨著我國信息科學(xué)領(lǐng)域的不斷進(jìn)步,促進(jìn)了醫(yī)院信息系統(tǒng)的智能化,記錄了更多全面詳細(xì)的數(shù)據(jù)。這些數(shù)據(jù)對于醫(yī)院來說是寶貴的經(jīng)驗(yàn)財(cái)富,要想這些數(shù)據(jù)不被浪費(fèi)掉,就必須引入數(shù)據(jù)挖掘技術(shù),醫(yī)院可以根據(jù)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和統(tǒng)計(jì)分析,從中獲取大量值得深究的數(shù)據(jù)信息,這樣不僅能大幅度提高醫(yī)院的醫(yī)療質(zhì)量、推動醫(yī)院的進(jìn)步,而且還能幫助醫(yī)院在今后的發(fā)展規(guī)劃上,為醫(yī)院提供多種科學(xué)的決策,供醫(yī)院進(jìn)行參考,從而做出合理的決策,讓醫(yī)院少走彎路和更好地為人們服務(wù)。