徐剛
(天津醫(yī)科大學(xué)總醫(yī)院濱海醫(yī)院,天津 300480)
目前,我國(guó)醫(yī)院已逐步建立了各類信息管理系統(tǒng)并不斷完善,如HIS(Hospital Information System,醫(yī)院信息管理系統(tǒng))、LIS(Laboratory Information Management System,實(shí)驗(yàn)室信息管理系統(tǒng))、PACS(Picture Archiving and Communication Systems,醫(yī)學(xué)影像存檔與通訊系統(tǒng))等,這類信息系統(tǒng)每天都在采集大量患者信息。隨著信息化的高速發(fā)展,患者的各類信息數(shù)據(jù)日漸膨脹,形成了醫(yī)院大數(shù)據(jù)。這類大數(shù)據(jù)雖然占據(jù)了醫(yī)院大量的存儲(chǔ)資源,但目前大多數(shù)醫(yī)院并未對(duì)該類數(shù)據(jù)進(jìn)行合理的利用,造成了資源浪費(fèi)。如何對(duì)醫(yī)院產(chǎn)生的寶貴大數(shù)據(jù)資源,利用數(shù)據(jù)挖掘技術(shù),挖掘出背后的潛在價(jià)值成為醫(yī)院信息化發(fā)展研究的一個(gè)重要方向。醫(yī)院大數(shù)據(jù)的有效利用,可以為醫(yī)院的管理決策提供科學(xué)化的支持,實(shí)現(xiàn)醫(yī)院的“精細(xì)化”管理。
數(shù)據(jù)挖掘就是從大量的、不完全的、模糊的、隨機(jī)的實(shí)際數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘是能夠從大量的數(shù)據(jù)中找到人們感興趣的、有價(jià)值信息的一種新技術(shù)[1]。
數(shù)據(jù)挖掘的前期準(zhǔn)備工作是數(shù)據(jù)的收集和整合,大數(shù)據(jù)分析是多個(gè)信息系統(tǒng)數(shù)據(jù)的融合分析,醫(yī)院產(chǎn)生的各類數(shù)據(jù)中,由于系統(tǒng)不同,所產(chǎn)生的的數(shù)據(jù)格式也不同,如PACS系統(tǒng)所產(chǎn)生的數(shù)據(jù)即為圖像格式,所以醫(yī)院數(shù)據(jù)具有異構(gòu)性、分布式、碎片化的特點(diǎn)。為了有效的整合數(shù)據(jù),需要使用專業(yè)的工具將不同格式、不同廠家的數(shù)據(jù)整合到數(shù)據(jù)倉(cāng)庫(kù)中。另外,大量醫(yī)療數(shù)據(jù)中必定夾雜了一些噪聲數(shù)據(jù),這類數(shù)據(jù)沒(méi)有任何價(jià)值意義,而且夾雜在有效數(shù)據(jù)中,勢(shì)必會(huì)影響數(shù)據(jù)挖掘的效果,所以噪聲收據(jù)的有效篩除也是數(shù)據(jù)挖掘前期準(zhǔn)備的一項(xiàng)重要工作。
1.2.1 統(tǒng)計(jì)技術(shù)
統(tǒng)計(jì)分析是是數(shù)據(jù)挖掘的理論知識(shí)基礎(chǔ),即描述和組織數(shù)據(jù)集,并從數(shù)據(jù)集中推出結(jié)論。常用的統(tǒng)計(jì)分析方法包括統(tǒng)計(jì)判斷、評(píng)測(cè)數(shù)據(jù)集的差異、貝葉斯定理、預(yù)測(cè)回歸、方差分析、對(duì)數(shù)回歸、線性判別分析等。
1.2.2 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則算法就是數(shù)據(jù)庫(kù)中的一個(gè)項(xiàng)集會(huì)隨著另外一個(gè)項(xiàng)集的變化而呈現(xiàn)出規(guī)律性的變化,那么這兩個(gè)項(xiàng)集之間就存在關(guān)聯(lián)性。關(guān)聯(lián)規(guī)則算法主要包括Apriori算法、FP-G算法、FreeSpan算法、Prefixspan算法等。
1.2.3 決策樹
決策樹是一種從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的探索式數(shù)據(jù)挖掘方法,非常直觀,簡(jiǎn)單易懂。每個(gè)樣本出現(xiàn)后,先從根節(jié)點(diǎn)出發(fā),再選擇一個(gè)最貼合的分類效果到各層分支節(jié)點(diǎn),最后到達(dá)葉子結(jié)點(diǎn),如此反復(fù)循環(huán),這棵樹變即成為了一個(gè)分類訓(xùn)練樣本器。常見的決策樹算法包括:CART、CHAID、ID3等。
1.2.4 遺傳算法
遺傳算法是基于達(dá)爾文的進(jìn)化論的基礎(chǔ)上產(chǎn)生的,模擬自然界優(yōu)勝略汰、物競(jìng)天擇、適者生存機(jī)制的問(wèn)題求解技術(shù),主要包括遺傳算法、進(jìn)化策略、進(jìn)化規(guī)劃和遺傳規(guī)劃等內(nèi)容。遺傳算法的基本流程首先需要生成初始種群和編碼,然后計(jì)算種群中各個(gè)個(gè)體的適應(yīng)度并進(jìn)行評(píng)價(jià),如果個(gè)體滿足終止條件,則終止;若不滿足終止條件則進(jìn)行選擇、交叉和變異,循環(huán)往復(fù)。
1.2.5 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的典型代表,通過(guò)學(xué)習(xí)算法來(lái)模擬人腦思維,它可以從經(jīng)驗(yàn)知識(shí)中進(jìn)行學(xué)習(xí)并將學(xué)到的知識(shí)加以應(yīng)用。學(xué)習(xí)集中的每個(gè)例子輸入到神經(jīng)網(wǎng)絡(luò)中都會(huì)有一個(gè)對(duì)應(yīng)的輸出,學(xué)習(xí)集中所有的例子都學(xué)習(xí)完后,神經(jīng)網(wǎng)絡(luò)就已經(jīng)建立了自己的判斷模式,當(dāng)把測(cè)試集中的例子輸入神經(jīng)網(wǎng)絡(luò)中,如何符合預(yù)期判斷,那么神經(jīng)網(wǎng)絡(luò)就建立成功,以后這個(gè)神經(jīng)網(wǎng)絡(luò)就可以作為篩選器來(lái)判斷事務(wù)的分類。
1.3.1 醫(yī)院大數(shù)據(jù)的隱私性
醫(yī)院大數(shù)據(jù)同其他組織機(jī)構(gòu)收集的大數(shù)據(jù)不同,醫(yī)院大數(shù)據(jù)包含了患者的各項(xiàng)隱私信息,包括基本信息、就醫(yī)信息等。一旦信息泄露,將對(duì)患者的日常生活造成一定程度的困擾。醫(yī)院在利用數(shù)據(jù)挖掘技術(shù)時(shí)要充分考慮到保護(hù)患者隱私的問(wèn)題,這不僅對(duì)數(shù)據(jù)存儲(chǔ)的物理安全性要求越來(lái)越高,同時(shí)對(duì)數(shù)據(jù)安全保護(hù)技術(shù)的要求也越來(lái)越高。
1.3.2 醫(yī)院大數(shù)據(jù)的異構(gòu)性
醫(yī)院有眾多的信息管理系統(tǒng),各系統(tǒng)采用的開發(fā)語(yǔ)言不同,使用的數(shù)據(jù)庫(kù)也不同,這就導(dǎo)致各個(gè)信息系統(tǒng)所采集的數(shù)據(jù)結(jié)構(gòu)差異較大,若想使這些信息系統(tǒng)之間進(jìn)行交互并在此基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘操作,需使用專門的數(shù)據(jù)抽取工具對(duì)各平臺(tái)產(chǎn)生的信息數(shù)據(jù)進(jìn)行抽取、清洗和整合,甚至需要手工錄入。在數(shù)據(jù)統(tǒng)一的基礎(chǔ)上,建立相應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)并對(duì)數(shù)據(jù)進(jìn)行更深層次的分析,如圖1所示。
1.3.3 醫(yī)院大數(shù)據(jù)的冗余性
醫(yī)院由于每天就診患者多,日積月累將產(chǎn)生海量數(shù)據(jù),這使得醫(yī)院在開展數(shù)據(jù)挖掘的工作中具備先天的數(shù)據(jù)優(yōu)勢(shì),但這些數(shù)據(jù)中并不全是有效數(shù)據(jù),有些重復(fù)的、矛盾的、甚至是錯(cuò)誤的數(shù)據(jù)記錄會(huì)影響數(shù)據(jù)挖掘的結(jié)果,使數(shù)據(jù)挖掘產(chǎn)生的結(jié)論可信度降低。
圖1 醫(yī)院數(shù)據(jù)挖掘基本流程Fig.1 Basic Data Mining Process
醫(yī)院眾多信息管理信息系統(tǒng)中,以HIS及電子病歷管理系統(tǒng)為基礎(chǔ)數(shù)據(jù),LIS及PACS的檢查數(shù)據(jù)為輔助數(shù)據(jù),建立數(shù)據(jù)分析模型,利用數(shù)據(jù)挖掘技術(shù),為后期的疾病診斷及治療研究提供依據(jù),并為上級(jí)衛(wèi)生管理部門和疾控部門提供科研數(shù)據(jù)。醫(yī)院就診患者具有多樣性,患者的來(lái)源、身份、年齡或者職業(yè)等相關(guān)信息數(shù)據(jù)在輸入計(jì)算機(jī)信息系統(tǒng)后,都可以通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)進(jìn)行結(jié)構(gòu)分析,得到上述幾項(xiàng)內(nèi)容的分布信息,使得醫(yī)務(wù)人員可以對(duì)患者進(jìn)行針對(duì)性的服務(wù),可以有效提高醫(yī)療服務(wù)質(zhì)量,提高患者滿意度[2]。臨床路徑也是醫(yī)院大數(shù)據(jù)應(yīng)用的一個(gè)典型體現(xiàn),它是基于一定基數(shù)的專家經(jīng)驗(yàn),對(duì)病情的發(fā)展做出預(yù)判并將治療流程做成模板,輸入病癥就可以準(zhǔn)確判斷出疾病類型并進(jìn)入路徑開始對(duì)癥治療,減少醫(yī)生的主觀判斷失誤,提高就診效率。另外,利用數(shù)據(jù)挖掘技術(shù),還可以對(duì)疾病進(jìn)行有效預(yù)測(cè),提醒醫(yī)生最好及時(shí)防范。
患者就醫(yī)流程分為若干時(shí)間節(jié)點(diǎn),如掛號(hào)、就診、繳費(fèi)、檢查、取藥等,對(duì)患者就醫(yī)的各個(gè)時(shí)間節(jié)點(diǎn)長(zhǎng)度進(jìn)行分析,就可以發(fā)現(xiàn)患者在就診的過(guò)程中哪一環(huán)節(jié)最消耗時(shí)間,醫(yī)院有針對(duì)性的采取相關(guān)措施,如增加人力物力、使用技術(shù)手段等解決相關(guān)問(wèn)題,提高患者就診效率的同時(shí)也提高了醫(yī)院的效益。另外,數(shù)據(jù)挖掘技術(shù)也可以對(duì)門診、急診和住院的患者人數(shù)進(jìn)行分析,通過(guò)時(shí)間序列建立相應(yīng)的預(yù)測(cè)模型,發(fā)現(xiàn)患者數(shù)量的周期性規(guī)律,并對(duì)下一周期做出預(yù)測(cè),方便醫(yī)院管理者合理的優(yōu)化醫(yī)院的人力資源、藥品資源、設(shè)備資源等。
在國(guó)家發(fā)布的醫(yī)改試點(diǎn)指導(dǎo)意見中,對(duì)藥占比的控制有了明確要求,即患者治療費(fèi)用中藥品費(fèi)用占患者治療期間所花費(fèi)的總費(fèi)用不能超過(guò)一個(gè)額定值。利用數(shù)據(jù)挖掘技術(shù),可以對(duì)患者費(fèi)用結(jié)構(gòu)進(jìn)行全面分析,包括患者的藥品費(fèi)用、檢查費(fèi)用、治療費(fèi)用、手術(shù)費(fèi)用等,看藥品占比是否符合要求。若不符合要求,則可以通過(guò)數(shù)據(jù)挖掘技術(shù)精確的分析到哪位醫(yī)生或者哪個(gè)藥品導(dǎo)致的藥占比過(guò)高,從而指導(dǎo)醫(yī)生對(duì)患者進(jìn)行合理用藥。
醫(yī)院收入還可以通過(guò)橫向和縱向等各個(gè)方向來(lái)進(jìn)行同期比對(duì),橫向比對(duì)即對(duì)醫(yī)院或科室在同一時(shí)間節(jié)點(diǎn)不同種類收入的比對(duì),縱向比對(duì)即對(duì)醫(yī)院或科室在不同時(shí)間節(jié)點(diǎn)的某項(xiàng)收入進(jìn)行比對(duì),在分析過(guò)程中還可以使用關(guān)聯(lián)規(guī)則,結(jié)合其他因素一起分析,找出收入存在差異的原因并進(jìn)行改善。
醫(yī)院工作的核心是醫(yī)療質(zhì)量管理,單病種質(zhì)量是醫(yī)療質(zhì)量管理的重中之重。首先需對(duì)單病種患者的費(fèi)用結(jié)構(gòu)、費(fèi)別分析、住院天數(shù)等建立多維模型,然后對(duì)模型進(jìn)行切片、旋轉(zhuǎn)等分析操作,并最終形成建模與分析的結(jié)果。醫(yī)生可以根據(jù)分析結(jié)果及時(shí)總結(jié)經(jīng)驗(yàn),找出最佳的治療方案,提高單病種的治療效率,減少醫(yī)院成本的同時(shí)也可以為患者減輕負(fù)擔(dān)。
數(shù)據(jù)挖掘整理的目的是利用所獲取的知識(shí)理解事物、預(yù)測(cè)未來(lái)情況、進(jìn)行積極干預(yù),為下一步的工作或決策提供基礎(chǔ)[3]。醫(yī)療大數(shù)據(jù)的應(yīng)用對(duì)于醫(yī)院的臨床研究和科學(xué)管理有著重要的意義,醫(yī)院在利用數(shù)據(jù)挖掘技術(shù)對(duì)醫(yī)療大數(shù)據(jù)進(jìn)行分析的過(guò)程中,要把數(shù)據(jù)安全放在首位,著力建設(shè)大數(shù)據(jù)信息共享平臺(tái),盡早實(shí)現(xiàn)數(shù)據(jù)的互聯(lián)互通,并利用先進(jìn)的數(shù)據(jù)挖掘技術(shù),提取出對(duì)醫(yī)院發(fā)展有益的信息,促進(jìn)醫(yī)院的精準(zhǔn)化醫(yī)療發(fā)展,提高醫(yī)院經(jīng)濟(jì)效益。