国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘技術(shù)在HIS審計中的應(yīng)用

2018-02-24 13:55董銀霜李宗林周彬
電腦知識與技術(shù) 2018年34期
關(guān)鍵詞:聚類分析數(shù)據(jù)挖掘

董銀霜 李宗林 周彬

摘要:數(shù)據(jù)的增長趨勢隨著互聯(lián)網(wǎng)的發(fā)展達到TB級,傳統(tǒng)的審計方式不再適用,應(yīng)用數(shù)據(jù)挖掘技術(shù)不可避免。針對醫(yī)院審計,根據(jù)當前HIS系統(tǒng)的特點,使用數(shù)據(jù)挖掘技術(shù)和審計實踐結(jié)合來分析實際數(shù)據(jù)。聚類分析中可伸縮期待最大化(SEM)算法用于分析數(shù)據(jù)特征,查找潛在的規(guī)律,并為審計人員的決策提供數(shù)據(jù)支持。

關(guān)鍵詞:HIS系統(tǒng);數(shù)據(jù)挖掘;審計實踐;聚類分析;SEM算法

中圖分類號:TP309? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2018)34-0001-03

1引言

隨著互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)增長呈指數(shù)趨勢,傳統(tǒng)的審計方式,很難從TB級數(shù)據(jù)中獲取隱藏的重要信息。因此,審計人員使用流行的數(shù)據(jù)挖掘技術(shù)來自動分析數(shù)據(jù),從而提高效率和準確率。

在審計工作中應(yīng)用數(shù)據(jù)挖掘技術(shù),不僅能對被審核數(shù)據(jù)的歷史信息進行查詢,還能分析其潛在的聯(lián)系和規(guī)律,找出具有價值的信息。具體來說有兩個層面:(1)從技術(shù)角度上說,就是利用機器智性從有噪聲的大量數(shù)據(jù)中找尋潛在規(guī)律的過程。(2)在實踐中,它是指對被審計單位的業(yè)務(wù)數(shù)據(jù)進行智能處理,從中找出所需信息,便于審計的實際工作。

醫(yī)院信息系統(tǒng)(HIS)是一種使用現(xiàn)有網(wǎng)絡(luò)信息技術(shù)來存檔和處理醫(yī)院的醫(yī)療和管理數(shù)據(jù)的信息系統(tǒng)。近年來,HIS系統(tǒng)已在醫(yī)院得到了深入的應(yīng)用,并積累了大量的原始數(shù)據(jù)。結(jié)合審計人員多年來工作中積累的業(yè)務(wù)經(jīng)驗,進一步對數(shù)據(jù)分析研究。把數(shù)據(jù)挖掘技術(shù)引入HIS系統(tǒng)中用以分析存檔數(shù)據(jù),從審計角度找出醫(yī)院經(jīng)營管理上需要進一步完善和規(guī)范的各方面,找出問題,促進整改。同時為同類型疾病的治療和防范提供一定的數(shù)據(jù)支撐,挖掘出關(guān)系模型,然后進一步對事件進行合理的分析預測,為醫(yī)院的決策提供重要的依據(jù)??梢詾楸U先嗣袢罕姷纳眢w健康、為公共醫(yī)療衛(wèi)生事業(yè)發(fā)展提供數(shù)據(jù)依據(jù)、為社會和諧發(fā)展做出貢獻。

2相關(guān)工作

數(shù)據(jù)挖掘技術(shù)在將數(shù)據(jù)倉庫中已經(jīng)聚合的數(shù)據(jù)轉(zhuǎn)換為有用的結(jié)果,通過對象選擇、數(shù)據(jù)準備、挖掘數(shù)據(jù)、結(jié)果分析四個步驟。

2.1業(yè)務(wù)對象

數(shù)據(jù)挖掘面對的對象,從數(shù)據(jù)存儲的格式,包括關(guān)系數(shù)據(jù)庫、面向?qū)ο蟮臄?shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫和Internet資源。

本文針對的是HIS系統(tǒng),對象具體包括掛號、診療、處方、記賬收費、票據(jù)管理、藥品進銷存等子系統(tǒng)與醫(yī)護工作站、手術(shù)室及醫(yī)保或新農(nóng)合結(jié)算等子系統(tǒng)。涉及的數(shù)據(jù)類型眾多、業(yè)務(wù)流程復雜,具體從以下兩個方面分析:

(1)醫(yī)院業(yè)務(wù)功能模塊:醫(yī)院信息系統(tǒng)功能模塊包括標準數(shù)據(jù)維護、收費(門診/住院)系統(tǒng)、藥物管理系統(tǒng)、門診醫(yī)生工作站系統(tǒng)、醫(yī)院護理工作站系統(tǒng)等。

(2)HIS系統(tǒng)后臺數(shù)據(jù):HIS系統(tǒng)采用客戶端/服務(wù)器(C/S)結(jié)構(gòu)。服務(wù)器使用Windows操作系統(tǒng)、SQL Server數(shù)據(jù)庫和相關(guān)子系統(tǒng)來存儲共享。本次獲取5個數(shù)據(jù)庫文件備份,ClinicPathWay,JQ_HISInteFace,JQ_Inh,sHIS,shis_em。

2.2數(shù)據(jù)準備

(1)確定及選擇數(shù)據(jù):為了精準分析數(shù)據(jù),審計工作選定了HIS系統(tǒng)的業(yè)務(wù)數(shù)據(jù)原始備份(包含多個子系統(tǒng))和財務(wù)數(shù)據(jù),關(guān)注HIS業(yè)務(wù)數(shù)據(jù)分析,并根據(jù)需要與其財務(wù)A/C集數(shù)據(jù)進行比較。

(2)數(shù)據(jù)清理和轉(zhuǎn)換:以住院數(shù)據(jù)為例,整理出幾個關(guān)鍵的規(guī)范數(shù)據(jù)表,門診數(shù)據(jù)與此類似。

(3)關(guān)鍵數(shù)據(jù)分析:通過對前述數(shù)據(jù)整理,在單病種統(tǒng)計中,主要用到以下幾個表:病人基本信息表、費用明細表、出入庫明細表,此外,還有一些公共的字典表,如費別表、科室名稱表等。為便于操作,盡可能在一張數(shù)據(jù)表里展現(xiàn)。以表1為例。

2.3挖掘數(shù)據(jù)

選擇Microsoft SQL Server 2008 R2中的Analysis Services進行挖掘,基于OLAP多維數(shù)據(jù)集信息來創(chuàng)建數(shù)據(jù)挖掘模型,并使用成員屬性在新維度中查看結(jié)果。Analysis services提供了兩種算法:聚類(Clustering)和決策樹(Decision tree)。下述描述與操作均在SQL Server 2008 R2環(huán)境下進行。

(1)建立HIS系統(tǒng)數(shù)據(jù)倉庫:建立數(shù)據(jù)倉庫是開發(fā)有效的決策支持系統(tǒng)的基礎(chǔ),也是數(shù)據(jù)分析處理的環(huán)境。

(2)確定數(shù)據(jù)倉庫的主題和形式:基于關(guān)系表的存儲方式有兩種模型,醫(yī)院通常采用星型模型,相對于雪花模型,這種模型節(jié)點交叉點少,查詢速度會更快。以門診掛號為例(星型模型),如圖1所示。

(3)建立維度:一個對象的維度包含大量屬性,新建維度,把成員添加到數(shù)據(jù)集中(如病種、總費用、項目費、藥費等)。

(4)建立多維數(shù)據(jù)集:維度建立后,可以基于數(shù)據(jù)倉庫中的事實表構(gòu)建多維數(shù)據(jù)集。多維數(shù)據(jù)集是在線分析處理(OLAP)中的主要對象,是提供對數(shù)據(jù)倉庫中數(shù)據(jù)的快速訪問的技術(shù)。

(5)使用聚類分析進行挖掘:聚類是將一組對象劃分為若干類,且每個類中對象的相似度相對更高。與分類不同的是聚類不依靠給定的類別對對象進行劃分。在對HIS系統(tǒng)數(shù)據(jù)分析時使用“Microsoft聚類分析”。Microsoft Analysis Services提供的聚類算法是可伸縮期待最大化(SEM)算法,這是一種基于EM算法的缺失數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習算法。該算法使用期望充分的統(tǒng)計因子使得打分函數(shù)具有可分解的形式,然后執(zhí)行局部搜索以試圖找到具有更高分數(shù)的網(wǎng)絡(luò)結(jié)構(gòu);然后查找所選網(wǎng)絡(luò)結(jié)構(gòu)上獲得最多分數(shù)的參數(shù)。其基本思想是根據(jù)群體密度來創(chuàng)建集群。它的特點是只需掃描一次源數(shù)據(jù),并在計算過程中的任何一點提供合理的結(jié)果。

3 實驗結(jié)果與分析

結(jié)合對某婦幼保健院進行實際審計項目,對其HIS系統(tǒng)相關(guān)內(nèi)容進行了研究,重點關(guān)注了該醫(yī)院婦女、兒童的診療以及新生兒的出生情況,進行了深層次的分析。通過對醫(yī)院業(yè)務(wù)收支、藥品進銷存和門診及出入院人員等數(shù)據(jù)信息進行分析,了解在收費、診療等方面是否存在任何違規(guī)要求,并提出合理建議。盡可能合理地使用資源為大多數(shù)人提供醫(yī)療保健。

在對該醫(yī)院HIS系統(tǒng)進行的實際操作中,建立聚類分析模型時,選擇門診結(jié)算單數(shù)據(jù)表的單據(jù)號為主鍵,該結(jié)構(gòu)包括疾病名稱,性別,操作員,訪問日期,項目費,藥費和總費用。在“挖掘模型查看器”中,分類關(guān)系圖中可以查看各分類的密度特征。如圖2:

通過上圖,可以非常直觀地根據(jù)剖面圖的色彩和大小比例關(guān)注某個分類內(nèi)容的具體情況,如按病種名稱來看,婦科檢查占全部樣本數(shù)據(jù)的比重為50.6%。關(guān)注數(shù)據(jù),進一步篩查可能的違規(guī)行為,重點關(guān)注患者診斷和藥物信息,醫(yī)院藥物消費信息和醫(yī)院治療藥物監(jiān)測數(shù)據(jù),注意每個時間段的工作強度,以與季節(jié)或疾病流行程度的影響而相同的情況核查問題。

結(jié)合該醫(yī)院業(yè)務(wù)特點,進一步對住院數(shù)據(jù)進行分析,查詢得出某一時間段內(nèi),正常分娩方式新生兒9276例。剖宮產(chǎn)的新生兒人數(shù)為5956人。上述數(shù)據(jù)反映這一段時間內(nèi)剖宮產(chǎn)比例為5956/(5956+9276)=39.10%,接近40%。

對分類特征表,根據(jù)變量所占概率的大小來看,可以發(fā)現(xiàn)性別缺失的概率為56.92%,說明該HIS系統(tǒng)錄入原始數(shù)據(jù)時未錄入相應(yīng)基本數(shù)據(jù),審計人員可進一步從信息系統(tǒng)審計的角度進行深入分析HIS內(nèi)的數(shù)據(jù)及HIS系統(tǒng)本身;從病種名稱來看,婦科檢查占50.61%,比例占第一,基本符合該醫(yī)院的主要業(yè)務(wù)內(nèi)容,其次為未見異常占11.14%;總費用,藥費和項目費數(shù)據(jù)表明,項目費占門診費用的大部分,基本符合情況。

對醫(yī)院信息系統(tǒng)數(shù)據(jù)進行描述和可視化,是一種對醫(yī)院信息系統(tǒng)數(shù)據(jù)挖掘的表示。對就診數(shù)量通過聚類分析的結(jié)果、對項目檢查費用值進行細化,從而在監(jiān)督各個部門實施的檢查、治療、用藥的合理性時提供參考依據(jù),并能針對不合理的部分進行詳細的分析,進而提高了對醫(yī)療過程的管理監(jiān)控能力。

就診業(yè)務(wù)中,HIS系統(tǒng)中部分數(shù)據(jù)缺失的情況可能會影響某些類型內(nèi)容的準確性和完整性,但仍然可以對現(xiàn)有情況進行總體把握。

4結(jié)果與展望

HIS系統(tǒng)數(shù)據(jù)記錄著各項內(nèi)容的具體度量值,HIS系統(tǒng)根據(jù)數(shù)據(jù)所做的分析功能也只是由普通的數(shù)據(jù)統(tǒng)計、常規(guī)的報表、不同權(quán)限的查詢等功能構(gòu)成。主要是為了滿足日常信息提取之需,從本質(zhì)上來講這些查詢操作是直接的,查詢結(jié)果是單一確定的,HIS系統(tǒng)的大量數(shù)據(jù)不能直接提供有利于管理者決策的重要信息,也不能建立有效的指標體系和分析決策方法,因此,對醫(yī)院的管理和操作進行了有效的評估。數(shù)據(jù)挖掘意味著使用算法從數(shù)據(jù)中提取模式。

通過對歷史數(shù)據(jù)的分析可以找出某些規(guī)律,對病人就診科室、入院時間、病床周轉(zhuǎn)情況、費用發(fā)生等情況進行挖掘后,可以發(fā)現(xiàn)某些就診情況受國家政策的調(diào)整、季節(jié)的變化、年齡分布、職業(yè)狀況等情況的多種影響。在充分了解醫(yī)院實際業(yè)務(wù)開展情況,審計工作可以結(jié)合數(shù)據(jù)挖掘結(jié)果,提升單一的SQL查詢的固有模式,通過分析和處理源數(shù)據(jù)庫中的數(shù)據(jù),提取了構(gòu)建數(shù)據(jù)倉庫的主題,并提出了基于HIS的數(shù)據(jù)倉庫模型,利用工具進行分析,重點關(guān)注數(shù)據(jù)占比較大的發(fā)生情況,對可能存在違反規(guī)定的情況進行進一步篩查,注意患者診斷和用藥信息,醫(yī)院用藥信息,醫(yī)院治療藥物監(jiān)測數(shù)據(jù),注意每一個時間段的工作強度與季節(jié)或疾病流行的情況不同。

數(shù)據(jù)挖掘技術(shù)結(jié)合審計工作的具體開展,無論在實際操作還是理論研究上都有大量工作要做,為審計工作技術(shù)手段的提升奠定了基礎(chǔ),但仍存在許多問題需要加以改進:

一是改進數(shù)據(jù)挖掘算法以提高準確率和效率。

二是要更好地利用數(shù)據(jù)庫中各類原始數(shù)據(jù),與HIS系統(tǒng)本身充分結(jié)合進行研究,擴展到對醫(yī)療專業(yè)數(shù)據(jù)、疾病科研方在進行探索。

三是要進一步將數(shù)據(jù)挖掘與審計工作進行結(jié)合,使挖掘結(jié)果為審計關(guān)注點指明方向,促進審計工作水平的提升,也為醫(yī)院更好地進行決策支持服務(wù),給相關(guān)醫(yī)務(wù)人員分析提供有價值的參考。

隨著科學技術(shù)地發(fā)展,審計信息化技術(shù)的發(fā)展也在不斷與時俱進,而且審計信息化技術(shù)可以應(yīng)用到各行各業(yè),審計理論要與數(shù)據(jù)挖掘技術(shù)的充分結(jié)合。從審計需求,到理解和分析具體的審計目標,然后建立模型確定算法對數(shù)據(jù)倉庫進行數(shù)據(jù)挖掘,是審計信息化技術(shù)對大數(shù)據(jù)分析的必經(jīng)方式,適當?shù)耐诰蛩惴ㄟ\用后可以合理地利用人力物力,它可以大大提高審計的質(zhì)量和效率,也為信息系統(tǒng)審計提供了新的思路和方法。

參考文獻:

[1]李建鵬.基于醫(yī)院信息系統(tǒng)的數(shù)據(jù)挖掘應(yīng)用[D].華南理工大學,2010.

[2]陳文偉,黃金才,等. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M]. 北京:人民郵電出版社,2004.1.

[3]徐潔磐.數(shù)據(jù)倉庫與決策支持系統(tǒng)[M].北京:科學出版社,2005.

[4]康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)[M].北京:機械工業(yè)出版社,2004.1.

[5]熊才權(quán),程學先,胡恬.基于Analysis Services的OLAP視圖的設(shè)計與實現(xiàn)[J].計算機與數(shù)字工程,2004(6).

【通聯(lián)編輯:王力】

猜你喜歡
聚類分析數(shù)據(jù)挖掘
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
基于GPGPU的離散數(shù)據(jù)挖掘研究
福海县| 晴隆县| 延吉市| 攀枝花市| 色达县| 韶山市| 呼伦贝尔市| 高雄市| 利辛县| 阿尔山市| 从江县| 昭苏县| 石门县| 奉节县| 和田县| 乳源| 黔西| 清徐县| 雷州市| 克拉玛依市| 乳山市| 邹平县| 白城市| 新源县| 汨罗市| 吴江市| 子洲县| 汕头市| 弋阳县| 北安市| 黔江区| 桃园县| 漳州市| 乌恰县| 赤水市| 内丘县| 许昌市| 安宁市| 佛学| 精河县| 日喀则市|