賴春林
全省醫(yī)療保險基金審計開展一個多月來,廣大審計工作者都遇到了因采集的數據錯誤而造成的審計困難。數據分析人員空有思路、空有算法,卻因數據質量太低,造成篩查結果精度太差。筆者作為其中一份子,對此感同身受,覺得很有必要說出來,以資后用。
那么,我們錯失了什么?我們錯失了部分審計資源!
審計采集的數據,每個字段都有其特定意義,如果采集的數據不能支撐這項意義,數據就失去了價值。我們看以下幾種情況:
一、有通用法則字段中的非法數據
(一)最典型的當屬非法身份證號
身份證號存在于大量的數據庫數據表中,有很多數據表還將身份證號所在字段設置了主鍵或非空、不可重復等約束,由于身份證號全國唯一這一特殊性,我們常常用它來關聯其他有身份證號字段的數據表。如果這個字段的值不真實,該身份證號對應個人的信息就無法查出或需要調用其他信息資源才能查出,而很多時候,尤其是在面對數據量較大的時候,我們無法批量獲取并比對其他信息資源。因此對這部分人,審計范圍覆蓋不到,審計客體將處在部分審計對象監(jiān)督不到的危險環(huán)境,而審計主體將獲得未審計風險或審計失敗風險。如果有人利用這種漏洞故意為之,那將是一個巨大的風險并可能造成非常惡劣的影響!
下表是某市醫(yī)保審計數據部分標準表中非法身份證號及對應的醫(yī)?;鹬С鼋痤~合計與總數的對比情況,其中新農合門診報銷情況表的錯誤身份證號對應的基金支出合計占總支出的比值超過了15%!對應的基金支出合計金額超過了1.2億元!這些錢我們都無法通過計算機方法進行審計。
(二)非法日期也是常見的非法數據
這些錯誤數據將嚴重影響數據分析的準確性和疑點判斷的正確性。這類非法日期中,有些可以猜到正確值應為多少,如某死亡人員的死亡日期為“3015-05-30”,估計實際值應為“2015-05-30”;還有些形如“2015-09-42”的數據,就無法單從字面上猜到其實際值了。形形色色的非法日期,審計人員又能猜到幾何?即使能猜到的,可以用語句大批量的比對修復的也只占極少數而已。所有這些非法日期數據也和非法身份證號一樣,巧妙地避開了計算機數據分析的監(jiān)督!
二、有外鍵關聯字段中的無法關聯數據
一般情況下,明細表會有至少一個字段以主表中對應字段為外鍵,如住院項目費明細表、住院藥費明細表中的單據號是以醫(yī)院住院結算單表中的單據號作為外鍵的。如果存在一批單據號,在住院結算單中有,在明細里卻找不到,那么在排除部分住院行為確無項目費或藥費明細情況后,剩余數據將無法直接用語句查詢明細情況;反之,如果一批單據號在明細里有,在結算單里沒有,則會對匯總數量、金額的精度產生影響。這樣的數據,也逃脫了計算機數據分析的范圍。
三、其他錯誤數據
其他常見錯誤數據形式有:非空字段的空數據、唯一性字段中的重復數據和半角全角字符、中英文字符不同等造成的數據匹配不上。我們數據分析的時候,都很容易錯失掉這些數據,影響審計結果的精度。
以上舉例都是取自數據質量相對較高的城市,若放在全省,錯誤數據占比將會更大!我們錯失的將會更多!
那么,如何解決這一問題呢?其實并不復雜。
首先,對于那些前臺錄入的數據,只需要在錄入時,增加數據有效性規(guī)則檢驗即可限制錯誤數據的錄入。而有效性規(guī)則,在Excel、Access這樣的基礎辦公軟件中,都可以實現,在大型數據庫軟件中,更沒有問題。
其次,對于系統(tǒng)自動生成的數據,要謹慎授予可編輯權限,防止不合系統(tǒng)法則的增刪改。再在有規(guī)則的字段上加上有效性約束,以保護有編輯權限的人員的錯誤編輯輸入。
再次,對于那些后臺導入的數據(一般指以往年度的數據或從其它系統(tǒng)植入的數據),可以考慮在新系統(tǒng)中僅導入符合有效性規(guī)則的數據,同時導入不符合有效性規(guī)則的數據為備份,或者將需后臺導入的數據全部備份為沒有有效性規(guī)則的原始數據。在新舊數據需要關聯合并時,用特殊字段標記舊數據以示區(qū)分即可。而以往數據中的錯誤數據,數據責任單位可以進行檔案查閱、發(fā)回數據來源部門重新報送等方式盡量修正。這樣可以最大限度的保證以后錄入的數據的正確性,也能同時保留以往數據的原貌并逐漸降低以往數據的錯誤率。
信息系統(tǒng)是當前及未來各行業(yè)各部門不可缺少的管理工具,而數據是信息系統(tǒng)的基石,錯誤的數據,就相當于基石中的豆腐渣磚頭,它們的存在必將影響整個信息系統(tǒng)的功效,嚴重的還將損害信息系統(tǒng)所屬單位的利益!
(作者單位:南昌市審計局)