謝雯
近年來,在大數據技術的推動下,數據倉庫和數據挖掘技術得到了飛速發(fā)展和廣泛應用,對住房公積金(下稱公積金)行業(yè)來說,住房公積金數據倉庫的建立和應用既是“智慧公積金”發(fā)展轉型期的重要方向,也是順應大數據時代發(fā)展的一次歷史機遇。
一、數據倉庫的定義及特點概述
隨著各類信息管理系統(tǒng)的建立和運行,數據處理的重點已經從傳統(tǒng)的業(yè)務處理擴展到在線分析處理,并從中得到面向各種主題的統(tǒng)計信息和決策支持信息。隨著數據量越來越大,現有數據存儲形式已經不能滿足信息分析的需要,于是建立數據倉庫的構想應運而生。“數據倉庫”一詞最早是在1990年,由美國的William H. Inmon博士提出,他將數據倉庫(Data Warehouse)定義為:“數據倉庫是一個面向主題的、集成的、時變的、非易失的數據集合,支持管理者的決策過程”。不同于數據庫是事務系統(tǒng)的數據平臺,其側重于在線交易數據的存儲,數據倉庫是分析系統(tǒng)的數據平臺,其存儲的一般為歷史數據,它從事務系統(tǒng)中獲取數據,并做匯總、加工,為決策者提供決策依據。
二、目前住房公積金行業(yè)信息管理存在的主要問題
自從1991年建立住房公積金制度以來,各地的住房公積金管理中心一直都致力于信息系統(tǒng)的建設,目前信息系統(tǒng)的建設基本都是建立在數據庫基礎上的,經過多年的運行和數據積累,信息系統(tǒng)技術架構已經基本成熟,但在日常運行和管理的過程中仍面臨如下問題。
1.數據缺乏統(tǒng)一管理和分析的能力
對于以事務處理為主要目標的住房公積金信息系統(tǒng)來說,在面對不同業(yè)務管理模式和規(guī)則時,通常會采用以業(yè)務類型和管理部門進行分別設計和開發(fā)的模式,數據庫的設計與存儲也多以業(yè)務類型分別存儲,這樣使得住房公積金信息系統(tǒng)對于數據缺乏統(tǒng)一規(guī)劃和管理。信息不僅容易重復收集,而且容易形成眾多信息孤島,難以共享,從而造成信息難以分析和價值挖掘。舉例來說,住房公積金業(yè)務系統(tǒng)中通常客戶的公積金賬戶和貸款賬戶是獨立設置和管理的,由于信息孤島的存在,在造成查詢和管理不便的同時,也容易使得騙提騙貸的風險增加。
2.歷史數據準確性和完整性很難保證
住房公積金信息系統(tǒng)的建設目標是為了實現住房公積金業(yè)務辦理和信息管理的電子化,而各地的業(yè)務規(guī)則和業(yè)務流程一直在跟隨房地產市場和科技等的發(fā)展變化在不斷優(yōu)化和改進。住房公積金信息收集的過程中難免會帶有歷史背景的烙印,同時早期的信息都是靠人工錄入為主,人為操作失誤在所難免,這些都很難保證歷史數據的準確性和完整性。例如,身份證號從15位升至18位的改變會造成系統(tǒng)中部分客戶的信息不準確;同時系統(tǒng)中會存在錄入錯誤導致的信息錯亂和不一致情況。類似的情況在大多數的信息系統(tǒng)中幾乎都會存在,數據的準確性會給數據分析的結果造成很大的影響。
3.數據分析需求增加和系統(tǒng)性能不足的矛盾日益明顯
面對當前瞬息萬變的房地產市場,住房公積金的使用頻次和利用效率越來越受到住房公積金管理人員的關注。隨著住房公積金信息系統(tǒng)的建立與運行,大量的基礎性數據和業(yè)務處理信息形成并長期積累,住房公積金信息系統(tǒng)的發(fā)展方向已從業(yè)務信息的收集開始轉向數據信息的在線實時分析處理,住房公積金管理人員希望能夠從業(yè)務系統(tǒng)中獲取有效的、一致的決策支持信息,以便及時準確地應對市場和外部變化帶來的影響。然而,由于數據量越來越大,利用已有的數據庫系統(tǒng)做分析查詢應用將影響數據庫事務處理性能,不能滿足數據分析的基本需求。此外,隨著住房公積金業(yè)務系統(tǒng)的全流程電子化推進,其業(yè)務系統(tǒng)的各類系統(tǒng)風險和操作風險增加,針對各類業(yè)務操作的風險分析需求越來越受到重視,但基于已有的數據庫進行風險分析存在情況多、數據量大、變化快、效率低的難題,這給基于系統(tǒng)的風險分析帶來了工作難度的加大和工作量的增加。綜上所述,現有的數據庫技術已無法滿足決策分析和風險分析等各類分析需求。
4.異構數據庫系統(tǒng)融合困難
眾所周知,住房公積金信息系統(tǒng)都是逐步建立起來的,基于不同時期的計算機技術而建立起來的信息系統(tǒng)有可能會采用不同的數據庫系統(tǒng)。這些獨立且自成一體的數據庫系統(tǒng)以不同的數據模式描述數據,使用不同的語言描述數據存儲和操縱事務,它們無法通過計算機網絡實現系統(tǒng)間的信息交換和結合,從而在信息系統(tǒng)中容易形成多個異構的、分散的數據庫系統(tǒng),出現大量的信息孤島。
5.大數據挖掘需求無法滿足和適應
近年來,隨著住房公積金事業(yè)的發(fā)展和“互聯網+政務服務”的深入,大數據平臺已經成為發(fā)展的必然趨勢。目前,南京、廈門等多地的住房公積金管理中心已經逐步同銀行、房產、民政、人社、公安等多部門實現了信息共享,信息共享使得住房公積金的數據更加多樣和豐富。隨著共享數據庫中的數據不斷積累,對這些數據進行再利用和深加工不僅有利于各項便捷服務的開展,而且對住房公積金的管理和決策具有十分重要的指導意義。因此,對于住房公積金的大數據挖掘需求愈發(fā)強烈。然而,住房公積金傳統(tǒng)的基于數據庫的數據管理維度單一且以面向應用為主,無法適應變化多端的面向不同主題的多維數據分析和大數據挖掘需求。
三、住房公積金數據倉庫系統(tǒng)的體系架構初步設想
住房公積金數據倉庫系統(tǒng)的基本體系架構設計如圖1所示,主要由數據源、數據倉庫服務器、OLAP服務器、前端工具與應用四部分組成。
數據源是數據倉庫系統(tǒng)的基礎,即系統(tǒng)的數據來源,包含住房公積金業(yè)務系統(tǒng)中存儲在內部數據庫中的內部業(yè)務信息和從外聯單位獲取的與住房公積金業(yè)務相關的外部信息。
在數據源的基礎上,經過數據清洗、抽取、變換、加載等過程,形成數據倉庫的元數據,按照主題進行重新組織后,部分元數據形成數據集市(Data Marts)。數據集市是數據倉庫的一個子集,主要面向部門級業(yè)務,并且只面向某個特定的主題。相比較企業(yè)級的數據倉庫而言,數據集市就是數據倉庫體系結構中增加的一種小型部門級的數據倉庫,投資規(guī)模比較小,通過為特定用戶預先計算好數據,從而滿足用戶對性能的要求,解決了靈活性和性能之間的矛盾。endprint
數據OLAP (聯機分析處理)是針對某個特定主題進行聯機數據訪問、處理、分析,從多個維度、多種數據綜合度對數據進行有效分析,最終通過前端工具和應用以直觀的方式展現出來。
前端工具主要包括數據查詢工具、自由報表工具、風險審計工具、數據分析工具、數據挖掘工具等各類基于數據倉庫或數據集市開發(fā)的應用。
四、住房公積金數據倉庫的實施意義和未來價值探討
根據住房公積金事業(yè)未來的發(fā)展趨勢,結合當前公積金信息系統(tǒng)數據管理上出現的各類矛盾,住房公積金數據倉庫的實施具有十分重要的意義和價值,主要體現在如下幾方面。
1.將推動住房公積金業(yè)務管理和信息管理體系的重構與整合
住房公積金數據倉庫將與現有的公積金信息管理系統(tǒng)一并經過重構和整合后形成新的信息管理體系,該體系將具備完整的信息收集、信息處理、信息查詢、信息分析等功能,可實現高效進行大批量信息處理和分析。信息管理體系的整合又將對住房公積金業(yè)務管理的改革帶來積極的影響。以報表為例,數據倉庫將逐步取代現有的各類業(yè)務管理統(tǒng)計報表系統(tǒng),徹底改變現行的業(yè)務管理統(tǒng)計報表管理模式,不僅會提高各類業(yè)務管理統(tǒng)計報表適時和準確性,也將從各類業(yè)務管理統(tǒng)計報表工作崗位上釋放大量的人、物和財務資源。
2.將有助于提高對住房公積金數據的價值認識和分析意識
長期以來,住房公積金數據信息未能得到深入分析和挖掘,以致于住房公積金的數據價值長期被低估,一定程度上也阻礙了住房公積金事業(yè)的推廣和發(fā)展。住房公積金數據倉庫的建立將為數據分析提供強有力的基礎保障和工具支持,可以實現住房公積金各類業(yè)務數據和共享信息的內涵和價值的深入挖掘,在為廣大繳存對象提供優(yōu)質高效便捷服務的同時,更好地提升住房公積金的附加增值服務體驗。這不僅可促使住房公積金管理人員跳出對數據長期“重收集、輕分析”的思維慣性,也有助于提升繳存職工和繳存單位對住房公積金的價值認知,打破對住房公積金價值低估的偏見。
3.將促進住房公積金業(yè)務管理水平的提升和風險防控能力
數據倉庫的建立,將推動并踐行“以數據助服務,用技術促管理”的實現,在一定程度上解決“數據爆炸、知識貧乏”的問題。利用數據倉庫,住房公積金管理人員可實現多層次、多角度、全方位地審視住房公積金數據,加深對住房公積金業(yè)務的理解和認識,重新梳理住房公積金各類評價指標,形成科學的住房公積金指標評價體系,有效提高住房公積金管理決策的科學性和管理效率;通過數據分析,可以快速發(fā)現日常業(yè)務數據的異常、趨勢、差異,以便更好地做出管理和決策,有效提升住房公積金信息管理的風險防控水平,確保住房公積金的資金安全。
4.將有效緩解現有住房公積金業(yè)務系統(tǒng)信息處理的壓力
數據倉庫承擔了面向決策和管理的各類住房公積金業(yè)務管理活動歷史數據的存儲和管理工作,這將有效緩解現有以面向事務處理為主的住房公積金業(yè)務系統(tǒng)處理各類管理信息分析需求的壓力,使之能更專注于信息收集和信息處理,提升系統(tǒng)性能和數據處理效率。同時,由于數據倉庫實現了業(yè)務系統(tǒng)信息數據的共享,因此在數據采集環(huán)節(jié)還可以大量減少信息數據的重復采集工作,提升業(yè)務系統(tǒng)運行的效率。
5.將有效提升住房公積金的數據質量和存儲安全性
住房公積金的業(yè)務系統(tǒng)中存儲著大量與日常業(yè)務管理相關的歷史數據,通過數據倉庫的數據清洗功能,可以對一些重要的錯誤數據進行有效梳理和掌握,在此基礎上提升住房公積金的數據質量。同時,利用數據倉庫的建設和實施還將對這些歷史數據進行有效保護和二次備份。
6.將有效解決信息孤島的技術難題
數據倉庫可以從異構的數據庫系統(tǒng)中使用統(tǒng)一的全局模式來描述數據,并將這些數據集成在數據倉庫中,通過數據倉庫提供的統(tǒng)一的數據接口對數據進行統(tǒng)計分析,最終支持決策者的決策過程。數據倉庫可成為連接各業(yè)務模塊間信息交流的橋梁,將減少甚至消除“信息孤島”現象,有效發(fā)揮現有各類業(yè)務管理系統(tǒng)的整體效益,并推動信息管理標準化建設工作的進程。
五、結語
目前,國內幾乎所有的商業(yè)銀行都已經將數據管理作為未來重點發(fā)展的方向之一,大多數商業(yè)銀行已經建成數據倉庫或大數據分析平臺,并產生了良好的經濟效益和社會效益。然而,在住房公積金行業(yè)中僅有少數幾個城市建有數據倉庫,住房公積金數據管理水平的提升迫在眉睫。因此,參照目前住房公積金信息管理的發(fā)展趨勢,從為廣大繳存職工實現更好服務的角度出發(fā),我們應盡快建立起數據倉庫,重構住房公積金的信息管理體系,為“智慧公積金”的實現構建良好的數據基石。
李求軍/責任編輯endprint