湯 馳
【摘 要】 數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)必須基于比較完善的信息化構(gòu)架,在原來成功的數(shù)據(jù)庫(kù)應(yīng)用的基礎(chǔ)上,積累大量準(zhǔn)確的基礎(chǔ)數(shù)據(jù),根據(jù)養(yǎng)老等社保行業(yè)自身的發(fā)展需求建立數(shù)據(jù)倉(cāng)庫(kù)。隨著信息社會(huì)的發(fā)展,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)將為養(yǎng)老等社保行業(yè)管理決策提供越來越高的決策支持功能。
【關(guān)鍵詞】 數(shù)據(jù)庫(kù);社保;社保服務(wù)オ
目前,各地市社保中心均統(tǒng)一建立了職工養(yǎng)老保險(xiǎn)管理信息。但是,作為社保工作服務(wù)的延伸,各參保企業(yè)仍大量存在手工、半手工的工作模式,由此帶來的問題是:企業(yè)和中心數(shù)據(jù)交換緩慢(報(bào)表方式),信息延遲,錯(cuò)誤率高,中心和企業(yè)溝通困難(對(duì)賬困難),服務(wù)質(zhì)量不高,工作效率取決于人員業(yè)務(wù)素質(zhì)等問題。如何提供更快、更好、更準(zhǔn)確的專業(yè)服務(wù)日趨突出,顯然通過傳統(tǒng)的手工經(jīng)辦方式,已無法完成日常經(jīng)辦工作。隨著信息化的不斷深入,不少社保機(jī)構(gòu)的信息系統(tǒng)都經(jīng)歷了數(shù)次的升級(jí)甚至更換,這樣就不可避免的存在運(yùn)行于不同平臺(tái)上的、不同結(jié)構(gòu)標(biāo)準(zhǔn)的檔案數(shù)據(jù)集。當(dāng)要跨越一定的時(shí)間長(zhǎng)度來查詢歷史信息時(shí),或者需要匯總多個(gè)系統(tǒng)的文件信息時(shí),數(shù)據(jù)處理和查詢的代價(jià)都很大。如果能建立檔案數(shù)據(jù)倉(cāng)庫(kù),將數(shù)據(jù)分離出來進(jìn)行集成和管理,不但可以滿足社保機(jī)構(gòu)的各級(jí)用戶對(duì)檔案數(shù)據(jù)進(jìn)行快速查詢分析等需要,而且可以減輕操作型環(huán)境數(shù)據(jù)存儲(chǔ)歷史數(shù)據(jù)和信息型處理負(fù)擔(dān),使得操作型環(huán)境更具有可塑性。
數(shù)據(jù)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定、隨時(shí)間變化的數(shù)據(jù)集合,用于支持管理決策制定過程。這可以從兩個(gè)層次予以理解。首先,數(shù)據(jù)倉(cāng)庫(kù)用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫(kù);其次,數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行重組,并包含大量的歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般不再修改。數(shù)據(jù)倉(cāng)庫(kù)作為一個(gè)系統(tǒng),是多種技術(shù)的綜合,它由源數(shù)據(jù)、數(shù)據(jù)準(zhǔn)備抽取、轉(zhuǎn)換和裝載、元數(shù)據(jù)、管理和控制部件及數(shù)據(jù)倉(cāng)庫(kù)工具幾部分組成。通過挖掘數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的大量數(shù)據(jù),從中抽取有意義的、隱含的,以前未知的并有潛在使用價(jià)值的知識(shí)。
養(yǎng)老保險(xiǎn)數(shù)據(jù)倉(cāng)庫(kù)包括需求分析、數(shù)據(jù)倉(cāng)庫(kù)建模和數(shù)據(jù)轉(zhuǎn)換等技術(shù)工作,需要熟悉各類社會(huì)保險(xiǎn),如養(yǎng)老保險(xiǎn)的業(yè)務(wù)流程和應(yīng)用,本文僅以養(yǎng)老保險(xiǎn)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)為例,論述社保數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的核心環(huán)節(jié)。
根據(jù)需求分析,養(yǎng)老保險(xiǎn)業(yè)務(wù)主要模塊分為,參保單位信息、個(gè)人參保信息和個(gè)人賬戶信息。此三大模塊為最主要的信息內(nèi)容,現(xiàn)在以個(gè)人賬戶信息為例說明數(shù)據(jù)建模情況。參保人員個(gè)人賬戶信息包括:個(gè)人編碼、身份證號(hào)碼、姓名、性別、出生時(shí)間、參加工作時(shí)間、歷年來個(gè)人月繳費(fèi)基數(shù)、個(gè)人繳納比例、單位劃轉(zhuǎn)比例、繳費(fèi)月數(shù)、當(dāng)年利息、累計(jì)利息、個(gè)人身份、特殊工種標(biāo)識(shí)(井下、有害、高溫)、本人參統(tǒng)時(shí)間、用工形式、視同繳費(fèi)年限、核定連續(xù)工齡、所屬基層單位名稱等。主要的維度和層次包括:繳費(fèi)月數(shù),層次主要分為年、季度、月份、星期、日期等。參保人信息主要包括年齡、性別、婚姻、職業(yè)等。根據(jù)概念模型和邏輯模型,對(duì)數(shù)據(jù)粒度和數(shù)據(jù)組織進(jìn)行設(shè)計(jì),設(shè)計(jì)出詳細(xì)的事實(shí)表和維度表。[JP]
數(shù)據(jù)結(jié)構(gòu)創(chuàng)建好后,把最主要的個(gè)人參保信息、參保單位信息和個(gè)人賬戶信息等中的相關(guān)數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)中。在生成數(shù)據(jù)倉(cāng)庫(kù)時(shí),關(guān)鍵的就是數(shù)據(jù)質(zhì)量。數(shù)據(jù)倉(cāng)庫(kù)中存有大量的歷史數(shù)據(jù),還有當(dāng)前細(xì)節(jié)數(shù)據(jù)、輕度綜合和高度綜合數(shù)據(jù),以滿足決策者對(duì)不同時(shí)間和不同粒度層次的要求。數(shù)據(jù)的來源可以是企業(yè)內(nèi)部的或是外部的,常常是由不同的數(shù)據(jù)系統(tǒng)、不同的操作系統(tǒng)及應(yīng)用生成,因此,數(shù)據(jù)很容易出現(xiàn)不齊全、不一致或重復(fù)的現(xiàn)象。因此在抽取及整合的過程中,必須加上一些步驟,使數(shù)據(jù)整齊一致。數(shù)據(jù)轉(zhuǎn)換服務(wù)(DTS)是實(shí)現(xiàn)轉(zhuǎn)換數(shù)據(jù)的功能工具,在使用DTS進(jìn)行數(shù)據(jù)轉(zhuǎn)換或者是將數(shù)據(jù)導(dǎo)入、導(dǎo)出到數(shù)據(jù)倉(cāng)庫(kù)中時(shí),DTS必須考慮以下5個(gè)過程:即數(shù)據(jù)提取、轉(zhuǎn)換、清理、加載、匯總幾個(gè)過程。在數(shù)據(jù)裝載到數(shù)據(jù)倉(cāng)庫(kù)時(shí),不但要進(jìn)行數(shù)據(jù)的轉(zhuǎn)換,還必須注意基礎(chǔ)代碼的統(tǒng)一。數(shù)據(jù)準(zhǔn)備好后,便可以用工具軟件如Excel、Analysis Services 等進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)挖掘和財(cái)務(wù)決策。
基于數(shù)據(jù)倉(cāng)庫(kù)的養(yǎng)老保險(xiǎn)信息系統(tǒng)采用3層C /S體系結(jié)構(gòu),將表現(xiàn)層、邏輯層、數(shù)據(jù)層分離。最底層是數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,這是一個(gè)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng),養(yǎng)老保險(xiǎn)信息系統(tǒng)的數(shù)據(jù)集市,元數(shù)據(jù)庫(kù)也放在這一層;中間層為OLAP服務(wù)器,它是一種特殊的服務(wù)器,可以直接實(shí)現(xiàn)多維數(shù)據(jù)的操作;最頂層主要是應(yīng)用服務(wù)器,主要是商業(yè)智能應(yīng)用程序,包括查詢和報(bào)告工具,OLAP分析和數(shù)據(jù)挖掘,以及各種報(bào)表生成工具。
考慮到兼容性和易用性的需要,前端通過Excel展現(xiàn)。根據(jù)養(yǎng)老保險(xiǎn)管理決策需求,相應(yīng)的統(tǒng)計(jì)報(bào)表可以分為以下兩個(gè)方面。一是以單位為軸心,分別跟個(gè)人、繳費(fèi)基數(shù)、單位類型進(jìn)行組合,并根據(jù)單位繳費(fèi)事實(shí)表中的度量值進(jìn)行統(tǒng)計(jì),可以得到各個(gè)參保單位在相應(yīng)維度的參保人次、平均繳費(fèi)、平均基數(shù),并且可以對(duì)單位參保形式維度的不同進(jìn)行比照,以得到參保形式大類、個(gè)人子類等不同層次的參保的統(tǒng)計(jì)報(bào)表。另一方面,我們還可以進(jìn)行多維度組合形成多維報(bào)表,如進(jìn)行個(gè)人參保維度、繳費(fèi)日期維度、繳費(fèi)基數(shù)維度的組合,可以得到各類參保形式的參保人數(shù)、平均基數(shù)、繳費(fèi)率、以及個(gè)人繳納和單位繳納多少的變化情況,從而為了解人均收入、人均參保年齡和人均福利制度等的決策提供幫助。
數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)處理分析、數(shù)據(jù)挖掘技術(shù)是20世紀(jì)90年代以來研究的熱點(diǎn),發(fā)展至今,這3種技術(shù)在養(yǎng)老等社保行業(yè)決策支持中的綜合應(yīng)用取得了一定的效果。數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)必須基于比較完善的信息化構(gòu)架,在原來成功的數(shù)據(jù)庫(kù)應(yīng)用的基礎(chǔ)上,積累大量準(zhǔn)確的基礎(chǔ)數(shù)據(jù),根據(jù)養(yǎng)老等社保行業(yè)自身的發(fā)展需求建立數(shù)據(jù)倉(cāng)庫(kù)。隨著信息社會(huì)的發(fā)展,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)將為養(yǎng)老等社保行業(yè)管理決策提供越來越高的決策支持功能。