曹 騫 許 磊
(1巢湖學(xué)院計(jì)算機(jī)系,安徽 巢湖,238000)
(2中國科技大學(xué)計(jì)算機(jī)學(xué)院,安徽 合肥,230000)
(3巢湖學(xué)院物理系,安徽 巢湖,238000)
數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)數(shù)據(jù)分析上的應(yīng)用
曹 騫1,2許 磊3
(1巢湖學(xué)院計(jì)算機(jī)系,安徽 巢湖,238000)
(2中國科技大學(xué)計(jì)算機(jī)學(xué)院,安徽 合肥,230000)
(3巢湖學(xué)院物理系,安徽 巢湖,238000)
本文主要介紹了巢湖市地稅局稅務(wù)系統(tǒng)的系統(tǒng)結(jié)構(gòu)和關(guān)鍵技術(shù)。該系統(tǒng)主要運(yùn)用數(shù)據(jù)倉庫、ETL、數(shù)據(jù)挖掘等關(guān)鍵技術(shù)。
數(shù)據(jù)分析系統(tǒng);數(shù)據(jù)倉庫;ETL
巢湖市地稅局稅務(wù)系統(tǒng)管理中心以稅務(wù)處理系統(tǒng)為基礎(chǔ),開發(fā)了一系列的增值業(yè)務(wù)。隨著稅務(wù)系統(tǒng)的運(yùn)行,納稅企業(yè)稅單越來越多,系統(tǒng)累積的各種數(shù)據(jù)規(guī)模越來越大,累積的數(shù)據(jù)中包含著豐富的有價(jià)值信息,能夠幫助巢湖市地稅局更好的處理稅務(wù)的征收,與稅務(wù)的稽查。因此,在管理中心的日常業(yè)務(wù)中,對(duì)稅務(wù)系統(tǒng)中各種數(shù)據(jù)的各種分析需求已經(jīng)逐漸顯露出來。
目前解決分析需求的辦法是,需要有專門的技術(shù)人員對(duì)最底層的核心數(shù)據(jù)庫進(jìn)行手工操作,,用手工導(dǎo)出大量的相關(guān)的用戶數(shù)據(jù),稅務(wù)記錄數(shù)據(jù),然后通過相應(yīng)的工具軟件制作相應(yīng)的報(bào)表。這樣是能找出大量的數(shù)據(jù),但是無法對(duì)取得的數(shù)據(jù)進(jìn)行全面深入的分析,很難在海量的數(shù)據(jù)中找到潛在的有價(jià)值的信息,同時(shí)操作復(fù)雜繁瑣,數(shù)據(jù)間的相關(guān)性很難找到,響應(yīng)時(shí)間長,報(bào)表制作周期長,容易出錯(cuò),而且由于直接對(duì)底層數(shù)據(jù)庫進(jìn)行操作,對(duì)于數(shù)據(jù)的安全性和系統(tǒng)的安全性是一種潛在的威脅。怎樣解決目前的問題呢?方法是稅務(wù)系統(tǒng)的基礎(chǔ)上,構(gòu)建一個(gè)能提供多種對(duì)數(shù)據(jù)深入分析方法,擴(kuò)展當(dāng)前系統(tǒng)使之具有靈活簡單的報(bào)表定制功能,同時(shí)為系統(tǒng)平臺(tái)的安全性提供完整的解決方案,為數(shù)據(jù)建立綜合的稅務(wù)分析平臺(tái)。找出相關(guān)的數(shù)據(jù)的邏輯性,與關(guān)聯(lián)性,為稅務(wù)的核查,提供相應(yīng)的幫助,本文主要從總體設(shè)計(jì)、數(shù)據(jù)倉庫建模、ETL、系統(tǒng)功能等方面來論述,將系統(tǒng)建設(shè)重點(diǎn)放在內(nèi)層數(shù)據(jù)倉庫建設(shè),并在數(shù)據(jù)倉庫分離分析和業(yè)務(wù)環(huán)境的基礎(chǔ)上,建立一個(gè)基于Web的B/S架構(gòu)的企業(yè)級(jí)數(shù)據(jù)分析框架,滿足本稅務(wù)征收和稅務(wù)稽查等部門的工作業(yè)務(wù)分析需求。
2.1 體系結(jié)構(gòu)
稅務(wù)系統(tǒng)綜合數(shù)據(jù)分析平臺(tái)采用了基于瀏覽器的三層結(jié)構(gòu)(B/S架構(gòu)),體系結(jié)構(gòu)如圖1所示。系統(tǒng)需要定期(每周/月/季度/年)從業(yè)務(wù)系統(tǒng)(稅務(wù)系統(tǒng)、稅務(wù)部門網(wǎng)站服務(wù)器、系統(tǒng)日志等)里抽取分析平臺(tái)所需要的分析數(shù)據(jù),增量式地更新稅務(wù)系統(tǒng)綜合數(shù)據(jù)倉庫SMMAIL-DW,這部分抽取工作對(duì)底層的原始數(shù)據(jù)的視圖進(jìn)行操作。保護(hù)了原始數(shù)據(jù)的安全性。SMMAIL-DW存儲(chǔ)了以客戶為中心的特征數(shù)據(jù)和行為數(shù)據(jù),以網(wǎng)頁為中心的web訪問數(shù)據(jù)等,應(yīng)用服務(wù)器定期(每周/日/年)對(duì)這些數(shù)據(jù)進(jìn)行處理(匯總、聚合、統(tǒng)計(jì)、分類等),同時(shí)應(yīng)用服務(wù)器提供還提供相應(yīng)的查詢和分析的接口,對(duì)分析結(jié)果數(shù)據(jù)提供基于WEB的展示的接口,最后應(yīng)用服務(wù)器定期(每周/日/年)生成各類數(shù)據(jù)分析報(bào)表。WEB服務(wù)器端通過ASP.Net程序調(diào)用應(yīng)用服務(wù)器的各種功能,用戶通過瀏覽器直接訪問本系統(tǒng)。
圖1
2.2 系統(tǒng)組成
根據(jù)上述體系結(jié)構(gòu),的整個(gè)系統(tǒng)組成如下所示:
1)ETL:包括原始數(shù)據(jù) ETL、參數(shù)設(shè)置、系統(tǒng)檢錯(cuò)等功能;
2)業(yè)務(wù)邏輯:包括數(shù)據(jù)處理、查詢分析、數(shù)據(jù)挖掘建模、結(jié)果顯示等功能;
3)前端應(yīng)用:包括納稅企業(yè)分析、稅務(wù)分析、Web分析、系統(tǒng)運(yùn)行分析、系統(tǒng)管理等功能。
3.1 數(shù)據(jù)倉庫設(shè)計(jì)
數(shù)據(jù)倉庫總體結(jié)構(gòu)如圖2:
圖2
原始稅務(wù)業(yè)務(wù)數(shù)據(jù)視圖通過ETL程序自動(dòng)導(dǎo)入到數(shù)據(jù)倉庫中的事實(shí)表中。除了事實(shí)表,數(shù)據(jù)倉庫中還包括了企業(yè)信息、稅單信息,賬單信息等維表。在數(shù)據(jù)倉庫的基礎(chǔ)上,為了滿足各種數(shù)據(jù)分析需求,再為不同的分析主題中建立相應(yīng)的數(shù)據(jù)集市。
對(duì)于數(shù)據(jù)倉庫中的按月匯總的明細(xì)事實(shí)數(shù)據(jù),由于其數(shù)據(jù)量會(huì)非常大,可以按照保持一個(gè)時(shí)間周期(比如一年)之后自動(dòng)按上一級(jí)時(shí)間粒度匯總的策略來保存歷史數(shù)據(jù),這樣在明細(xì)表中就可以始終保持一個(gè)時(shí)間周期的細(xì)節(jié)數(shù)據(jù)。如圖3所示:
圖3
4.1 ETL高層設(shè)計(jì)
ETL高層設(shè)計(jì)是指將數(shù)據(jù)倉庫中的數(shù)據(jù)模型與其涉及到的OLTP系統(tǒng)中的相關(guān)數(shù)據(jù)表建立起對(duì)應(yīng)關(guān)系,設(shè)計(jì)表級(jí)數(shù)據(jù)的初始導(dǎo)入及增量導(dǎo)入規(guī)則,將訂納稅企業(yè)信息、稅單的處理、企業(yè)的地理信息、系統(tǒng)日志、、網(wǎng)站內(nèi)容訪問數(shù)據(jù)等以視圖的方式導(dǎo)入。
4.2 聚合策略設(shè)計(jì)
聚合是指在某一周期(如一個(gè)月,一年等)對(duì)事實(shí)表中的數(shù)據(jù)做按照一定規(guī)則的匯總,以減小數(shù)據(jù)量,提高絕大部分查詢的速度;同時(shí)將歷史數(shù)據(jù)中最能體現(xiàn)信息,最有保存價(jià)值的數(shù)據(jù)做保留,提高數(shù)據(jù)庫的使用效率。
在聚合維度的選取上我們要遵循的原則:維度頻度頻繁訪問原則:只有那些被經(jīng)常需要使用到的維度,才有做聚合的意義;可選度小原則:指維度中可選用的值較少,只有這樣,聚合后才可能大規(guī)模的減小數(shù)據(jù)量。
具體實(shí)施中,我們將用軟件對(duì)各個(gè)事實(shí)表的數(shù)據(jù)量進(jìn)行一個(gè)大致的計(jì)數(shù),然后根據(jù)以上原則自動(dòng)調(diào)用事先寫好的聚合的相應(yīng)具體算法策略。
4.3 ETL異常處理機(jī)制
當(dāng)ETL執(zhí)行過程中發(fā)生異常時(shí),ETL程序要記錄發(fā)生異常的詳細(xì)錯(cuò)誤信息,發(fā)生錯(cuò)誤的文件,錯(cuò)誤的SQL語句,錯(cuò)誤數(shù)據(jù)所在的行和列和發(fā)生錯(cuò)誤的時(shí)間,同時(shí)根據(jù)數(shù)據(jù)的類型,根據(jù)提前指定的軟件糾錯(cuò)機(jī)制,程序自動(dòng)執(zhí)行相應(yīng)的操作,保證系統(tǒng)的運(yùn)行,對(duì)于沒有預(yù)測到的錯(cuò)誤,系統(tǒng)會(huì)將錯(cuò)誤記錄分別歸類成異常數(shù)據(jù)文件,異常數(shù)據(jù)文件按照不同的數(shù)據(jù)類別進(jìn)行分類存放。這樣用戶就可以快速的定位到有錯(cuò)誤的數(shù)據(jù),同時(shí)制定相應(yīng)的解決方案,使之方便對(duì)異常數(shù)據(jù)文件進(jìn)行集中處理。
在定位到錯(cuò)誤位置并找出錯(cuò)誤原因以后,通過修改源數(shù)據(jù),增加糾錯(cuò)程序方案,再次通過ETL程序增量導(dǎo)入到數(shù)據(jù)倉庫中。
4.4 ETL流程設(shè)計(jì)
ETL流程包括初始化導(dǎo)入和增量導(dǎo)入。初始化導(dǎo)入包括手工維護(hù)維度裝載、緩慢變化維表數(shù)據(jù)裝載、事實(shí)表數(shù)據(jù)裝載。增量導(dǎo)入包括緩慢變化維表數(shù)據(jù)裝載、事實(shí)表數(shù)據(jù)裝載階段、數(shù)據(jù)匯總和聚合以及異常情況處理。
5.1 納稅企業(yè)分析
首先要提供一個(gè)統(tǒng)一的納稅企業(yè)數(shù)據(jù)視圖,通過這個(gè)視圖,可以對(duì)一個(gè)那納稅企業(yè)的多個(gè)層次信息同時(shí)進(jìn)行反映,包括基本信息、企業(yè)相關(guān)的各種賬務(wù)報(bào)表信息。
在統(tǒng)一的納稅企業(yè)數(shù)據(jù)視圖基礎(chǔ)上,平臺(tái)能夠提供多種可視化查詢和多維分析手段,對(duì)納稅企業(yè)數(shù)據(jù)進(jìn)行查詢、切片、旋轉(zhuǎn)、鉆取等操作,從多個(gè)不同的角度查看數(shù)據(jù)。
在查詢和多位分析的基礎(chǔ)上,平臺(tái)提供更深入的數(shù)據(jù)挖掘技術(shù)對(duì)納稅企業(yè)進(jìn)行深入分析,包括根據(jù)企業(yè)基本信息和稅單信息進(jìn)行企業(yè)細(xì)分,需要稽查的潛在企業(yè)分析,根據(jù)企業(yè)財(cái)務(wù)報(bào)表信息進(jìn)行企業(yè)分析。有分析數(shù)據(jù)作出企業(yè)大致的經(jīng)營情況為稅務(wù)的稽查,提供一定的范圍的幫助。
所有統(tǒng)計(jì)、查詢和數(shù)據(jù)挖掘分析的結(jié)果都能夠生成基于Web的報(bào)表,包括固定格式報(bào)表和用戶自定義報(bào)表兩種形式。
5.2 權(quán)限管理
本平臺(tái)的用戶基本分為三個(gè)層次:稅務(wù)管理層面;稅務(wù)和稽查局長;技術(shù)部工程師,不同層次的用戶具有不同的操作權(quán)限。因此系統(tǒng)要提供完整的“操作許可(Permission)-角色(Role)-用戶(User)-機(jī)構(gòu)(Group)”的四層權(quán)限模型。 首先提供用戶管理功能,可以增加、刪除、修改用戶信息;其次建立所有的操作許可;然后在操作許可上建立不同的角色,一個(gè)角色可以有多個(gè)不同的操作許可;最后將角色分配給用戶。保障系統(tǒng)原始數(shù)據(jù)的安全與保密性。
5.3 系統(tǒng)監(jiān)控
從實(shí)時(shí)系統(tǒng)運(yùn)行日志和網(wǎng)絡(luò)設(shè)備日志數(shù)據(jù)中采集標(biāo)志性數(shù)據(jù),從而反映整個(gè)系統(tǒng)運(yùn)行的情況,比如所有納稅企業(yè)、當(dāng)前以納稅企業(yè),需要納稅企業(yè),減稅企業(yè)等等。系統(tǒng)提供用戶可定制的基于Web的系統(tǒng)監(jiān)控報(bào)表;
在系統(tǒng)運(yùn)行數(shù)據(jù)采集和查詢的基礎(chǔ)上,需要進(jìn)一步對(duì)系統(tǒng)運(yùn)行狀態(tài)進(jìn)行預(yù)測分析,即根據(jù)采集到的系統(tǒng)日志、網(wǎng)絡(luò)設(shè)備日志等數(shù)據(jù),對(duì)系統(tǒng)的運(yùn)行狀態(tài)建立預(yù)測模型,從而在檢查系統(tǒng)運(yùn)行狀態(tài)的同時(shí),能夠?qū)ο到y(tǒng)下一步可能出現(xiàn)的情況進(jìn)行預(yù)測分析。對(duì)于所有的預(yù)測模型,平臺(tái)能夠自動(dòng)定時(shí)的根據(jù)采集的日志數(shù)據(jù)進(jìn)行重新訓(xùn)練和優(yōu)化,從而不斷提升模型精度。
巢湖市地稅局稅務(wù)分析系統(tǒng)根據(jù)上述系統(tǒng)框架,基于數(shù)據(jù)挖掘等關(guān)鍵技術(shù)開發(fā)而成。數(shù)據(jù)倉庫設(shè)計(jì)采用PowerDesigner 6.0,構(gòu)件技術(shù)采用基于COM的標(biāo)準(zhǔn),數(shù)據(jù)分析采用了復(fù)旦德門DMiner智能分析平臺(tái)提供的二次開發(fā)函數(shù)DMiner SDK,開發(fā)語言采用ASP.Net1.1。
目前該系統(tǒng)已經(jīng)在巢湖市地稅局正式上線運(yùn)行,運(yùn)行狀態(tài)良好,稅務(wù)工作人員通過該信息分析平臺(tái)獲得很多有用的信息。
[1]王志海等譯.數(shù)據(jù)倉庫[M].北京:機(jī)械工業(yè)出版社,2000.
[2]Jiawei Han,Micheline Kamber著,Data Mining Concepts and Techniques[M].北京:機(jī)械工業(yè)出版社,2006.
[3]Kim J.Iterated grid search on unimodal criteria[D].PhD dissertation,Department of Statistics,Virginia Tech,1997.
[4]Keogh E,Chakrabarti K,Pazzani M&Mehrotra.Dimenslonality reduction for fast similarity search in large time series databases[J].Journal of Knowledge and Information Systems,2000:263-286.
THE APPLICATION OF DATA MINING ON THE INFORMATION ANALYSIS OF CHAOHU BUREAU IN THE TAX SYSTEM
CAO Qian1,2XU Lei3
(1 Department of Computer,Chaohu University,Anhui Chaohu 238000)
(2 School of Computer,University of Science and Technology of China,Anhui Hefei 230000)
(3 Department of Physics,Chaohu University,Anhui Chaohu 238000)
This article mainly introduced the system of tax bureau chaohu system structure and key technology of this system is mainly used.Data warehouse and data mining,the ETL key technology.
Data Analysis System;Data Warehouse;ETL
TP311
A
1672-2868(2010)06-0017-04
2010-08-20
巢湖學(xué)院自然科學(xué)研究資助項(xiàng)目(XLY-201012)
曹騫(1981-),男,安徽安慶人。巢湖學(xué)院計(jì)算機(jī)系教師,研究方向:數(shù)據(jù)挖掘。
責(zé)任編輯:陳 侃