張 磊
摘要:稅務(wù)系統(tǒng)大集中模式下的數(shù)據(jù)利用是金稅三期建設(shè)重點(diǎn),開(kāi)展數(shù)據(jù)利用有必要先弄清一些問(wèn)題的答案,如數(shù)據(jù)集中后如何進(jìn)行數(shù)據(jù)利用?數(shù)據(jù)利用和數(shù)據(jù)集中的關(guān)系是什么?數(shù)據(jù)利用的重點(diǎn)和難點(diǎn)在哪里?文章結(jié)合天津地稅數(shù)據(jù)利用案例,從業(yè)務(wù)、技術(shù)和管理三個(gè)方面進(jìn)行了回答。
關(guān)鍵詞:大集中;稅務(wù)系統(tǒng);數(shù)據(jù)利用;一般利用;深度利用
中圖分類(lèi)號(hào):D922文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-1145(2009)17-0132-02
隨著稅務(wù)系統(tǒng)信息化的不斷發(fā)展,金稅三期提出:逐步實(shí)現(xiàn)涉稅電子數(shù)據(jù)的集中處理和集中管理。數(shù)據(jù)集中后如何進(jìn)行數(shù)據(jù)利用?數(shù)據(jù)集中和數(shù)據(jù)利用有何關(guān)系?數(shù)據(jù)利用的重點(diǎn)和難點(diǎn)又在哪里?這些問(wèn)題可以從三個(gè)方面來(lái)解答。
一、業(yè)務(wù)需求
業(yè)務(wù)需求是開(kāi)展數(shù)據(jù)利用的源動(dòng)力,大集中模式下的數(shù)據(jù)利用也不例外。當(dāng)信息化推進(jìn)到大集中階段,稅務(wù)數(shù)據(jù)被有效地集中起來(lái),隨著數(shù)據(jù)的積累,開(kāi)展數(shù)據(jù)利用的需求自然而然地就會(huì)被提上議事日程。數(shù)據(jù)利用從業(yè)務(wù)需求上可分兩類(lèi):一般利用和深度利用。
(一)一般利用
長(zhǎng)期以來(lái),稅務(wù)工作中的數(shù)據(jù)利用主要是一般利用,固定報(bào)表是其常見(jiàn)形式,其特征是基于簡(jiǎn)單計(jì)算的原始稅收數(shù)據(jù)展現(xiàn)和對(duì)稅收現(xiàn)象的一般描述。但是,在大集中之前,稅務(wù)數(shù)據(jù)分散于相互獨(dú)立的系統(tǒng)之中,要想實(shí)現(xiàn)精確的、實(shí)時(shí)的數(shù)據(jù)利用,大集中是必然的發(fā)展途徑。
經(jīng)過(guò)多年建設(shè),天津地稅完成了覆蓋全市稅收征、管、查的“津稅”工程,系統(tǒng)和數(shù)據(jù)由市地稅局統(tǒng)一維護(hù)?!敖蚨悺鄙暇€以前,各區(qū)縣地稅局使用的軟件不統(tǒng)一,數(shù)據(jù)統(tǒng)計(jì)口徑也不盡相同,上線之后,建立了集中的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)和綜合查詢系統(tǒng),各區(qū)縣地稅局可以使用會(huì)統(tǒng)分析、考核報(bào)表、“一戶式”查詢等掌握稅收進(jìn)度和納稅人基本信息,實(shí)現(xiàn)對(duì)稅收數(shù)據(jù)全面、精確、及時(shí)的一般利用。
(二)深度利用
隨著時(shí)間的推移,業(yè)務(wù)部門(mén)將不滿足于對(duì)數(shù)據(jù)的一般利用,管理人員會(huì)主動(dòng)向數(shù)據(jù)要結(jié)果,即在海量數(shù)據(jù)的基礎(chǔ)上,運(yùn)用管理學(xué)、統(tǒng)計(jì)學(xué)等理論建立數(shù)學(xué)模型,使用數(shù)據(jù)挖掘等技術(shù),實(shí)現(xiàn)稅收預(yù)測(cè)、納稅評(píng)估、稽查選案等深度數(shù)據(jù)利用??梢哉f(shuō),一般數(shù)據(jù)利用是深度數(shù)據(jù)利用的基礎(chǔ)和前提,深度數(shù)據(jù)利用是一般數(shù)據(jù)利用的發(fā)展和提高,一般利用直觀形象,是被動(dòng)業(yè)務(wù)需求,深度利用則復(fù)雜抽象,是主動(dòng)業(yè)務(wù)需求。
經(jīng)過(guò)多年的數(shù)據(jù)積累,天津地稅開(kāi)始嘗試對(duì)稅務(wù)數(shù)據(jù)進(jìn)行深度利用,提出了房地產(chǎn)一體化管理體系。房地產(chǎn)一體化管理是將稅務(wù)信息、土地房屋信息、建安項(xiàng)目信息結(jié)合,深入研究,發(fā)現(xiàn)行業(yè)納稅規(guī)律,建立一套房地產(chǎn)業(yè)稅收模型。利用這個(gè)模型對(duì)全市存量房總體把握,結(jié)合土地和房屋交易契稅情況,以及行業(yè)整體盈利水平和平均稅負(fù),對(duì)全市房地產(chǎn)行業(yè)近期稅收和遠(yuǎn)景稅收做出預(yù)測(cè)。這種數(shù)據(jù)的深度利用要比一般利用在數(shù)據(jù)模型應(yīng)用研究的深度與廣度方面都上了一個(gè)臺(tái)階。
二、技術(shù)實(shí)現(xiàn)
稅務(wù)系統(tǒng)大集中是并不是簡(jiǎn)單的數(shù)據(jù)疊加,其技術(shù)實(shí)現(xiàn)需要考慮軟硬件等多方面問(wèn)題,如百G級(jí)數(shù)據(jù)的存儲(chǔ)和
查詢,大并發(fā)下的硬件資源,網(wǎng)絡(luò)帶寬層次不齊時(shí)數(shù)據(jù)上下傳輸?shù)?。?shù)據(jù)利用是以大集中為基礎(chǔ),除考慮上述問(wèn)題外,其還有自身的技術(shù)重點(diǎn)。
(一)數(shù)據(jù)梳理
數(shù)據(jù)利用的首要工作是數(shù)據(jù)梳理,也叫數(shù)據(jù)剖析或數(shù)據(jù)審計(jì),主要是對(duì)數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和關(guān)系進(jìn)行分析,提供數(shù)據(jù)的質(zhì)量信息。數(shù)據(jù)梳理的重要性常常被忽視,可以說(shuō)它是開(kāi)展數(shù)據(jù)利用的基礎(chǔ),數(shù)據(jù)模型的建立、維度的劃分、數(shù)據(jù)的展現(xiàn)等都應(yīng)從數(shù)據(jù)梳理開(kāi)始。如果沒(méi)有數(shù)據(jù)梳理,就談不上數(shù)據(jù)的一致性和準(zhǔn)確性。
如何進(jìn)行數(shù)據(jù)梳理?可以從稅務(wù)數(shù)據(jù)的不同來(lái)源入手梳理,將其分為納稅人、申報(bào)、入庫(kù)、違法違章、發(fā)票、票證、稽查、外部等八大部分,然后與業(yè)務(wù)逐一對(duì)照進(jìn)行梳理,避免數(shù)據(jù)遺漏。通過(guò)數(shù)據(jù)梳理,我們就能夠全面掌握稅務(wù)信息,展開(kāi)全方位數(shù)據(jù)利用。例如利用從征管、契稅、個(gè)所稅全員申報(bào)等系統(tǒng)中采集到的個(gè)人收入、房產(chǎn)、車(chē)船等方面的信息建立“自然人財(cái)產(chǎn)和納稅情況監(jiān)控”,對(duì)個(gè)人的收入和納稅情況進(jìn)行綜合評(píng)估,實(shí)現(xiàn)對(duì)個(gè)人納稅情況的全面監(jiān)控。
(二)數(shù)據(jù)清洗
數(shù)據(jù)梳理之后需要進(jìn)行數(shù)據(jù)清洗,因?yàn)槎悇?wù)數(shù)據(jù)是從多個(gè)業(yè)務(wù)系統(tǒng)中抽取,避免不了數(shù)據(jù)錯(cuò)誤和數(shù)據(jù)沖突,這些數(shù)據(jù)顯然不是我們想要的,稱(chēng)之為“臟數(shù)據(jù)”。數(shù)據(jù)清洗的任務(wù)就是過(guò)濾那些不符合要求的“臟數(shù)據(jù)”。
數(shù)據(jù)清洗是ETL過(guò)程的重要組成部分,ETL是數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load)的過(guò)程,用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。
天津地稅選擇Informatica ETL工具進(jìn)行數(shù)據(jù)清洗。其優(yōu)點(diǎn)在于Informatica PowerCenter基于純JAVA開(kāi)發(fā),可以多平臺(tái)移植;使用資料庫(kù)管理維護(hù)工具Repository可以進(jìn)行熱切換和團(tuán)隊(duì)開(kāi)發(fā);使用Designer可以進(jìn)行直觀形象的ETL模型設(shè)計(jì),并且能夠內(nèi)嵌自定義JAVA程序包;使用Workflow可以方便地對(duì)ETL模型實(shí)例化,調(diào)度調(diào)整各模型的運(yùn)行順序和運(yùn)行條件。
(三)數(shù)據(jù)展現(xiàn)
數(shù)據(jù)利用的最終結(jié)果要通過(guò)前端展現(xiàn)出來(lái),前端可以簡(jiǎn)單認(rèn)為是人機(jī)界面,好的展現(xiàn)工具對(duì)客戶端要求小、能夠快速開(kāi)發(fā)、便于維護(hù)、可形象直觀地展現(xiàn)數(shù)據(jù)利用結(jié)果。天津地稅采用BOXIR2(BusinessObjects XI Release II)作為數(shù)據(jù)利用的展現(xiàn)工具。
BO是集查詢、報(bào)表和OLAP技術(shù)為一身的解決方案,它使用獨(dú)特的語(yǔ)義層和動(dòng)態(tài)微立方技術(shù)來(lái)表示數(shù)據(jù)庫(kù)中的多維數(shù)據(jù),提供鉆取等多維分析技術(shù),支持多種數(shù)據(jù)庫(kù),具有較好的查詢和報(bào)表功能。在新版的BOXI中提供多種數(shù)據(jù)分析工具,有從BO6.5繼承的客戶端報(bào)表開(kāi)發(fā)工具Desktopintelligence,有基于JAVA重新開(kāi)發(fā)的Web瀏覽器展現(xiàn)工具Webintelligence和Olapintelligence,以及移植簡(jiǎn)單、開(kāi)發(fā)靈活的水晶報(bào)表和水晶易表。最重要的是,BOXI完全支持JAVA和.NET技術(shù),提供豐富的API接口和SDK開(kāi)發(fā)包,方便技術(shù)人員二次開(kāi)發(fā);支持LDAP統(tǒng)一權(quán)限管理,能夠?qū)崿F(xiàn)單點(diǎn)登錄,將征收管理系統(tǒng)和綜合查詢系統(tǒng)組成一個(gè)整體。
(四)數(shù)據(jù)指標(biāo)化
數(shù)據(jù)利用中如何提高查詢效率和正確反映歷史數(shù)據(jù)是一個(gè)難點(diǎn),數(shù)據(jù)指標(biāo)化可以解決這兩個(gè)問(wèn)題。稅務(wù)統(tǒng)計(jì)報(bào)表內(nèi)容復(fù)雜,涉及數(shù)據(jù)量較大,在傳統(tǒng)報(bào)表設(shè)計(jì)和查詢的方式下,一個(gè)復(fù)雜報(bào)表通常需要將近一兩個(gè)小時(shí)才能完成計(jì)算及展現(xiàn)。建立指標(biāo)是當(dāng)前統(tǒng)計(jì)行業(yè)常用的分析方式,也是國(guó)稅總局近年來(lái)一直在推廣和要求的。
數(shù)據(jù)指標(biāo)化就是根據(jù)現(xiàn)有報(bào)表的內(nèi)容進(jìn)行分析,提煉而成,將報(bào)表內(nèi)容分解成多個(gè)指標(biāo),定時(shí)進(jìn)行指標(biāo)加工、數(shù)據(jù)計(jì)算。在查看報(bào)表時(shí)調(diào)用按要求的格式生成好了的數(shù)據(jù),極大地提高了查詢速度。指標(biāo)建立除了在報(bào)表速度的提高上有明顯效果,同時(shí)也可以避免當(dāng)前數(shù)據(jù)變動(dòng)對(duì)歷史分析的影響,例如2008年希望看一下2007年2月份時(shí)的“待征稅收期末余額”,只要從指標(biāo)里查找年月為200702的待征稅收期末余額數(shù)據(jù)即可,不需要重新計(jì)算,保證了數(shù)據(jù)的連貫和一致。
(五)數(shù)據(jù)回放
大集中模式下的查詢系統(tǒng)要同時(shí)支持多部門(mén)的數(shù)據(jù)利用需求,這就容易造成“萬(wàn)向查詢”,系統(tǒng)響應(yīng)慢、查詢時(shí)間長(zhǎng)。一個(gè)辦法是提高硬件設(shè)備性能、優(yōu)化查詢語(yǔ)句、增加網(wǎng)絡(luò)帶寬,另一個(gè)辦法就是進(jìn)行數(shù)據(jù)回放。數(shù)據(jù)回放簡(jiǎn)單來(lái)說(shuō)就是把集中管理的稅務(wù)數(shù)據(jù)按照區(qū)縣切分,回放到不同的數(shù)據(jù)庫(kù)中,各區(qū)縣地稅局只查詢本局?jǐn)?shù)據(jù),并且對(duì)本局?jǐn)?shù)據(jù)有DBA操作權(quán)限,對(duì)其他區(qū)縣的數(shù)據(jù)則沒(méi)有訪問(wèn)權(quán)限,保證敏感數(shù)據(jù)的安全。
數(shù)據(jù)回復(fù)解決了集中查詢速度慢的問(wèn)題,同時(shí)又滿足了各區(qū)縣地稅局個(gè)性化查詢的需求。但是,數(shù)據(jù)回放不
同于大集中前的分散系統(tǒng)。首先,回放的數(shù)據(jù)是經(jīng)過(guò)梳理和清洗后的干凈數(shù)據(jù),能夠保證回放對(duì)象查詢口徑的一致;其次,數(shù)據(jù)回放不包括交易系統(tǒng),不能代替大集中模式下的征管查系統(tǒng),而是對(duì)其的有益補(bǔ)充。
三、管理機(jī)制
數(shù)據(jù)利用在實(shí)際操作中除了要重視業(yè)務(wù)需求和技術(shù)研究外,還需要建立相應(yīng)的管理機(jī)制,向管理要效率,以機(jī)制促管理。
(一)制度建設(shè)
數(shù)據(jù)利用的開(kāi)展要配合相應(yīng)的制度建設(shè),用信息化的手段規(guī)范業(yè)務(wù)流程,為數(shù)據(jù)的良好應(yīng)用提供政策支持。制度建設(shè)至關(guān)重要,關(guān)系到數(shù)據(jù)利用的成敗。試想一下,如果“臟數(shù)據(jù)”沒(méi)人處理,怎能使用這些數(shù)據(jù)分析出正確的結(jié)果。若開(kāi)展數(shù)據(jù)回放,各區(qū)縣地稅局對(duì)數(shù)據(jù)就有了自行利用的權(quán)利,哪些利用要統(tǒng)一進(jìn)行,避免資源浪費(fèi),哪些可以由各局發(fā)揮主觀能動(dòng)性,這涉及權(quán)力的再分配,需要制度來(lái)保障。
(二)風(fēng)險(xiǎn)控制
數(shù)據(jù)利用特別是數(shù)據(jù)的深度利用作為高層的信息化應(yīng)用,除了給我們帶來(lái)巨大的管理水平提升之外,也存在著的較大的實(shí)施和應(yīng)用風(fēng)險(xiǎn)。稅務(wù)數(shù)據(jù)利用作為稅務(wù)信息化的新興熱點(diǎn),還處在起步階段,其實(shí)施和應(yīng)用風(fēng)險(xiǎn)不容忽視。摸著石頭過(guò)河,充分估計(jì)難點(diǎn)和風(fēng)險(xiǎn)是目前較好的實(shí)施策略。
(三)人才培養(yǎng)
數(shù)據(jù)利用是對(duì)基礎(chǔ)數(shù)據(jù)的綜合利用,離不開(kāi)人才培養(yǎng)。數(shù)據(jù)利用就像一篇優(yōu)美的文章,寫(xiě)出它首先要理解手中的數(shù)據(jù),數(shù)據(jù)梳理就是給我們了一本字典;其次掌握手中的紙和筆,了解建模的各種理論和工具;最后由既懂業(yè)務(wù)又懂技術(shù)的人員完成數(shù)據(jù)利用。數(shù)據(jù)利用需要的是能夠把技術(shù)和業(yè)務(wù)結(jié)合在一起的復(fù)合型人才,人才培養(yǎng)就顯得格外重要。
四、結(jié)語(yǔ)
綜上所述,稅務(wù)系統(tǒng)大集中模式下的數(shù)據(jù)利用是當(dāng)前值得深入探討的課題,數(shù)據(jù)利用是一個(gè)系統(tǒng)工程,需要多部門(mén)多學(xué)科的合作,深入開(kāi)展數(shù)據(jù)利用工作可以促進(jìn)稅收規(guī)范,提高稅收效率,反映稅收趨勢(shì),為我國(guó)稅收政策提供正確的依據(jù)。
參考文獻(xiàn)
[1]王海森.關(guān)于稅收數(shù)據(jù)深度分析應(yīng)用的思考[期刊論文][J].現(xiàn)代經(jīng)濟(jì)信息(學(xué)術(shù)版),2007,(4).
[2]高玉虎,向育清,馬鐵柱.對(duì)加強(qiáng)稅收數(shù)據(jù)深度利用的研究與探討[期刊論文][J].現(xiàn)代經(jīng)濟(jì)信息(學(xué)術(shù)版),2008,(8).