董靜
摘 要:隨著我國經(jīng)濟(jì)的發(fā)展,經(jīng)濟(jì)統(tǒng)計過程中會出現(xiàn)大量的、雜亂的、來源廣泛的數(shù)據(jù)。作為下一經(jīng)濟(jì)活動的基礎(chǔ),數(shù)據(jù)的利用非常重要,因此為經(jīng)濟(jì)發(fā)展制定針對性的決策是社會各界關(guān)注的重點,統(tǒng)計部門也越來越重視經(jīng)濟(jì)統(tǒng)計信息的真實性與可靠性。面對這樣復(fù)雜的經(jīng)濟(jì)關(guān)系整體,傳統(tǒng)的數(shù)據(jù)統(tǒng)計與處理方法顯得異常薄弱,難以對深層次的數(shù)據(jù)進(jìn)行智能分析,導(dǎo)致存在于數(shù)據(jù)中的聯(lián)系和價值被忽視,且對于虛假數(shù)據(jù)不具有較好的鑒別能力。因此,借助現(xiàn)代化的技術(shù)實施經(jīng)濟(jì)分析成為社會發(fā)展的必然趨勢,數(shù)據(jù)挖掘顯示出其巨大的優(yōu)勢,本文從實際應(yīng)用的角度出發(fā),分析數(shù)據(jù)挖掘技術(shù)的特點及其在實際經(jīng)濟(jì)統(tǒng)計中的應(yīng)用。
關(guān)鍵詞:經(jīng)濟(jì)統(tǒng)計;海量數(shù)據(jù);數(shù)據(jù)挖掘;應(yīng)用
跟隨著改革開放的步伐,我國社會經(jīng)濟(jì)得到空前的發(fā)展,在幾十年的建設(shè)活動中也積累了海量的統(tǒng)計數(shù)據(jù)。由于這些經(jīng)濟(jì)數(shù)據(jù)具有復(fù)雜性的特征,傳統(tǒng)的統(tǒng)計數(shù)據(jù)分析只能夠?qū)ζ溥M(jìn)行單純的數(shù)理知識分析,難以深入挖掘到數(shù)據(jù)的深層價值。開發(fā)利用的形式非常單一,遠(yuǎn)遠(yuǎn)不能夠滿足當(dāng)今社會對于數(shù)據(jù)分析利用的要求。數(shù)據(jù)挖掘技術(shù)作為科技發(fā)展衍生的新型統(tǒng)計方法,其優(yōu)越性在于能夠?qū)崿F(xiàn)對數(shù)據(jù)的橫向與縱向開發(fā),極大的延伸拓展經(jīng)濟(jì)數(shù)據(jù)開發(fā)的范圍,從而獲取更多的具有深層價值的信息,為社會經(jīng)濟(jì)發(fā)展與制定決策提供真實有效的依據(jù)。
1.數(shù)據(jù)挖掘技術(shù)的概述
數(shù)據(jù)挖掘技術(shù)一般指通過深層次開發(fā),從海量數(shù)據(jù)中挖掘出有價值信息并加以分析與整理,實現(xiàn)對凌亂復(fù)雜的信息數(shù)據(jù)的整合。這里的海量數(shù)據(jù)具有不完全性、模糊性、隨機(jī)性以及噪音性的特征,通過數(shù)據(jù)挖掘可以變成潛在有價值的、新穎的信息。數(shù)據(jù)挖掘不僅是經(jīng)濟(jì)信息的轉(zhuǎn)換過程,更是一門具有學(xué)科交叉特征的技術(shù),涉及到機(jī)器學(xué)習(xí)、數(shù)據(jù)統(tǒng)計、神經(jīng)網(wǎng)絡(luò)以及數(shù)據(jù)庫等,在統(tǒng)計行業(yè)中得到非常廣泛的應(yīng)用。應(yīng)用數(shù)據(jù)挖掘技術(shù)所形成的數(shù)據(jù)形態(tài),能夠為數(shù)據(jù)使用者對數(shù)據(jù)信息的提取和應(yīng)用提供很大的便利,基于技術(shù)層面可以說數(shù)據(jù)挖掘技術(shù)實現(xiàn)了對原始數(shù)據(jù)的深加工與精加工,具有高度的數(shù)據(jù)分析自主性。
2.數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計工作中的應(yīng)用優(yōu)勢
2.1綜合應(yīng)用能力強(qiáng)
數(shù)據(jù)挖掘是一個完整的工作系統(tǒng)而非實現(xiàn)某一過程的工具,具有實現(xiàn)主體信息需求的特征。隨著經(jīng)濟(jì)的穩(wěn)步增長,各個部門的發(fā)展都與經(jīng)濟(jì)統(tǒng)計信息息息相關(guān),應(yīng)用經(jīng)濟(jì)統(tǒng)計信息成為管理與決策的基礎(chǔ)。但是實際上不同的管理部門擁有的權(quán)限、管理的方式以及領(lǐng)域千差萬別,對經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)形式的需求也不同,因此對于經(jīng)濟(jì)統(tǒng)計系統(tǒng)提出的要求更高。不但需要符合管理部門的數(shù)據(jù)要求,還應(yīng)能夠?qū)⒔y(tǒng)計數(shù)據(jù)轉(zhuǎn)化為不同表現(xiàn)形式。得到的數(shù)據(jù)格式能夠在管理部門中錄入、統(tǒng)計和應(yīng)用。數(shù)據(jù)挖掘技術(shù)的綜合性特征不斷促進(jìn)系統(tǒng)應(yīng)用深度和范圍的擴(kuò)展。
2.2實際有效性強(qiáng)
數(shù)據(jù)挖掘技術(shù)是一種具有明確目的性的深加工技術(shù)。在經(jīng)濟(jì)統(tǒng)計與應(yīng)用過程中,可以基于使用者的需求實現(xiàn)對長時間累積的海量數(shù)據(jù)進(jìn)行深加工,主要有兩種加工形式:其一是對海量數(shù)據(jù)管理實施高效化處理,基于經(jīng)濟(jì)數(shù)據(jù)管理角度,在實際應(yīng)用中通過信息的統(tǒng)計和分類,將雜亂無章的數(shù)據(jù)庫信息進(jìn)行科學(xué)系統(tǒng)化的處理,以實現(xiàn)數(shù)據(jù)管理的高效性和有效性;其二是分析現(xiàn)有數(shù)據(jù)的目的性,以數(shù)據(jù)統(tǒng)計分析的目標(biāo)作為指引,對原有的信息進(jìn)行內(nèi)容、關(guān)系以及形式上的加工處理,從而保證得到的經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)能夠更好的與管理者需求進(jìn)行匹配。
2.3技術(shù)適用性強(qiáng)
我國的經(jīng)濟(jì)管理部門職權(quán)相對來說較為分散,不同經(jīng)濟(jì)管理部門中對于統(tǒng)計數(shù)據(jù)的需求也是不一樣的。在很多地區(qū)、很多經(jīng)濟(jì)管理部門中的統(tǒng)計活動沿用傳統(tǒng)的方法,具有較大的局限性,難以為經(jīng)濟(jì)管理活動的整體提供服務(wù)。在實際工作中經(jīng)常存在數(shù)據(jù)統(tǒng)計工作重復(fù)或者缺失的現(xiàn)象,進(jìn)而影響到經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計工作的效率和質(zhì)量。盡快建設(shè)具有整合功能的統(tǒng)計系統(tǒng),實現(xiàn)數(shù)據(jù)信息融合是我國經(jīng)濟(jì)管理部門的內(nèi)在需求。而宏觀經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)庫的建設(shè)為數(shù)據(jù)挖掘技術(shù)的發(fā)展提供溫床,只要保證經(jīng)濟(jì)統(tǒng)計信息的準(zhǔn)確性,然后通過數(shù)據(jù)挖掘技術(shù)予以整合處理就能夠得到更精準(zhǔn)、更豐富的數(shù)據(jù)資源。
3.數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計中的應(yīng)用
3.1集成化處理方法應(yīng)用
數(shù)據(jù)集成所指的是對不同的數(shù)據(jù)進(jìn)行整合,由雜亂變?yōu)檎w。隨著經(jīng)濟(jì)的發(fā)展,收集到的數(shù)據(jù)信息量越來越龐大,信息的來源越來越廣,對信息集成造成一定的困難。由于社會經(jīng)濟(jì)活動中數(shù)據(jù)的來源并不僅僅是官方統(tǒng)計局,多來源的數(shù)據(jù)呈現(xiàn)為不同的模式,進(jìn)而導(dǎo)致經(jīng)濟(jì)數(shù)據(jù)信息實體的識別問題。例如,實施數(shù)據(jù)挖掘過程中確定數(shù)據(jù)庫中的“std-id”和另一數(shù)據(jù)庫中“std-no”是否表示相同的實體,通過兩個數(shù)據(jù)庫之間含元數(shù)據(jù)的分析對比能夠保證實體數(shù)據(jù)識別的質(zhì)量。對原始數(shù)據(jù)中呈現(xiàn)正相關(guān)關(guān)系的數(shù)據(jù)予以精簡處理,從而保證數(shù)據(jù)庫中的量維持在相對較低的水平上,才能夠為相關(guān)單位的管理和應(yīng)用提供方便。在實際進(jìn)行數(shù)據(jù)挖掘過程中無疑應(yīng)當(dāng)將數(shù)據(jù)精簡,減少數(shù)據(jù)量。
3.2預(yù)處理方法應(yīng)用
原始數(shù)據(jù)大都是殘缺的、某些數(shù)據(jù)不一致,進(jìn)行數(shù)據(jù)預(yù)處理是必要的環(huán)節(jié)。數(shù)據(jù)預(yù)處理是最基礎(chǔ)的處理方式,由于數(shù)據(jù)挖掘只有在提供基礎(chǔ)信息之上進(jìn)行智能分析,其本身具有基礎(chǔ)信息限制的特點,無法代替數(shù)據(jù)收集的功能,只有通過預(yù)處理對不正確、不真實的數(shù)據(jù)進(jìn)行清理,才能夠減少統(tǒng)計數(shù)據(jù)信息之間的差距。數(shù)據(jù)清理所指的是將原始數(shù)據(jù)信息中殘缺、空值以及存在噪聲的數(shù)據(jù)去除,一般采取均值法、預(yù)測法、平滑法或是頻率統(tǒng)計予以處理,針對具體數(shù)據(jù)信息進(jìn)行選擇。如噪聲和存在空值的數(shù)據(jù)選擇均值法或平滑法進(jìn)行清理,兩種方法之間的差異在于均值法中使用平均數(shù)、而平滑法中使用加權(quán)平均數(shù),平滑法更加注重每一個數(shù)據(jù)對于整體結(jié)果產(chǎn)生的權(quán)重影響,因此得到的統(tǒng)計分析數(shù)據(jù)結(jié)果更加精確。
3.3轉(zhuǎn)換方法應(yīng)用
數(shù)據(jù)轉(zhuǎn)換所指的是應(yīng)用某種方式將數(shù)據(jù)變換成滿足數(shù)據(jù)挖掘要求的形式,轉(zhuǎn)換的方法主要有數(shù)據(jù)規(guī)范化與數(shù)據(jù)泛化。前者又包含著最大規(guī)范化、最小規(guī)范化以及零均值規(guī)范化;而數(shù)據(jù)的泛化指的是使用高層次的數(shù)據(jù)信息對低層次的數(shù)據(jù)予以替代,其中包含對數(shù)據(jù)采取連續(xù)性處理,但是由于當(dāng)前的手段要實現(xiàn)數(shù)據(jù)的連續(xù)性非常困難,因此通常選擇離散化,也就是對數(shù)據(jù)實施區(qū)間劃分,將某些數(shù)據(jù)直接使用標(biāo)號表示,盡可能減少數(shù)據(jù)的收集量,也被稱為概念分層。
3.4決策樹方法應(yīng)用
決策樹是一個預(yù)測模型,是對象屬性與對象值之間的一種映射關(guān)系。每個葉節(jié)點則對應(yīng)從根節(jié)點到該葉節(jié)點所經(jīng)歷的路徑所表示的對象的值。數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),也可以作預(yù)測。經(jīng)過這一環(huán)節(jié)就能夠?qū)崿F(xiàn)數(shù)據(jù)的輸出,數(shù)據(jù)的輸出形式會影響經(jīng)濟(jì)管理部分決策人員對數(shù)據(jù)的使用。這一方法的關(guān)鍵在于構(gòu)建決策樹:首先,通過訓(xùn)練集建立決策樹并用測試集進(jìn)行模型測試,進(jìn)而實施精簡處理,隨后輸出模型;第二是通過構(gòu)建完善的決策樹進(jìn)行數(shù)據(jù)分類,這一過程又被稱為“遞歸”,從決策樹的根部開始輸入,到每個分支和葉節(jié)點,直到數(shù)據(jù)映射到限定屬性。停止分割的條件一般有兩種,一種是某一節(jié)點上的數(shù)據(jù)完全屬于相同類別,而另一種則是當(dāng)前節(jié)點中的記錄數(shù)低于一個最小的閥值。在完成整個決策樹的構(gòu)建之后,之所以對決策樹進(jìn)行修剪,主要目的在于減少由于訓(xùn)練集的使用對測試數(shù)據(jù)輸出的過度影響,就是所謂的過擬合問題。例如訓(xùn)練樣本中的錯誤數(shù)據(jù)會被決策樹學(xué)習(xí),成為決策樹的一部分,但是對于測試數(shù)據(jù)的表現(xiàn)就沒有想象的那么好,或者極差,這就是所謂的過擬合問題。在數(shù)據(jù)集中,過擬合的決策樹的錯誤率比經(jīng)過簡化的決策樹的錯誤率要高。以某地區(qū)中歷年上報的企業(yè)數(shù)據(jù)為例,應(yīng)用決策樹結(jié)合其他序列模式能夠得到差別率,然后通過決策樹可以實現(xiàn)對企業(yè)的分類:差別率超過20%的企業(yè)為I類、差別率在10%-20%之間的為II類、而差別率在10%以下的為III類。根據(jù)規(guī)模變化率及重大經(jīng)營事件設(shè)定決策樹的規(guī)則,具體如下。
根據(jù)分析結(jié)果可以知道:A類企業(yè)省報的經(jīng)營數(shù)據(jù)和預(yù)測值之間的差異非常大,與數(shù)據(jù)規(guī)律明顯不符,所以推測可能為虛假數(shù)據(jù),要提高數(shù)據(jù)真實性則需要對A類企業(yè)進(jìn)行重點調(diào)查。當(dāng)企業(yè)變化率小的情況下,需要了解重大經(jīng)營事件,如果發(fā)生則應(yīng)當(dāng)重點調(diào)查,反之則不用。
圖1 企業(yè)分類決策樹示意圖
3.5回歸分析方法應(yīng)用
回歸分析是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。應(yīng)用回歸分析能夠建立變量之間的回歸方程,通過因素分析判別主要變量和次要變量及其之間的關(guān)系,并且只有通過各種檢驗,且預(yù)測誤差較小、才能將回歸方程作為預(yù)測模型進(jìn)行預(yù)測。在數(shù)據(jù)挖掘過程中,回歸分析通常被應(yīng)用于對市場占有率、品牌偏好以及銷售額等進(jìn)行解釋,將其中兩個或以上的數(shù)量關(guān)系通過函數(shù)表達(dá),從而便于進(jìn)一步解決問題。數(shù)據(jù)挖掘過程中可以很好的解釋因變量之間的變化關(guān)系、強(qiáng)度,對自變量值進(jìn)行預(yù)測。(1)簡單線性回歸分析,如自變量X和因變量Y之間具有正相關(guān)關(guān)系,可以得到直線方程,讓所有的數(shù)據(jù)點與該條直線接近,可以使用Y=a+bX表示,其中a為截距、b則是相關(guān)系數(shù);
(2)Logistic回歸分析,該回歸分析法的應(yīng)用條件是:(1)要求各個觀測對象間是相互獨立的;(2)Logit P與自變量之間呈現(xiàn)線性關(guān)系;(3)當(dāng)研究設(shè)計為隊列研究,橫斷面對照研究,在應(yīng)用logistic回歸分析時,應(yīng)具有相同的觀察時間;(4)隨著統(tǒng)計學(xué)技術(shù)以及相關(guān)軟件的發(fā)展,樣本量較小的情況下也可以采用精確logistic回歸分析,但是要求分析變量控制在一定的數(shù)值范圍內(nèi),且變量的分類不能多。判別分析群體中不符合正態(tài)分布的情況下,應(yīng)用Logistic分析能夠得到更好的結(jié)果。通過預(yù)測事件發(fā)生的幾率,將自變量X與因變量Y之間的關(guān)系假定成為S狀,在自變量很小的情況下幾率值也接近于0;隨著自變量的增加、幾率值也會沿著曲線增加,達(dá)到一定程度之后,斜率逐漸減小,介于0-1之間。
結(jié)束語
總而言之,經(jīng)濟(jì)統(tǒng)計活動是當(dāng)代經(jīng)濟(jì)管理中非常關(guān)鍵的環(huán)節(jié),也是經(jīng)濟(jì)決策與管理的基礎(chǔ),其對于市場經(jīng)濟(jì)的建設(shè)和發(fā)展產(chǎn)生深遠(yuǎn)的影響。社會主義市場經(jīng)濟(jì)體制下需要根據(jù)經(jīng)濟(jì)動態(tài)實時對決策進(jìn)行調(diào)整,提高經(jīng)濟(jì)統(tǒng)計活動的運行質(zhì)量和效率非常重要。數(shù)據(jù)挖掘能夠?qū)芾砘顒又泻A繑?shù)據(jù)、數(shù)據(jù)缺失、雜亂等現(xiàn)象進(jìn)行整合和深度加工,使數(shù)據(jù)信息在經(jīng)濟(jì)統(tǒng)計活動中得到更加廣泛的應(yīng)用,滿足相關(guān)部門的統(tǒng)計需要,為政府的管理提供高質(zhì)量的基礎(chǔ)數(shù)據(jù),產(chǎn)生巨大的社會和經(jīng)濟(jì)效益。
參考文獻(xiàn):
[1] 肖超峰.基于海量金融交易數(shù)據(jù)的客戶交易行為挖掘與應(yīng)用[D].中國科學(xué)技術(shù)大學(xué),2013.
[2] 黃兵,曹建國.基于數(shù)據(jù)倉庫和挖掘技術(shù)的政府決策設(shè)計與應(yīng)用[J].淮海工學(xué)院學(xué)報(自然科學(xué)版),2014,(2):48-51.
[3] 習(xí)勤,米帥軍.指標(biāo)篩選技術(shù)在神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘模型中的應(yīng)用[J].統(tǒng)計與決策,2011,(10):163-165.
[4] 董春,胡晶,劉紀(jì)平等.基于空間統(tǒng)計學(xué)的空間關(guān)聯(lián)挖掘研究——在中國廣電產(chǎn)業(yè)分析中的應(yīng)用[C].2005:453-466.
[5] 張倩.數(shù)據(jù)挖掘中的聚類算法在工業(yè)園區(qū)經(jīng)濟(jì)發(fā)展中的比較應(yīng)用——基于統(tǒng)計視角[D].云南財經(jīng)大學(xué),2013.