楊梅冰 梁思思
【摘要】數(shù)據(jù)挖掘技術(shù)是針對(duì)現(xiàn)代數(shù)據(jù)管理活動(dòng)中存在的數(shù)量基數(shù)大、構(gòu)成復(fù)雜和數(shù)據(jù)缺失現(xiàn)象嚴(yán)重等客觀問題而研發(fā)的一種高效的數(shù)據(jù)深度加工技術(shù),其應(yīng)用于經(jīng)濟(jì)統(tǒng)計(jì)中有利于企業(yè)等確立正確的經(jīng)濟(jì)發(fā)展目標(biāo),獲得更大的經(jīng)濟(jì)效益,因此進(jìn)一步加強(qiáng)對(duì)其的研究非常有必要?;诖吮疚姆治隽藬?shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用。
【關(guān)鍵詞】數(shù)據(jù)挖掘技術(shù) 經(jīng)濟(jì)統(tǒng)計(jì) 應(yīng)用
一、經(jīng)濟(jì)統(tǒng)計(jì)中數(shù)據(jù)挖掘技術(shù)應(yīng)用的可行性
(一)隨著社會(huì)的發(fā)展,數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用得到很大發(fā)展,已被廣泛的應(yīng)用,其具有很多優(yōu)點(diǎn),能夠更好的提供服務(wù)于經(jīng)濟(jì)統(tǒng)計(jì),因此進(jìn)一步加強(qiáng)對(duì)其的研究非常有必要
數(shù)據(jù)挖掘技術(shù)的發(fā)展是從二十世紀(jì)九十年代到現(xiàn)在,雖然時(shí)間不長,但是發(fā)展速度迅猛,因此也是越來越受到人們的重視。就目前的情況來看,國外對(duì)于其關(guān)注度非常高,致力于數(shù)據(jù)挖掘技術(shù)的開發(fā)和應(yīng)用,例如IBM、微軟等等。而其在我國也是得到很大的關(guān)注,我國對(duì)于該技術(shù)主要是體現(xiàn)在已經(jīng)為其相繼的建立了相應(yīng)的工作實(shí)驗(yàn)室。
(二)數(shù)據(jù)挖掘工具日益豐富,能夠滿足經(jīng)濟(jì)統(tǒng)計(jì)的各種需要
為了更好的符合市場發(fā)展需求,數(shù)據(jù)挖掘的工具也是不斷更新,呈現(xiàn)出不同的形式,就目前的情況,數(shù)據(jù)挖掘工具的市場主要由3個(gè)部分,包括通用型工具、綜合工具和面向特定應(yīng)用。
1.通用型工具。在我們的現(xiàn)有市場中比較廣泛的應(yīng)用是通用型工具,其實(shí)用性非常廣,就目前市場的這種類型工作主要包括:SGI Mineset、SAS Enterprise、SPSSClementine等軟件。
2.綜合工具。綜合工具的主要特點(diǎn)是能夠滿足商業(yè)活動(dòng)的相關(guān)要求,其主要的目的是能夠及時(shí)地提供相關(guān)數(shù)據(jù)情況以及管理報(bào)告等,就目前的情況來看,這種類型的工作市場中主要有Cognos Scenario、Business Objects等。
(三)宏觀經(jīng)濟(jì)數(shù)據(jù)庫的建立,為數(shù)據(jù)挖掘技術(shù)的應(yīng)用創(chuàng)造了良好的條件
就目前的情況來看,我國的很多部門經(jīng)濟(jì)統(tǒng)計(jì)中都使用了數(shù)據(jù)挖掘技術(shù),其主要工作內(nèi)容是采集、處理。但是其還是存在著一些不足,主要是還沒有完全的形成一個(gè)整體,從而進(jìn)行數(shù)據(jù)的管理時(shí)候會(huì)有很多問題,因此,經(jīng)濟(jì)統(tǒng)計(jì)工作是需要開發(fā)新的技術(shù)。而宏觀經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)庫剛好能解決好這一問題,其能夠準(zhǔn)確的確保經(jīng)濟(jì)統(tǒng)計(jì)信息,然后在對(duì)其進(jìn)行整理,從而不斷的擴(kuò)充數(shù)據(jù)資源。
二、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用
在社會(huì)經(jīng)濟(jì)管理活動(dòng)中,管理主體對(duì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的要求主要有兩個(gè):一個(gè)是統(tǒng)計(jì)數(shù)據(jù)的真實(shí)性;一個(gè)是數(shù)據(jù)統(tǒng)計(jì)信息的實(shí)用性。單就這兩個(gè)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)要求而言,數(shù)據(jù)挖掘技術(shù)能夠很好地滿足經(jīng)濟(jì)統(tǒng)計(jì)工作的需求,是適用性極強(qiáng)的一種經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)技術(shù),其在具體的經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)活動(dòng)中主要有以下四種應(yīng)用方法。
(一)預(yù)處理方法
在經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)活動(dòng)中,最為基礎(chǔ)的一種處理方式就是經(jīng)濟(jì)數(shù)據(jù)的預(yù)處理方法。因?yàn)閿?shù)據(jù)挖掘本身是一種基于提供基礎(chǔ)信息的智能分析技術(shù),其本身是受基礎(chǔ)經(jīng)濟(jì)信息限制的,不可能無中生有代替經(jīng)濟(jì)數(shù)據(jù)收集系統(tǒng)的功能,所以所有作為數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)基礎(chǔ)的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息都應(yīng)該進(jìn)行預(yù)處理。處理的內(nèi)容主要包括:數(shù)據(jù)中不正確、不真實(shí)、不準(zhǔn)確,以及不同經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息之間差距較大等現(xiàn)象。
對(duì)這些基礎(chǔ)數(shù)據(jù)存在的問題進(jìn)行處理的過程被稱為數(shù)據(jù)清理,當(dāng)前數(shù)據(jù)清理主要采用的方法有均值法、平滑法和預(yù)測法。其中均值法是現(xiàn)代分析技術(shù)中模糊理念的一種應(yīng)用形式,當(dāng)基礎(chǔ)數(shù)據(jù)中的一個(gè)數(shù)據(jù)點(diǎn)是空值或者噪聲數(shù)據(jù)的時(shí)候,可以采用均值法進(jìn)行處理,即用數(shù)據(jù)庫中所有該屬性已知的屬性均值來填補(bǔ)空缺,保證數(shù)據(jù)挖掘系統(tǒng)對(duì)基礎(chǔ)數(shù)據(jù)的分析和整理能夠正常進(jìn)行,得出相對(duì)而言準(zhǔn)確度較高的統(tǒng)計(jì)分析數(shù)據(jù)。
(二)決策樹方法
就目前的情況來看,在數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中使用比較多的方法是決策樹,因?yàn)槠淠軌蚩焖?、直接的反映情況。對(duì)于該方法最主要的是要構(gòu)建好決策樹,通常情況下回分為2部:1)利用訓(xùn)練集建立并精簡一棵決策樹,同時(shí)建立一個(gè)模型,能夠進(jìn)行輸出分析。2)將構(gòu)建完的決策樹充分利用,做好數(shù)據(jù)分類工作,這一分類是一個(gè)遞歸的過程,從決策樹的根部開始進(jìn)入到樹干、枝丫,直到輸入數(shù)據(jù)的分類滿足了某種條件而停止。在具體的應(yīng)用中停止分割的條件有兩個(gè):一個(gè)是當(dāng)一個(gè)節(jié)點(diǎn)上的所有數(shù)據(jù)都屬于同一個(gè)類別的時(shí)候;另一個(gè)是沒有分類屬性可以對(duì)輸入數(shù)據(jù)進(jìn)行再分割。
在決策樹構(gòu)建完成后,還要根據(jù)使用者的具體要求對(duì)決策樹進(jìn)行“剪枝”,剪枝的主要目的是要降低因?yàn)槭褂糜?xùn)練集而對(duì)決策樹本身數(shù)據(jù)輸出產(chǎn)生的起伏影響。
三、數(shù)據(jù)挖掘技術(shù)在某省經(jīng)濟(jì)統(tǒng)計(jì)中的具體應(yīng)用舉例
本文主要是將序列模式和決策樹進(jìn)行結(jié)合的方法進(jìn)行經(jīng)濟(jì)統(tǒng)計(jì)中的數(shù)據(jù)挖掘技術(shù)的分析,將其進(jìn)行分類,從而能夠確定出調(diào)查的對(duì)象。
通過某地區(qū)企業(yè)歷年上報(bào)的數(shù)據(jù)建立各個(gè)企業(yè)的序列模式,通過這個(gè)方法能夠計(jì)算出一個(gè)企業(yè)的預(yù)測值,然后進(jìn)行分析得到差別率,主要的對(duì)象是預(yù)測值和上報(bào)的數(shù)據(jù),最后是將這個(gè)差別率進(jìn)行第一次的分類。根據(jù)分類可以將其分為3種,A、B、C類,其分類的依據(jù)是差別率所占比率,順序?yàn)榇笥诘扔诎俜种俜种桶俜种g以及百分之十以下。然后是進(jìn)行建立決策樹,其主要是從2個(gè)方面進(jìn)行,即企業(yè)的規(guī)模變化率和企業(yè)是否發(fā)生了重大經(jīng)營事件。
如果企業(yè)的規(guī)模變化率非常大,就需要對(duì)其進(jìn)行調(diào)查,如果變化率小,還需要進(jìn)一步觀察企業(yè)當(dāng)年是否發(fā)生了重大經(jīng)營事件,如果發(fā)生了就要進(jìn)一步對(duì)其進(jìn)行調(diào)查,如果沒發(fā)生,就不需要再進(jìn)行。
總之,數(shù)據(jù)挖掘技術(shù)作為新型的經(jīng)濟(jì)統(tǒng)計(jì)方法,已經(jīng)廣泛的應(yīng)用于經(jīng)濟(jì)統(tǒng)計(jì)中,采用數(shù)據(jù)挖掘技術(shù)能夠使經(jīng)濟(jì)統(tǒng)計(jì)結(jié)果更加準(zhǔn)確、清晰,同時(shí)期能夠更好地滿足社會(huì)需求,因此進(jìn)一步加強(qiáng)對(duì)其的研究非常有必要,需要我們重視。
參考文獻(xiàn)
[1]王康.關(guān)于數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用[J].財(cái)經(jīng)界(學(xué)術(shù)版),2011,05:98.
[2]辛金國,柯芳,李紹君,夏靜波.數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用探索[J].統(tǒng)計(jì)與決策,2009,09:24-27.
[3]李榮.關(guān)于數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用[J].中國商貿(mào),2015,02:173-175.