楊楠
摘要:雖然社會經(jīng)濟(jì)和技術(shù)在不斷發(fā)展,但在經(jīng)濟(jì)統(tǒng)計(jì)方面仍然存在數(shù)據(jù)庫復(fù)雜且繁冗,數(shù)據(jù)質(zhì)量不高等問題。這主要是由于缺乏對數(shù)據(jù)處理方法等缺乏深層次的分析和探索,導(dǎo)致數(shù)據(jù)價(jià)值的缺失。本文主要從數(shù)據(jù)的預(yù)處理步驟、數(shù)據(jù)挖掘在經(jīng)濟(jì)統(tǒng)計(jì)中的體現(xiàn)、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)系統(tǒng)中的可行性分析,以及數(shù)據(jù)挖掘領(lǐng)域中的關(guān)聯(lián)規(guī)則和決策樹四個(gè)方面進(jìn)行簡要的分析。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);經(jīng)濟(jì)統(tǒng)計(jì);應(yīng)用探索
傳統(tǒng)的數(shù)據(jù)處理主要是通過數(shù)理統(tǒng)計(jì)學(xué)的相關(guān)知識或者軟件,對經(jīng)濟(jì)數(shù)據(jù)進(jìn)行開發(fā)、分析等。但這種方式的開發(fā)形式具有較為單一、缺少時(shí)代性、缺乏深度等缺點(diǎn)。數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)的數(shù)據(jù)處理具有篩除虛假數(shù)據(jù)、提高數(shù)據(jù)的質(zhì)量和利用率等優(yōu)勢,對于提高經(jīng)濟(jì)統(tǒng)計(jì)水平具有重要影響,因此做好相關(guān)內(nèi)容的研究是非常有必要的。
一、數(shù)據(jù)的預(yù)處理步驟
1.數(shù)據(jù)清理。數(shù)據(jù)清理主要是工作人員通過采用適當(dāng)?shù)姆椒ㄅc手段,對數(shù)據(jù)中缺失、破損以及噪音等進(jìn)行清除,進(jìn)而保證數(shù)據(jù)質(zhì)量的一種數(shù)據(jù)處理方式。工作人員在不同情況下,需要采用不同的數(shù)據(jù)清理方式,主要的方法有預(yù)測法、平滑法、頻率統(tǒng)計(jì)法和均值法[1]。例如,如果數(shù)據(jù)為空值或者為噪音數(shù)據(jù)時(shí),通常采用平滑法或均值法。而如果是對于數(shù)據(jù)的缺失或者破損,則通常采用的是預(yù)測法。
2.數(shù)據(jù)集成。數(shù)據(jù)來源于不同的數(shù)據(jù)源,要想將其變?yōu)橐粋€(gè)整體,則需要對其進(jìn)行分析、處理,而這個(gè)過程就是數(shù)據(jù)集成。在具體實(shí)際操作中,首先需要各地區(qū)的統(tǒng)計(jì)局對數(shù)據(jù)進(jìn)行收集,完成收集工作以后,需要對數(shù)據(jù)進(jìn)行集成。需要注意的是,技術(shù)在進(jìn)行數(shù)據(jù)的集成時(shí),應(yīng)盡量避免數(shù)據(jù)的冗余、數(shù)據(jù)的模式集成等問題的出現(xiàn)。
3.數(shù)據(jù)變換。數(shù)據(jù)變換主要是通過方式或手段,將數(shù)據(jù)轉(zhuǎn)變?yōu)樗枰问降倪^程,它主要包括泛化和規(guī)范化兩種。數(shù)據(jù)的泛化主要是指將低層次的數(shù)據(jù)用高層次的數(shù)據(jù)進(jìn)行取代,而數(shù)據(jù)的規(guī)范化主要包括最大最小值的規(guī)劃、零均值的規(guī)范化等。
3.數(shù)據(jù)的離散化及概念分層。在實(shí)際的操作中,數(shù)據(jù)具有連續(xù)性的特點(diǎn),但在當(dāng)前的數(shù)據(jù)算法中,能夠?qū)?shù)據(jù)的連續(xù)性進(jìn)行有效處理的方法還非常有限。數(shù)據(jù)的離散化是通過將數(shù)據(jù)進(jìn)行區(qū)間劃分,然后將實(shí)際數(shù)據(jù)用標(biāo)號進(jìn)行取代,進(jìn)而保持?jǐn)?shù)據(jù)連續(xù)性的過程。而概念分層是通過對數(shù)據(jù)層次概念進(jìn)行提升,進(jìn)而減少數(shù)據(jù)收集量的過程[2]。例如,數(shù)據(jù)的離散及分層概念在銀行的應(yīng)用,可以為銀行帶來可觀的效益。匯豐銀行通過對客戶群進(jìn)行分類,從中找到最有價(jià)值的用戶,使其當(dāng)年的營銷費(fèi)用降低了30%左右。
二、數(shù)據(jù)挖掘在經(jīng)濟(jì)統(tǒng)計(jì)中的體現(xiàn)
數(shù)據(jù)挖掘在經(jīng)濟(jì)統(tǒng)計(jì)中的體現(xiàn)主要表現(xiàn)在:第一數(shù)據(jù)的準(zhǔn)備、選擇、處理方面。該方面的內(nèi)容在經(jīng)濟(jì)統(tǒng)計(jì)中主要表現(xiàn)為對所需要探究的問題的相關(guān)數(shù)據(jù)進(jìn)行收集,然后對其進(jìn)行適當(dāng)?shù)奶幚恚箶?shù)據(jù)能夠更好的為后續(xù)工作的開展進(jìn)行服務(wù);第二,數(shù)據(jù)的挖掘。工作人員需要對數(shù)據(jù)的類型以及特點(diǎn)進(jìn)行劃分,然后通過選取恰當(dāng)?shù)倪\(yùn)算方法對其進(jìn)行統(tǒng)計(jì)、計(jì)算,進(jìn)而發(fā)掘數(shù)據(jù)的利用價(jià)值;第三,分析數(shù)據(jù)結(jié)果。在完成數(shù)據(jù)的挖掘工作以后,需要對數(shù)據(jù)的結(jié)果進(jìn)行評估、分析,對結(jié)果進(jìn)行適當(dāng)?shù)恼{(diào)整,使其更加科學(xué)、客觀;第四,數(shù)據(jù)的運(yùn)用。簡單的說就是將數(shù)據(jù)應(yīng)用到具體的實(shí)踐當(dāng)中,發(fā)揮其價(jià)值,進(jìn)而更好的服務(wù)于經(jīng)濟(jì)活動(dòng)。
三、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)系統(tǒng)中的可行性分析
1、 較高的有效性。數(shù)據(jù)挖掘技術(shù)是一種數(shù)據(jù)深加工技術(shù),其實(shí)際應(yīng)用中具有較高的有效性,具體表現(xiàn)為:第一,高效化處理累積的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)。對經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行較高的處理,對于加強(qiáng)管理者的管理,為其決策提供、客觀、真實(shí)的數(shù)據(jù)資料,推動(dòng)其決策的科學(xué)性,進(jìn)而促使其管理水平的提升,詳見表1;第二,有目的性的分析。在數(shù)據(jù)進(jìn)行再加工的過程中,可以更加有目的性的進(jìn)行數(shù)據(jù)的處理,從而使其最大限度的服務(wù)于管理者[3]。
2、 較強(qiáng)的應(yīng)用性。隨著社會經(jīng)濟(jì)的快速發(fā)展,經(jīng)濟(jì)管理部門的分類越來越多,并且需要的信息數(shù)據(jù)也有所區(qū)別。傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)手段,不能有效的滿足社會發(fā)展的需求。而作為系統(tǒng)工具的數(shù)據(jù)挖掘系統(tǒng),可以通過對數(shù)據(jù)的分類、深加工等方式,滿足不同部門對數(shù)據(jù)的需求,促進(jìn)經(jīng)濟(jì)管理部門管理水平提升的同時(shí),實(shí)現(xiàn)數(shù)據(jù)資源價(jià)值的發(fā)揮。數(shù)據(jù)挖掘技術(shù)在商店的零售方面發(fā)揮的價(jià)值體現(xiàn),以GUS(HOME SHOPPING GROUP)為例,他們通過利用數(shù)據(jù)挖掘技術(shù),對商品的銷售量進(jìn)行了預(yù)測,不僅使其庫存成本降低了3.8%,還促進(jìn)其銷售量的增加,為其獲得了更高的經(jīng)濟(jì)效益。
四、數(shù)據(jù)挖掘領(lǐng)域中的關(guān)聯(lián)規(guī)則及決策樹
1.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域發(fā)揮著重要的作用,對于提升其靈活性等具有重要影響。關(guān)聯(lián)規(guī)則主要反映的是數(shù)據(jù)集合中與屬性相關(guān)的聯(lián)系,進(jìn)而通過對其頻繁的模式、關(guān)聯(lián)的模式等進(jìn)行搜索查詢,進(jìn)而尋找被人忽視或遺忘的事件。挖掘數(shù)據(jù)的關(guān)聯(lián)規(guī)則,能夠?qū)Υ蠓秶鷥?nèi)的與之密切聯(lián)系的行業(yè)及數(shù)據(jù)內(nèi)容進(jìn)行查詢,可以憑借不同屬性的數(shù)據(jù)進(jìn)行查找[4]。在具體的實(shí)際應(yīng)用當(dāng)中,被人們熟知的、存在密切聯(lián)系的關(guān)系的屬性,被稱為平凡規(guī)則。平凡規(guī)則的應(yīng)用可以對數(shù)據(jù)的質(zhì)量進(jìn)行辨別,是消除虛假數(shù)據(jù)的重要方式與手段,圖1采用了source insight軟件,對匯豐銀行的可視化數(shù)據(jù)挖掘進(jìn)行了分析(如圖1所示)。
圖1匯豐銀行可視化的數(shù)據(jù)挖掘結(jié)果
2.決策樹。決策樹算法是經(jīng)濟(jì)統(tǒng)計(jì)中數(shù)據(jù)挖掘的一種常見方法,這種方法直觀性較強(qiáng),能夠較為清晰的對數(shù)據(jù)進(jìn)行展示,如圖2所示。但發(fā)揮其效用的關(guān)鍵在于工作人員對建樹和剪枝階段的構(gòu)建。通常情況下,決策樹分為兩個(gè)方面的內(nèi)容:第一,構(gòu)建決策樹模型。在對模型的構(gòu)建過程中,需要通過訓(xùn)練集使決策樹的輪廓進(jìn)行構(gòu)建,然后對其內(nèi)容進(jìn)行精細(xì)化處理;第二,分類處理數(shù)據(jù)。工作人員在完成決策樹整體的構(gòu)建以后,需要將數(shù)據(jù)輸入,填充其內(nèi)容。需要注意的是,工作人員在輸入數(shù)據(jù)時(shí),需要從根節(jié)點(diǎn)處進(jìn)行錄入,然后對其進(jìn)行測試、記錄。在進(jìn)行到葉子節(jié)點(diǎn)時(shí),需要對數(shù)據(jù)進(jìn)行類化處理[5]。
圖2天氣對于人出行的影響
結(jié)語
綜上所述,在未來的經(jīng)濟(jì)統(tǒng)計(jì)發(fā)展中,數(shù)據(jù)挖掘的發(fā)展前景是非常光明的。其對數(shù)據(jù)的深層次處理,可以有效減少虛假數(shù)據(jù)的存在,提高數(shù)據(jù)的質(zhì)量,為企事業(yè)單位計(jì)劃的制定提供重要的數(shù)據(jù)支持,進(jìn)而促進(jìn)其工作效率的提升,經(jīng)濟(jì)效益的發(fā)展,促使其創(chuàng)造更多的社會價(jià)值,最大限度的發(fā)揮數(shù)據(jù)的作用和價(jià)值。(作者單位:長春工業(yè)大學(xué))
參考文獻(xiàn):
[1]宋淑彩,祁愛華,王劍雄等.面向Web的數(shù)據(jù)挖掘技術(shù)在網(wǎng)站優(yōu)化中的個(gè)性化推薦方法的研究與應(yīng)用[J].科技通報(bào),2012,28(2):117-119.
[2]李勛,龔慶武,楊群瑛等.基于數(shù)據(jù)挖掘技術(shù)的保護(hù)設(shè)備故障信息管理與分析系統(tǒng)[J].電力自動(dòng)化設(shè)備,2011,31(9):88-91.
[3]羅美淑,劉世勇,夏春艷等.數(shù)據(jù)挖掘技術(shù)在教學(xué)評價(jià)中的應(yīng)用研究[J].教育探索,2013,(2):81-82.
[4]王祥斌.數(shù)據(jù)挖掘技術(shù)在入侵檢測系統(tǒng)中的應(yīng)用研究[J].計(jì)算機(jī)測量與控制,2012,20(2):321-323,348.