農林 東營市統(tǒng)計局
數據挖掘技術是近些年出現的一種新型經濟統(tǒng)計分析方法,雖然該技術的某些使用性能仍需改進,但目前其應用已對高效經濟統(tǒng)計產生了積極作用。數據挖掘技術的穩(wěn)定性、高效準確性能讓工作人員更輕松地完成相關工作,深入分析數據,總結更多對經濟分析有價值的信息,提高其在經濟統(tǒng)計中的應用價值。
數據挖掘是指更深層次地評估分析收集的信息數據,總結可以用于指導實際工作的信息資料。在經濟統(tǒng)計中,由于經濟數據信息量龐大,且各種信息數據之間具有復雜的關聯(lián)性,數據來源具有一定的不確定性,有時無法提供全面準確的數據資料。面對這些未經處理的數據信息,如果不能對其進行有效分析,將無法發(fā)揮這些數據的重要價值。利用數據挖掘技術,對其展開深層次的評估分析,去除不確定的數據信息,能為后期的工作提供可信賴的數據資料,使工作人員更加快捷高效地利用資源。數據挖掘還有另一種含義,即將實際經濟數據與結論對比參考,以制定更加符合經濟發(fā)展規(guī)律的決策。
在數據化時代背景下,應用數據挖掘能使經濟統(tǒng)計中的具體問題信息化。該過程對各學科的技術要求較高,主要內容有開展相關技術準備工作、建立數據庫的基本理論、識別各類數據信息、快捷統(tǒng)計分析及總結數據、預估潛在數據價值、預判某些風險因素、明確呈現重要數據信息,更好地發(fā)揮經濟統(tǒng)計的重要作用。在很多地區(qū)經濟管理部門的管理方式與統(tǒng)計模式都比較傳統(tǒng),難以為經濟管理活動提供服務。在實際運用過程中,對數據統(tǒng)計工作造成了很大的影響,導致工作效率低下,工作質量不高,甚至影響數據統(tǒng)計工作的整體進步。
只有合理分析有價值的數據信息,才能得出更符合經濟規(guī)律的結論。在數據信息搜集環(huán)節(jié),受各種因素的影響,可能導致數據信息不準確,數據中包含與經濟基本規(guī)律相違背的內容。在經濟統(tǒng)計中,數據的預處理極為關鍵,也是數據挖掘技術在經濟統(tǒng)計中應用的重要表現,具體包含以下內容。
數據清理是經濟統(tǒng)計分析過程中常用的技術手段,其能完善數據信息欠缺的資料,去除與實際經濟情況相差較大及與經濟規(guī)律相違背的內容,提高收集數據內容的整體質量。目前,廣泛使用的技術方式為均值法、平滑分析法、數據預估法以及概率統(tǒng)計分析。這些方法需要結合經濟統(tǒng)計的實際情況使用。對于干擾數據或數據信息不完整的情況,一般使用均值法或數據預估方法。平滑分析法是在均值法的基礎上平均一定的數據,然后再將其形成一組新的數據。例如,在統(tǒng)計企業(yè)產值時,企業(yè)未提供年度經營數據信息,此時就可以使用數據預估及均值法,匯總企業(yè)近五年的數據,再求均值,進而預估企業(yè)本年度的實際經營情況,得出與企業(yè)實際經營相符合的經濟統(tǒng)計結果。
(1)模式集成。在模式集成過程中,需要將數據信息與實際的經濟問題相對應,同時分類匯總各種數據格式,要求系統(tǒng)能自主地分析判斷上述內容。例如,一些統(tǒng)計單位提供的數據格式為“stcl_id”,在現有的數據庫中并未包含此格式的內容,這就要求系統(tǒng)能分析其所包含的數據信息,總結其數據特點并將其集成于現有的數據格式中,實現對多樣化格式數據的有效處理。避免后期分析數據時,出現資料無法打開或缺失現象。
(2)冗余問題。如果一組數據信息的結果會對另一組數據產生明顯影響,那么該組數據就具有冗余屬性。常見的生產總值就具有明顯的冗余屬性,其數據特性受國家總人口及經濟發(fā)展價值的影響。因此,在經濟統(tǒng)計中,可以通過對具有該屬性的數據進行相關聯(lián)信息分析,合理預估經濟發(fā)展中難以統(tǒng)計的數據,達到經濟統(tǒng)計的目的。
數據挖掘的方式有很多種,其中預處理方法是比較基礎的一種方法,是數據發(fā)掘前的收集工作。數據挖掘技術需要在基礎信息的前提下進行整理和分析,但是基礎信息的收集并不在其工作范圍內,這就需要一種收集方式來彌補數據挖掘的前瞻內容,而預處理方法恰恰可以做到這一點,所以預處理方法是數據挖掘的前提,從而沒有辦法代替預處理方式的功能。預處理方法可以將信息中的出入較大、不正確的內容剔除,這種處理方式叫作數據清理。數據清理有很多種形式,比較常見的是均值法。均值法可以將數據有效地填入空缺的數據中去,對數據挖掘起到很重要的作用。預處理方式以及數據清理方式中的均值法都是有效幫助數據挖掘的方法,通過具體的操作來提高數據的準確性。
數據挖掘技術的關聯(lián)規(guī)則十分關鍵。在實際應用環(huán)節(jié),其可以整合分析與數據信息相關的屬性,合理反映整個數據的特性。例如,在規(guī)律查找數據系統(tǒng)信息與各數據之間的因果關系時,往往能發(fā)現傳統(tǒng)經濟統(tǒng)計的常見問題。使用關聯(lián)規(guī)則進行經濟統(tǒng)計,可以在更大范圍內搜集信息資料,并實現全面的數據處理。根據行業(yè)內某一屬性的具體信息搜集與該屬性相關的其他重要數據資料。在經濟統(tǒng)計的實際應用中,數據挖掘可以合理評估數據信息的準確性與質量,在此基礎上,關聯(lián)規(guī)則能確定這些數據是否具有一致性,并準確篩選錯誤信息,提高經濟統(tǒng)計數據質量。例如,在統(tǒng)計某些省份的生產總值時,發(fā)現各產業(yè)的數據信息不足以證明其生產總值有一定的增長,然而該省份提供的生產總值數據明顯高于前一年的數據,此時應用關聯(lián)規(guī)則,能發(fā)現員工統(tǒng)計疏忽或地方數據信息造假而導致的失誤信息。
綜上所述,數據挖掘技術不僅可以使得數據變得更加有深度和廣度,還可以使得數據更加準確,出現虛假數據內容的概率縮小,改善數據質量,另一方面還可以深層次地挖掘數據之間的聯(lián)系,可以有效提高數據關聯(lián)度,從而使得數據信息更加準確。