田田 山東省慶云縣常家鎮(zhèn)人民政府
眾所周知,經(jīng)濟統(tǒng)計學屬于郁悶綜合性學科,與數(shù)學、統(tǒng)計及經(jīng)濟學等聯(lián)系緊密,是圍繞大量數(shù)據(jù)采用整理、分析與建模等方法,發(fā)掘經(jīng)濟領(lǐng)域數(shù)據(jù)規(guī)律。當前,數(shù)據(jù)挖掘領(lǐng)域,現(xiàn)代統(tǒng)計學還處于探索中,經(jīng)濟學理論探究沒有數(shù)學成就大。然而實際上,統(tǒng)計與分析應(yīng)用方面,對企業(yè)甚至整個社會大環(huán)境而言是非常重要的。因而,深入探究經(jīng)濟統(tǒng)計中數(shù)據(jù)挖掘技術(shù)的應(yīng)用具有非常重要的意義。
社會經(jīng)濟快速發(fā)展的同時,海量數(shù)據(jù)信息不斷涌現(xiàn),而在經(jīng)濟統(tǒng)計工作中,面對龐雜的數(shù)據(jù)信息如何有效處理是面臨的重要問題。當前,傳統(tǒng)數(shù)據(jù)處理方法明顯無法滿足數(shù)據(jù)用戶使用需求,為數(shù)據(jù)挖掘技術(shù)創(chuàng)造了條件。其不同于傳統(tǒng)數(shù)據(jù)數(shù)量方法,傳統(tǒng)數(shù)據(jù)處理方法是從數(shù)據(jù)分析表面入手簡單分析各項數(shù)據(jù),數(shù)據(jù)分析與處理的深度與廣度不足。在龐大數(shù)據(jù)信息庫中,應(yīng)用數(shù)據(jù)挖掘技術(shù)科學搜索到價值與品質(zhì)高的數(shù)據(jù)信息,再分析并處理這些信息滿足用戶使用需求。社會經(jīng)濟發(fā)展中,數(shù)據(jù)挖掘技術(shù)也可解決經(jīng)濟統(tǒng)計難題,便于數(shù)據(jù)使用用戶充分應(yīng)用此類數(shù)據(jù)。另外,應(yīng)用數(shù)據(jù)挖掘技術(shù)還可有效改善數(shù)據(jù)質(zhì)量,使得數(shù)據(jù)使用效率不斷提高,進一步增強了數(shù)據(jù)間的聯(lián)系。
(1)該技術(shù)有很強的綜合能力。眾所周知,經(jīng)濟發(fā)展與數(shù)據(jù)統(tǒng)計之間聯(lián)系緊密,兩者之間相輔相成且相互影響。因而社會經(jīng)濟發(fā)展中必須要重視數(shù)據(jù)統(tǒng)計的應(yīng)用。參考數(shù)據(jù)統(tǒng)計結(jié)果,企業(yè)管理部門有效制定決策制度。因各部門細化與管理方式不同,使得各類數(shù)據(jù)有不同的統(tǒng)計需求、類型與數(shù)據(jù)形式,導致企業(yè)無法順利進行各項運營管理活動。因而,經(jīng)濟數(shù)據(jù)統(tǒng)計中數(shù)據(jù)挖掘技術(shù)的應(yīng)用,自由轉(zhuǎn)換數(shù)據(jù)形式,滿足各部門實際工作需求,為經(jīng)濟發(fā)展提供推動力。(2)數(shù)據(jù)統(tǒng)計效果強。經(jīng)濟數(shù)據(jù)統(tǒng)計中,數(shù)據(jù)挖掘技術(shù)的應(yīng)用是非常重要的,其可從龐大數(shù)據(jù)庫中統(tǒng)計分析經(jīng)濟數(shù)據(jù),使得數(shù)據(jù)從無序變?yōu)橛行?,?shù)據(jù)科學性與有效性得到了保障。應(yīng)用數(shù)據(jù)挖掘技術(shù),一定程度上還可深入發(fā)掘數(shù)據(jù)庫中價值高的信息,充分發(fā)揮經(jīng)濟統(tǒng)計數(shù)據(jù)作用,使得數(shù)據(jù)信息管理效率明顯提高,獲得更加真實而有效的經(jīng)濟統(tǒng)計信息,為順利進行經(jīng)濟數(shù)據(jù)統(tǒng)計活動奠定了良好的基礎(chǔ)。(3)數(shù)據(jù)挖掘技術(shù)有明顯的適用性且范圍廣。經(jīng)濟數(shù)據(jù)統(tǒng)計中,數(shù)據(jù)挖掘技術(shù)可應(yīng)用于各部門以此有效整合相關(guān)數(shù)據(jù)信息,符合統(tǒng)計需求,為企業(yè)提供有效的參考數(shù)據(jù)順利開展各項經(jīng)濟活動。所以,積極推廣數(shù)據(jù)挖掘技術(shù)充分發(fā)揮其作用顯得尤為重要。
經(jīng)濟調(diào)查分析中數(shù)據(jù)挖掘技術(shù)的作用主要表現(xiàn)為描述與預測作用。其中前者主要是劃分數(shù)據(jù)以及應(yīng)用相關(guān)公式分析對比數(shù)據(jù),類聚是分類處理相關(guān)數(shù)據(jù),數(shù)據(jù)分類分析法則包含典型的數(shù)據(jù)分析方法,其是通過發(fā)現(xiàn)數(shù)據(jù)典型特點再對比分析。分類與回歸是兩種主要預測方法,其中分類是將數(shù)據(jù)化分成不同類型再處理,可選用貼標簽與各種算法。而回歸法不同于分類,其是分析連續(xù)數(shù)據(jù),其包含線性與多項回歸等分析方法。聚類則屬于一種分類管理,數(shù)據(jù)統(tǒng)計前為了提高統(tǒng)計效率,分類處理所收集的數(shù)據(jù),通過分類有機劃分數(shù)據(jù)信息,部分數(shù)據(jù)對經(jīng)濟統(tǒng)計沒有作用分類過程中就會被淘汰;而有的數(shù)據(jù)則被分到一類繼續(xù)用于分析研究。例如,群眾消費情況研究脫出中,可分類管理收入不同的群體,參考經(jīng)濟收入及消費水平進行合理分類,做好各層次群體實際消費水平的統(tǒng)計。此外,經(jīng)濟統(tǒng)計中,降維方法的效果也是非常明顯的,經(jīng)濟統(tǒng)計所需的時間、人力與物力成本比較高,且包含很多統(tǒng)計數(shù)據(jù)與指標,應(yīng)用降維技術(shù)檢索處理。降維方法比較多,比如主成分降維以及因子分析等方法。經(jīng)濟統(tǒng)計中數(shù)據(jù)挖掘技術(shù)應(yīng)用日益廣泛,尤其是銀行信貸風險調(diào)查中取得了很好的應(yīng)用效果。
經(jīng)濟數(shù)據(jù)統(tǒng)計活動中,經(jīng)濟數(shù)據(jù)預處理是比較常用的處理方法。數(shù)據(jù)預處理根本原因在于挖掘技術(shù)自身受很多經(jīng)濟條件影響,無法完全代替經(jīng)濟系統(tǒng)收集作用,只是智能化分析基礎(chǔ)信息并在統(tǒng)計調(diào)查工作中獲得復雜數(shù)據(jù)。處理內(nèi)容涉及很多種類,比如處理不規(guī)范、處理錯誤以及處理差距大的數(shù)據(jù)信息。本質(zhì)上來講其都屬于“數(shù)據(jù)清洗”,具體方法包含插值法與均值法等,如果數(shù)據(jù)存在明顯異常且數(shù)量比較少就可直接刪除。
(1)搜集到的數(shù)據(jù)并非是完整的,有的數(shù)據(jù)不統(tǒng)一,有的由噪音,甚至還有的數(shù)據(jù)出現(xiàn)空值。作為一種基礎(chǔ)處理方法,數(shù)據(jù)預處理手段可體前對經(jīng)濟統(tǒng)計數(shù)據(jù)信息進行處理。實際工作中,其主要由數(shù)據(jù)清理、集成及變換等內(nèi)容構(gòu)成。
數(shù)據(jù)清理。其主要指經(jīng)濟統(tǒng)計數(shù)據(jù)信息中,采取有效方法去掉不完整的、有噪音與空值的信息。通常,主要方法為均值、平滑、預測與頻率統(tǒng)計等四種方法。實際工作中要根據(jù)實際情況合理選用數(shù)據(jù)信息統(tǒng)計分析方法。經(jīng)濟統(tǒng)計工作中,數(shù)據(jù)存在噪音抑或是數(shù)據(jù)點是空值,可選用均值法清理數(shù)據(jù)。數(shù)據(jù)中噪音與空值,也可選用平滑法處理。其不同于均值法,平滑法是通過加權(quán)平均數(shù)代替均值法平均數(shù),其充分考慮數(shù)據(jù)對結(jié)果權(quán)重造成的影響。該統(tǒng)計方法的應(yīng)用利于獲得更加真實的計算結(jié)果。均值法是利用均值完善數(shù)據(jù),以此獲得更加準確的統(tǒng)計數(shù)據(jù)分析結(jié)果。兩種方法有不同的特點,具體要結(jié)合實際情況合理選用數(shù)據(jù)處理方法。
(2)數(shù)據(jù)集成。其簡單來講就是數(shù)據(jù)搜集,分類整理地區(qū)內(nèi)所有經(jīng)濟生產(chǎn)總值并集中討論,這就是應(yīng)用數(shù)據(jù)集成思想的過程。比如,應(yīng)用該思想計算省級單位國民生產(chǎn)總值與區(qū)級國民生產(chǎn)總值。實際工作中,對于常見問題與處理方法主要為:首先模式集成。當前,互聯(lián)網(wǎng)技術(shù)水平不斷提高,應(yīng)用計算機發(fā)掘數(shù)據(jù)是比較常見的模式。因數(shù)據(jù)庫間涉及并列與包含等復雜關(guān)系,怎樣判斷同名文件夾內(nèi)容是否相同,集成模式是十分必要的,以此創(chuàng)造便利條件。另一方面,冗余問題。其是根據(jù)相關(guān)關(guān)系判定的,具有一定關(guān)系的具體對象,公式中代入方差等決定性因素,判斷r值與1、0之間的關(guān)系,越接近于1絕對值,相關(guān)性就越大。反之密切度就越小,比如我國房價與人民工資水平間的關(guān)系,就可采用這一方法進行研究。
(3)數(shù)據(jù)變換。其主要指采取相應(yīng)的方式方法將數(shù)據(jù)變換為滿足信息挖掘要求的數(shù)據(jù)。其主要包含數(shù)據(jù)規(guī)范化與泛化兩種。其中泛化主要指應(yīng)用高層次數(shù)據(jù)代替低層次數(shù)據(jù)。其包含數(shù)據(jù)連續(xù)性。當前處理方法無法對數(shù)據(jù)進行連續(xù)處理,使得數(shù)據(jù)離散。其具體是利用區(qū)間劃分,以標號代替部分數(shù)據(jù)保持數(shù)據(jù)連續(xù)性。實際計算過程中應(yīng)盡可能縮減數(shù)據(jù)搜集梁,此過程也是概念分層。
統(tǒng)計工作中應(yīng)用數(shù)據(jù)挖掘技術(shù),首先應(yīng)系統(tǒng)化分析相關(guān)數(shù)據(jù),數(shù)據(jù)完成分析后進行輸出。采用該方法劃分數(shù)據(jù)類型,構(gòu)建決策樹結(jié)構(gòu)具有非常重要的意義。首先,分析數(shù)據(jù)基本模型,再選用訓練集構(gòu)建決策樹,精簡處理數(shù)據(jù)決策樹。其次,合理劃分決策樹,從根部開始劃分數(shù)據(jù),然后是樹干與樹丫等部分的數(shù)據(jù)分類,直到所有輸入的數(shù)據(jù)符合要求。
應(yīng)用決策樹進行數(shù)據(jù)分類時,首先要構(gòu)建完整的決策樹結(jié)構(gòu)。(1)構(gòu)建分析輸出基本模型,借助訓練集構(gòu)建一顆決策樹并做好精簡。(2)對完成構(gòu)建的決策樹做好數(shù)據(jù)分類,從其根本開始想樹干、樹丫延伸逐步分類,所輸入的數(shù)據(jù)與條件設(shè)置相符合后才能停止,此過程也屬于遞歸過程,逐步輸入數(shù)據(jù)。實際工作中應(yīng)用決策樹方法時其停止條件主要有:即一個節(jié)點所有數(shù)據(jù)都屬于同一類別,此時數(shù)據(jù)停止;另一方面,沒有分類屬性可繼續(xù)再次分割數(shù)據(jù)。數(shù)據(jù)挖掘預測與分類中,可應(yīng)用決策樹分類方法解決實際遇到的問題。構(gòu)建結(jié)束后,根據(jù)用戶使用需求,用戶適當?shù)卣{(diào)整構(gòu)建完成的決策樹,確保決策樹分類數(shù)據(jù)信息符合用戶使用需求,減小決策樹數(shù)據(jù)輸出變化,增強其穩(wěn)定性,保障信息質(zhì)量。
比如某地企業(yè)每年上報數(shù)據(jù)構(gòu)建序列模式,獲得企業(yè)當年預測值。對比企業(yè)上報數(shù)據(jù)與預測值得到差別率。假若該差比率高于20%,則企業(yè)為A類;差別率在10%-20%之間,就是B累;低于10%屬于C類。結(jié)合企業(yè)規(guī)模變化率與可能出現(xiàn)的經(jīng)營事件構(gòu)建決策樹。假若企業(yè)上報數(shù)據(jù)與預測值間差距比較大,就要將其做好主要調(diào)查對象。
其是根據(jù)生物自然及遺傳機理,隨意抽取的一種算法。實際應(yīng)用過程中要綜合考慮各類問題,加強被指定群體信息數(shù)據(jù)采集,整合分析隱含信息前提下獲得最終結(jié)果。因該算法具有明顯的隱含性,因而可與其他模型結(jié)合起來使用采集隱含數(shù)據(jù)。然后對現(xiàn)有挖掘的數(shù)據(jù)信息進行深入分析,并應(yīng)用于實踐中。此過程中,因經(jīng)濟問題并非停止不變的,其內(nèi)部聯(lián)系復雜,參考遺傳算法,從源頭向下延伸獲得有效的數(shù)據(jù),對數(shù)據(jù)信息從整體上進行分析,保障經(jīng)濟問題更加而具體,確保相關(guān)人員直觀地處理問題,有效解決各類隱性問題。在此基礎(chǔ)上,確保順利進行統(tǒng)計工作。
未來社會發(fā)展中,數(shù)據(jù)挖掘技術(shù)的應(yīng)用將更具有效、綜合與適用性特點。為了系統(tǒng)化認識數(shù)據(jù)挖掘技術(shù)價值,本文將從以下幾方面發(fā)展趨勢進行探究研究,希望未來發(fā)展中數(shù)據(jù)挖掘技術(shù)能夠充分發(fā)揮其作用,為統(tǒng)計工作可持續(xù)發(fā)展目標的實現(xiàn)提供推動力。
對于數(shù)據(jù)信息應(yīng)用數(shù)據(jù)挖掘技術(shù)進行深層次加工,有效開展統(tǒng)計工作。其有明顯的目的性,且實際應(yīng)用中,統(tǒng)計數(shù)據(jù)長期積累過程中深處理加工基礎(chǔ)數(shù)據(jù)。實際應(yīng)用時要結(jié)合用戶數(shù)據(jù)使用需求,從不同角度對所用數(shù)據(jù)信息進行分析,分類統(tǒng)計數(shù)據(jù)信息,對原有數(shù)據(jù)庫進行科學整理。利用該形式,還可提高數(shù)據(jù)信息管理效率。
從本質(zhì)上來講,作為一項系統(tǒng)化數(shù)據(jù)統(tǒng)計工具,數(shù)據(jù)挖掘技術(shù)并非單一化的數(shù)據(jù)分析,可滿足不同使用者的不同信息需求。近些年,我國社會經(jīng)濟保持快速發(fā)展勢頭,此種情況下經(jīng)濟管理中統(tǒng)計分析社會內(nèi)部經(jīng)濟相關(guān)發(fā)展數(shù)據(jù)。此過程中要注意,不同數(shù)據(jù)信息有不同的管理權(quán)限及處理權(quán)限,所以面對多元化需求,相關(guān)經(jīng)濟管理部門要合理低統(tǒng)計分析經(jīng)濟管理內(nèi)容,促使數(shù)據(jù)信息順利轉(zhuǎn)換為不同數(shù)據(jù)形式,根據(jù)信息來源與統(tǒng)計計算方法,對其可靠性做出科學評估,從而獲得更加準確的數(shù)據(jù)統(tǒng)計信息。
國內(nèi)經(jīng)濟管理部門,職權(quán)管理工作表現(xiàn)的不夠集中,各類經(jīng)濟管理部門對數(shù)據(jù)信息需求量及類型也有明顯的不同。很多地區(qū),對于統(tǒng)計活動,各經(jīng)濟管理管理實施的傳統(tǒng)方法有明顯的局限性,難以利用經(jīng)濟管理活動為其提供高品質(zhì)的服務(wù)。實踐工作中,重復性統(tǒng)計或統(tǒng)計不完全的問題也是比較常見,直接影響到經(jīng)濟數(shù)據(jù)分析的有效性。數(shù)據(jù)挖掘技術(shù)的應(yīng)用可有效避免該問題,確保獲得的數(shù)據(jù)信息更加準確,整合處理數(shù)據(jù)挖掘技術(shù),保障數(shù)據(jù)資源的豐富與多樣性是十分必要的。
綜上所述,現(xiàn)代社會發(fā)展中,經(jīng)濟發(fā)展速度健康,行業(yè)內(nèi)部數(shù)據(jù)挖掘有了更多的要求。同時互聯(lián)網(wǎng)技術(shù)的發(fā)展,為數(shù)據(jù)處理提供了新的渠道,更是對統(tǒng)計行業(yè)帶來的一次挑戰(zhàn),有效應(yīng)用數(shù)據(jù)挖掘技術(shù),能夠為行業(yè)順利開展各項工作創(chuàng)造便利條件,從根本上推動社會經(jīng)濟穩(wěn)定發(fā)展。