摘要: 數(shù)據(jù)挖掘(Data Mining)是一個利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)之間關系的過程,這些模型和關系可以被企業(yè)用來分析風險、進行預測?,F(xiàn)代商業(yè)活動中,企業(yè)通過數(shù)據(jù)挖掘技術可以對商業(yè)信息進行微觀、宏觀的統(tǒng)計、分析、綜合和推理,從而來指導自身的高級商務活動。
關鍵詞:數(shù)據(jù)挖掘;商業(yè)信息;統(tǒng)計
在當前的商業(yè)活動中,通過自動、有效的數(shù)據(jù)分析技術,為企業(yè)提供帶來商業(yè)利潤的決策信息成為商業(yè)活動的必然要求。Internet是一個巨大的信息資源儲備庫,商務活動中企業(yè)渴望有效的訪問、分析和使用這些信息的需求,為數(shù)據(jù)挖掘提供了廣泛的應用空間。數(shù)據(jù)挖掘就是按企業(yè)的既定業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行深層次分析以揭示隱藏的、未知的規(guī)律性并將其模型化,從而支持商業(yè)決策活動。
一、數(shù)據(jù)挖掘技術
1.數(shù)據(jù)挖掘技術的概念
數(shù)據(jù)挖掘(Data Mining),也叫數(shù)據(jù)開采等,從一個新的角度將數(shù)據(jù)庫技術、KDD技術、統(tǒng)計學等領域結合起來,是按照既定的業(yè)務目標從海量數(shù)據(jù)中,從更深層發(fā)掘存在于數(shù)據(jù)內部的有效的、新穎的、具有潛在效用的信息和知識處理過程。
2.數(shù)據(jù)挖掘技術的特點
?。?)數(shù)據(jù)挖掘的數(shù)據(jù)量是巨大的,因此如何高效率地存取數(shù)據(jù),如何根據(jù)一定應用領域找出數(shù)據(jù)關系即提高算法的效率,以及是使用全部數(shù)據(jù)還是部分數(shù)據(jù),都成為數(shù)據(jù)挖掘過程中必須考慮的問題。
(2)數(shù)據(jù)挖掘面臨的數(shù)據(jù)常常是為其他目的而收集的數(shù)據(jù),這就為數(shù)據(jù)挖掘帶來了一定的困難,即一些很重要的數(shù)據(jù)可能被疏漏或丟失。因此未知性和不完全性始終貫穿數(shù)據(jù)挖掘的全過程。
?。?)數(shù)據(jù)挖掘常常要求算法主動地提示一些數(shù)據(jù)的內在關系。
3.數(shù)據(jù)挖掘的常用技術
(1)遺傳算法:遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其它模型結合等性質使得它在數(shù)據(jù)挖掘中被加以應用。遺傳算法的應用還體現(xiàn)在與神經(jīng)網(wǎng)絡、粗集等技術的結合上。
?。?)決策樹方法:決策樹是一種常用于預測模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價值的,潛在的信息。它的主要優(yōu)點是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。建立決策樹的過程,即樹的生長過程是不斷的把數(shù)據(jù)進行切分的過程,每次切分對應一個問題,也對應著一個節(jié)點。對每個切分都要求分成的組之間的“差異”最大。各種決策樹算法之間的主要區(qū)別就是對這個“差異”衡量方式的區(qū)別。對具體衡量方式算法的討論超出了本文的范圍,在此我們只需要把切分看成是把一組數(shù)據(jù)分成幾份,份與份之間盡量不同,而同一份內的數(shù)據(jù)盡量相同,這個切分的過程也可稱為數(shù)據(jù)的“純化”。
(3)神經(jīng)網(wǎng)絡方法:神經(jīng)網(wǎng)絡本身具備良好的魯棒性、自組織自適應性、并行處理、分布存儲和高度容錯等特性因此近年來越來越受到人們的關注。在結構上,可以把一個神經(jīng)網(wǎng)絡劃分為輸入層、輸出層和隱含層。輸入層的每個節(jié)點對應一個個的預測變量。輸出層的節(jié)點對應目標變量,可有多個。在輸入層和輸出層之間是隱含層,隱含層的層數(shù)和每層節(jié)點的個數(shù)決定了神經(jīng)網(wǎng)絡的復雜度。
?。?)覆蓋正例排斥反例方法:它是利用覆蓋所有正例、排斥所有反例的思想來尋找規(guī)則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則舍去,相反則保留。
二、數(shù)據(jù)挖掘技術在商業(yè)信息中的應用
數(shù)據(jù)挖掘技術從一開始就是面向應用的。目前,在很多領域,尤其是在銀行等商業(yè)領域。數(shù)據(jù)挖掘所能解決的典型商業(yè)問題包括:數(shù)據(jù)庫營銷、客戶群體劃分、交叉銷售等市場分析行為,以及客戶流失性分析等。
1.商業(yè)信息的特點與商業(yè)信息對于數(shù)據(jù)挖掘技術的需求
商業(yè)信息不僅僅表現(xiàn)在信息量大還表現(xiàn)在它的多變性,比如:供求關系的變動、商品價格的變化、暢銷商品與滯銷商品的變換、商品的更新?lián)Q代周期越來越短等等,他們都隨著時間的推移瞬息萬變。另一方面商業(yè)信息又表現(xiàn)出非完整的、零散的性質性,他與商品生產(chǎn)的分散性和商品信息傳播的多渠道等密切相關。比如:企業(yè)只注重商品信息的及時發(fā)布而缺乏商品信息的累積性與研究。
據(jù)挖掘技術作為解決“數(shù)據(jù)爆炸”時代出現(xiàn)的最有效手段之一,受到了企業(yè)界的極大關注。如何最大限度地利用企業(yè)各個部門多年來在數(shù)據(jù)庫系統(tǒng)上積累下來的大量數(shù)據(jù)進行整合及二次開發(fā),如何才能不被信息的汪洋大海所淹沒,從中及時發(fā)現(xiàn)有用的知識,提高信息的有效利用率,成為企業(yè)追求的一大目標。
2.數(shù)據(jù)挖掘技術在商業(yè)活動中的應用分析
(1)數(shù)據(jù)挖掘技術在商業(yè)活動中的應用的現(xiàn)狀
在國內,數(shù)據(jù)挖掘技術的重要性也被越來越多的企業(yè)管理者所認識,而在電信、金融、零售、流通等行業(yè),已經(jīng)成為信息化建設的重點。數(shù)據(jù)挖掘技術可以利用各種信息系統(tǒng)進行的高質量和有價值的信息收集、分析