国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺析數(shù)據(jù)挖掘技術及其在現(xiàn)代商業(yè)信息領域的應用

2008-12-29 00:00:00杜金滿單少隆
中國市場 2008年26期


  摘要: 數(shù)據(jù)挖掘(Data Mining)是一個利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)之間關系的過程,這些模型和關系可以被企業(yè)用來分析風險、進行預測?,F(xiàn)代商業(yè)活動中,企業(yè)通過數(shù)據(jù)挖掘技術可以對商業(yè)信息進行微觀、宏觀的統(tǒng)計、分析、綜合和推理,從而來指導自身的高級商務活動。
  關鍵詞:數(shù)據(jù)挖掘;商業(yè)信息;統(tǒng)計
  
  在當前的商業(yè)活動中,通過自動、有效的數(shù)據(jù)分析技術,為企業(yè)提供帶來商業(yè)利潤的決策信息成為商業(yè)活動的必然要求。Internet是一個巨大的信息資源儲備庫,商務活動中企業(yè)渴望有效的訪問、分析和使用這些信息的需求,為數(shù)據(jù)挖掘提供了廣泛的應用空間。數(shù)據(jù)挖掘就是按企業(yè)的既定業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行深層次分析以揭示隱藏的、未知的規(guī)律性并將其模型化,從而支持商業(yè)決策活動。
  
  一、數(shù)據(jù)挖掘技術
  
  1.數(shù)據(jù)挖掘技術的概念
  數(shù)據(jù)挖掘(Data Mining),也叫數(shù)據(jù)開采等,從一個新的角度將數(shù)據(jù)庫技術、KDD技術、統(tǒng)計學等領域結合起來,是按照既定的業(yè)務目標從海量數(shù)據(jù)中,從更深層發(fā)掘存在于數(shù)據(jù)內部的有效的、新穎的、具有潛在效用的信息和知識處理過程。
  2.數(shù)據(jù)挖掘技術的特點
 ?。?)數(shù)據(jù)挖掘的數(shù)據(jù)量是巨大的,因此如何高效率地存取數(shù)據(jù),如何根據(jù)一定應用領域找出數(shù)據(jù)關系即提高算法的效率,以及是使用全部數(shù)據(jù)還是部分數(shù)據(jù),都成為數(shù)據(jù)挖掘過程中必須考慮的問題。
  (2)數(shù)據(jù)挖掘面臨的數(shù)據(jù)常常是為其他目的而收集的數(shù)據(jù),這就為數(shù)據(jù)挖掘帶來了一定的困難,即一些很重要的數(shù)據(jù)可能被疏漏或丟失。因此未知性和不完全性始終貫穿數(shù)據(jù)挖掘的全過程。
 ?。?)數(shù)據(jù)挖掘常常要求算法主動地提示一些數(shù)據(jù)的內在關系。
  3.數(shù)據(jù)挖掘的常用技術
  (1)遺傳算法:遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其它模型結合等性質使得它在數(shù)據(jù)挖掘中被加以應用。遺傳算法的應用還體現(xiàn)在與神經(jīng)網(wǎng)絡、粗集等技術的結合上。
 ?。?)決策樹方法:決策樹是一種常用于預測模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價值的,潛在的信息。它的主要優(yōu)點是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。建立決策樹的過程,即樹的生長過程是不斷的把數(shù)據(jù)進行切分的過程,每次切分對應一個問題,也對應著一個節(jié)點。對每個切分都要求分成的組之間的“差異”最大。各種決策樹算法之間的主要區(qū)別就是對這個“差異”衡量方式的區(qū)別。對具體衡量方式算法的討論超出了本文的范圍,在此我們只需要把切分看成是把一組數(shù)據(jù)分成幾份,份與份之間盡量不同,而同一份內的數(shù)據(jù)盡量相同,這個切分的過程也可稱為數(shù)據(jù)的“純化”。
  (3)神經(jīng)網(wǎng)絡方法:神經(jīng)網(wǎng)絡本身具備良好的魯棒性、自組織自適應性、并行處理、分布存儲和高度容錯等特性因此近年來越來越受到人們的關注。在結構上,可以把一個神經(jīng)網(wǎng)絡劃分為輸入層、輸出層和隱含層。輸入層的每個節(jié)點對應一個個的預測變量。輸出層的節(jié)點對應目標變量,可有多個。在輸入層和輸出層之間是隱含層,隱含層的層數(shù)和每層節(jié)點的個數(shù)決定了神經(jīng)網(wǎng)絡的復雜度。
 ?。?)覆蓋正例排斥反例方法:它是利用覆蓋所有正例、排斥所有反例的思想來尋找規(guī)則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則舍去,相反則保留。
  
  二、數(shù)據(jù)挖掘技術在商業(yè)信息中的應用
  
  數(shù)據(jù)挖掘技術從一開始就是面向應用的。目前,在很多領域,尤其是在銀行等商業(yè)領域。數(shù)據(jù)挖掘所能解決的典型商業(yè)問題包括:數(shù)據(jù)庫營銷、客戶群體劃分、交叉銷售等市場分析行為,以及客戶流失性分析等。
  1.商業(yè)信息的特點與商業(yè)信息對于數(shù)據(jù)挖掘技術的需求
  商業(yè)信息不僅僅表現(xiàn)在信息量大還表現(xiàn)在它的多變性,比如:供求關系的變動、商品價格的變化、暢銷商品與滯銷商品的變換、商品的更新?lián)Q代周期越來越短等等,他們都隨著時間的推移瞬息萬變。另一方面商業(yè)信息又表現(xiàn)出非完整的、零散的性質性,他與商品生產(chǎn)的分散性和商品信息傳播的多渠道等密切相關。比如:企業(yè)只注重商品信息的及時發(fā)布而缺乏商品信息的累積性與研究。
  據(jù)挖掘技術作為解決“數(shù)據(jù)爆炸”時代出現(xiàn)的最有效手段之一,受到了企業(yè)界的極大關注。如何最大限度地利用企業(yè)各個部門多年來在數(shù)據(jù)庫系統(tǒng)上積累下來的大量數(shù)據(jù)進行整合及二次開發(fā),如何才能不被信息的汪洋大海所淹沒,從中及時發(fā)現(xiàn)有用的知識,提高信息的有效利用率,成為企業(yè)追求的一大目標。
  2.數(shù)據(jù)挖掘技術在商業(yè)活動中的應用分析
  (1)數(shù)據(jù)挖掘技術在商業(yè)活動中的應用的現(xiàn)狀
  在國內,數(shù)據(jù)挖掘技術的重要性也被越來越多的企業(yè)管理者所認識,而在電信、金融、零售、流通等行業(yè),已經(jīng)成為信息化建設的重點。數(shù)據(jù)挖掘技術可以利用各種信息系統(tǒng)進行的高質量和有價值的信息收集、分析

晋州市| 红河县| 连南| 黔南| 苍梧县| 淮北市| 静宁县| 黄梅县| 平顺县| 兴山县| 仁布县| 潜山县| 三门县| 西城区| 明光市| 北碚区| 古浪县| 丰顺县| 威信县| 会泽县| 乌鲁木齐市| 宁波市| 大渡口区| 扶绥县| 东乌珠穆沁旗| 寻乌县| 延边| 全州县| 赤峰市| 云安县| 汽车| 平舆县| 镇巴县| 宿松县| 达日县| 开化县| 宜都市| 谷城县| 青浦区| 图片| 洪湖市|