譚 震
摘要:在現(xiàn)代信息化社會(huì)中,計(jì)算機(jī)、信息、網(wǎng)絡(luò)技術(shù)飛速發(fā)展,由于基于數(shù)據(jù)挖掘技術(shù)的信息化技術(shù)應(yīng)用,能夠給企業(yè)帶來顯著的經(jīng)濟(jì)效益,因而越來越受到企業(yè)決策層的重視。本文在數(shù)據(jù)挖掘技術(shù)的方法和步驟上進(jìn)行分析,以便開發(fā)出有效、實(shí)用的數(shù)據(jù)挖掘系統(tǒng)。
關(guān)鍵詞:SPC 數(shù)據(jù)挖掘 質(zhì)量管理
一、數(shù)據(jù)挖掘的基本概念
數(shù)據(jù)挖掘是在數(shù)據(jù)中識(shí)別過程中,使用智能方法提取數(shù)據(jù)模式的一個(gè)步驟。數(shù)據(jù)挖掘在數(shù)據(jù)庫中提取正確的、前所未有的、可理解的并具有可操作性、能用來進(jìn)行決策的信息的過程。統(tǒng)計(jì)過程控制(Statistical Process Control)是一種借助數(shù)理統(tǒng)計(jì)方法的先進(jìn)質(zhì)量管理和控制技術(shù),以過程的穩(wěn)定性為主要目標(biāo),強(qiáng)調(diào)全過程的預(yù)防,能夠有效地降低產(chǎn)品的不合格率,從而降低生產(chǎn)成本。
過去的數(shù)據(jù)挖掘技術(shù),主要面向的是以結(jié)構(gòu)化數(shù)據(jù)為主的關(guān)系數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫和數(shù)據(jù)倉庫。隨著數(shù)據(jù)處理工具、先進(jìn)數(shù)據(jù)庫技術(shù)以及技術(shù)的迅速發(fā)展,大量形式各異的復(fù)雜數(shù)據(jù)類型不斷涌現(xiàn),包括時(shí)間序列數(shù)據(jù)、文本數(shù)據(jù)、空間數(shù)據(jù)、多媒體數(shù)據(jù)、和Web數(shù)據(jù)等,其中:時(shí)間序列數(shù)據(jù)是指隨著時(shí)間順序取得的一系列觀察值;文本數(shù)據(jù)是指存在著大量以文本或文檔形式存儲(chǔ)著的信息;空間數(shù)據(jù),是指具有空間特征的數(shù)據(jù);多媒體數(shù)據(jù),是指包括音頻數(shù)據(jù)、圖像數(shù)據(jù)、視頻數(shù)據(jù)、超文本數(shù)據(jù)等在內(nèi)的多媒體數(shù)據(jù);Web數(shù)據(jù),包含著豐富和動(dòng)態(tài)的超鏈接信息和訪問及使用信息,其規(guī)模隨著網(wǎng)絡(luò)不斷發(fā)展而呈指數(shù)級(jí)增長。
二、數(shù)據(jù)挖掘SPC系統(tǒng)設(shè)計(jì)原則
1.集中性原則。一個(gè)企業(yè)的質(zhì)量信息之間具有相關(guān)性,因此應(yīng)實(shí)現(xiàn)集中管理。一般僅在企業(yè)設(shè)立一個(gè)質(zhì)量信息中心,以免造成管理上的混亂。
2.系統(tǒng)性原則。數(shù)據(jù)挖掘SPC是整個(gè)企業(yè)管理系統(tǒng)的一個(gè)組成部分。因此,在建立數(shù)據(jù)挖掘SPC質(zhì)量管理系統(tǒng)時(shí),必須與其它職能管理部門相協(xié)調(diào),充分體現(xiàn)質(zhì)量管理的廣泛性、服務(wù)性和依附性等特點(diǎn)。
3.經(jīng)濟(jì)、可用性原則。數(shù)據(jù)挖掘SPC質(zhì)量管理系統(tǒng)的建立和運(yùn)行需要一定的人力、財(cái)力和物力。因此在建立系統(tǒng)時(shí),既要考慮到對(duì)質(zhì)量管理的要求,又要考慮到經(jīng)濟(jì)、技術(shù)上的可行性。
4.逐步發(fā)展的原則。數(shù)據(jù)挖掘SPC質(zhì)量管理系統(tǒng)的建立和運(yùn)行是一項(xiàng)十分復(fù)雜的系統(tǒng)工程,試圖一次建成并有效運(yùn)行整個(gè)系統(tǒng)的想法往往是行不通的。因此,必須采取逐步發(fā)展,不斷完善的方針,以便更好地滿足企業(yè)發(fā)展的需要。
5.適應(yīng)計(jì)算機(jī)管理的原則。在建立質(zhì)量管理系統(tǒng)時(shí),必須考慮到與計(jì)算機(jī)輔助管理的特點(diǎn)相適應(yīng)。例如要盡量減少管理層次,優(yōu)化信息流程,避免信息的重復(fù)收集等,才能充分發(fā)揮質(zhì)量信息的作用。
三、數(shù)據(jù)挖掘的一般步驟
1.數(shù)據(jù)準(zhǔn)備。選取數(shù)據(jù)挖掘過程所需要的數(shù)據(jù)可能從不同的異構(gòu)數(shù)據(jù)源獲取,因此,第一步就是從各種數(shù)據(jù)庫、文件和非電子數(shù)據(jù)源中獲取數(shù)據(jù)。數(shù)據(jù)選取的目的是確定發(fā)現(xiàn)任務(wù)的操作對(duì)象,即目標(biāo)數(shù)據(jù),它是根據(jù)用戶需要從原始數(shù)據(jù)中抽取的一組數(shù)據(jù)。
2.數(shù)據(jù)預(yù)處理。一般包括消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等。
3.數(shù)據(jù)變換。數(shù)據(jù)變換的目的主要是消減數(shù)據(jù)維數(shù)或降維,即從初始特征中找出真正有用的特征以減少數(shù)據(jù)挖掘時(shí)要考慮的特征或變量個(gè)數(shù)。
4.數(shù)據(jù)挖掘。首先要確定數(shù)據(jù)挖掘的目標(biāo)和挖掘的知識(shí)類型;確定挖掘任務(wù)后,根據(jù)挖掘的知識(shí)類型選擇合適的挖掘算法;最后實(shí)施數(shù)據(jù)挖掘操作,運(yùn)用選定的挖掘算法從數(shù)據(jù)庫中抽取所需的知識(shí)。
5.結(jié)果的解釋和評(píng)價(jià)。數(shù)據(jù)挖掘階段發(fā)現(xiàn)的知識(shí),經(jīng)過評(píng)估,可能存在冗余或無關(guān)的知識(shí),這時(shí)需要將其剔除;也有可能知識(shí)不滿足用戶的要求,需要重復(fù)上述挖掘過程重新進(jìn)行挖掘。另外,由于數(shù)據(jù)挖掘是最終要面臨用戶的,因此,還需要對(duì)所挖掘的知識(shí)進(jìn)行解釋,以一種用戶易于理解的方式(如可視化方式)供用戶所用。
數(shù)據(jù)挖掘最吸引人的地方是它能建立預(yù)測(cè)模型而不是回顧型的模型。利用功能強(qiáng)大的數(shù)據(jù)挖掘技術(shù),可以使企業(yè)把數(shù)據(jù)轉(zhuǎn)化為有用的信息,從而在市場(chǎng)競爭中獲得優(yōu)勢(shì)地位。
四、數(shù)據(jù)挖掘的主要方法
1.關(guān)聯(lián)規(guī)則方法:挖掘關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性。
2.分類和聚類方法。分類就是假定數(shù)據(jù)庫中的每個(gè)對(duì)象(在關(guān)系數(shù)據(jù)庫中對(duì)象是元組)屬于一個(gè)預(yù)先給定的類,從而將數(shù)據(jù)庫中的數(shù)據(jù)分配到給定的類中。而聚類是將地實(shí)體對(duì)象集合依照某種相似性度量原則劃分為若干個(gè)類似實(shí)體對(duì)象組成的多個(gè)類或簇的過程。
3.數(shù)據(jù)統(tǒng)計(jì)方法。使用這些方法一般首先建立一個(gè)數(shù)據(jù)模型或統(tǒng)計(jì)模型,然后根據(jù)這種模型提取有關(guān)的知識(shí)。
4.機(jī)器學(xué)習(xí)方法。大多數(shù)機(jī)器學(xué)習(xí)方法使用人類的認(rèn)識(shí)模型模仿人類的學(xué)習(xí)方法從數(shù)據(jù)中提取知識(shí),由于機(jī)器學(xué)習(xí)經(jīng)過多年的研究,已取得了一些較滿意的成果,因此,在數(shù)據(jù)挖掘中可以利用目前比較成熟的機(jī)器學(xué)習(xí)方法。
5.多層次數(shù)據(jù)匯總歸納。數(shù)據(jù)庫中的數(shù)據(jù)和對(duì)象經(jīng)常包含原始概念層上的詳細(xì)信息,將一個(gè)數(shù)據(jù)集和歸納成更高概念層次信息的數(shù)據(jù)挖掘技術(shù)被稱為數(shù)據(jù)匯總。
6.神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲(chǔ)和高度容錯(cuò)等特性非常適合解決數(shù)據(jù)挖掘的問題,因此近年來越來越受到人們的關(guān)注。
7.決策樹方法。利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一個(gè)結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹的分支;在每個(gè)分枝子集中,重復(fù)建立樹的下層結(jié)點(diǎn)和分支的過程,即可建立決策樹。
8.序列模式分析方法。主要用于發(fā)現(xiàn)一定時(shí)間間隔內(nèi)接連發(fā)生的事件。
9.可視化技術(shù)。數(shù)據(jù)與結(jié)果被轉(zhuǎn)化和表達(dá)成可視化形式,如圖形、圖像等,使用戶對(duì)數(shù)據(jù)的剖析更清楚。
五、結(jié)束語
數(shù)據(jù)挖掘,最關(guān)鍵的問題是如何結(jié)合業(yè)務(wù)數(shù)據(jù)特點(diǎn),將挖掘出的知識(shí)表達(dá)出來,即時(shí)空知識(shí)表達(dá)和解釋機(jī)制問題;并根據(jù)具體問題的特點(diǎn)來決定采用數(shù)據(jù)挖掘方法,并選擇符合數(shù)據(jù)的模型的算法,確定合適的模型和參數(shù)。只有選擇好正確的數(shù)據(jù)挖掘工具,才能真正發(fā)揮數(shù)據(jù)挖掘的作用,使企業(yè)在激烈的市場(chǎng)競爭中做出正確的決策,保持有力的競爭優(yōu)勢(shì)?!?/p>
參考文獻(xiàn):
[1]〔美〕J.M.朱蘭,A.布蘭頓.戈弗雷著.焦樹斌等譯.朱蘭質(zhì)量手冊(cè).中國人民大學(xué)出版社,2003
[2]張公緒,孫靜.質(zhì)量工程師手冊(cè).企業(yè)管理出版社,2002
[3]文放懷.SPC實(shí)戰(zhàn).廣東經(jīng)濟(jì)出版社,2005