張璐璐
【摘要】 目前 ERP(Enterprise Resource Planning)研究的熱點就是挖掘 ERP 大量數(shù)據(jù)中蘊涵的知識。為解決這一問題,近年來,提出了數(shù)據(jù)挖掘(Data Mining)和知識發(fā)現(xiàn)(KDD)技術(shù),本文介紹了數(shù)據(jù)挖掘系統(tǒng)基于ERP的設計。
【關(guān)鍵詞】 數(shù)據(jù)挖掘 ERP技術(shù)
隨著人們認識和管理水平的提高,對客觀世界的描述愈來愈全面,存儲的數(shù)據(jù)量愈來愈大,然而,對數(shù)據(jù)庫中數(shù)據(jù)的開發(fā)應用主要是檢索查詢,效率很低,此外,相當數(shù)量的數(shù)據(jù)具有很強的時效性,數(shù)據(jù)的價值隨著時間的推移而迅速降低。簡單的數(shù)據(jù)查詢或統(tǒng)計雖然可以滿足某些低層次的需要,但人們更為需要的是從大量數(shù)據(jù)資源中挖掘出對各類決策有指導意義的一般知識,這些知識是對大量數(shù)據(jù)的高度概括和抽象。數(shù)據(jù)挖掘技術(shù)在經(jīng)濟中的應用是信息決策、經(jīng)濟管理等領(lǐng)域的前沿研究方向之一。本文設計了面向ERP數(shù)據(jù)挖掘的一般結(jié)構(gòu)框架。將 ERP原理與數(shù)據(jù)挖掘技術(shù)相結(jié)合應用到企業(yè)ERP中銷售、客戶和產(chǎn)品這三個模塊,提出了企業(yè)ERP數(shù)據(jù)挖掘的實現(xiàn)方法,分析了銷售、客戶和產(chǎn)品數(shù)據(jù)挖掘的系統(tǒng)框架,完成了概念模型、邏輯模型和物理模型的設計工作,在實際中應用該系統(tǒng),獲得了較好的效果,為ERP和數(shù)據(jù)挖掘的結(jié)合提供了方向。
一、數(shù)據(jù)挖掘基本原理
1.1 KDD過程
數(shù)據(jù)挖掘是數(shù)據(jù)庫技術(shù)、人工智能、機器學習和統(tǒng)計學等學科相結(jié)合的產(chǎn)物。簡單地說,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識。一種比較公認的定義是:數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的、潛在有用的信息的非平凡過程,它是由G. Piatctsky-Shapior,W.J.Frawley等人提出的。數(shù)據(jù)挖掘作為KDD的一個基本步驟,由下列步驟組成。
(1)數(shù)據(jù)清理。消除噪聲或不一致數(shù)據(jù)。
(2)數(shù)據(jù)集成。將多種數(shù)據(jù)庫中的數(shù)據(jù)組合在一起。
(3)數(shù)據(jù)選擇。從數(shù)據(jù)庫中檢索與分析任務相關(guān)的數(shù)據(jù)。
(4)數(shù)據(jù)變換。將數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式。比如,通過匯總等操作。
(5)數(shù)據(jù)挖掘。它是基本步驟,使用智能方法提取數(shù)據(jù)模式。
(6)模式評價。根據(jù)某種興趣度度量,識別表示知識的真正有趣的模式。
(7)知識表示。使用可視化和知識表示技術(shù),向用戶提供挖掘的知識。
1.2 數(shù)據(jù)挖掘的對象
原則上講,數(shù)據(jù)挖掘可以在任何類型的信息存儲上進行,包括關(guān)系數(shù)據(jù)庫、事務數(shù)據(jù)庫、數(shù)據(jù)倉庫、高級數(shù)據(jù)庫系統(tǒng)和面向特殊應用的數(shù)據(jù)庫系統(tǒng)(如:面向?qū)ο髷?shù)據(jù)庫、對象關(guān)系數(shù)據(jù)庫、空間數(shù)據(jù)庫、時間數(shù)據(jù)庫、時間序列數(shù)據(jù)庫、文本數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、WWW等)。數(shù)據(jù)挖掘的挑戰(zhàn)和技術(shù)可能因存儲系統(tǒng)而異。
1.3 數(shù)據(jù)挖掘系統(tǒng)的分類
數(shù)據(jù)挖掘是一個交叉學科領(lǐng)域,受多個學科的影響,根據(jù)不同的標準可以分類如下:
(1)根據(jù)挖掘的數(shù)據(jù)庫類型分類。如果根據(jù)數(shù)據(jù)模型分類,可以分為關(guān)系的、事務的、面向?qū)ο蟮?、對象?關(guān)系的或數(shù)據(jù)倉庫的數(shù)據(jù)挖掘系統(tǒng);如果根據(jù)所處理數(shù)據(jù)的特定類型分類,可以分為空間的、時間序列的、文本的、多媒體的或的數(shù)據(jù)挖掘系統(tǒng)。
(2)根據(jù)挖掘的知識類型分類。知識的類型包括特征化、區(qū)分、關(guān)聯(lián)、分類、聚類、孤立點分析、演變分析、偏差分析或類似性分析等。一個完整的數(shù)據(jù)挖掘系統(tǒng)應當提供多種和集成的數(shù)據(jù)挖掘功能。此外,數(shù)據(jù)挖掘系統(tǒng)可以根據(jù)所挖掘的知識的粒度或抽象層進行分類。包括概化知識(在高抽象層)、原始層知識(在原始數(shù)據(jù)層)或多層知識,一個高級的數(shù)據(jù)挖掘系統(tǒng)應當支持多抽象層的知識發(fā)現(xiàn)。
(3)根據(jù)所用的技術(shù)分類。這些技術(shù)可以根據(jù)用戶交互程度(例如自動系統(tǒng)、交互查詢系統(tǒng)、查詢驅(qū)動系統(tǒng)),或所用的數(shù)據(jù)分析方法(例如面向數(shù)據(jù)庫或數(shù)據(jù)倉庫的技術(shù)、機器學習、統(tǒng)計學、可視化、模式識別、神經(jīng)網(wǎng)絡、模糊和粗集理論、遺傳算法、決策樹、最近鄰技術(shù)等)描述。復雜的數(shù)據(jù)挖掘系統(tǒng)通常采用多種數(shù)據(jù)挖掘技術(shù)。
(4)根據(jù)應用分類。不同的應用通常需要集成對于該應用有效的方法。比如,金融、電信、DNA、股票市場等等。普通的、全面的數(shù)據(jù)挖掘系統(tǒng)可能并不適合特定領(lǐng)域的挖掘任務。
二、數(shù)據(jù)挖掘基于ERP的設計
ERP(Enterprise Resource Planning,企業(yè)資源計劃)在我國的應用已越來越廣泛。它體現(xiàn)了當今世界上最先進的企業(yè)管理理論,并提供了企業(yè)信息化集成的最佳方案。它將企業(yè)的物流、資金流和信息流統(tǒng)一起來進行管理,對企業(yè)所擁有的人力、資金、材料、設備、方法(生產(chǎn)技術(shù))、信息和時間等各項資源進行綜合平衡和充分考慮,最大限度地利用企業(yè)的現(xiàn)有資源取得更大的經(jīng)濟效益,科學、有效地管理企業(yè)人、財、物、產(chǎn)、供、銷等各項具體業(yè)務工作。本文從企業(yè)自身的生產(chǎn)、管理和發(fā)展需要出發(fā),結(jié)合數(shù)據(jù)挖掘技術(shù)的特點和目前國內(nèi)ERP系統(tǒng)的應用現(xiàn)狀,探討將數(shù)據(jù)挖掘技術(shù)應用到傳統(tǒng)的ERP中去的操作方法,以增強ERP的決策功能,從而滿足企業(yè)管理人員的需要。ERP 是英文 Enterprise Resource Planning的簡寫,即企業(yè)資源計劃,是20世紀90年代出現(xiàn)的一種先進的管理理念和管理技術(shù),ERP 作為現(xiàn)代企業(yè)信息化進程中典型的應用系統(tǒng),是管理哲學、理論和方法的軟件封裝,它承載了當今國際上先進的管理思想和信息技術(shù)。東方汽輪機有限公司早在2002年就開始使用 ERP 管理,通過 10 年來的不斷完善和使用,目前已實現(xiàn)了企業(yè)內(nèi)部資源和企業(yè)相關(guān)的外部資源的整合,高度集成了企業(yè)業(yè)務流和信息共享。在此基礎(chǔ)上公司在相關(guān)部門全面實行ERP 數(shù)據(jù)系統(tǒng)管理業(yè)務流程,本文就公司 ERP數(shù)據(jù)系統(tǒng)的實施效果,研究ERP數(shù)據(jù)系統(tǒng)期初數(shù)據(jù)的質(zhì)量現(xiàn)狀,對數(shù)據(jù)質(zhì)量進行評估,總結(jié)其影響因素,并提出切實可行的提高數(shù)據(jù)質(zhì)量的方案。
2.1 ERP數(shù)據(jù)挖掘過程
面向 ERP 數(shù)據(jù)挖掘就是在生成面向 ERP的數(shù)據(jù)倉庫/數(shù)據(jù)集市的基礎(chǔ)上,通過數(shù)據(jù)清洗、集成選擇和變換原有的數(shù)據(jù),得到特定的數(shù)據(jù)集,通過使用數(shù)據(jù)挖掘算法將隱含在其中的但是又有潛在的有用知識提取出來的過程,可將ERP數(shù)據(jù)挖掘的過程分為[8-9]:數(shù)據(jù)準備,數(shù)據(jù)挖掘,結(jié)果評價和表達。
2.1.1 數(shù)據(jù)準備
將數(shù)據(jù)準備分為 3 個子步驟:數(shù)據(jù)選取、數(shù)據(jù)預處理和數(shù)據(jù)變換。
(1)數(shù)據(jù)選?。涸谠紨?shù)據(jù)庫中根據(jù)用戶的需求抽取一組目標數(shù)據(jù)。
(2)數(shù)據(jù)預處理:包括對數(shù)據(jù)降維、消除噪聲、推導計算缺值數(shù)據(jù)等。
(3)數(shù)據(jù)變換:為了減少數(shù)據(jù)挖掘需要考慮的特征或變量個數(shù),在初始特征中找出真正有用的特征。
2.1.2 數(shù)據(jù)挖掘算法
先對數(shù)據(jù)挖掘的目標和挖掘的知識類型進行確定;在挖掘任務確定后,按照挖掘的知識類型選擇合適的挖掘算法;然后對數(shù)據(jù)挖掘?qū)嵤┎僮鳎瑥臄?shù)據(jù)庫中用選定的挖掘算法抽取出所需的知識。
2.1.3 結(jié)果評價和表達
具體步驟細分為:評估、解釋模式模型、鞏固、運用知識。 不斷地反復整個數(shù)據(jù)挖掘過程,使所挖掘出來的知識能不斷求精和深化,最終使用戶得到滿意的結(jié)果。
2.2 系統(tǒng)的總體設計與規(guī)劃
此系統(tǒng)結(jié)合石化企業(yè)、大型超市數(shù)據(jù)以及網(wǎng)上獲得的測試數(shù)據(jù)為基礎(chǔ),將數(shù)據(jù)挖掘技術(shù)和企業(yè)ERP 系統(tǒng)結(jié)合起來,為企業(yè)提供智能決策和協(xié)同管理[10]。企業(yè)ERP數(shù)據(jù)挖掘系統(tǒng)開發(fā)的環(huán)境是將大量的數(shù)據(jù)來源作為預處理數(shù)據(jù),這些數(shù)據(jù)來自石化企業(yè)ERP運行后產(chǎn)生的有用數(shù)據(jù)、大型超市后臺數(shù)據(jù)庫產(chǎn)生的有用數(shù)據(jù)以及來自互聯(lián)網(wǎng)上作為測試用的可靠數(shù)據(jù),在此基礎(chǔ)上,通過PC機針對這些已經(jīng)明確的數(shù)據(jù)庫表結(jié)構(gòu)設計該系統(tǒng)。本系統(tǒng)通過主流的JAVA開發(fā)工具 eclipse,通過 JAVA 開發(fā)語言結(jié)合 已 經(jīng) 實 現(xiàn) 的 數(shù) 據(jù) 挖掘算法開發(fā)而成。采用JAVA 開發(fā)語言 ,大大提高了本系統(tǒng)的移植功能,JAVA的跨平臺性有利于把系統(tǒng)移植到不同的操作系統(tǒng)平臺上。
系統(tǒng)總體功能結(jié)構(gòu)設計總體功能框架分為4部分:銷售模塊,產(chǎn)品模塊,客戶模塊,其他模塊。其中,銷售模塊功能框架圖見圖1所示。
ERP原理與數(shù)據(jù)挖掘技術(shù)相結(jié)合應用到企業(yè) ERP 中的銷售、 客戶和產(chǎn)品這三個模塊,在實現(xiàn)過程中充分運用了數(shù)據(jù)挖掘算法, 提出了企業(yè)ERP 數(shù)據(jù)挖掘的實現(xiàn)方法,分析了銷售 、客戶和產(chǎn)品數(shù)據(jù)挖掘的系統(tǒng)框架,完成了概念模型、邏輯模型和物理模型的設計工作。 并將 SQL 和 JAVA 語言發(fā)展為面向 ERP 數(shù)據(jù)挖掘系統(tǒng)。與企業(yè)的實際情況和測試數(shù)據(jù)相結(jié)合,在實際中應用該系統(tǒng),獲得較好的效果,為ERP和數(shù)據(jù)挖掘的結(jié)合提供了方向。
三、結(jié)束語
隨著企業(yè)數(shù)據(jù)量的劇增,為了從數(shù)據(jù)中及時、準確的獲取信息,出現(xiàn)了綜合多種技術(shù)的數(shù)據(jù)挖掘技術(shù)。本文通過簡要闡述數(shù)據(jù)挖掘技術(shù)的含義,所依賴的基礎(chǔ)和具體實施的各個步驟,提出了數(shù)據(jù)挖掘系統(tǒng)的原型框架,并指出目前所面臨的一些問題。
參 考 文 獻
[1] 鄭稱德,王全勝,陳曦. 我國企業(yè)ERP系統(tǒng)實施的業(yè)務流程績效實證研究[J]. 情報雜志,2010,1(2):68-72
[2] 宋旭東,張通學,劉曉冰. 面向領(lǐng)域的數(shù)據(jù)挖掘系統(tǒng)研究[J]. 計算機應用研究,2008,25(5):1432-1433
[3] 涂建東,陳崇成,黃洪宇等. 基于J2EE的空間數(shù)據(jù)挖掘系統(tǒng)設計與實現(xiàn)[J]. 計算機應用,2005,25(3):710-712