柴功昊 蘇萌
摘要:隨著科技的發(fā)展和互聯(lián)網(wǎng)技術的發(fā)展,數(shù)據(jù)庫中各種信息不斷增多,許多重要的信息都包含在海量的數(shù)據(jù)里面,需要我們將它們從中提取出來,創(chuàng)造出更多的價值、獲取更大的利益。因此產生了數(shù)據(jù)挖掘技術。該文介紹了數(shù)據(jù)挖掘技術的產生、概念、分類,并具體分析了幾種數(shù)據(jù)挖掘技術,最后探究了數(shù)據(jù)挖掘技術的應用領域。
關鍵詞:數(shù)據(jù)挖掘;計算智能;應用領域
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)03-0016-03
數(shù)據(jù)挖掘技術在當前是人工智能和數(shù)據(jù)庫研究的熱點問題,它是一門涉及面比較廣的學科,應用范圍非常廣泛。通常大家都比較清楚的是,人們可以用數(shù)據(jù)庫進行數(shù)據(jù)的存儲,還能夠借助計算機等工具進行數(shù)據(jù)的分析以及從大量數(shù)據(jù)中搜尋有用的知識,正是基于二者的結合才促成了數(shù)據(jù)挖掘技術的誕生。在當前日益激增的信息量中,傳統(tǒng)的搜索技術顯然不能滿足,通過數(shù)據(jù)挖掘技術,在海量的數(shù)據(jù)庫中提取有用的信息,以供人們使用,更加符合現(xiàn)實的需求。此外,數(shù)據(jù)挖掘技術能夠被廣泛應用于銷售、金融等多個領域,極大地推動了信息技術的發(fā)展以及現(xiàn)代化進程。
1 數(shù)據(jù)挖掘技術概述
1.1數(shù)據(jù)挖掘技術的產生
隨著科技的進步以及網(wǎng)絡技術的發(fā)展,計算機從硬件到軟件都有著極大的進步。隨著數(shù)據(jù)信息的迅猛增加,數(shù)據(jù)庫技術現(xiàn)在被廣泛用于各行各業(yè)之中,但是如果利用數(shù)據(jù)庫中的信息,利用其隱藏的信息價值,獲取更大的收益,成為技術工作者不斷探究的新課題。雖然信息數(shù)據(jù)迅猛增長,但是現(xiàn)有的數(shù)據(jù)分析工具卻無法實現(xiàn)在海量的數(shù)據(jù)中搜尋有用的信息,為決策者提供有價值的數(shù)據(jù)作出正確的決策和發(fā)展預測。為了解決此問題,數(shù)據(jù)挖掘技術便開始發(fā)展起來。在當前全球海量的數(shù)據(jù)資源以及各行各業(yè)巨大的需求,再加上技術工作者的不斷努力,數(shù)據(jù)挖掘技術的發(fā)展取得了巨大的成就,并被廣泛應用于商業(yè)管理、控制、分析、設計等領域。
20世紀60年代,數(shù)據(jù)庫技術從基本的文件處理發(fā)展為數(shù)據(jù)庫系統(tǒng);70年代,關系數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)建模工具等迅速發(fā)展起來;80年代中期開始,關系數(shù)據(jù)庫被普遍采用,促進了新型數(shù)據(jù)庫系統(tǒng)等發(fā)展。但是,隨著數(shù)據(jù)庫系統(tǒng)等不斷發(fā)展,海量的數(shù)據(jù)成為數(shù)據(jù)庫的負累,如何從其中搜尋有用的數(shù)據(jù)已經(jīng)成為非常困難的事,在不借助任何工具等情況下,人類已經(jīng)無法進行數(shù)據(jù)的處理和分析,這樣不斷地存儲數(shù)據(jù)就像“墓地”,不能被人們利用,決策者不能從中提取有價值的數(shù)據(jù)進行決策的制定和發(fā)展的預測[1]。在此種背景下,數(shù)據(jù)挖掘技術便開始發(fā)展起來,并取得巨大的成就,現(xiàn)在人們已經(jīng)能夠利用數(shù)據(jù)挖掘技術挖掘數(shù)據(jù)庫中有用的信息,幫助人們實現(xiàn)信息的利用和財富的轉化。
1.2 數(shù)據(jù)挖掘技術的概念
當前,隨著科技的發(fā)展和互聯(lián)網(wǎng)技術的發(fā)展,數(shù)據(jù)庫中各種信息不斷增多,數(shù)據(jù)庫技術也隨之進步。雖然數(shù)據(jù)庫管理系統(tǒng)被運用于各個行業(yè),但因信息量的劇增,使得數(shù)據(jù)庫管理系統(tǒng)從中提取信息的難度非常大。許多重要的信息都包含在海量的數(shù)據(jù)里面,需要我們將它們從中提取出來,利用這些數(shù)據(jù)發(fā)揮更大的作用,創(chuàng)造出更多的價值,獲取更大的利益。而將這些信息從海量的數(shù)據(jù)庫中提取出來的技術,通常叫做數(shù)據(jù)挖掘技術[2]。
數(shù)據(jù)挖掘技術是從海量數(shù)據(jù)庫中搜索并挖掘有用信息的一種技術,幫助企業(yè)或個人通過數(shù)據(jù)之間的聯(lián)系和不容易引起注意的信息,作出正確的決策,并且通過挖掘的信息進行預測發(fā)展趨勢。數(shù)據(jù)挖掘技術能夠利用信息發(fā)現(xiàn)未知的東西,與先假設再驗證的數(shù)據(jù)處理技術不同,數(shù)據(jù)挖掘技術顯然更加真實準備,更加能夠被廣泛采用。目前,數(shù)據(jù)挖掘技術越來越被各行各業(yè)重視并運用,在未來也有巨大的發(fā)展前景。
1.3 數(shù)據(jù)挖掘技術的功能
數(shù)據(jù)挖掘技術的功能非常強大,能夠使用此技術在數(shù)據(jù)挖掘任務中尋找需要的信息。一般數(shù)據(jù)挖掘的任務分為描述和預測:簡單在數(shù)據(jù)庫中搜尋數(shù)據(jù)反映數(shù)據(jù)的一般特性即為描述;利用數(shù)據(jù)信息進行推算,進行預測即為預測。當前,數(shù)據(jù)挖掘技術的功能有以下幾種:
1)概念或者類描述
數(shù)據(jù)一般是與概念或者類聯(lián)系著的。能夠用總結的、簡單的、正確的方法進行概念或者類的描述就被稱為概念或類描述。通過此種描述方法能夠知道:一是任務數(shù)據(jù)的特征或者整體數(shù)據(jù)的特征,二是能夠將任務數(shù)據(jù)的特征與其他數(shù)據(jù)進行特征的對比,三是能夠利用前述二者進行概念或者類描述。
2)關聯(lián)分析
數(shù)據(jù)挖掘技術通過關聯(lián)分析能夠發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)規(guī)則。這些規(guī)則比較固定地展示了數(shù)據(jù)之間的聯(lián)系。數(shù)據(jù)挖掘技術的這項功能在事務數(shù)據(jù)分析中應用較多。
3)分類和預測
分類是指在任務數(shù)據(jù)中找出不同類或者概念的數(shù)據(jù),而后利用分類進行預測還沒有被發(fā)現(xiàn)的信息。預測是給建立一個模型來對不知道的數(shù)據(jù)進行預測或者給定一個數(shù)值區(qū)間,進行任務數(shù)據(jù)的預測。分類與預測的不同之處為:分類是利用分散的數(shù)值進行預測;而預測是利用連續(xù)數(shù)值進行預測。
4)聚類分析
聚類就是將任務數(shù)據(jù)進行同類的聚集,這些任務數(shù)據(jù)中有著非常高的相同點,但是不同聚類之間的差異非常大。與分類大區(qū)別在于,聚類是進行未知數(shù)據(jù)的類別。通過聚類,而后進行數(shù)據(jù)的分析預測。
5)孤立點分析
孤立點一般是度量或者系統(tǒng)執(zhí)行失誤造成的,也有固定數(shù)值突變產生的孤立點。目前,很多數(shù)據(jù)挖掘技術希望通過孤立點分析將其影響變?yōu)樽钚?。不過,一單操作很容易使重要信息損壞或者丟失,畢竟孤立點是非常重要的。
6)演變分析
數(shù)據(jù)不是固定不變的,而是會不斷地進行變化,利用數(shù)據(jù)挖掘技術進行任務數(shù)據(jù)演變分析,對其規(guī)律或者趨勢進行預測。演變分析包括對數(shù)據(jù)的時間序列、周期進行分析或者類似性地數(shù)據(jù)分析。
2 數(shù)據(jù)挖掘技術的分類
數(shù)據(jù)挖掘技術的分類能夠根據(jù)發(fā)現(xiàn)知識的種類、挖掘的數(shù)據(jù)庫種類、采用的技術等方法進行分類。根據(jù)采用的技術進行分類,則主要有七種。
2.1規(guī)則歸納
規(guī)則歸納就是利用設定的統(tǒng)計方法進行歸納對挖掘者有用的規(guī)則,關聯(lián)規(guī)則挖掘就是其中的一種。
2.2決策樹方法
所謂決策樹方法就是建立樹狀模型進行決策集合。利用已有信息挖掘數(shù)據(jù)庫中重要的有價值的信息,構建支點,再根據(jù)數(shù)據(jù)的不同取值進行分支構造,最后通過分析形成整個的決策樹。決策者可以根據(jù)此決策樹進行決策的制定或者預測發(fā)展趨勢。
2.3人工神經(jīng)網(wǎng)絡
人工神經(jīng)網(wǎng)絡的應用比較多,主要是模擬人腦進行數(shù)據(jù)的分析,建立非線性預測模型,從而完成分類、聚類等多種任務。
2.4遺傳算法
遺傳算法是模擬生物進化過程的算法。它是通過將一個問題分解為多個個體,然后在每個個體上進行取值,從而完成信息搜索、任務挖掘。
2.5模糊技術
顧名思義,模糊技術即是利用模糊集合理論對實際問題進行預測、推斷等。一般來說,數(shù)據(jù)庫數(shù)據(jù)具有模糊性,通過大概的數(shù)值估計,利用期望值、隨機值進行組合,使得信息挖掘能夠定性定量的轉換。
2.6粗集方法
1982年,Pawlak(波蘭)提出的數(shù)據(jù)分析方法。粗集方法是利用等價思想將數(shù)據(jù)分散,然后利用屬性的等價進行集合,形成決策集合。
2.7可視化技術
可視化技術即是利用最直觀的圖形方法把數(shù)據(jù)庫信息、數(shù)據(jù)的關聯(lián)等呈現(xiàn)出來,決策者能夠直觀地通過圖形進行發(fā)展趨勢的預測,作出正確的決策。
3基于計算智能的數(shù)據(jù)挖掘技術的具體技術探究
3.1關聯(lián)規(guī)則的挖掘
關聯(lián)規(guī)則挖掘是關聯(lián)分析中的一種數(shù)據(jù)挖掘技術,利用數(shù)據(jù)庫中海量的數(shù)據(jù)進行有用信息間的聯(lián)系的挖掘。當前關聯(lián)規(guī)則的挖掘已經(jīng)取得巨大的成就,當前,關聯(lián)規(guī)則的挖掘技術有:1)多循環(huán)方式多挖掘算法,它是基本算法,包括AIS、DHP算法、分割算法等;2)并行挖掘算法,包括CD 算法、CaD算法、DD算法等;3)增量式更新算法,主要是在數(shù)據(jù)庫增加紀錄后關聯(lián)規(guī)則的挖掘算法,包括FUP、IUA、PIUA、NEWIUA算法等;4)基于約束條件的關聯(lián)規(guī)則挖掘,就是為了發(fā)現(xiàn)更多、有用、特別的關聯(lián)規(guī)則;5)挖掘多值屬性關聯(lián)規(guī)則,包括擴展布爾屬性的關聯(lián)規(guī)則算法、K度完全方法等 [3]。
3.2分類規(guī)則的挖掘
分類規(guī)則的挖掘就是在已有數(shù)據(jù)的基礎上建立分類模型,利用該模型將數(shù)據(jù)庫中的數(shù)據(jù)映射到分類中,從而進行數(shù)據(jù)預測。分類模型的構造方法有許多種,通常有決策樹法、神經(jīng)網(wǎng)絡算法等。由于分類模型等正確率與數(shù)據(jù)、屬性等因素有關,因此在進行分類評估時需要采用以下方法:一是保留方法,將數(shù)據(jù)庫中的一部分數(shù)據(jù)保留,其他的用于數(shù)據(jù)分析評估;二是交叉糾錯方法,即是將分類中有重復的數(shù)據(jù)進行提取,而后進行測試,提高評估正確率[4]。
3.3聚類分析
聚類分析就是將特征相似的數(shù)據(jù)進行歸類,建立成一個集合。再聚類之時要保證數(shù)據(jù)相似性最大,而不同類別的數(shù)據(jù)相似性要最小。這些數(shù)據(jù)的特性在事前并不清楚,聚類分析就是要通過將數(shù)據(jù)進行歸類在進行分析,發(fā)現(xiàn)有價值的信息。聚類算法一般包括基于概率的聚類算法以及基于距離的聚類算法兩種。在實際應用中,基于概率的聚類算法因效率低下而采用較少,基于距離的聚類算法因效率高被廣泛采用。通過聚類分析,對數(shù)據(jù)進行挖掘分析,能夠更加準確地獲得更多地具有價值的信息,為決策者作出決策或者作出發(fā)展預測提供更加有力的數(shù)據(jù)支持。
3.4離群數(shù)據(jù)挖掘
離群數(shù)據(jù)就是指那些明顯跟其他數(shù)據(jù)不同的數(shù)據(jù)類型。離群數(shù)據(jù)的挖掘時數(shù)據(jù)挖掘技術中非常重要的內容,它通過發(fā)現(xiàn)離群數(shù)據(jù)與其他數(shù)據(jù)的區(qū)別,獲取比一般數(shù)據(jù)更有價值的信息。一般離群數(shù)據(jù)主要有以下發(fā)現(xiàn)方法:一是基于統(tǒng)計,即在已知的數(shù)據(jù)上進行離群數(shù)據(jù)的挖掘;二是基于距離,即通過計算數(shù)據(jù)間的距離進行離群數(shù)據(jù)的挖掘;三是基于偏離,即在事前知道數(shù)據(jù)的特性前提下對數(shù)據(jù)進行檢測發(fā)現(xiàn)離群數(shù)據(jù);四是基于規(guī)則,即是根據(jù)已有規(guī)則發(fā)現(xiàn)明顯不同規(guī)則的離群數(shù)據(jù);五是離群數(shù)據(jù)發(fā)現(xiàn)的多策略方法,即是對數(shù)據(jù)進行聚類,進行子集的劃分,再根據(jù)觀察發(fā)現(xiàn)明顯不同的離群數(shù)據(jù)。
4數(shù)據(jù)挖掘技術的應用領域
隨著數(shù)據(jù)挖掘技術的不斷發(fā)展,各行各業(yè)越來越意識到數(shù)據(jù)挖掘技術的巨大優(yōu)勢,因此其應用前景非常廣泛。數(shù)據(jù)挖掘技術的應用主要在以下領域:
4.1科學研究領域
科學技術領域需要運用各種最新技術,利用最新技術進行科學領域的研究。隨著科學數(shù)據(jù)收集工具的運用,各種科學研究收集到了海量的數(shù)據(jù),但是顯然依靠人力或者傳統(tǒng)的數(shù)據(jù)分析工具是不能夠應付的,因此必須要使用一種能夠從海量數(shù)據(jù)中自動搜尋分析提取的工具。正是科學技術領域的需求,推動了數(shù)據(jù)挖掘技術的發(fā)展以及在科學技術領域的應用,并為科學研究領域作出了巨大的貢獻。比如,在遺傳研究領域,涉及DNA的數(shù)據(jù)非常多,而且DNA的組合、順序等更不相同,如果想要從中找出致人疾病的基因組,依靠人力進行數(shù)據(jù)的排練組合顯然是不可能的,所以必須采用數(shù)據(jù)挖掘工具,對不同的基因組進行分析,剔除無害的基因組,選擇出有害的基因組,然后工作人員再根據(jù)提取的數(shù)據(jù)進行分析[5]。此外,數(shù)據(jù)挖掘技術還能運用于對歷史發(fā)展規(guī)律的預測、對人類行為規(guī)律的預測等等。
4.2商業(yè)零售業(yè)
眾所周知,零售業(yè)有著大量的數(shù)據(jù),從進貨到銷售,都有大量的數(shù)據(jù),尤其是隨著電子商業(yè)的發(fā)展,數(shù)據(jù)量也劇增,而處理這些數(shù)據(jù)就需要依靠數(shù)據(jù)挖掘技術。通過數(shù)據(jù)挖掘技術,對銷售數(shù)據(jù)進行分析,就能夠知道什么商品受到顧客喜愛,銷售得最快,而后有針對性地進貨[6]。利用數(shù)據(jù)挖掘技術進行分析,就能夠通過數(shù)據(jù)分析,制定有效銷售措施,獲取最大的利益。
4.3金融投資業(yè)
金融投資業(yè)無疑是有巨大的數(shù)據(jù)的 ,儲蓄、投資金額等都會產生大量的數(shù)據(jù),銀行或者金融機構需要根據(jù)這些數(shù)據(jù)進行分析,從而提供有針對性的服務等。而且,通過數(shù)據(jù)挖掘技術對客戶信用、儲蓄特點、投資偏向等進行分析,能夠很好地降低銀行的風險,降低銀行壞賬死賬。而且還能通過數(shù)據(jù)分析幫助警方偵破金融犯罪活動等。
4.4電信業(yè)
電信業(yè)隨著社會、技術的發(fā)展已經(jīng)從傳統(tǒng)的提供通話服務發(fā)展成為提供短信、e-mail、網(wǎng)絡電話等服務。移動、聯(lián)通、電信公司就是其中發(fā)展最好的電信企業(yè),囊括了包括通話、短信、寬帶在內的各種電信業(yè)務,產生的數(shù)據(jù)無疑是海量的[7]。顯然不能依靠人力或者傳統(tǒng)的數(shù)據(jù)分析工具進行數(shù)據(jù)的分析,因此,必須采用數(shù)據(jù)挖掘技術對數(shù)據(jù)進行分析,從而有效管理電信業(yè)務,更好地為客戶服務,促進電信事業(yè)的發(fā)展。
5其他應用
數(shù)據(jù)挖掘技術除了在上述領域進行應用外,還能夠廣泛應用到其他領域。例如醫(yī)藥行業(yè),通過數(shù)據(jù)挖掘技術對藥品、病患等進行分析,促進醫(yī)藥行業(yè)的發(fā)展;在司法領域,可以用于案件分析、推測等;在生產領域還能夠對生產故障等進行預測分析等[8]。除此之外,還有許多的領域都能夠進行數(shù)據(jù)挖掘技術的應用,并且能夠通過應用數(shù)據(jù)挖掘技術促進行業(yè)的發(fā)展。
6 結束語
隨著科學技術的發(fā)展與信息數(shù)據(jù)的激增,數(shù)據(jù)挖掘技術已經(jīng)成為比不可少的工具。從海量的數(shù)據(jù)庫中獲取隱藏的有用的信息,利用這些信息創(chuàng)造出更大的價值。決策者利用數(shù)據(jù)挖掘技術獲取可靠的數(shù)據(jù),通過分析作出正確的決策以及對未來的發(fā)展趨勢進行預測,能夠有力促進自身的發(fā)展。當前,數(shù)據(jù)挖掘技術已經(jīng)被廣泛應用于各行各業(yè),在金融、銷售等都需要利用數(shù)據(jù)挖掘技術進行有用信息多提取。本文通過對數(shù)據(jù)挖掘技術產生、概念、功能、分類,包括對具體的數(shù)據(jù)挖掘技術進行了探究,并指出了數(shù)據(jù)挖掘技術的巨大潛力和應用空間。在未來,隨著數(shù)據(jù)挖掘技術的不斷進步,各行各業(yè)必然能夠獲得數(shù)據(jù)挖掘技術的好處,同時也能夠促進現(xiàn)代化的進步。
參考文獻:
[1] 李小慶.銀行數(shù)據(jù)挖掘與知識發(fā)現(xiàn)技術全景分析[J].華南金融電腦,2010,1(11):44-47.
[2] 任榮.淺析基于遺傳算法的關聯(lián)規(guī)則數(shù)據(jù)挖掘技術[J].電腦知識與技術,2009,5(3):696-697,702.
[3] 萬曉燕,陳姍.基于關聯(lián)規(guī)則的數(shù)據(jù)挖掘技術研究[J].現(xiàn)代計算機:普及版, 2015,4(5):18-21,27.
[4] 陳小健,宋承繼.數(shù)據(jù)挖掘技術在科研項目量化與評價中的應用[J].電子設計工程,2015,7(12):37-40.
[5] 吳超超,李偉春.基于隱私保護的數(shù)據(jù)挖掘技術與研究[J].科技資訊,2015(15):20-20.
[6] 劉興明.淺析數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法[J].無線互聯(lián)科技,2014,5(8):183-184.
[7] 郭玲.數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法研究[J].硅谷,2014(15):30-32.
[8] 王權,王軍,史子新,等.數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法及其應用[J].計算機光盤軟件與應用,2014(19):126-127.