曾令思 王鐵方 首都師范大學
?
淺談數(shù)據(jù)挖掘
曾令思 王鐵方 首都師范大學
【文章摘要】
【關鍵詞】
大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)存儲
隨著信息時代的來臨,網(wǎng)絡技術的發(fā)展和普及,各個行業(yè)都有爆炸性的數(shù)據(jù)增長,這些海量的數(shù)據(jù)中隱藏著我們需要的信息和財富。國際數(shù)據(jù)公司(ΙDC)報告稱,2011年全球被復制和創(chuàng)建的數(shù)據(jù)總量就已經(jīng)大得驚人,在短短幾年時間內(nèi)增長了近9倍,而且預計這些數(shù)據(jù)每兩年就將至少增加一倍。并且,政府機構也對外宣稱了要加快數(shù)據(jù)研究進度這一重大計劃,各行業(yè)也在積極討論數(shù)據(jù)挖掘研究帶來的吸引力。面對如此龐大的數(shù)據(jù),以及這些數(shù)據(jù)背后的價值和新的機遇,挖掘和研究這些數(shù)據(jù)就會給我們帶來挑戰(zhàn)和切實的利益。
早在1989年8月美國底特律召開的第11屆國際功能會議上就出現(xiàn)了KDD這個術語,1995年學術界和工業(yè)界共同成立了ACM數(shù)據(jù)挖掘與知識發(fā)現(xiàn)專委,后者發(fā)展成為數(shù)據(jù)挖掘領域的頂級國際會議。數(shù)據(jù)挖掘是一門交叉學科,涉及到各個行業(yè)和各個領域,同時,隨著各行業(yè)對大量數(shù)據(jù)的處理深度和分析上的需求的增加,數(shù)據(jù)挖掘研究已經(jīng)成為了學術界研究的熱門學科,同時也受到各領域的重視。
經(jīng)過多年的發(fā)展,數(shù)據(jù)挖掘研究領域成果頗豐,已經(jīng)有了一套自己的基礎理論。從大體趨勢來說,國內(nèi)和國外的研究方法和方向有差異,尤其是在某些方面還是存在著一定的差距??偟膩碚f,國外的研究更偏重交叉學科和理論基礎的研究,而國內(nèi)則偏重于實際的應用上,用數(shù)據(jù)來解決實際的問題。同時,國內(nèi)的學者在研究上也處于世界前沿水平,在國際舞臺上也有十分突出的成績,近年來也頻頻有國內(nèi)團隊登上國際領獎臺。
在20世紀90年代中后期,用關聯(lián)規(guī)則來進行挖掘、分類、預測等被逐漸用于時間序列數(shù)據(jù)挖掘和空間數(shù)據(jù)挖掘,以發(fā)現(xiàn)與時間和空間相關的有價值的模式,這些手段使得數(shù)據(jù)挖掘研究領域已經(jīng)有了一些比較成熟的技術。如今的定位系統(tǒng)、手持移動設備等設備的普及和應用積累了大量的移動對象數(shù)據(jù),對這些數(shù)據(jù)領域的研究使我們受益匪淺。近年來,數(shù)據(jù)挖掘研究已經(jīng)滲透到生物信息、醫(yī)療衛(wèi)生、智能交通、金融證券、社交網(wǎng)絡、多媒體數(shù)據(jù)挖掘、軌跡數(shù)據(jù)、文本數(shù)據(jù)等各大領域。這些領域與數(shù)據(jù)挖掘研究接軌后又會出現(xiàn)一些新的機遇和挑戰(zhàn)。
通常情況下我們把數(shù)據(jù)挖掘方法分為兩大方面,一是人工智能領域中的機器學習型,這種類型通過訓練和學習大量的樣品獲得需要的模式或者參數(shù);二是統(tǒng)計類型,有判別分析、相關性分析和概率分析等技術。
2.1可視化技術
可視化技術指采用計算機圖形學和圖像處理技術,把抽象的東西轉換成圖像并且在屏幕上顯示出來的一種讓人一目了然的方法,從而進行交互處理的技術。它將幾何數(shù)據(jù)繪制成目標圖像,將圖像按照要求進行輸出顯示在屏幕上。
2.2模糊技術
通過利用原有的數(shù)據(jù)挖掘技術的同時,結合模糊理論,從大數(shù)據(jù)中發(fā)現(xiàn)更為廣泛的內(nèi)容,并將其挖掘出來以方便用戶理解。因為模糊性的客觀存在,而且復雜性較高,因此,數(shù)據(jù)采集之間的關系表現(xiàn)出十分的模糊。將模糊理論與數(shù)據(jù)挖掘技術結合從大量、不完全的數(shù)據(jù)中提取潛在的、模糊決策、模糊模式識別和模糊聚類分析。
2.3粗糙集方法
粗糙集理論為一種描述不確定性和不完整性的數(shù)學工具,可以有效地處理和分析不完整、不一致、不精確等信息,并從中發(fā)現(xiàn)知識,揭示規(guī)律。粗集理論是處理模糊數(shù)據(jù)的有力工具,且粗集理論的創(chuàng)建和研究的出發(fā)點是直接對數(shù)據(jù)進行分析和推理,發(fā)現(xiàn)隱含的知識并揭示規(guī)律。
2.4神經(jīng)網(wǎng)絡
指能夠模仿人腦神經(jīng)元的人工神經(jīng)網(wǎng)絡,并能進行信息的處理。需要通過一定時間的訓練才能增強挖掘結果的可理解性。其工作原理是根據(jù)人腦神經(jīng)元的原理,通過不斷修正其內(nèi)部的節(jié)點間相互連接的關系達到處理信息的目的。
2.5遺傳算法
遺傳算法是在生物進化過程中,在組合優(yōu)化的基礎上的提出的,這是生物學與計算機結合的產(chǎn)物。就像生物的進化一樣,會選擇適宜度更強的個體進行交換和變異,通過時間和空間上的類比,能夠使大量數(shù)據(jù)系統(tǒng)化和簡單化,以方便找到他們的內(nèi)在聯(lián)系獲得概念和模式。
2.6決策樹
決策樹的構造不需要任何領域的知識,很適合知識的挖掘并且可以處理高維度的數(shù)據(jù)。決策樹可以被大多數(shù)人所掌握,并且,不需要太多的專業(yè)知識。
2.7關聯(lián)規(guī)則
關聯(lián)規(guī)則挖掘技術就是從大量數(shù)據(jù)中發(fā)現(xiàn)其相關性,這也是最常見的數(shù)據(jù)挖掘的方法。通過層層的篩選以減少候選的子集數(shù),從而加快了關聯(lián)規(guī)則挖掘的進度。
數(shù)據(jù)的應用實質上是利用數(shù)據(jù)的分析結果,為用戶提供輔助決策,發(fā)掘潛在價值的過程。數(shù)據(jù)挖掘技術是面向應用的,是為了獲取信息來服務各行業(yè)。隨著數(shù)據(jù)挖掘研究的深入與成熟,發(fā)展和推廣,數(shù)據(jù)應用技術也會越來越廣泛?,F(xiàn)階段,數(shù)據(jù)挖掘應用主要集中在以下方面。在金融業(yè)上:用于銀行行業(yè)各種趨勢預測,優(yōu)化存貸策越等??蛻絷P系管理:用于分析客戶的行為,對客戶進行分類,改善客戶關系等。生物信息:用于各種染色體、基因序列的識別以及制藥生物信息和科學研究等。電子商務:用于在線交互式營銷系統(tǒng)的經(jīng)營模式、市場策略等方面來優(yōu)化網(wǎng)站結構,改善網(wǎng)易推薦和商品推薦內(nèi)容等。零售業(yè):數(shù)據(jù)挖掘技術被用來進行分析購物籃來協(xié)助貨架設置,安排促銷商品的時間等商業(yè)活動。
數(shù)據(jù)的挖掘與研究開啟了一次重大的時代轉型,這個時代將是技術推動了數(shù)據(jù)的發(fā)展,是數(shù)據(jù)推動著社會前進。它通過對數(shù)據(jù)的挖掘和分析發(fā)現(xiàn)數(shù)據(jù)中潛在的價值,并具有重要的研究意義的實際應用價值。數(shù)據(jù)挖掘研究有著廣泛的應用前景,對數(shù)據(jù)的深入挖掘分析,也將是我們未來努力的方向。
【參考文獻】
[1]吉根林,趙斌。面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘綜述[J]。南京師范大學學報(自然科學版),2014,37(1):91-98。
[2]劉大有,陳慧靈,齊紅,等。時空數(shù)據(jù)挖掘研究進展[J]。計算機研究與發(fā)展,2013,50(2):225-239。
[3]王雅軒,項聰。數(shù)據(jù)挖掘技術的綜述[J]。電子技術與軟件工程,2015:204-205。
[4]萬家華,劉冰,江早。知識發(fā)現(xiàn)中的可視化技術[J]。計算機科學,2000,27(增刊):131-134
[5]何新貴。數(shù)據(jù)采掘中的模糊技術[J]。計算機科學,1998,25(???29-131
隨著網(wǎng)絡的發(fā)展與普及,各個行業(yè)都有著大量的數(shù)據(jù)需要存儲。然而,如何挖掘和利用這些數(shù)據(jù),將他們轉變?yōu)橛行畔ⅲ玫貫槿藗兎?,一直是?shù)據(jù)挖掘的最終目的。本文主要研究利用數(shù)據(jù)分析研究的方法,把數(shù)據(jù)轉化成信息,實現(xiàn)數(shù)據(jù)的價值。并介紹了數(shù)據(jù)挖掘研究的產(chǎn)生和發(fā)展,以及數(shù)據(jù)挖掘的技術和方法、在生活中的應用。