唐云凱 王芳 劉淑英
摘要:我國的信息技術(shù)水平不斷提升,海量數(shù)據(jù)的復雜性與多樣性對數(shù)據(jù)挖掘形成了較大困難?;诖髷?shù)據(jù)環(huán)境下,為了更深入、充分地掌握是數(shù)據(jù)挖掘相關(guān)技術(shù)的研究進展與應用,可以從海量數(shù)據(jù)挖掘過程的技術(shù)框架、算法、理論、模式等方面進行嘗試。綜上所述,該文將對海量數(shù)據(jù)挖掘過程相關(guān)技術(shù)研究進展進行分析。
關(guān)鍵詞:海量數(shù)據(jù);數(shù)據(jù)挖掘技術(shù);研究進展;討論
中圖分類號:TP311? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2018)36-0001-02
數(shù)據(jù)挖掘的過程是在海量數(shù)據(jù)中追尋有趣模式與認知的過程,利用海量數(shù)據(jù)挖掘技術(shù),可有效針對大數(shù)據(jù),從而在其中發(fā)現(xiàn)有用的信息與知識。針對海量數(shù)據(jù),采用傳統(tǒng)的分類算法、關(guān)聯(lián)分析、聚類分析等數(shù)據(jù)挖掘技術(shù)顯然有些無力,因此為了提取與挖掘更多有價值的數(shù)據(jù),是人們對大數(shù)據(jù)進行研究的主要目的。
1 海量數(shù)據(jù)挖掘過程相關(guān)技術(shù)研究進展及問題
1.1 海量數(shù)據(jù)挖掘過程相關(guān)技術(shù)研究進展
1.1.1 云計算與MapReudce
Google公司早在2006年就已經(jīng)提出了海量Web數(shù)據(jù)的云計算,可將其定義為將經(jīng)濟與拓展性作為基礎(chǔ)的超大規(guī)模數(shù)據(jù)分布式模式,利用互聯(lián)網(wǎng)將虛擬、抽象的數(shù)據(jù)進行計算、資源存儲,最后通過平臺與服務對外部的客戶進行傳遞。在Google的內(nèi)部,海量數(shù)據(jù)的處理計算與應用平臺都采用了云計算的方式,其中較為典型的海量數(shù)據(jù)挖掘技術(shù)為GFS(Google file system)、MapReduce、對海量數(shù)據(jù)進行處理的Hadoop平臺。在Hadoop平臺中較為核心的部分是MapReduce編程模式與文件分布式系統(tǒng)。這種編程模式在2004年由計算機專家Dean與Ghemawat共同提出,目前已經(jīng)開始被廣泛應用在海量數(shù)據(jù)挖掘過程中。一般來說編程模式在對海量數(shù)據(jù)進行處理時,會經(jīng)過兩個階段:Map與Reduce階段,無論哪個階段的運行都會運用key-value模式對數(shù)據(jù)進行輸入與輸出。在Map階段進行處理時,HDFS即分布式文件系統(tǒng)將大量的數(shù)據(jù)進行分割,成為split塊,之后為其每一個都創(chuàng)建獨立的Mapper,利用相應的Map函數(shù)處理之后,選取出相同key的數(shù)據(jù)傳遞到Reduce任務中,之后將海量數(shù)據(jù)重新進行整合,再對其進行細致化的處理。
1.1.2 算法領(lǐng)域
算法領(lǐng)域作為海量數(shù)據(jù)挖掘過程相關(guān)技術(shù)中的研究重點,在2006年召開的ICDM回憶中,已經(jīng)選出了較為常用的十種數(shù)據(jù)挖掘算法。其中包含分類算法、聚類算法等。但這種傳統(tǒng)的算法并不能對海量數(shù)據(jù)合理處置。為了使傳統(tǒng)算法更加高效,可使用經(jīng)典的數(shù)據(jù)挖掘算法與MapReduce以框架的形式互相結(jié)合[1],例如對關(guān)聯(lián)規(guī)則進行并行、聚類算法并行等方式,通過廣大學者的不斷研究與實踐,已經(jīng)取得了較為可觀的成果。除了對各類算法領(lǐng)域的研究,還包含了多種相關(guān)理論,第一,統(tǒng)計分析理論。在早先的海量數(shù)據(jù)挖掘理論基礎(chǔ)中,主要包含數(shù)據(jù)回歸分析、因子分析等方面。事件有較大的隨機性,不能夠利用概率模型進行有效處理。但在實際中的海量數(shù)據(jù)中,由于其具備較強的模糊性,尤其針對海量數(shù)據(jù)的多樣性特點,不能夠利用傳統(tǒng)的精確處理,因此模糊數(shù)學理論等相關(guān)理論可發(fā)揮出極大優(yōu)勢。第二,模糊數(shù)學理論。模糊數(shù)學理論作為有效的不確定性數(shù)據(jù)的處理方式,尤其對于海量數(shù)據(jù)進行處理時,可以發(fā)揮良好的應用效果。
1.2 海量數(shù)據(jù)挖掘過程相關(guān)技術(shù)存在問題
1.2.1 相關(guān)技術(shù)架構(gòu)問題
在對海量數(shù)據(jù)進行挖掘的過程中,需要在不同的領(lǐng)域進行架構(gòu),由于不同領(lǐng)域存在較大的差異性與特殊性,對架構(gòu)形成了極大的挑戰(zhàn)。例如在農(nóng)業(yè)的海量數(shù)據(jù)中,包含大量的農(nóng)業(yè)基本資源如耕地、田地等,農(nóng)業(yè)生產(chǎn)方面如育種、施肥等。在對農(nóng)業(yè)中海量數(shù)據(jù)進行挖掘與處理時,面臨災害風險預測、糧食安全等多方面問題。與此同時,在構(gòu)建農(nóng)業(yè)云計算平臺時,需要獲得計算機技術(shù)的相關(guān)支持,還需要大量的農(nóng)業(yè)經(jīng)驗與農(nóng)業(yè)知識,地方政府也要提供相應的支持,為農(nóng)業(yè)的云計算平臺構(gòu)建形成較大難度與挑戰(zhàn)。
1.2.2 數(shù)據(jù)獲取
海量數(shù)據(jù)挖掘需要將數(shù)據(jù)的獲取與收集當作基礎(chǔ),目前常用的數(shù)據(jù)收集方法為數(shù)據(jù)檢索,例如人們常用的Google、百度、傳感器技術(shù)[2]、條形碼技術(shù)等。但基于大數(shù)據(jù)時代的背景下,雖然數(shù)據(jù)的數(shù)量極為龐大,還是會經(jīng)常出現(xiàn)無有效數(shù)據(jù)可用的窘迫情況,如數(shù)據(jù)壁壘問題、取得關(guān)聯(lián)背景數(shù)據(jù)較為困難等,都對海量數(shù)據(jù)的挖掘形成阻礙。
1.2.3 用戶隱私與安全
在目前經(jīng)常會出現(xiàn)用戶隱私泄露的問題,不僅會對用戶形成較大的困擾,也會形成較多的虛假數(shù)據(jù)從而降低數(shù)據(jù)的分析效果。因此在海量數(shù)據(jù)挖掘過程中用戶的隱私與安全問題亟待解決,主要是由于技術(shù)本身存在缺陷,且沒有構(gòu)建有效、科學的數(shù)據(jù)管理機制,造成用戶隱私泄露。
1.2.4 數(shù)據(jù)處理
在獲取數(shù)據(jù)之后會對數(shù)據(jù)進行預處理,例如數(shù)據(jù)清洗、數(shù)據(jù)融合、數(shù)據(jù)分析等技術(shù)。其中數(shù)據(jù)的清洗尤為關(guān)鍵,在2014年我國召開的數(shù)據(jù)技術(shù)大會中,有學者提出了數(shù)據(jù)記錄邏輯檢測辦法、大數(shù)據(jù)清洗過程優(yōu)化等相關(guān)控制模型,增強了數(shù)據(jù)處理的效果與效率。但在數(shù)據(jù)清洗之后會進行數(shù)據(jù)的分析,會產(chǎn)生時效性的問題,由于數(shù)據(jù)清洗有時不會及時完成,從而對數(shù)據(jù)挖掘的效果產(chǎn)生不利影響。
2 海量數(shù)據(jù)挖掘過程相關(guān)技術(shù)的處理思維
在對海量數(shù)據(jù)進行處理時會存在較多問題,為了增強海量數(shù)據(jù)挖掘過程的相關(guān)技術(shù)水平,應采用合理的海量數(shù)據(jù)處理思維即大數(shù)據(jù)與腦科學,采用人腦的思考方式可以加強大數(shù)據(jù)的處理效果。第一,深度學習。進行深度學習時,需要對人腦的思考機制進行模仿與學習?;诖髷?shù)據(jù)的環(huán)境下,使用深度學習可對數(shù)據(jù)進行準確分析,并使人工智能獲得有效處理,也會對傳統(tǒng)的思維按時進行改變。無論是大數(shù)據(jù)與簡單模型還是大數(shù)據(jù)與深度學習,目前大部分學者都認為基于大數(shù)據(jù)的背景下,利用簡單的線性模型要好于復雜的模型。然而從人腦的思考模式來看,其機理與機制都可以從大數(shù)據(jù)挖掘過程中取得有效成果,利用模擬人腦的思考方式以及學習方式,可以獲得更多、更有效的信息數(shù)據(jù)。例如在“Google Brain”研究的項目(http:en.wikipedia.org/wiki/Google_Brain)[3]便可以看出。在機器學領(lǐng)域的關(guān)鍵人物Hinton與其學生Salakhutdinov對深度學習做出的巨大貢獻,這種方式也在學術(shù)界與工業(yè)界掀起了深度學習的潮流。第二,認知計算。在對海量數(shù)據(jù)進行挖掘處理的過程可以將其看作為認知過程。將數(shù)據(jù)進行轉(zhuǎn)化、收集、計算、分析、表達,從而形成預估與決定,這便是標準的認識模式。但在人進行認知時候還會包含心智等方面的問題,例如情商、感受、信仰等,因此在對海量數(shù)據(jù)進行認知計算以及相關(guān)研究時,需要包含以下多個方面:首先需要考慮認知能否被計算??梢员磉_為人腦的認知是否可以用具體的公式或模式進行表現(xiàn)。在我國舉辦的第八屆Web智能學術(shù)研討會中,任福繼教授為人們展示了情感交互智能機器人,通過實踐完全可以說明認知可以利用計算的方式進行,至少在局部是可以進行計算的。其次應考慮認知應該怎樣計算。其方式可以包含對數(shù)據(jù)的提取、心智局部表現(xiàn)、等方面。最后應考慮知識的全部相對性。對于人腦的學習過程來說,數(shù)據(jù)的量無論是多還是少都可定義為相對應的概念,如果環(huán)境出現(xiàn)變化,會對心智造成影響。因此需要在不斷增加的數(shù)據(jù)量與環(huán)境變化中汲取知識,采用計算認知的方式,構(gòu)建嶄新的理論與實踐模型。
3 結(jié)束語
基于大數(shù)據(jù)環(huán)境下,海量數(shù)據(jù)的挖掘過程以及相關(guān)技術(shù)不僅存在巨大價值,也面臨著險峻的挑戰(zhàn)。希望在廣大的學者與研發(fā)人員不斷努力、實踐下,可以構(gòu)建出更加完善、科學的大數(shù)據(jù)管理機制與計算模型,凸顯大數(shù)據(jù)的真正價值,為人們的生活、社會的發(fā)展提供有效的數(shù)據(jù)服務。
參考文獻:
[1] 米允龍,米春橋,劉文奇. 海量數(shù)據(jù)挖掘過程相關(guān)技術(shù)研究進展[J]. 計算機科學與探索,2015,9(6):641-659.
[2] 尹洪.基于數(shù)據(jù)驅(qū)動的衛(wèi)星故障診斷關(guān)鍵技術(shù)研究[D].國防科學技術(shù)大學,2015.
[3] 何超. 基于數(shù)據(jù)挖掘的企業(yè)競爭情報智能分析研究[D].武漢大學,2014.
[通聯(lián)編輯:唐一東]