曹小陽(yáng)
摘要:本文探討了大數(shù)據(jù)挖掘的基本概論,分析了云計(jì)算的大數(shù)據(jù)挖掘構(gòu)架,研究了Hadoop的大數(shù)據(jù)挖掘平臺(tái)。
關(guān)鍵詞:云計(jì)算;大數(shù)據(jù)挖掘內(nèi)涵;解決方案
中圖分類(lèi)號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)11-0108-01
如今云計(jì)算與大數(shù)據(jù)不僅改變了人們生活和工作的方式,還改變了我國(guó)市場(chǎng)經(jīng)濟(jì)的發(fā)展模式,更重要的是云計(jì)算和大數(shù)據(jù)可能會(huì)改變信息化的發(fā)展方向。但是為了突破傳統(tǒng)數(shù)據(jù)挖掘存在的弊端,開(kāi)始將云計(jì)算與大數(shù)據(jù)挖掘現(xiàn)結(jié)合,從而為用戶(hù)提供更加有效的數(shù)據(jù),滿(mǎn)足其多元化的需求。然而基于云計(jì)算的大數(shù)據(jù)挖掘,還需要對(duì)大數(shù)據(jù)挖掘中潛在的弊端進(jìn)行了解,需要采取有效的解決方案才能促使兩者之間進(jìn)行有效的融合,從而使其能夠得到有效的應(yīng)用。
1 大數(shù)據(jù)挖掘的基本概論
大數(shù)據(jù)挖掘是指從數(shù)據(jù)類(lèi)型、數(shù)據(jù)容量、數(shù)據(jù)變化上能夠進(jìn)行有效地運(yùn)轉(zhuǎn),將數(shù)量龐大的數(shù)據(jù)中提取具有一定價(jià)值的、可應(yīng)用的數(shù)據(jù)信息,并將其儲(chǔ)存到數(shù)據(jù)庫(kù)中供用戶(hù)使用。大數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘方式比較而言。雖然兩者的操作目標(biāo)相同,都是以搜集有價(jià)值的信息作為主要目標(biāo)。但是從技術(shù)操作方面大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘存在的差異較大,通過(guò)對(duì)大數(shù)據(jù)挖掘的背景及技術(shù)操作方式進(jìn)行詳細(xì)的分析。
隨著我國(guó)科技的不斷發(fā)展,以信息技術(shù)為基礎(chǔ)的自媒體被普遍的應(yīng)用到人們的生活和工作中,但是終端媒體是需要數(shù)據(jù)支持的,隨著數(shù)據(jù)價(jià)值的不斷提升,其所發(fā)揮的功能性就越強(qiáng)。通過(guò)數(shù)據(jù)的組成、應(yīng)用、發(fā)展而言,傳統(tǒng)的數(shù)據(jù)挖掘在復(fù)雜程度與發(fā)展?fàn)顟B(tài)來(lái)看,其與大數(shù)據(jù)挖掘并沒(méi)有可比性,后者在新時(shí)代發(fā)展的背景下產(chǎn)生的,能夠有效的為移動(dòng)智能終端、物聯(lián)網(wǎng)和云計(jì)算提供數(shù)據(jù)支持。但是在大數(shù)據(jù)挖掘過(guò)程中依然存在諸多的不足,所以要不斷地提升大數(shù)據(jù)挖掘的技術(shù)應(yīng)用的科學(xué)性與先進(jìn)性。
大數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)相對(duì)比,兩者所要面對(duì)的處理對(duì)象截然不同,傳統(tǒng)數(shù)據(jù)挖掘是對(duì)系統(tǒng)中劃定領(lǐng)域中數(shù)據(jù)的基礎(chǔ)上融入部分Web數(shù)據(jù),其數(shù)據(jù)通常是用戶(hù)自動(dòng)生成的信息,此數(shù)據(jù)的類(lèi)型大部分都是結(jié)構(gòu)化的數(shù)據(jù)。大數(shù)據(jù)挖掘的主要對(duì)象就是結(jié)構(gòu)化的數(shù)據(jù),并詳細(xì)、具體的管理Web系統(tǒng)及信息系統(tǒng),且對(duì)感知信息系統(tǒng)和設(shè)備產(chǎn)生的仿真數(shù)據(jù)加以分析,由此可見(jiàn)大數(shù)據(jù)挖掘?qū)τ谛畔①Y料的應(yīng)用更加全面、深入。其與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)比較來(lái)說(shuō),大數(shù)據(jù)挖掘的對(duì)象數(shù)量龐大、涉及范圍廣、數(shù)據(jù)復(fù)雜繁瑣,主要應(yīng)用的是主動(dòng)搜集的方式,能夠很好地為用戶(hù)提供更加豐富、多樣、實(shí)時(shí)的數(shù)據(jù)信息。然而當(dāng)前大數(shù)據(jù)挖掘還不夠穩(wěn)定和具體。
2 云計(jì)算的大數(shù)據(jù)挖掘構(gòu)架
2.1 云計(jì)算的應(yīng)用特點(diǎn)
云計(jì)算因其具備虛擬性、可操作性、可拓展性等優(yōu)勢(shì),而被應(yīng)用到大數(shù)據(jù)挖掘中,從而有效的彌補(bǔ)其潛在的弊端,切位大數(shù)據(jù)的挖掘提供持續(xù)的動(dòng)力支持。云計(jì)算的關(guān)鍵組成部分包括:分布式并行計(jì)算、分布式文件存儲(chǔ)。分布式存儲(chǔ)是將大數(shù)據(jù)中分布的文件進(jìn)行存儲(chǔ),主要在大量的分布較廣的數(shù)據(jù)中得到了有效的應(yīng)用。如:GFS系統(tǒng)的延展性較高,但是在小型存儲(chǔ)文件中難以發(fā)揮有效的應(yīng)用,通常都會(huì)發(fā)生單點(diǎn)故障。當(dāng)前部分開(kāi)發(fā)商按照經(jīng)營(yíng)的業(yè)務(wù)特點(diǎn)對(duì)云計(jì)算中大數(shù)據(jù)挖掘的方案加以推廣,如:谷歌最新開(kāi)發(fā)的搜索引擎,在搜索過(guò)程中能夠?qū)Υ髷?shù)據(jù)進(jìn)行合理、有效的分析;微軟是將Hadoop與WindowsAzure進(jìn)行了有效的融合,并在軟件集成中運(yùn)用了智能BI技術(shù),如此一來(lái)便能對(duì)技術(shù)平臺(tái)進(jìn)行了合理的優(yōu)化,能夠?qū)?shù)據(jù)實(shí)施動(dòng)態(tài)的更新。而其他用戶(hù)只能在開(kāi)源Hadoop平臺(tái)不斷地健全基本功能,如:Yahoo在Hadoop平臺(tái)上研發(fā)了Pig,F(xiàn)acebook研發(fā)了Hive等。即使大數(shù)據(jù)挖掘的基本架構(gòu)較為相似,但對(duì)于云計(jì)算與挖掘的構(gòu)建方式卻各不相同。在對(duì)各類(lèi)數(shù)據(jù)挖掘平臺(tái)的可行性進(jìn)行分析時(shí),就要將其中的解決方案進(jìn)行不斷地互補(bǔ)與融合[1]。
2.2 大數(shù)據(jù)挖掘架構(gòu)
綜合以上研究發(fā)現(xiàn):對(duì)于大數(shù)據(jù)挖掘體系架構(gòu)進(jìn)行深入的了解,其不僅匯集了多種計(jì)算、存儲(chǔ)模式,且具備細(xì)致的分析功能,其組織架構(gòu)表現(xiàn)為云計(jì)算-客戶(hù)端的模式。此架構(gòu)主要包括:支撐平臺(tái)層、功能層、服務(wù)層。大數(shù)據(jù)挖掘構(gòu)架體系圖1所示。
3 Hadoop的大數(shù)據(jù)挖掘平臺(tái)
基于Hadoop平臺(tái)的大數(shù)據(jù)挖掘主要由三層:數(shù)據(jù)源、大數(shù)據(jù)挖掘平臺(tái)、用戶(hù)層。數(shù)據(jù)源作為一種冗雜的挖掘?qū)ο?,主要包括:結(jié)構(gòu)數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)共同組成;大數(shù)據(jù)挖掘平臺(tái)主要是以Hadoop平臺(tái)為基礎(chǔ),內(nèi)部涵蓋了不同的計(jì)算模式及挖掘等功能,同時(shí)按照數(shù)據(jù)辯護(hù)的的特征進(jìn)行有效的提?。挥脩?hù)層就是通過(guò)交流的反思對(duì)數(shù)據(jù)進(jìn)行了解和應(yīng)用。大數(shù)據(jù)挖掘平臺(tái)中,HDFS、HBase、MapReduce有著安全性、擴(kuò)展性、容錯(cuò)性、高效性等多種功能,計(jì)算模式主要由:批處理、流處理。MapReduce在數(shù)量龐大、更新較慢的數(shù)據(jù)進(jìn)行挖掘,F(xiàn)lume、Pig等在數(shù)據(jù)流的動(dòng)態(tài)數(shù)據(jù)挖掘上的彈性較大。但是Hadoop不適合少量流動(dòng)較慢的數(shù)據(jù)及復(fù)雜繁瑣的數(shù)據(jù)圖。所以要將傳統(tǒng)的數(shù)據(jù)庫(kù)和操作方式應(yīng)用到Hadoop平臺(tái)中[2]。
當(dāng)前大數(shù)據(jù)預(yù)處理是建立在MapReduce的基礎(chǔ)上,將傳統(tǒng)預(yù)處理技術(shù)、數(shù)據(jù)流實(shí)時(shí)處理、多模態(tài)實(shí)體識(shí)別、DeepWeb集成、遠(yuǎn)程自動(dòng)采集融合等技術(shù)進(jìn)行的有效的應(yīng)用,從而加強(qiáng)其預(yù)處理的整體功能,如:在數(shù)據(jù)的傳輸過(guò)程中,通過(guò)有效的流式計(jì)算技術(shù)及嵌入式中間件多級(jí)數(shù)據(jù)處理技術(shù),能夠?qū)υ紨?shù)據(jù)和數(shù)據(jù)流進(jìn)行適時(shí)的挖掘。
4 結(jié)語(yǔ)
云計(jì)算與大數(shù)據(jù)是信息科技于社會(huì)經(jīng)濟(jì)高度發(fā)展的產(chǎn)物,且科技的發(fā)展總是潛移默化的改變著人們的思維模式和生活方式。由于信息技術(shù)的不斷開(kāi)發(fā)與應(yīng)用,大數(shù)據(jù)這座寶庫(kù)也在不斷地被挖掘,但大數(shù)據(jù)作為新興產(chǎn)物對(duì)此還沒(méi)有絕對(duì)的能力去進(jìn)行良好的好處理。因此在云計(jì)算的基礎(chǔ)上進(jìn)行大數(shù)據(jù)挖掘能夠?qū)π畔⑦M(jìn)行實(shí)時(shí)、有效的處理,確保能夠?yàn)橛脩?hù)提供及時(shí)的、有效的、嶄新的信息資源。
參考文獻(xiàn)
[1]劉鎮(zhèn).基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].科技風(fēng),2017,(19):39-39.
[2]鄧仲華,劉偉偉,陸穎雋.基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報(bào)理論與實(shí)踐,2015,(7):103-108.
Abstract:This paper discusses the basic introduction of big data mining, analyzes the big data mining framework of cloud computing, and studies the big data mining platform of Hadoop.
Key Words:cloud computing; big data mining connotation; solutionendprint