陳俊麗
【摘要】 當(dāng)前隨著社會經(jīng)濟(jì)科技的發(fā)展,計算機(jī)網(wǎng)絡(luò)技術(shù)在社會生活中的應(yīng)用范圍也越來越廣泛。而物聯(lián)網(wǎng)技術(shù)作為計算機(jī)網(wǎng)絡(luò)技術(shù)的重要組成部分,已經(jīng)成為人們不斷應(yīng)用信息技術(shù)推動人類生活智能化發(fā)展的不可或缺的推動力。在物聯(lián)網(wǎng)技術(shù)中,數(shù)據(jù)挖掘是其關(guān)鍵環(huán)節(jié),也是物聯(lián)網(wǎng)技術(shù)發(fā)展之后對于應(yīng)用產(chǎn)業(yè)的有力支撐。本文首先介紹了物聯(lián)網(wǎng)與云計算,然后在此基礎(chǔ)上進(jìn)一步介紹了數(shù)據(jù)挖掘技術(shù),包括其含義、特征,其次對當(dāng)前云計算平臺中數(shù)據(jù)挖掘技術(shù)做了詳盡深入的分析,最后進(jìn)一步闡釋了基于云計算平臺的物聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)工作流程以及實際應(yīng)用范例。
【關(guān)鍵詞】 物聯(lián)網(wǎng) 云計算 數(shù)據(jù)挖掘
隨著科技的快速發(fā)展,物聯(lián)網(wǎng)技術(shù)應(yīng)用在社會生活中越來越廣泛,包括芯片技術(shù)、無線網(wǎng)絡(luò)技術(shù)、傳感技術(shù)以及GPS導(dǎo)航定位技術(shù)等正在不斷完善與創(chuàng)新,信息傳感、收集與處理分析技術(shù)也越發(fā)趨于成熟。在此背景下,更多的物聯(lián)網(wǎng)應(yīng)用被人們開發(fā)應(yīng)用,成為互聯(lián)網(wǎng)之后的又一大信息技術(shù)熱點領(lǐng)域。由此,物聯(lián)網(wǎng)技術(shù)也被人們寄予了更多的期望,因此需要更加深入和廣泛的研究,從而不斷推進(jìn)更新更實用的物聯(lián)網(wǎng)應(yīng)用的開發(fā)[1]。
在物聯(lián)網(wǎng)應(yīng)用中,最主要的技術(shù)障礙就是數(shù)據(jù)挖掘,當(dāng)前隨著云計算平臺的出現(xiàn),物聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)有了新的發(fā)展方向,這使得目前我國眾多行業(yè)都在開發(fā)搭建基于云計算平臺的物聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù),從而讓物聯(lián)網(wǎng)具備更加厚實的IT計算能力、數(shù)據(jù)挖掘技術(shù)分析能力和平臺拓展能力。因此,物聯(lián)網(wǎng)行業(yè)產(chǎn)業(yè)的后續(xù)發(fā)展與當(dāng)前云計算平臺的發(fā)展有著極其密切的關(guān)系,而基于云計算平臺的物聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)則明顯有著更加廣闊的發(fā)展空間。
一、物聯(lián)網(wǎng)概述
1.1 物聯(lián)網(wǎng)
物聯(lián)網(wǎng)(IOT)指的是運用各種各樣的傳感設(shè)備來進(jìn)行信息傳遞的計算機(jī)集群,這是在計算機(jī)互聯(lián)網(wǎng)之后的再一次飛躍,包括計算機(jī)技術(shù)、通信技術(shù)(移動通信技術(shù)、傳感器技術(shù)網(wǎng)絡(luò))等,而且還是下一代網(wǎng)絡(luò)發(fā)展的大方向。物聯(lián)網(wǎng)具有全面感知性、信息傳遞可靠性以及智能化處理性,例如運用有線網(wǎng)絡(luò)或者無線網(wǎng)絡(luò)將通過傳感器采集到的數(shù)據(jù)信息傳遞出去,經(jīng)過云計算等技術(shù)進(jìn)行數(shù)據(jù)分析處理,整合共享,而后達(dá)到對物體的智能化控制。因此,物聯(lián)網(wǎng)一般至少包括傳感器等電子元件、數(shù)據(jù)存儲處理系統(tǒng)以及有線或者無線網(wǎng)絡(luò)[2]。
1.2 云計算
云計算指的是在互聯(lián)網(wǎng)支持的基礎(chǔ)上,通過互聯(lián)網(wǎng)服務(wù)為用戶提供的依據(jù)需求而確定服務(wù)的計算方式。由于服務(wù)資源來源于互聯(lián)網(wǎng),并且互聯(lián)網(wǎng)通常使用云狀圖案來表示資源,所以稱之為云計算。云計算有著集群優(yōu)勢,同時具備高速運算能力和較高的數(shù)據(jù)存儲能力,因而如今正被廣泛而深刻的應(yīng)用至IT行業(yè)中,具有高容錯性與高伸縮性的特點。目前在云計算平臺搭建中,用戶主要依靠Hadoop來進(jìn)行,作為云計算平臺搭建基礎(chǔ),可以極為有效的利用集群計算能力與數(shù)據(jù)存儲能力,從而實現(xiàn)大量數(shù)據(jù)的分析處理。
二、數(shù)據(jù)挖掘技術(shù)概述
2.1 數(shù)據(jù)挖掘技術(shù)的含義
數(shù)據(jù)挖掘技術(shù)產(chǎn)生時間并不算久,可自從20世紀(jì)90年代產(chǎn)生以來,在人類社會中產(chǎn)生了巨大的影響,同時受到了人們的廣泛應(yīng)用。目前來說,數(shù)據(jù)挖掘并不是一個獨立的學(xué)科,而是交叉學(xué)科,因此不同領(lǐng)域不同行業(yè)的人對其理解也存在不同之處,因而對其準(zhǔn)確的定義還沒有定論。目前,大部分學(xué)者比較認(rèn)同的關(guān)于數(shù)據(jù)挖掘技術(shù)的含義是韓家煒等人對其的定義[3],包括三個方面的內(nèi)容,第一,具有大量的數(shù)據(jù)來源,并且是真實的數(shù)據(jù);第二,通過數(shù)據(jù)挖掘獲得的信息對人們有著較高的價值與作用;第三,獲得信息是可以被人們理解分析,被人們接受與運用,能夠以此來做出判斷或決策。
2.2 數(shù)據(jù)挖掘技術(shù)的特征
數(shù)據(jù)挖掘技術(shù)具有分布廣、規(guī)模大、節(jié)點資源有限以及安全性復(fù)雜等特征。物聯(lián)網(wǎng)數(shù)據(jù)本身具有分布廣的特點,因為數(shù)據(jù)一般都存儲在不同的地方,其次,物聯(lián)網(wǎng)數(shù)據(jù)極為龐大,本身有許多傳感器節(jié)點,因而需要有能夠快速解決處理數(shù)據(jù)的中央節(jié)點,再次,節(jié)點資源并不是無限的,因而中央節(jié)點一般不需要所有的數(shù)據(jù),但需要數(shù)據(jù)參數(shù),從而依靠分布式節(jié)點將用戶需要的數(shù)據(jù)傳輸出去。
三、在云計算平臺下的數(shù)據(jù)挖掘技術(shù)分析
在當(dāng)前的云計算平臺中,最主要的是以Hadoop為基礎(chǔ)搭建而成的平臺,在此以Hadoop為例,簡單介紹云計算平臺中數(shù)據(jù)挖掘技術(shù)。主要分為四大部分,分別為物聯(lián)網(wǎng)感知層、物聯(lián)網(wǎng)傳輸層、數(shù)據(jù)層和數(shù)據(jù)挖掘服務(wù)層。
3.1物聯(lián)網(wǎng)感知層
物聯(lián)網(wǎng)感知層主要依靠在目標(biāo)區(qū)域范圍內(nèi)放置極多的數(shù)據(jù)采集節(jié)點來發(fā)揮感知作用。具體來說,節(jié)點主要是通過傳感器、攝像頭以及其他設(shè)備進(jìn)行數(shù)據(jù)采集工作,而采集到的數(shù)據(jù)則會依靠物聯(lián)網(wǎng)感知層所具備的網(wǎng)絡(luò)通信設(shè)備進(jìn)行匯聚,將所有的數(shù)據(jù)傳送到節(jié)點,而后經(jīng)過匯總存儲之后再次通過傳輸層輸送到云計算平臺的數(shù)據(jù)處理中心[4]。
3.2物聯(lián)網(wǎng)傳輸層
物聯(lián)網(wǎng)傳輸層主要包括傳感器、無線(有線)網(wǎng)絡(luò)等,通過諸多網(wǎng)絡(luò)設(shè)備搭建的高速度無縫數(shù)據(jù)傳輸系統(tǒng),能夠快速將物聯(lián)網(wǎng)感知層采集到的數(shù)據(jù)通過網(wǎng)絡(luò)傳送到數(shù)據(jù)處理中心,從而實現(xiàn)全方位的互通互聯(lián)目標(biāo),也就是將各種類別的監(jiān)測處理設(shè)備聯(lián)網(wǎng)傳輸,實現(xiàn)設(shè)備之間網(wǎng)絡(luò)信息的傳遞。
3.3數(shù)據(jù)層
數(shù)據(jù)層是物聯(lián)網(wǎng)云計算平臺中數(shù)據(jù)挖掘技術(shù)的關(guān)鍵部分,物聯(lián)網(wǎng)本身具有異構(gòu)性和海量性的特征,因而在數(shù)據(jù)層內(nèi)將物聯(lián)網(wǎng)設(shè)備采集到的數(shù)據(jù)進(jìn)行存儲處理分析的能力是基于云計算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘平臺的關(guān)鍵。數(shù)據(jù)層中主要包括數(shù)據(jù)源轉(zhuǎn)化與存儲兩大部分,其中,數(shù)據(jù)源轉(zhuǎn)化主要對物聯(lián)網(wǎng)異構(gòu)性的數(shù)據(jù)進(jìn)行轉(zhuǎn)化,而存儲部分則是使用Hadoop搭建的平臺中的HDFS系統(tǒng)進(jìn)行分布式存儲,從而將海量性的數(shù)據(jù)完整存儲到數(shù)據(jù)節(jié)點[5]。
由于在物聯(lián)網(wǎng)平臺中,對于不同的目標(biāo)會采用不同的數(shù)據(jù)類型來表現(xiàn),某種情況下,相同的目標(biāo)也會采用不同的數(shù)據(jù)類型來表現(xiàn),因此數(shù)據(jù)源轉(zhuǎn)化的作用主要體現(xiàn)在保持?jǐn)?shù)據(jù)的完整,防止異構(gòu)性的物聯(lián)網(wǎng)數(shù)據(jù)在轉(zhuǎn)化中出現(xiàn)損毀,從而達(dá)到保證數(shù)據(jù)挖掘目標(biāo)。數(shù)據(jù)源轉(zhuǎn)化在系統(tǒng)中的作用相當(dāng)于數(shù)據(jù)層與感知層的連接線,通過數(shù)據(jù)包的解碼轉(zhuǎn)換將不同的數(shù)據(jù)轉(zhuǎn)換成需要的數(shù)據(jù)類型,并且分布式存儲到數(shù)據(jù)處理中心。
3.4數(shù)據(jù)挖掘服務(wù)層
數(shù)據(jù)挖掘服務(wù)層包含數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘引擎以及用戶三大部分。其中,數(shù)據(jù)準(zhǔn)備部分的主要用途是對數(shù)據(jù)的清零、轉(zhuǎn)化以及規(guī)約等。數(shù)據(jù)挖掘引擎則主要包含數(shù)據(jù)挖掘算法以及模式評估,而用戶部分則主要將數(shù)據(jù)挖掘的內(nèi)容進(jìn)行可視化的表現(xiàn)。用戶部分是整個云計算平臺中數(shù)據(jù)挖掘技術(shù)面對用戶的直接體現(xiàn),因而具有友好性,能夠讓用戶通過操作來對數(shù)據(jù)挖掘任務(wù)進(jìn)行處理認(rèn)知。
四、云計算平臺上物聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)應(yīng)用分析
數(shù)據(jù)挖掘工作流程為:用戶發(fā)出數(shù)據(jù)挖掘的請求之后,主要控制節(jié)點收到用戶請求之后會首先判斷能否進(jìn)行任務(wù),并且將結(jié)果回饋給用戶。若是可以進(jìn)行,主要控制節(jié)點就會調(diào)用數(shù)據(jù)挖掘算法,然后根據(jù)算法進(jìn)行分布式數(shù)據(jù)挖掘工作。通過挖掘數(shù)據(jù)任務(wù)的劃分之后,將具體內(nèi)容傳送到眾多節(jié)點中,節(jié)點再具體進(jìn)行數(shù)據(jù)挖掘[6]。
本次選擇Hadoop搭建云計算平臺,并以此進(jìn)行模擬實驗。
首先,選擇一臺實驗所需要的PC機(jī)器,配置基于普通水平的2G內(nèi)存,操作系統(tǒng)為win7。然后在PC端安裝虛擬機(jī),虛擬機(jī)的操作系統(tǒng)都是Linux操作系統(tǒng)。從而開始部署分布式節(jié)點,本次共安裝3個虛擬機(jī)。其次,需要安裝與Linux版本相適應(yīng)的Eclipse7.5開發(fā)環(huán)境,并且于PC機(jī)上安裝SSH服務(wù),用于實驗開始之后傳遞實驗數(shù)據(jù)。3臺虛擬機(jī)中也安裝SSH服務(wù),以便于Hadoop平臺運用。
配置安裝完畢后,選擇采用關(guān)聯(lián)規(guī)則算法的數(shù)據(jù),將數(shù)據(jù)依據(jù)C++代碼程序轉(zhuǎn)換成標(biāo)準(zhǔn)的PML文件,文件大小為1G,然后將文件利用HDFS傳入Hadoop平臺,采用分布式存儲。接下來,運行Apriori算法 [7],根據(jù)計算結(jié)果來判斷能否找到實驗數(shù)據(jù)集合中所有的項目,然后,選用不同大小的文件再次重復(fù)實驗,以此來得到較為準(zhǔn)確的結(jié)果。實驗運行Hadoop平臺計算得到的數(shù)據(jù)如下表1。
從表1中可以看出,伴隨著文件不斷擴(kuò)大,在Hadoop平臺上運行,采用Apriori算法所運行的時間也隨之上升。經(jīng)過大量模擬實驗后,可以看出Hadoop平臺有著較高的拓展性能,能夠滿足當(dāng)前市場對于物聯(lián)網(wǎng)大量數(shù)據(jù)挖掘的要求[8]。
五、結(jié)語
隨著社會經(jīng)濟(jì)與科學(xué)技術(shù)日新月異的發(fā)展,物聯(lián)網(wǎng)技術(shù)也在不斷的趨于成熟。當(dāng)前物聯(lián)網(wǎng)海量的異構(gòu)性數(shù)據(jù)也在呈現(xiàn)著飛速增長的態(tài)勢,導(dǎo)致物聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)越來越顯得困難重重。
在此背景下,基于云計算的物聯(lián)網(wǎng)挖掘技術(shù)與傳統(tǒng)的物聯(lián)網(wǎng)數(shù)據(jù)挖掘相比,其能夠通過分布式存儲的方式以及分布式并行的計算方法更好的滿足人們對物聯(lián)網(wǎng)數(shù)據(jù)挖掘的要求,并且還能夠通過計算存儲遷移功能來避免數(shù)據(jù)存儲過大導(dǎo)致節(jié)點出現(xiàn)故障的問題,不僅縮短了數(shù)據(jù)傳輸?shù)臅r間,提高了數(shù)據(jù)傳輸?shù)姆€(wěn)定性和完整性,而且還極大的提高了數(shù)據(jù)挖掘的效率與質(zhì)量,有著極大的應(yīng)用前景。
因此,本文所提出的基于云計算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)對于當(dāng)前物聯(lián)網(wǎng)應(yīng)用的發(fā)展有著深遠(yuǎn)的意義,并且經(jīng)過Hadoop平臺進(jìn)行模擬數(shù)據(jù)挖掘?qū)嶒灪螅豺炞C了這種方案有著極大的可行性。
參 考 文 獻(xiàn)
[1]卜范玉,王鑫,張清辰. 基于云計算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型[J]. 電腦與信息技術(shù),2012,06:49-52.
[2]謝楊. 基于云計算的現(xiàn)代農(nóng)業(yè)物聯(lián)網(wǎng)監(jiān)控系統(tǒng)[D].西南交通大學(xué),2015.
[3]李哲青,周毅. 基于云計算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式的構(gòu)建[J]. 信息與電腦(理論版),2013,06:122-123.
[4]褚翠霞. 基于云計算平臺的物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究[J]. 數(shù)字技術(shù)與應(yīng)用,2015,01:85.
[5]張旺軍. 基于云計算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式分析[J]. 網(wǎng)友世界,2013,13:39-40.
[6]李立,張玉州,江克勤. 一種改進(jìn)的基于云平臺的物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法[J]. 安慶師范學(xué)院學(xué)報(自然科學(xué)版),2014,02:37-40.
[7]陳輯源. 基于云平臺的物聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)[J]. 電子技術(shù)與軟件工程,2014,09:194.
[8]李虎群. 云計算物聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)的應(yīng)用系統(tǒng)分析[A]. 《建筑科技與管理》組委會.2015年5月建筑科技與管理學(xué)術(shù)交流會論文集[C].《建筑科技與管理》組委會,2015:2.