李虎群
【摘 要】本文提出基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型,以云計(jì)算作為技術(shù)支持平臺(tái),在構(gòu)建面向物聯(lián)網(wǎng)的分布式時(shí)空數(shù)據(jù)庫(kù)的基礎(chǔ)上,搭建面向物聯(lián)網(wǎng)海量數(shù)據(jù)的數(shù)據(jù)挖掘模型。
【關(guān)鍵詞】物聯(lián)網(wǎng);云計(jì)算;數(shù)據(jù)挖掘;并行算法
Things cloud computing data mining techniques for Applied Systems Analysis
Li Hu-qun
(Handan Purification Equipment Research Institute Handan Hebei 056107)
【Abstract】In this paper, data mining model based on cloud computing networking to cloud computing as a technical support platform, built on a distributed object-oriented networking on temporal databases, networking massive data structures for data mining models.
【Key words】Things;Cloud computing;Data mining;Parallel algorithms
根據(jù)物聯(lián)網(wǎng)中數(shù)據(jù)的特點(diǎn),本文提出一種基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型。首先結(jié)合海計(jì)算技術(shù)建立基于云計(jì)算存儲(chǔ)構(gòu)架的面向物聯(lián)網(wǎng)的分布式時(shí)空數(shù)據(jù)庫(kù),用以存儲(chǔ)物聯(lián)網(wǎng)中的數(shù)據(jù),以此數(shù)據(jù)庫(kù)為基礎(chǔ)構(gòu)建保存歷史記錄的面向主題的數(shù)據(jù)倉(cāng)庫(kù)。在此基礎(chǔ)上,構(gòu)建面向物聯(lián)網(wǎng)的數(shù)據(jù)挖掘框架,結(jié)合并行數(shù)據(jù)挖掘算法,完成各項(xiàng)數(shù)據(jù)挖掘任務(wù),包括數(shù)據(jù)抽取、分類預(yù)測(cè)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等。
1. 物聯(lián)網(wǎng)數(shù)據(jù)挖掘的關(guān)鍵問題
1.1 物聯(lián)網(wǎng)系統(tǒng)中數(shù)據(jù)的特點(diǎn)。
(1)數(shù)據(jù)量大。每個(gè)物聯(lián)網(wǎng)系統(tǒng)擁有成千上萬(wàn)甚至更多的傳感設(shè)備,這些傳感設(shè)備不斷向數(shù)據(jù)中心傳輸采集到的數(shù)據(jù)。數(shù)據(jù)中心不僅要存儲(chǔ)當(dāng)前接收到的采集數(shù)據(jù),同時(shí)需要保存歷史數(shù)據(jù),用以支持對(duì)象的狀態(tài)跟蹤、數(shù)據(jù)統(tǒng)計(jì)分析及數(shù)據(jù)挖掘。因此,物聯(lián)網(wǎng)系統(tǒng)中數(shù)據(jù)挖掘任務(wù)面臨的第一個(gè)關(guān)鍵問題是數(shù)據(jù)量大。
(2)數(shù)據(jù)類型復(fù)雜。物聯(lián)網(wǎng)系統(tǒng)監(jiān)控的對(duì)象種類繁多,包括交通、生物、森林、建筑等。不同監(jiān)控對(duì)象所采集的信息各不相同,例如交通系統(tǒng)中需要采集視頻信息,醫(yī)學(xué)監(jiān)控系統(tǒng)需要采集諸如脈搏、血壓等生理信息以及醫(yī)學(xué)立體影響信息等??梢娢锫?lián)網(wǎng)系統(tǒng)采集的數(shù)據(jù)類型復(fù)雜,包括文本類型、圖像類型、視頻類型等。
(3)數(shù)據(jù)具有異構(gòu)性。物聯(lián)網(wǎng)系統(tǒng)中包含多種傳感終端,如GPS傳感終端、RFID傳感終端、視頻傳感終端、無(wú)線傳感器等。不同的傳感終端采集到的數(shù)據(jù)的格式和語(yǔ)義均不相同。數(shù)據(jù)的異構(gòu)性為數(shù)據(jù)存儲(chǔ)與挖掘增加難度。
(4)高度動(dòng)態(tài)性。每個(gè)時(shí)刻都有不同的傳感終端添加到物聯(lián)網(wǎng)中或者從物聯(lián)網(wǎng)中移除。隨著傳感節(jié)點(diǎn)的增加,其采集到的數(shù)據(jù)要插人數(shù)據(jù)庫(kù)中。同樣當(dāng)一個(gè)傳感節(jié)點(diǎn)從物聯(lián)網(wǎng)中移除后,數(shù)據(jù)庫(kù)不應(yīng)再記錄該傳感節(jié)點(diǎn)采集到數(shù)據(jù)。一個(gè)物聯(lián)網(wǎng)系統(tǒng)含有大量的傳感節(jié)點(diǎn),每個(gè)傳感節(jié)點(diǎn)動(dòng)態(tài)變化頻繁,因此物聯(lián)網(wǎng)系統(tǒng)中的數(shù)據(jù)具有高度動(dòng)態(tài)性。
(5)時(shí)空特性。物聯(lián)網(wǎng)系統(tǒng)的傳感終端分布在不同地區(qū),每個(gè)傳感終端采集到的數(shù)據(jù)均反應(yīng)該時(shí)刻監(jiān)控對(duì)象的狀態(tài)及其他信息。感知數(shù)據(jù)在特定時(shí)間和特定空間內(nèi)才有意義,如果不在這個(gè)地點(diǎn)或過了這個(gè)時(shí)間,數(shù)據(jù)的意義可能就不大了。因此,復(fù)雜的時(shí)空特性是物聯(lián)網(wǎng)系統(tǒng)中數(shù)據(jù)的一個(gè)顯著特點(diǎn)。
(6)不完整性。物聯(lián)網(wǎng)系統(tǒng)的傳感終端在無(wú)人工監(jiān)控狀態(tài)下工作,每個(gè)傳感終端隨時(shí)可能受到自然因素或者人為因素的攻擊,包括雷電破壞、人工惡意破壞等,導(dǎo)致傳感終端數(shù)據(jù)接收不完整。另一方面,盡管傳感終端可以被廣泛的部署在不同地理位置,但是依然無(wú)法覆蓋每一個(gè)角落,因此空間數(shù)據(jù)收集不完整也是物聯(lián)網(wǎng)系統(tǒng)數(shù)據(jù)的特點(diǎn)之一。
1.2 物聯(lián)網(wǎng)對(duì)數(shù)據(jù)挖掘的要求。
(1)實(shí)時(shí)高效數(shù)據(jù)挖掘。物聯(lián)網(wǎng)系統(tǒng)中任何一個(gè)控制端均需要對(duì)環(huán)境進(jìn)行實(shí)時(shí)分析并做出正確決策。因此實(shí)時(shí)、高效是物聯(lián)網(wǎng)系統(tǒng)對(duì)數(shù)據(jù)挖掘最為關(guān)鍵的要求之一。
(2)分布式數(shù)據(jù)挖掘。物聯(lián)網(wǎng)計(jì)算設(shè)備和數(shù)據(jù)天然分布,不得不采用分布式并行數(shù)據(jù)挖掘。
(3)數(shù)據(jù)質(zhì)量控制。多源、多模態(tài)、多媒體、多格式數(shù)據(jù)的存儲(chǔ)與管理是控制數(shù)據(jù)質(zhì)量,獲得真實(shí)結(jié)果的重要保證。
(4)決策控制。挖掘出的模式、規(guī)則、特征指標(biāo)用于預(yù)測(cè)、決策和控制。
(5)挖掘任務(wù)。主要包括數(shù)據(jù)抽取、分類預(yù)測(cè)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等。
圖1 基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)模型框架
1.3 物聯(lián)網(wǎng)環(huán)境數(shù)據(jù)挖掘存在的挑戰(zhàn)。
(1)數(shù)據(jù)挖掘算法的選擇。選擇合適的算法,并采取適當(dāng)?shù)牟⑿胁呗?,然后才能提高并行效率。因此算法的設(shè)計(jì)變得非常重要,參數(shù)的調(diào)節(jié)變得必不可少,而且參數(shù)的調(diào)節(jié)直接影響最終的結(jié)果。
(2)不確定性。首先數(shù)據(jù)挖掘任務(wù)的描述具有不確定性,數(shù)據(jù)采集和預(yù)處理也是帶有很多的不確定性。其次是數(shù)據(jù)挖掘方法和結(jié)果有不確定性。最后由于每個(gè)用戶所關(guān)注的最終的挖掘目標(biāo)不一樣,這就導(dǎo)致了對(duì)挖掘結(jié)果的評(píng)價(jià)也有不確定性。不確定性是數(shù)據(jù)挖掘在物聯(lián)網(wǎng)系統(tǒng)中面臨的最大挑戰(zhàn)。
(3)可信性與安全性。在云計(jì)算環(huán)境下做數(shù)據(jù)挖掘會(huì)導(dǎo)致數(shù)據(jù)挖掘云服務(wù)軟件可信性問題。首先是服務(wù)的正確性和服務(wù)的安全性;其次是服務(wù)的質(zhì)量,服務(wù)質(zhì)量由可用、可靠和商l生能這三個(gè)方面來(lái)度量。
2. 基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型
基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型構(gòu)架分為五層,分別是物聯(lián)網(wǎng)數(shù)據(jù)接入層、數(shù)據(jù)集成層、數(shù)據(jù)挖掘平臺(tái)層、業(yè)務(wù)控制層和交互層,如圖1所示。
2.1 結(jié)構(gòu)層次。
(1)物聯(lián)網(wǎng)數(shù)據(jù)接入層。 物聯(lián)網(wǎng)接人層實(shí)現(xiàn)數(shù)據(jù)采集、提取關(guān)鍵數(shù)據(jù)、將關(guān)鍵數(shù)據(jù)傳輸?shù)綌?shù)據(jù)集成層作用。物聯(lián)網(wǎng)數(shù)據(jù)接人層包括各種傳感終端,如GPS傳感終端、RFID傳感終端、視頻傳感終端、無(wú)線傳感器等。利用這些傳感終端監(jiān)控現(xiàn)實(shí)世界對(duì)象,采集反應(yīng)監(jiān)控對(duì)象的狀態(tài)及其他信息并發(fā)送到相應(yīng)的海計(jì)算節(jié)點(diǎn)。采集數(shù)據(jù)包括文本數(shù)據(jù)、圖像數(shù)據(jù)、視頻數(shù)據(jù)等。海計(jì)算節(jié)點(diǎn)對(duì)傳感數(shù)據(jù)進(jìn)行預(yù)處理,提取 鍵數(shù)據(jù)并傳輸?shù)綌?shù)據(jù)集成層,即面向物聯(lián)網(wǎng)的分布式時(shí)空數(shù)據(jù)庫(kù)。
(2)數(shù)據(jù)集成層。 數(shù)據(jù)集成層存儲(chǔ)物聯(lián)網(wǎng)系統(tǒng)傳感終端采集到的關(guān)鍵數(shù)據(jù),為數(shù)據(jù)挖掘提供數(shù)據(jù)源。面向物聯(lián)網(wǎng)的分布式時(shí)空數(shù)據(jù)庫(kù)存儲(chǔ)物聯(lián)網(wǎng)系統(tǒng)的關(guān)鍵數(shù)據(jù),并為數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)造提供數(shù)據(jù)源。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照主題來(lái)組織的,存儲(chǔ)的數(shù)據(jù)可以從歷史的觀點(diǎn)提供信息,面對(duì)多數(shù)據(jù)源,經(jīng)過清晰和轉(zhuǎn)換后的數(shù)據(jù)倉(cāng)庫(kù)可以為數(shù)據(jù)挖掘提供面向歷史的發(fā)現(xiàn)知識(shí)的數(shù)據(jù)環(huán)境。
(3)數(shù)據(jù)挖掘平臺(tái)層。 數(shù)據(jù)挖掘平臺(tái)層是整個(gè)構(gòu)架的核心之一,提供數(shù)據(jù)挖掘階段業(yè)務(wù)需要的各個(gè)模塊,并具有較細(xì)的粒度。如數(shù)據(jù)預(yù)處理,模式評(píng)估,數(shù)據(jù)挖掘等功能模塊。這一層的主要任務(wù)是實(shí)現(xiàn)各種任務(wù)過程中算法的并行化,并將挖掘結(jié)果返回給業(yè)務(wù)控制層。
(4)業(yè)務(wù)控制層。 這一層提供業(yè)務(wù)邏輯并實(shí)現(xiàn)對(duì)各種業(yè)務(wù)流程的控制和調(diào)度。根據(jù)用戶提交的業(yè)務(wù)請(qǐng)求,任務(wù)控制調(diào)度模塊結(jié)合領(lǐng)域知識(shí)庫(kù)指導(dǎo)工作流程控制模塊控制和調(diào)度數(shù)據(jù)挖掘?qū)拥亩鄠€(gè)模塊來(lái)完成挖掘任務(wù),并將挖掘結(jié)果返回給交互層。
(5)交互層 這一層主要提供系統(tǒng)和用戶之間的接口。通過提供具有良好表現(xiàn)形式的圖形界面,使得用戶可以登錄系統(tǒng)定制各種細(xì)粒度的業(yè)務(wù),查看或者保存各種輸出結(jié)果。
2.2 功能模塊。
2.2.1 物聯(lián)網(wǎng)數(shù)據(jù)接入層模塊海計(jì)算模塊。 海計(jì)算模塊包含大量海計(jì)算節(jié)點(diǎn)。主要用以存儲(chǔ)傳感終端采集的各種數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,主要包括去除噪聲數(shù)據(jù)和重復(fù)數(shù)據(jù)、處理不完整數(shù)據(jù)、識(shí)別并提取關(guān)鍵數(shù)據(jù)、統(tǒng)一數(shù)據(jù)格式。最后將預(yù)處理后的關(guān)鍵數(shù)據(jù)傳輸給數(shù)據(jù)集成層。在物聯(lián)網(wǎng)數(shù)據(jù)接人層對(duì)數(shù)據(jù)進(jìn)行預(yù)處理有利于節(jié)省網(wǎng)絡(luò)帶寬,同時(shí)有利于數(shù)據(jù)集成層的存儲(chǔ)和進(jìn)一步應(yīng)用。
2.2.2 數(shù)據(jù)挖掘平臺(tái)層模塊。
(1)并行數(shù)據(jù)挖掘算法模塊:為數(shù)據(jù)挖掘各種任務(wù)提供并行算法。作為數(shù)據(jù)挖掘引擎,包含一個(gè)能夠提供各種基于云計(jì)算進(jìn)行并行數(shù)據(jù)挖掘算法的庫(kù),用于完成各種數(shù)據(jù)挖掘任務(wù)。
(2)并行ETL模塊:對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。輸入的數(shù)據(jù)來(lái)源于面向物聯(lián)網(wǎng)的分布式時(shí)空數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù),為數(shù)據(jù)挖掘過程進(jìn)行數(shù)據(jù)清理,提取,轉(zhuǎn)換和加載。
(3)模式評(píng)估模塊:對(duì)產(chǎn)生的模式進(jìn)行評(píng)估。符合用戶要求的結(jié)果存人領(lǐng)域知識(shí)庫(kù),領(lǐng)域知識(shí)庫(kù)可以輔助業(yè)務(wù)控制邏輯指導(dǎo)數(shù)據(jù)挖掘過程。
(4)數(shù)據(jù)提取模塊:根據(jù)挖掘任務(wù)的不同,在面向物聯(lián)網(wǎng)的時(shí)空數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取相關(guān)的數(shù)據(jù)。
2.2.3 業(yè)務(wù)控制層模塊。
(1)任務(wù)調(diào)度控制模塊:響應(yīng)上層的業(yè)務(wù)模塊,對(duì)完成業(yè)務(wù)所需的子業(yè)務(wù)進(jìn)行調(diào)用、管理,并通過調(diào)用底層模塊完成業(yè)務(wù)。
(2)工作流程控制模塊:對(duì)業(yè)務(wù)狀態(tài)進(jìn)行監(jiān)控、管理??蓪⒕唧w的信息參數(shù)返回給本層的任務(wù)調(diào)度控制模塊。
2.2.4 交互層。
(1)用戶管理模塊:實(shí)現(xiàn)用戶身份的識(shí)別以及相應(yīng)權(quán)限的設(shè)置,同時(shí)也包括對(duì)用戶登錄或者注銷等常用的管理。
(2)業(yè)務(wù)模塊:實(shí)現(xiàn)細(xì)粒度的用戶業(yè)務(wù)需求的提交。用戶提交的各種業(yè)務(wù)通過業(yè)務(wù)模塊得到。
(3)結(jié)果展示模塊:實(shí)現(xiàn)用戶對(duì)業(yè)務(wù)結(jié)果的查看,分析和保存等功能。用來(lái)將系統(tǒng)的返回結(jié)果交付給用戶。
3. 結(jié)論
數(shù)據(jù)挖掘是物聯(lián)網(wǎng)應(yīng)用的重要環(huán)節(jié),針對(duì)物聯(lián)網(wǎng)數(shù)據(jù)的特點(diǎn),本文提出一種基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型。其中,數(shù)據(jù)挖掘平臺(tái)是整個(gè)模型的關(guān)鍵。下一步的工作重點(diǎn)在于設(shè)計(jì)各種面向物聯(lián)網(wǎng)的數(shù)據(jù)挖掘算法的并行化,以完成物聯(lián)網(wǎng)的各種數(shù)據(jù)挖掘任務(wù)。
參考文獻(xiàn)
[1] 王瑞剛.物聯(lián)網(wǎng)主要特征與基礎(chǔ)理論研究[J].計(jì)算機(jī)科學(xué),2012,39(6A1:201~203.
[2] 李志寧.物聯(lián)網(wǎng)技術(shù)研究進(jìn)展[J].計(jì)算機(jī)測(cè)量與控制,2012,20(6):1445~1448.
[3] Arnon Rosenthal,Peter Mork.Cloud computing:A new business paradigm for biomedical information sharing[J].Future Generation Computer Systems,2010,26(7):947~970.
[4] Zhikui Chen,Haozhe Wang.A Context-Aware Routing Protocol on Internet of Things Based on Sea computing Model[J].Journal of Computers,2012,7(1):96~105.
[5] Bin Liu,Shu-Gui Cao.Machine Learning and Cybernetics[C].International Conference on Machine Learning and Cybernetics.Guilin,China,2011.40~44.
[6] Hong Yuehua,Xu Shuang,Wu Huajian.Study on distributed data mining model in Wireless Sensor Networks[C].International Conference on IntelligentComputingandIntegratedS-stemsGuilin,China,2010.866~869.
[文章編號(hào)]1619-2737(2015)05-22-359