王水萍+++王方
【 摘 要 】 隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,不僅給人們生產(chǎn)和生活提供更多有價(jià)值的信息,而且又能提升人類(lèi)從大量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值信息的能力?,F(xiàn)階段,數(shù)據(jù)挖掘技術(shù)已廣泛應(yīng)用在各行各業(yè)當(dāng)中,并且已取得了較好成果。本文主要針對(duì)基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行了深入探究和分析。
【 關(guān)鍵詞 】 云計(jì)算;數(shù)據(jù)挖掘;平臺(tái)架構(gòu);設(shè)計(jì)和實(shí)現(xiàn);探究
1 引言
近年來(lái),隨著科學(xué)技術(shù)的飛速發(fā)展,大量的數(shù)據(jù)被存儲(chǔ)到計(jì)算機(jī)等存儲(chǔ)介質(zhì)當(dāng)中。通常情況下,所存儲(chǔ)的數(shù)據(jù)多是復(fù)雜的、數(shù)據(jù)量較大的等。因此,難以通過(guò)人工而直接獲得。尤其是在科研或是商業(yè)發(fā)展領(lǐng)域中,需要對(duì)海量的數(shù)據(jù)進(jìn)行分析,從而找出更多有價(jià)值的信息。為解決上述問(wèn)題,很多研究人員聚集在一起,研究出一種新型的數(shù)據(jù)挖掘技術(shù)。
近來(lái),由于計(jì)算機(jī)技術(shù)、云計(jì)算技術(shù)的飛速發(fā)展,大量的數(shù)據(jù)都存儲(chǔ)到了網(wǎng)絡(luò)當(dāng)中,而這些海量的、復(fù)雜式的數(shù)據(jù)信息給數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)帶來(lái)很多的難題,如數(shù)據(jù)相對(duì)復(fù)雜,現(xiàn)有的計(jì)算能力難以達(dá)到技術(shù)要求,而可以借助云計(jì)算數(shù)據(jù)挖掘技術(shù)可提升處理復(fù)雜數(shù)據(jù)的能力。
2 云計(jì)算數(shù)據(jù)挖掘系統(tǒng)架構(gòu)設(shè)計(jì)的分析
2.1 目標(biāo)系統(tǒng)模型
在云計(jì)算環(huán)境下,構(gòu)建目標(biāo)系統(tǒng)為各種終端用戶(hù)提供高透明化的界面服務(wù),并且在此基礎(chǔ)上也提供了開(kāi)放式的接口支持。這樣一來(lái),用戶(hù)不僅能夠通過(guò)終端訪問(wèn)用戶(hù)訪問(wèn)來(lái)使用系統(tǒng),也或是利用其它應(yīng)用程序調(diào)用開(kāi)放式接口間接式的應(yīng)用系統(tǒng)服務(wù)。不管遇到上述哪一種情形,用戶(hù)都無(wú)需對(duì)系統(tǒng)實(shí)現(xiàn)而擔(dān)心其存儲(chǔ)能力,只需考慮要選擇何種算法進(jìn)行處理,最后通過(guò)任務(wù)形式部署給系統(tǒng)獲得所需的挖掘結(jié)果。除此之外,云計(jì)算環(huán)境下的數(shù)據(jù)挖據(jù)平臺(tái)中得模塊都是利用用戶(hù)界面和開(kāi)放式接口提供服務(wù)的。其中,由開(kāi)放式接口提供的服務(wù)均為外部可見(jiàn)服務(wù)。而當(dāng)涉及到高級(jí)權(quán)限使用功能時(shí),可通過(guò)用戶(hù)界面直接調(diào)用開(kāi)放式接口服務(wù)功能。
2.2 功能層次框架設(shè)計(jì)
2.2.1算法層
該層主要是利用下一層所提供的統(tǒng)一數(shù)據(jù)源來(lái)調(diào)用相關(guān)算法及對(duì)接口進(jìn)行合理的管理。由于不同算法的執(zhí)行順序和得到的結(jié)果有所不同而分開(kāi)的。例如數(shù)據(jù)清洗算法服務(wù),它是針對(duì)具有噪聲數(shù)據(jù)的數(shù)據(jù)及在應(yīng)用數(shù)據(jù)挖掘算法前需要進(jìn)行接口服務(wù)調(diào)用,把清洗后的數(shù)據(jù)利用數(shù)據(jù)層再儲(chǔ)存到云計(jì)算平臺(tái)中,為后續(xù)數(shù)據(jù)挖掘工作提供更好的服務(wù);數(shù)據(jù)挖掘調(diào)用服務(wù),在應(yīng)用該服務(wù)之前,將已清洗的及不需要清洗的數(shù)據(jù)利用數(shù)據(jù)挖掘技術(shù)統(tǒng)一對(duì)數(shù)據(jù)進(jìn)行調(diào)用。
2.2.2應(yīng)用層
和其它層相比,該層的抽象性較強(qiáng),它是把海量數(shù)據(jù)挖掘涉及到的數(shù)據(jù)、算法等之間的內(nèi)在關(guān)系描述成任務(wù),同時(shí)提供提供應(yīng)用調(diào)用服務(wù)和維護(hù)接口等。
2.2.3用戶(hù)層
該層主要為用戶(hù)提供身份驗(yàn)證和授權(quán)等功能。
2.3 設(shè)計(jì)關(guān)鍵點(diǎn)
2.3.1插件系統(tǒng)設(shè)計(jì)
插件是結(jié)合相應(yīng)的應(yīng)用程序開(kāi)發(fā)接口規(guī)范而實(shí)現(xiàn)的一種程序。其中,任何一個(gè)插件都是由三大部分構(gòu)成的,即擴(kuò)展點(diǎn)、業(yè)務(wù)邏輯、調(diào)用下層擴(kuò)展點(diǎn),并且這三者都是由相同的負(fù)責(zé)模塊管理幫頂包跟各種服務(wù)所構(gòu)成的。另外,每個(gè)綁定包涉及到一個(gè)服務(wù)說(shuō)明接口與多個(gè)服務(wù)調(diào)用接口兩種類(lèi)型的接口。要求綁定包接口必須滿足相關(guān)規(guī)范要求,若把插件防止到平臺(tái)的某個(gè)特定目錄下,能夠識(shí)別和加載該動(dòng)態(tài)。除此之外,算法實(shí)現(xiàn)不同于以往針對(duì)特定個(gè)數(shù)、排列數(shù)據(jù)而實(shí)現(xiàn)。它是在滿足實(shí)現(xiàn)算法的基礎(chǔ)上,利用抽象數(shù)據(jù)提供更多的兼容性。盡管這種算法實(shí)現(xiàn)存在很大的難度,但其算法的復(fù)用性有了顯著提升。
2.3.2開(kāi)放接口設(shè)計(jì)
通常情況下,開(kāi)放接口主要被應(yīng)用數(shù)據(jù)挖掘平臺(tái)的開(kāi)發(fā)使用。利用上述接口,開(kāi)發(fā)者能夠更好地利用數(shù)據(jù)挖掘平臺(tái)提供的資源及數(shù)據(jù)服務(wù)。為實(shí)現(xiàn)開(kāi)放接口高效性、直觀性的目的,其平臺(tái)接口主要應(yīng)用的是表述性狀態(tài)轉(zhuǎn)移接口,英文縮寫(xiě)為:REST。該類(lèi)接口的優(yōu)勢(shì)在于為無(wú)態(tài)型。也就是說(shuō),在同一個(gè)局域網(wǎng)中,瀏覽器中的緩沖裝置可替代服務(wù)的重復(fù)調(diào)用。這樣一來(lái),不僅能夠有效減輕服務(wù)器的運(yùn)行負(fù)擔(dān),而且若用戶(hù)量過(guò)多造成底層服務(wù)影響整個(gè)系統(tǒng)的運(yùn)行,而此時(shí)可利用橫向服務(wù)器數(shù)量的增加擴(kuò)展線性的吞吐量。因此,利用云計(jì)算平臺(tái),能夠?yàn)橛脩?hù)提供無(wú)窮大的數(shù)據(jù)吞吐能力,滿足系統(tǒng)的性能要求。
3 云計(jì)算數(shù)據(jù)挖掘平臺(tái)架構(gòu)的實(shí)現(xiàn)
3.1 開(kāi)發(fā)環(huán)境
Google的云計(jì)算開(kāi)發(fā)環(huán)境主要為App Engine。當(dāng)遇到重載或是數(shù)據(jù)量非常的情形時(shí),也能輕松構(gòu)建安全的應(yīng)用程序。這是因?yàn)榇谁h(huán)境的優(yōu)勢(shì)在于可提供動(dòng)態(tài)服務(wù)、自動(dòng)擴(kuò)展等。
3.2 開(kāi)發(fā)思想和技術(shù)
3.2.1原型開(kāi)發(fā)模型
首先,需進(jìn)行快速分析。在相關(guān)人員和用戶(hù)的共同合作下,可準(zhǔn)確確定出系統(tǒng)的需求,再結(jié)合原型的特征描述需求,來(lái)滿足開(kāi)發(fā)原型的需求。其次,原型的建構(gòu)。在經(jīng)過(guò)分析的基礎(chǔ)上,結(jié)合需求快速建構(gòu)一可行性較高的系統(tǒng)。在此情況下,需要有相應(yīng)的軟件工具提供可靠的技術(shù)支持,同時(shí)不考慮系統(tǒng)細(xì)節(jié)方面的具體要求。再次,原型的運(yùn)行。此環(huán)節(jié)是為及時(shí)發(fā)現(xiàn)問(wèn)題,從而快速消除問(wèn)題的一個(gè)關(guān)鍵環(huán)節(jié)。最后,對(duì)原型的評(píng)價(jià)。原型運(yùn)行的前提下,對(duì)原型的特性予以科學(xué)性的考核,對(duì)運(yùn)行結(jié)果能否滿足用戶(hù)期望而進(jìn)行分析。而針對(duì)該過(guò)程中存在的錯(cuò)誤或是增添的新要求等,提供合理性的修改建議和意見(jiàn)。
3.2.2基于WSGI規(guī)范的開(kāi)發(fā)
通過(guò)分析可知,在基于WSGI規(guī)范基礎(chǔ)上的開(kāi)發(fā)具有很多的優(yōu)勢(shì)。其根本目的是提升系統(tǒng)的可用性和實(shí)現(xiàn)跨平臺(tái)性操作。因此,基于WSGI規(guī)范的實(shí)現(xiàn)遠(yuǎn)比傳統(tǒng)的C/S模塊使用簡(jiǎn)單的多。用戶(hù)通過(guò)對(duì)瀏覽器來(lái)訪問(wèn)系統(tǒng),同時(shí)增加了用戶(hù)的終端的可選擇性。此外,由于WSGI規(guī)范是在Python的語(yǔ)言環(huán)境下而實(shí)現(xiàn)的。而該種語(yǔ)言屬于一種跨平臺(tái)性開(kāi)發(fā)語(yǔ)言。這樣一來(lái),不管是把已開(kāi)發(fā)的系統(tǒng)放置到云計(jì)算平臺(tái)上還是在本地開(kāi)發(fā)應(yīng)用都是極其方便的。endprint
3.3 開(kāi)發(fā)步驟
3.3.1算法模塊插件系統(tǒng)
算法模塊主要涉及到數(shù)據(jù)集清洗算法、數(shù)據(jù)挖掘算法、結(jié)果可視化算法等多種。而一個(gè)完整的執(zhí)行過(guò)程必須在原始數(shù)據(jù)集的噪聲及不規(guī)則數(shù)據(jù)的情況下借助數(shù)據(jù)集清洗算法把數(shù)據(jù)集統(tǒng)一進(jìn)行整理。也或者是由異狗、分布式等數(shù)據(jù)源中轉(zhuǎn)化而得到,再自動(dòng)生成規(guī)則的數(shù)據(jù)集。將這些規(guī)則的數(shù)據(jù)集利用數(shù)據(jù)挖掘算法予以處理,進(jìn)而獲得數(shù)據(jù)挖掘結(jié)果信息,再經(jīng)過(guò)可視化算法的處理,最終將數(shù)據(jù)信息傳遞給用戶(hù)。其中,任何一個(gè)環(huán)節(jié)數(shù)據(jù)的調(diào)用都必須利用REST接口而實(shí)現(xiàn),并且接口間的數(shù)據(jù)信息轉(zhuǎn)換和傳遞都是采用XML格式。特別是近年來(lái),由于數(shù)據(jù)挖掘平臺(tái)各種算法模塊插件的出現(xiàn),這樣一來(lái),云計(jì)算平臺(tái)下的數(shù)據(jù)挖掘平臺(tái)所提供的功能也會(huì)逐步增多。
3.3.2數(shù)據(jù)集訪問(wèn)模塊
該模塊的實(shí)現(xiàn)和上述算法模塊插件系統(tǒng)實(shí)現(xiàn)具有很多相同點(diǎn)。它也是通過(guò)插件方式進(jìn)行維護(hù)和調(diào)用的。尤其是在訪問(wèn)數(shù)據(jù)集的過(guò)程中,其訪問(wèn)模塊文件被索引處在被用戶(hù)調(diào)用的狀態(tài)。而和算法模塊插件系統(tǒng)的不同之處是在調(diào)用數(shù)據(jù)集訪問(wèn)模塊前,系統(tǒng)自動(dòng)把數(shù)據(jù)機(jī)實(shí)例文件解析成若干個(gè)元數(shù)據(jù)組合及物理訪問(wèn)地址,最后把此類(lèi)數(shù)據(jù)組合成字典類(lèi)型結(jié)構(gòu)的參數(shù)傳遞到數(shù)據(jù)機(jī)訪問(wèn)模塊中。
4 結(jié)束語(yǔ)
總體來(lái)說(shuō),在云計(jì)算平臺(tái)下的數(shù)據(jù)挖掘系統(tǒng)逐步趨于完善,增強(qiáng)了數(shù)據(jù)規(guī)約的功能,從而更好地解決異構(gòu)數(shù)據(jù)訪問(wèn)的問(wèn)題。同時(shí)在App Engin開(kāi)發(fā)平臺(tái)上,設(shè)計(jì)出一套更為完善的數(shù)據(jù)挖掘系統(tǒng),提升了云計(jì)算和數(shù)據(jù)挖掘技術(shù)結(jié)合的可靠性與高效性。文章主要針對(duì)基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)予以深入的研究,并且對(duì)今后云計(jì)算環(huán)境下的數(shù)據(jù)挖掘系統(tǒng)的延伸發(fā)展予以展望,希望能夠通過(guò)論述對(duì)讀者產(chǎn)生一些積極影響。
參考文獻(xiàn)
[1] 楊慶平.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,19(1);122-123.
[2] 黃章樹(shù).基于云計(jì)算服務(wù)模式的數(shù)據(jù)挖掘應(yīng)用平臺(tái)的構(gòu)建[J].電信科學(xué),2012,28(1);138-139.
[3] 莊福振.基于云計(jì)算的大數(shù)據(jù)挖掘平臺(tái)[J].中興通訊技術(shù),2013,19(4);130-131.
作者簡(jiǎn)介:
王水萍(1980-),女,河南許昌人,鄭州經(jīng)貿(mào)職業(yè)學(xué)院,講師;主要研究方向和關(guān)注領(lǐng)域:數(shù)據(jù)挖掘。
王方(1981-),女,河南安陽(yáng)人,鄭州經(jīng)貿(mào)職業(yè)學(xué)院,講師;主要研究方向和關(guān)注領(lǐng)域:軟件應(yīng)用。endprint