古險峰 王志
摘要:Web數(shù)據(jù)挖掘技術(shù)隨著互聯(lián)網(wǎng)的發(fā)展而不斷進(jìn)步,并獲得了廣泛運用,而云計算技術(shù)則能夠促進(jìn)數(shù)據(jù)存儲安全性與效率的提升.因此,本文將對云計算技術(shù)進(jìn)行分析,并詳細(xì)探究云計算環(huán)境下的Web數(shù)據(jù)挖掘技術(shù),希望可以為相關(guān)工作者的研究提供一些幫助.
關(guān)鍵詞:云計算環(huán)境;Web;數(shù)據(jù)挖掘;云計算技術(shù)
中圖分類號:TP311.14? 文獻(xiàn)標(biāo)識碼:A? 文章編號:1673-260X(2019)09-0056-03
進(jìn)入新時代后,隨著科學(xué)技術(shù)的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)量逐漸增加,有效提取出海量數(shù)據(jù)中蘊含的有價值數(shù)據(jù)并運用于實際生活中具有重要意義,在這一過程中,Web數(shù)據(jù)挖掘技術(shù)發(fā)揮著關(guān)鍵作用.因此,必須了解云計算技術(shù)與數(shù)據(jù)挖掘特點、分類,并在云計算環(huán)境下,詳細(xì)分析Web數(shù)據(jù)挖掘算法,提高數(shù)據(jù)挖掘的準(zhǔn)確性、有效性,從而為我國互聯(lián)網(wǎng)健康發(fā)展奠定基礎(chǔ).
1 云計算技術(shù)分析
云計算是指以互聯(lián)網(wǎng)為基礎(chǔ)的服務(wù)增加、運用以及交互模式,一般會涉及通過互聯(lián)網(wǎng)來對具有動態(tài)、虛擬化以及易擴展等特點的資源進(jìn)行提供[1].通常情況下,云計算主要包含兩種技術(shù),即虛擬技術(shù)與并行編程技術(shù).一方面,虛擬技術(shù).對云計算而言,虛擬技術(shù)屬于一種重要技術(shù),其能夠促進(jìn)計算機資源抽象化邏輯與統(tǒng)一化表達(dá)的實現(xiàn),并且有利于信息利用率的提升,即不但能夠加大存儲容量,還可以對資源分配流程進(jìn)行簡化,實現(xiàn)資源靈活分配.同時,這一技術(shù)還能夠為單個CPU對多個CPU并行處理進(jìn)行模擬提供幫助,也就是可以通過一個服務(wù)器在同時間處理眾多任務(wù),并且軟件程序還能夠在空間中運行,有利于計算機運行效率的提升.另一方面,并行編程技術(shù).這一技術(shù)屬于同時編程新技術(shù),相較于串行編程,主要區(qū)別就是在實際運用過程時選擇的是結(jié)構(gòu)編程還是過程編程.并行編程技術(shù)就是在對程序進(jìn)行編寫時,開發(fā)人員在實現(xiàn)程序并行運行的基礎(chǔ)上,促進(jìn)各模塊通訊的實現(xiàn),在一定程度上能夠促進(jìn)Web數(shù)據(jù)挖掘效率的提高.在云計算環(huán)境下,這一技術(shù)針對的是網(wǎng)絡(luò)信息較為密集的程序,也就是需要在各個節(jié)點中分布海量數(shù)據(jù),促進(jìn)計算機并行處理的實現(xiàn),并利用眾多計算機,以此來提高數(shù)據(jù)挖掘質(zhì)量與效率.
2 云計算環(huán)境下的Web數(shù)據(jù)挖掘技術(shù)
2.1 Web數(shù)據(jù)挖掘特點與分類
2.1.1 特點
通過分析可知,Web數(shù)據(jù)的特點主要表現(xiàn)雜以下幾方面:首先,異構(gòu)性.Web相當(dāng)于數(shù)據(jù)源,其中全部節(jié)點都可以產(chǎn)生數(shù)據(jù),并且信息在結(jié)構(gòu)與內(nèi)容方面都存在一定不同,并最終促進(jìn)數(shù)據(jù)庫異構(gòu)環(huán)境的形成.其次,動態(tài)靈活.對Web而言,其各節(jié)點的數(shù)據(jù)都呈現(xiàn)出動態(tài)靈活特點,并且節(jié)點信息的更新速度十分頻繁.同時,Web數(shù)據(jù)還表現(xiàn)出了復(fù)雜性特點,即其數(shù)據(jù)形式十分多元,主要涉及超鏈接、視頻、圖像以及文本等多種類型信息.再次,半結(jié)構(gòu)化.由于Web數(shù)據(jù)有著較大復(fù)雜性,并且不具備統(tǒng)一描述模型,因此,整體結(jié)構(gòu)主要呈現(xiàn)出來的是半結(jié)構(gòu)化狀態(tài).最后,分布存儲.對Web而言,其是以網(wǎng)絡(luò)為基礎(chǔ)的,并且頁面能夠在各種計算機服務(wù)器中分布存儲,有利于數(shù)據(jù)分布存儲的實現(xiàn)[2].
2.1.2 分類
Web數(shù)據(jù)挖掘主要存在三種類型:首先,結(jié)構(gòu)挖掘.這一挖掘是指對頁面結(jié)構(gòu)中價值較高的信息進(jìn)行挖掘,具體能夠被分成鏈接關(guān)系結(jié)構(gòu)、內(nèi)容結(jié)構(gòu)以及組織結(jié)構(gòu)等.總而言之,結(jié)構(gòu)挖掘主要流程就是在對Web結(jié)構(gòu)進(jìn)行挖掘時,詳細(xì)分析鏈接關(guān)系與頁面結(jié)構(gòu),找出其中有用信息,并做好鏈接及關(guān)系分類工作,從而明確權(quán)威頁面.其次,內(nèi)容挖掘.這一挖掘就是在海量的網(wǎng)頁或者是鏈接數(shù)據(jù)庫中對有價值信息進(jìn)行提取的一個過程.在內(nèi)容類型方面,這一挖掘可以被分成兩種,即多媒體挖掘與文本挖掘,而二者之間最突出的不同就是數(shù)據(jù)提取特點;而在數(shù)據(jù)挖掘方式方面,內(nèi)容挖掘則可以被細(xì)分成數(shù)據(jù)庫挖掘與數(shù)據(jù)抽取挖掘,其中,數(shù)據(jù)庫挖掘是指在數(shù)據(jù)庫中對有價值信息進(jìn)行挖掘,而抽取挖掘則針對的是已經(jīng)挖掘過的信息,通過抽取方式進(jìn)一步挖掘價值較高的信息.最后,利用挖掘.這一挖掘主要就是挖掘分析用戶登錄訪問,即利用數(shù)據(jù)挖掘技術(shù),促進(jìn)網(wǎng)絡(luò)信息服務(wù)質(zhì)量與效率的大幅度提升,在Web服務(wù)器的性能參數(shù)完善方面發(fā)揮著重要作用.
2.2 以云計算為基礎(chǔ)的Web數(shù)據(jù)挖掘
2.2.1 數(shù)據(jù)挖掘體系
Web數(shù)據(jù)挖掘能夠被分成眾多節(jié)點,并且通過對云計算技術(shù)的利用,能夠進(jìn)一步加強這一體系中各節(jié)點聯(lián)系,促進(jìn)完善數(shù)據(jù)挖掘體系的形成.其中,主控節(jié)點主要是對各節(jié)點和客戶端進(jìn)行連接;數(shù)據(jù)節(jié)點的作用是存儲數(shù)據(jù);算法節(jié)點則可以將有效算法支撐提供給數(shù)據(jù)挖掘,在一定程度上,能夠把其當(dāng)作算法倉庫;而服務(wù)節(jié)點的作用就是對主控發(fā)布的任務(wù)進(jìn)行執(zhí)行,并把計算結(jié)果反饋出來.基于這一挖掘體系功能,可以詳細(xì)劃分體系層面,即服務(wù)層、控制層、數(shù)據(jù)存儲層以及業(yè)務(wù)處理層等.首先,服務(wù)層就是利用這一體系對數(shù)據(jù)進(jìn)行詳細(xì)挖掘,并向用戶呈現(xiàn)具體結(jié)果;其次,控制層中的主控節(jié)點需要做好用戶反饋結(jié)果的分析工作,明確最佳算法,以此來促進(jìn)高效數(shù)據(jù)挖掘的實現(xiàn);再次,算法與存儲層主要工作就是對反饋回來的數(shù)據(jù)與算法進(jìn)行存儲,其存儲的數(shù)據(jù)不但包含原始數(shù)據(jù),還涉及挖掘結(jié)果,有利于避免出現(xiàn)算法或者是數(shù)據(jù)丟失問題,即使系統(tǒng)發(fā)生了故障,也能夠通過對存儲區(qū)的利用及時獲得丟失數(shù)據(jù),并展開數(shù)據(jù)恢復(fù)工作;最后,業(yè)務(wù)處理層的作用就是挖掘存儲層中的數(shù)據(jù),并經(jīng)由主控點重新分配數(shù)據(jù),之后再通過服務(wù)節(jié)點重新回到主控節(jié)點中[3].
2.2.2 數(shù)據(jù)挖掘算法
Web數(shù)據(jù)挖掘技術(shù)就是在連接、網(wǎng)頁以及日志中對需要數(shù)據(jù)信息進(jìn)行尋找的一種技術(shù),而WebGraph則是重要數(shù)據(jù)結(jié)構(gòu)之一,其能夠有效描述Web信息,在社交網(wǎng)絡(luò)、搜索結(jié)果排序以及網(wǎng)絡(luò)爬蟲等方面得到了廣泛運用,并發(fā)揮著重要作用.因此,本文研究的重點就是Graph算法,詳細(xì)探究了其數(shù)據(jù)結(jié)構(gòu),并分析了以云計算為基礎(chǔ)的Graph數(shù)據(jù)獲取方案,即加強對Hadoop這一份不是基礎(chǔ)框架的利用.Java是這一框架主要的語言,因此,本文將通過這一語言來對挖掘算法進(jìn)行描述,這也就使得必須選擇相應(yīng)數(shù)據(jù)模型,做好真實網(wǎng)絡(luò)鏈接關(guān)系的抽象描述.同時,由于WebGraph與Web鏈接分析都是以圖論算法為基礎(chǔ)的,因此,把其抽象成圖形分析能夠為數(shù)據(jù)處理分析提供較大便利[4].
首先,算法數(shù)據(jù)結(jié)構(gòu).Webgraph算法在分析數(shù)據(jù)時,必須借助相應(yīng)數(shù)據(jù)描述方法.本文研究主要采取的是矩陣法來對數(shù)據(jù)進(jìn)行描述,只需要嚴(yán)格遵循行列方式,做好各節(jié)點數(shù)據(jù)排列工作,就能夠促進(jìn)網(wǎng)絡(luò)矩陣的形成,而矩陣階數(shù)則是網(wǎng)絡(luò)的節(jié)點數(shù).若這一算法是對網(wǎng)頁的鏈接關(guān)系模型進(jìn)行描述,那么其邏輯關(guān)系則可以通過矩陣描述出來.對矩陣而言,其元素的作用就是判斷并表示出行、列標(biāo)號節(jié)點之間是不是存在相應(yīng)聯(lián)系.在取值方面,矩陣元素可以出現(xiàn)差異,主要目的就是對和各個節(jié)點存在各種程度的Graph進(jìn)行表述,還可以通過對Graph的利用,將社交網(wǎng)絡(luò)中用戶關(guān)系充分表現(xiàn)出來.通常情況下,在社交網(wǎng)絡(luò)中,用戶關(guān)系屬于雙向的,也就是用戶只有互相認(rèn)可,才能加為好友,這也就為通過對稱矩陣的利用來表述用戶關(guān)系數(shù)據(jù)結(jié)構(gòu)提供了可能.另外,在高級語言中,還能夠通過二維數(shù)組對矩陣進(jìn)行表述,因此,若需要采取高級語言來促進(jìn)Graph處理算法的實現(xiàn),則可以把矩陣當(dāng)作數(shù)據(jù)結(jié)構(gòu).
其次,數(shù)據(jù)存儲方式.本文分析的GraphML屬于具有穩(wěn)定性、長期性特點的信息存儲方案,并且以XML語言為基礎(chǔ)的GraphML則是對圖進(jìn)行描述的一種通用文件格式.相較于其他專有文件格式,這一格式能夠完全由XML表示出來,并且大部分開發(fā)語言都可以對GraphML進(jìn)行解析.在這一背景下,其在Graph生成、處理以及存儲等方面得到了廣泛運用.同時,GraphML還具有簡便、直觀等特點,可以為開發(fā)人員理解提供便利,并且在數(shù)據(jù)修改與分析方面,其還降低了一定難度,不但可以幫助開發(fā)人員修改,還能夠為程序開發(fā)奠定良好基礎(chǔ)[5].當(dāng)前,常見Graph數(shù)據(jù)結(jié)構(gòu)主要有分級圖、有向圖、圖形顯示、輕量級的語法分析器、超圖、有向無向共存圖、特定屬性數(shù)據(jù)以及無向圖等,而上述數(shù)據(jù)結(jié)構(gòu)都能夠做好描述工作.
最后,數(shù)據(jù)抓取.以WebGraph算法為基礎(chǔ)的數(shù)據(jù)挖掘技術(shù)主要是利用頁面爬取方式來得到需要的頁面信息,之后再詳細(xì)分析其中的Web連接,并最終促進(jìn)Graph結(jié)構(gòu)的形成.運算量大是這一挖掘算法的突出特點,尤其是在對以文本為基礎(chǔ)的頁面鏈接任務(wù)進(jìn)行分析時,必須會消耗眾多計算資源,而除Web頁面關(guān)聯(lián)之外,還可以通過對Graph結(jié)構(gòu)的利用,完成顯示常見事物關(guān)聯(lián)的描述,也就是社交網(wǎng)絡(luò)用戶.在當(dāng)前技術(shù)快速發(fā)展情況下,多樣化在線社交網(wǎng)絡(luò)得到了人們的重視,并滲入其日常生活.以Facebook為例,其注冊用戶遠(yuǎn)遠(yuǎn)大于20億,這也就使得其中蘊含著大量用戶關(guān)系,與挖掘算法研究對象需求相符.因此,本文研究將把Facebook用戶關(guān)系數(shù)據(jù)當(dāng)作研究對象,詳細(xì)分析以云計算為基礎(chǔ)的Web數(shù)據(jù)挖掘技術(shù).
一方面,應(yīng)用程序創(chuàng)建.本文研究設(shè)計出了以Facebook為基礎(chǔ)的應(yīng)用,其目的就是獲得相應(yīng)的用戶關(guān)系.這一社交網(wǎng)站可以對程序編程的接口進(jìn)行提供,能夠為研究人員程序開發(fā)提供便利,并使程序在Facebook上更好運行.而要想實現(xiàn)這一目的,則必須先獲得相應(yīng)接口密鑰,即研發(fā)人員應(yīng)該在Get Started這一站點得到相應(yīng)開發(fā)資料,做好資料填寫與申請等流程,這樣,就能夠獲得相應(yīng)的ID與密鑰,而在后續(xù)程序開發(fā)中,這些密鑰則占據(jù)著核心地位,發(fā)揮著重要作用.目前,F(xiàn)acebook官方已經(jīng)不再支持Java開發(fā)接口,這使得開發(fā)人員必須選擇第三方接口,但Google Code則創(chuàng)建了相應(yīng)項目,其目的就是為失去支持的代碼庫提供維護(hù)與擴展,并將優(yōu)秀API提供給開發(fā)人員,從而進(jìn)一步開發(fā)應(yīng)用程序.另一方面,用戶關(guān)系獲取.要想促進(jìn)用戶交互的實現(xiàn),就必須加強對Java Servlet的利用,完成和瀏覽器之間的通信.這也就意味著需要對Servlet類進(jìn)行自定義,通常情況下,其與常規(guī)Web項目之間沒有不同,只需要將初始化的參數(shù)添加到相應(yīng)的文件中.同時,為了準(zhǔn)確獲取用戶關(guān)系數(shù)據(jù),必須先得到其好友數(shù)據(jù),當(dāng)前,API將三種用戶好友列表登錄方式提供給了開發(fā)者,這三種方式的作用相同,僅在返回格式方式存在差異,主要有XML、JSON以及JAXB.因此,在具體研究過程中,本文只需要通過對堆棧結(jié)構(gòu)的利用,做好大量用戶訪問工作,得到其關(guān)聯(lián)并存儲,就可以促進(jìn)數(shù)據(jù)挖掘的實現(xiàn)[6].
3 結(jié)論
綜上所述,做好基于云計算環(huán)境的Web數(shù)據(jù)挖掘技術(shù)分析已經(jīng)成為一項重要工作.因此,必須掌握虛擬技術(shù)與并行編程技術(shù)等云計算技術(shù),了解Web數(shù)據(jù)挖掘的異構(gòu)性、動態(tài)靈活、分布存儲等特點與結(jié)構(gòu)、內(nèi)容以及利用等類型,建立健全數(shù)據(jù)挖掘體系,并從算法數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)存儲方式以及數(shù)據(jù)抓取等方面入手,促進(jìn)數(shù)據(jù)挖掘質(zhì)量與效率的提升.
——————————
參考文獻(xiàn):
〔1〕朱娜.基于云計算技術(shù)的數(shù)據(jù)挖掘平臺設(shè)計與實現(xiàn)[J].信息記錄材料,2018,19(06):79-81.
〔2〕葛曉玢,劉杰.基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)研究[J].景德鎮(zhèn)學(xué)院學(xué)報,2017,32(03):26-29.
〔3〕薛醫(yī)貴.云計算在WEB數(shù)據(jù)挖掘技術(shù)中的應(yīng)用研究[J].自動化與儀器儀表,2017(05):156-157+161.
〔4〕張耀東,張嫻靜.數(shù)據(jù)加密技術(shù)在計算機網(wǎng)絡(luò)通信安全中的應(yīng)用分析[J].赤峰學(xué)院學(xué)報,2018(05):42-43.
〔5〕葛曉玢,劉杰.基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)研究[J].景德鎮(zhèn)學(xué)院學(xué)報,2017(03):26-29.
〔6〕陳磊.基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)研究[J].電腦編程技巧與維護(hù),2017(06):64-65.