国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)研究

2019-02-07 05:37金鑫
無線互聯(lián)科技 2019年22期
關(guān)鍵詞:云計(jì)算數(shù)據(jù)挖掘互聯(lián)網(wǎng)

金鑫

摘? ?要:隨著計(jì)算機(jī)的迅猛發(fā)展,基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,使得以往數(shù)據(jù)挖掘方式不能夠解決海量數(shù)據(jù)等問題得到了充分且有效的解決。文章主要圍繞基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)展開了研究,首先闡述了相關(guān)概念和基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)具有的優(yōu)勢,接著提出了基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用,最后介紹了基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)面臨的問題與挑戰(zhàn)。

關(guān)鍵詞:云計(jì)算;數(shù)據(jù)挖掘;互聯(lián)網(wǎng)

伴隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的迅猛發(fā)展,社會已步入大數(shù)據(jù)時(shí)代。然而,數(shù)據(jù)呈海量態(tài)勢增加,給數(shù)據(jù)挖掘工作帶來了較大的難度與挑戰(zhàn)。云計(jì)算的出現(xiàn)是解決上述問題的有效措施,它不僅可以將分散在不同計(jì)算機(jī)的數(shù)據(jù)整合在統(tǒng)一云端中,而且也為數(shù)據(jù)獲取與挖掘提供了巨大的便利。此外,云計(jì)算具有的彈性計(jì)算能力和海量存儲能力,也是解決海量數(shù)據(jù)挖掘困難等問題的重要途徑。

1? ? 相關(guān)內(nèi)涵概述

數(shù)據(jù)挖掘技術(shù)從本質(zhì)來講就是圍繞數(shù)據(jù)進(jìn)行的有效整理,是服務(wù)于數(shù)據(jù)應(yīng)用、共享等的一種技術(shù)形式,可以將看似毫無關(guān)聯(lián)的數(shù)據(jù)進(jìn)行深入剖析并對其進(jìn)行合理化分類,之后將分類好的數(shù)據(jù)予以深入分析,以此形成特定的結(jié)論。數(shù)據(jù)挖掘技術(shù)概念具有一定的系統(tǒng)性特征,囊括了多個(gè)子系統(tǒng)和關(guān)聯(lián)技術(shù),其功能主要通過以下幾個(gè)方面得以體現(xiàn):首先,具有分類聚類功能。在圍繞相同的交易數(shù)據(jù)庫予以管理時(shí),可以針對項(xiàng)目間關(guān)系予以剖析,并依托專業(yè)化軟件和分類聚類技術(shù)實(shí)現(xiàn)對數(shù)據(jù)的合理化分組,從而為后續(xù)數(shù)據(jù)查詢與應(yīng)用提供便利。其次,具有分析預(yù)測功能。數(shù)據(jù)挖掘技術(shù)可以對數(shù)據(jù)間存在的規(guī)律進(jìn)行總結(jié),同時(shí),數(shù)據(jù)間潛在的自變量或因變量等關(guān)系的挖掘也可以借助數(shù)據(jù)挖掘技術(shù)來實(shí)現(xiàn),是后續(xù)決策制定時(shí)的主要參考依據(jù)。最后,數(shù)據(jù)挖掘技術(shù)可以實(shí)現(xiàn)虛列模式編輯功能,在基于時(shí)間順序背景下實(shí)現(xiàn)對數(shù)據(jù)間內(nèi)在聯(lián)系的深入分析,并按照等級不同實(shí)現(xiàn)層次的劃分,便于后續(xù)更好地應(yīng)用與開發(fā)。

云計(jì)算是以互聯(lián)網(wǎng)為基礎(chǔ)形成的一種服務(wù)模式,資源虛擬化是其最為突出的特點(diǎn)。在使用數(shù)據(jù)的用戶中,其對于數(shù)據(jù)存儲地并不知曉,同時(shí)數(shù)據(jù)存儲方式也主要以分布存儲為主[1]。云計(jì)算對服務(wù)器規(guī)模和服務(wù)的安全性和可靠性都有著較高的要求,同時(shí)其服務(wù)模式也是海量數(shù)據(jù)得以正常使用和存儲的基本保障。

基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)有著一般數(shù)據(jù)挖掘系統(tǒng)不可比擬的優(yōu)勢,主要原因有以下兩種:(1)數(shù)據(jù)挖掘技術(shù)本質(zhì)而言就是以海量數(shù)據(jù)為面向進(jìn)行的處理活動,數(shù)據(jù)量與復(fù)雜程度成正比,所以,依托云計(jì)算可以實(shí)現(xiàn)與數(shù)據(jù)挖掘技術(shù)的充分融合,從而使數(shù)據(jù)挖掘和數(shù)據(jù)處理的能力都能得到顯著的提升。(2)以云計(jì)算技術(shù)為支撐的分布式存儲技術(shù)的運(yùn)用,可以改變原本數(shù)據(jù)挖掘?qū)Ψ?wù)器性能要求高等要求。由此可見,基于云計(jì)算環(huán)境下的數(shù)據(jù)挖掘技術(shù)不僅擁有了更豐富的數(shù)據(jù)源,而且數(shù)據(jù)挖掘分布式處理方式也更加便利,提升了數(shù)據(jù)挖掘技術(shù)基于同等條件下處理多種數(shù)據(jù)的便利性。

2? ? 基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)的優(yōu)勢

基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)共具有以下幾點(diǎn)優(yōu)點(diǎn):第一,可以對底層予以隱蔽處理,后續(xù)數(shù)據(jù)開發(fā)工作便利性能夠大大提升。在這一背景下,計(jì)算分配或計(jì)算調(diào)度任務(wù)等問題均不納入用戶考慮內(nèi)容當(dāng)中,不僅能夠促進(jìn)工作效率的提高,而且操作起來也更加便利;第二,無論是大規(guī)模數(shù)據(jù)處理能力,還是處理速度都有了顯著的提升;第三,由于對機(jī)器性能要求有所降低,相應(yīng)的數(shù)據(jù)處理成本較之前相比也會低,能夠獲得更多的收益;第四,可以根據(jù)自身需求從海量數(shù)據(jù)信息中快速找出所需信息,既實(shí)現(xiàn)了開發(fā)環(huán)境和應(yīng)用環(huán)境的創(chuàng)造,又簡化了挖掘任務(wù)。

3? ? 基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用

3.1? 算法

云計(jì)算環(huán)境下,數(shù)據(jù)具有類型豐富和形式多樣等特點(diǎn),數(shù)據(jù)規(guī)模也呈現(xiàn)了逐漸擴(kuò)大的趨勢。想要對這些數(shù)據(jù)予以整理和分析,并挖掘其中潛在的關(guān)聯(lián),將其整合供用戶使用,算法不僅是至關(guān)重要的技術(shù),而且也是關(guān)鍵工具。一般來講,處于云計(jì)算環(huán)境下的數(shù)據(jù)量大小并不能精準(zhǔn)估計(jì),僅依靠小規(guī)模分布式計(jì)算機(jī)集群完成對大批量數(shù)據(jù)的處理是不現(xiàn)實(shí)的,同時(shí)在這一過程中,存在的運(yùn)算部署難度大和成本投放大等客觀現(xiàn)實(shí)問題也不容忽視?;诖?,可以將云計(jì)算基數(shù)和數(shù)據(jù)挖掘整合起來,能夠起到重要作用。具體來講,可以建構(gòu)以Hadoop為基礎(chǔ)的開源并行數(shù)據(jù)挖掘平臺,在Map Reduce框架的支撐下完成數(shù)據(jù)處理工作。

基于云計(jì)算的數(shù)據(jù)挖掘算法通常還會與其他領(lǐng)域算法進(jìn)行結(jié)合,例如人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)與基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)的整合,可以使多數(shù)數(shù)據(jù)的處理與分析同時(shí)進(jìn)行。深度學(xué)習(xí)算法是以大批量數(shù)據(jù)為對象予以的處理工作,同時(shí),在樣本集的訓(xùn)練依托下可以實(shí)現(xiàn)算法的自動數(shù)據(jù)處理與挖掘。遺傳算法也是數(shù)據(jù)挖掘技術(shù)中應(yīng)用相對廣泛的一種算法,主要是以可視化技術(shù)為手段,在動畫和影像技術(shù)的支撐下促進(jìn)內(nèi)容形象化、可視化展現(xiàn),從而給用戶帶來更好的體驗(yàn),不僅使信息技術(shù)展示模式逐漸豐富起來,而且對其推廣與應(yīng)用也具有積極意義。

3.2? 用戶數(shù)據(jù)處理

就需要處理的數(shù)據(jù)源來講,用戶要立足于自身實(shí)際需求對數(shù)據(jù)來源進(jìn)行合理化安排。部分還需要購買新的需求數(shù)據(jù),在用戶獲取到所需數(shù)據(jù)后,就可以以云計(jì)算DaaS服務(wù)模式為輔助和手段開展對數(shù)據(jù)的管理。用戶在數(shù)據(jù)挖掘系統(tǒng)應(yīng)用背景下,可以保證自身所需數(shù)據(jù)能夠快速且準(zhǔn)確地被找出,為后續(xù)的數(shù)據(jù)處理奠定了良好的基礎(chǔ)。同時(shí),用戶也可以將個(gè)人數(shù)據(jù)置身于系統(tǒng)中予以共享,從而為其他用戶的處理提供便利。在這一過程中不同用戶數(shù)據(jù)處理結(jié)果也是相互獨(dú)立的。此外,也可以借助數(shù)據(jù)挖掘系統(tǒng)中分類聚類功能,針對用戶數(shù)據(jù)予以科學(xué)化劃分,也是用戶數(shù)據(jù)實(shí)現(xiàn)動態(tài)管理的重要前提。在針對數(shù)據(jù)予以處理的過程中要堅(jiān)持以下原則:只在算法的支撐下進(jìn)行數(shù)據(jù)處理,確保原數(shù)據(jù)相關(guān)屬性的固定不變。因此,數(shù)據(jù)是可以多次利用的。

3.3? Map? Reduce模型

Map Reduce是基于云計(jì)算的數(shù)據(jù)挖掘過程中最常應(yīng)用的并行計(jì)算模型,是大數(shù)據(jù)處理非常流行的并行模型,常常被應(yīng)用到商業(yè)與科學(xué)領(lǐng)域,如生物信息學(xué)、索引、網(wǎng)絡(luò)等等。Map Reduce程序用來計(jì)算大規(guī)模海量數(shù)據(jù),簡單來講就是以大數(shù)據(jù)為基礎(chǔ),處于Hadoop下的并行核算框架[2]。此框架一方面其容錯特性較強(qiáng),另一方面也是確保數(shù)據(jù)順利傳遞的重要保障,推動了大批量數(shù)據(jù)高效運(yùn)算的實(shí)現(xiàn)。Map Reduce執(zhí)行有3個(gè)階段,分別是輸入階段、Map階段和 Reduce階段,輸入階段是進(jìn)行錄入及拷貝的過程,是執(zhí)行的最初階段;Map階段是分配Map任務(wù)及解析key/value對的過程;Reduce是最后一個(gè)階段,合并key/value對,輸出R文件。通常來說,Map Reduce并行計(jì)算可以細(xì)分為Map和Reduce兩種任務(wù),這些任務(wù)由Map器和Reduce器來執(zhí)行。無論是上述兩種任務(wù)哪個(gè)執(zhí)行過程中,數(shù)據(jù)挖掘系統(tǒng)都會將現(xiàn)有數(shù)據(jù)進(jìn)行自主劃分,使其以多個(gè)獨(dú)立小模塊的形式存在。之后,被劃分的小模塊會在Datanode各個(gè)節(jié)點(diǎn)中予以分布,從而保證了后續(xù)統(tǒng)一核算處理的順利進(jìn)行。上述方式可以以數(shù)據(jù)為面向完成分布式核算處理,既能夠有效提升數(shù)據(jù)處理速度,又可以使服務(wù)器集中處理數(shù)據(jù)負(fù)載得到顯著地降低,其效率也得到了相應(yīng)的提升。在圍繞海量數(shù)據(jù)予以處理的過程中,可以在Map Reduce任務(wù)分配功能框架支撐下完成Datanode各節(jié)點(diǎn)的設(shè)定工作,并將處理階段和核算節(jié)點(diǎn)予以統(tǒng)一化的分布式管理,這也是Hadoop數(shù)據(jù)處理過程中遇到的各種問題得到有效解決與處理的重要前提。

4? ? 基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)面臨的問題與挑戰(zhàn)

據(jù)了解,目前云計(jì)算依然處于初級階段,各方面還有待完善與發(fā)展,在這一過程中也必然會面臨著一些問題與挑戰(zhàn),主要囊括在以下幾個(gè)方面:第一,無論是軟件還是服務(wù),其可信度都有待提升。云計(jì)算要將隱私安全問題給予高度重視,從而使其隱私安全保護(hù)能力得到充分的提升,確保用戶使用過程中的安全。第二,不確定性因素較多。例如數(shù)據(jù)挖掘方法和結(jié)果、挖掘結(jié)果評價(jià)和數(shù)據(jù)挖掘任務(wù)等都是構(gòu)成不確定因素中的重要內(nèi)容。第三,算法的選擇問題。遇到不同問題,就要選擇與之相應(yīng)且合理的算法和策略,以此完成數(shù)據(jù)處理工作,這也是基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)需要強(qiáng)化的地方。

數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中,還存在驗(yàn)證技術(shù)局限性強(qiáng)等問題。通常來講,技術(shù)應(yīng)用過程中需要借助特定分析方法和邏輯形式以此發(fā)現(xiàn)知識[3]。如果對已經(jīng)發(fā)現(xiàn)的知識系統(tǒng)不具備相應(yīng)的能力來對其予以交互證實(shí),會導(dǎo)致已經(jīng)發(fā)現(xiàn)的知識實(shí)用性不強(qiáng)。對于部分有待挖掘的數(shù)據(jù)來講,其本身就存在不正確的可能。基于此,數(shù)據(jù)挖掘有效性也會受到?jīng)_擊。想要使數(shù)據(jù)挖掘結(jié)構(gòu)價(jià)值得到充分保障,就需要基于用戶對自身數(shù)據(jù)有清晰了解的基礎(chǔ)上來進(jìn)行,這樣可以推動數(shù)據(jù)挖掘輸出結(jié)果質(zhì)量的提升,而且也能使挖掘到的數(shù)據(jù)具有的價(jià)值得到充分發(fā)揮,更好地提供服務(wù)。

5? ? 結(jié)語

綜上所述,數(shù)據(jù)挖掘技術(shù)是處理海量數(shù)據(jù)過程中的一種常用且有效的方式。近年來,數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍也有了顯著拓寬。云計(jì)算在數(shù)據(jù)挖掘過程中有著較為突出的優(yōu)勢,無論是分布式存儲,還是基于云計(jì)算的Map Reduce計(jì)算模型等,都給數(shù)據(jù)挖掘過程提供了重要的輔助,既有效提升了數(shù)據(jù)挖掘效率,又保障了數(shù)據(jù)處理的質(zhì)量。

[參考文獻(xiàn)]

[1]李慶年.基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)應(yīng)用與發(fā)展[J].無線互聯(lián)科技,2019(10):134-135.

[2]楊繼武.云計(jì)算視域下數(shù)據(jù)挖掘技術(shù)[J].電子技術(shù)與軟件工程,2019(5):151.

[3]商挺.淺談基于云計(jì)算的大數(shù)據(jù)挖掘及解決方案[J].中國新通信,2018(23):68.

猜你喜歡
云計(jì)算數(shù)據(jù)挖掘互聯(lián)網(wǎng)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
從“數(shù)據(jù)新聞”看當(dāng)前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
互聯(lián)網(wǎng)背景下大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目的實(shí)施
實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究