彭華林
摘要:目前,世界上各個(gè)國(guó)家都在努力發(fā)展科學(xué)技術(shù),各項(xiàng)技術(shù)也迅速成熟起來,很多高新技術(shù)已然成為國(guó)家的經(jīng)濟(jì)支柱,科學(xué)創(chuàng)新對(duì)于一個(gè)國(guó)家發(fā)展的推動(dòng)作用越來越明顯。對(duì)于社會(huì)經(jīng)濟(jì)而言,全新的科技創(chuàng)新服務(wù)平臺(tái)只是一個(gè)新的形式,我們要做的是參考不同的情況,有效地提升科技資源的利用率,并將生產(chǎn)、學(xué)習(xí)、研究結(jié)合在一起,充分地發(fā)揮其在科技方面的推動(dòng)作用。使科學(xué)技術(shù)更快的轉(zhuǎn)換為生產(chǎn)力,成為國(guó)家科學(xué)經(jīng)濟(jì)中的重要支撐力量。隨著互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)和人工智能等信息技術(shù)的不斷發(fā)展和進(jìn)步,形成了爆發(fā)式的大數(shù)據(jù)時(shí)代,各行各業(yè)都面臨著海量資源數(shù)據(jù)的分析和處理問題,大數(shù)據(jù)資源挖掘技術(shù)就成了資源數(shù)據(jù)分析和處理的關(guān)鍵技術(shù)。因此,在云平臺(tái)下,大數(shù)據(jù)資源挖掘技術(shù)在各個(gè)領(lǐng)域的應(yīng)用與創(chuàng)新要求有所提升,加快大數(shù)據(jù)資源挖掘技術(shù)發(fā)展已經(jīng)成為硬性要求,不僅如此,大數(shù)據(jù)挖掘技術(shù)的進(jìn)步也在促進(jìn)信息技術(shù)不斷提升,并從這些大數(shù)據(jù)資源中挖掘更多有用的決策信息與重要價(jià)值,促進(jìn)社會(huì)經(jīng)濟(jì)快速發(fā)展。
關(guān)鍵詞:云平臺(tái);大數(shù)據(jù);資源挖掘;信息技術(shù)
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)11-0010-03
現(xiàn)在人類的發(fā)展可以說是一日千里,社會(huì)的快速發(fā)展也給社會(huì)的科學(xué)創(chuàng)新能力提出了更高的要求,特別是云計(jì)算、大數(shù)據(jù)和人工智能等信息技術(shù)。對(duì)于一個(gè)國(guó)家而言,科學(xué)技術(shù)對(duì)經(jīng)濟(jì)起到非常重要的推動(dòng)作用,不論是國(guó)家還是地區(qū),綜合實(shí)力的競(jìng)爭(zhēng)歸根到底就是科技的競(jìng)爭(zhēng),云計(jì)算、大數(shù)據(jù)等科學(xué)技術(shù)在國(guó)家支持下,經(jīng)過大量技術(shù)研發(fā)與實(shí)踐應(yīng)用,科技創(chuàng)新服務(wù)平臺(tái)為我們今后的工作和生活提供了有力的技術(shù)支持。不僅如此,全世界各種高科技企業(yè)投入了大量的科技力量創(chuàng)新發(fā)展,科技創(chuàng)新服務(wù)對(duì)于國(guó)際社會(huì)來說起到非常重要的推動(dòng)與發(fā)展作用。因此,各行各業(yè)搭建各種科技創(chuàng)新服務(wù)平臺(tái)會(huì)大大提升與影響全球科技進(jìn)步、共建和共享科技成果。綜上所述,對(duì)科技創(chuàng)新服務(wù)平臺(tái)中的各種大數(shù)據(jù)采用云技術(shù)進(jìn)行數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)資源挖掘和應(yīng)用,迅速、高效獲取重要知識(shí)和決策信息。所以,云平臺(tái)下的大數(shù)據(jù)資源挖掘技術(shù)具有重要的價(jià)值作用。
1 大數(shù)據(jù)資源挖掘技術(shù)原理
為了能夠從云平臺(tái)的角度上深入地挖掘大數(shù)據(jù)方面的內(nèi)容,在開展研究工作之前,我們先要做的就是要了解該技術(shù)采用什么樣的技術(shù)原理。經(jīng)過改良之后的科技創(chuàng)新服務(wù)平臺(tái)結(jié)構(gòu)體系,能夠有效地完成數(shù)據(jù)資源的挖掘工作,構(gòu)建一個(gè)穩(wěn)定的平臺(tái)環(huán)境,著重介紹平臺(tái)的環(huán)境情況,再詳細(xì)地了解過平臺(tái)的體系之后,就可以更好地完成數(shù)據(jù)資源挖掘技術(shù)的改善工作。大數(shù)據(jù)資源挖掘的原理就是數(shù)據(jù)資源挖掘技術(shù),這一項(xiàng)技術(shù)提供了更好的該來那個(gè)計(jì)劃,是整個(gè)計(jì)劃能夠不受阻礙。
1.1 科技創(chuàng)新服務(wù)平臺(tái)結(jié)構(gòu)體系科技創(chuàng)新服務(wù)平臺(tái)結(jié)構(gòu)
這個(gè)平臺(tái)的結(jié)構(gòu)被分成以下幾個(gè)部分,它們分別是:用戶層,網(wǎng)絡(luò)層,資源層和數(shù)據(jù)層。用戶層包括平臺(tái)的使用者,這些使用者中包括與科學(xué)技術(shù)服務(wù)相關(guān)的人員和客戶,不僅如此,該部分還囊括了一些科學(xué)技術(shù)提供商,資源提供者等,這部分中還有利益獲得者;網(wǎng)絡(luò)層說的就是平時(shí)使用的操作平臺(tái),這一層聯(lián)系著其他許多層,在向他人展示其科研成果的時(shí)候,提供一些便利的操作方式;資源層把運(yùn)營(yíng)層看作是媒介,能夠幫助其提供專業(yè)的科技服務(wù);數(shù)據(jù)層的載體是平臺(tái),能夠有效地實(shí)現(xiàn)資源的挖掘分析工作,并整理完善客戶相關(guān)信息,使得資源推動(dòng)的效率有較大幅度的提升。
1.2 大數(shù)據(jù)資源挖掘依據(jù)
第一不要做的就是得到大數(shù)據(jù)資源,我們把得到的資源分成兩個(gè)部分,第一部分是數(shù)據(jù)預(yù)處理然后備用,第二部分是利用專業(yè)的處理方式來整理數(shù)據(jù),就能夠更加科學(xué)的對(duì)數(shù)據(jù)進(jìn)行分析,之后再利用專業(yè)的數(shù)據(jù)分析手段將數(shù)據(jù)進(jìn)行分類,利用這樣的方式完成數(shù)據(jù)挖掘的工作。
2 云計(jì)算定義及架構(gòu)
2.1 云計(jì)算定義
云計(jì)算就是我們常說的計(jì)算平臺(tái),利用專業(yè)的數(shù)據(jù)平臺(tái),能夠使用服務(wù)器完成規(guī)模較大的計(jì)算,并采用動(dòng)態(tài)的數(shù)據(jù)流動(dòng)的處理方式,為計(jì)算提供各類數(shù)據(jù)材料。云計(jì)算結(jié)合了各種科學(xué)的計(jì)算方式,采購采用更加便捷的方式處理好計(jì)算結(jié)果。在實(shí)施云計(jì)算的過程中,可以采取更加科學(xué)的計(jì)算方式來滿足顧客各方面的需求,同時(shí)還必須做好資源的分配工作,這種計(jì)算方式的成本比現(xiàn)在使用的計(jì)算成本相比,在存儲(chǔ)能力上有較大的優(yōu)勢(shì),因此更加適合在實(shí)踐過程中使用。
2.2 基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)架構(gòu)
云計(jì)算在很多方面都具有比較大的優(yōu)勢(shì),首先云計(jì)算框架在硬件資源的設(shè)置方面比較簡(jiǎn)單,同時(shí)在消耗方面的成本也比較低,與其他模塊采用配合的方式,使項(xiàng)目在研發(fā)的過程中能夠直接使用研究得到的成果。數(shù)據(jù)挖掘技術(shù)在應(yīng)用中使用,必須要利用好算法獨(dú)有的特點(diǎn),之后在使用各種算法,從而實(shí)現(xiàn)各項(xiàng)功能與各個(gè)模塊之間的合作。
2.2.1 目標(biāo)系統(tǒng)模型
系統(tǒng)中的各個(gè)模塊主要是為了能夠在實(shí)踐操作過程中,可以給用戶提供足夠的便利,幫助他們處理好各種各樣的問題,給用戶更好的使用體驗(yàn),在這個(gè)系統(tǒng)上搭建的應(yīng)用程序,可以采用性能更好的接口。除此之外,在實(shí)踐的過程中還可以利用終端完成各種應(yīng)用服務(wù),在研究的過程中,可以對(duì)各種應(yīng)用算法或者是其他處理數(shù)據(jù)的方式,進(jìn)而有效地增強(qiáng)計(jì)算機(jī)的數(shù)據(jù)儲(chǔ)存能力。
2.2.2 功能層次框架設(shè)計(jì)
云計(jì)算的各種程序接口之中,每一個(gè)借口都是為了云平臺(tái)的計(jì)算而設(shè)置的。用戶以及云計(jì)算之間是彼此交互的關(guān)系。采用開放式的借口可以給用戶提供數(shù)量更多的、有價(jià)值的信息,從而整理出一個(gè)完整的數(shù)據(jù)集,同時(shí)還可以幫助用戶使用各類算法,幫助各種應(yīng)用形成有效的集合,幫助實(shí)現(xiàn)平臺(tái)的各項(xiàng)功能。
3 云計(jì)算技術(shù)下資源挖掘平臺(tái)設(shè)計(jì)方案
3.1 系統(tǒng)總體設(shè)計(jì)云
同計(jì)算技術(shù)進(jìn)行設(shè)計(jì)的數(shù)據(jù)挖掘平臺(tái),其中大致包含有三層結(jié)構(gòu)模式,這之中包含有數(shù)據(jù)預(yù)處理、云計(jì)算以及數(shù)據(jù)挖掘平臺(tái),這些部分都是平臺(tái)中比較重要的內(nèi)容,對(duì)于平臺(tái)性能而言具有重要的意義,能夠發(fā)揮出數(shù)據(jù)的挖掘功能,在完成數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)的設(shè)計(jì)工作時(shí),采用相應(yīng)的方式進(jìn)行存儲(chǔ),使得整個(gè)平臺(tái)能夠采用分布式的管理辦法;數(shù)據(jù)挖掘平臺(tái)在現(xiàn)實(shí)操作中發(fā)揮了重要的作用,因此在設(shè)計(jì)的過程中必須要結(jié)合實(shí)際情況。
3.2 系統(tǒng)功能設(shè)計(jì)
在利用云計(jì)算技術(shù)進(jìn)行數(shù)據(jù)處理的時(shí)候,系統(tǒng)中的每一個(gè)部分都發(fā)揮著不一樣的功能。在這幾個(gè)功能模塊之中,數(shù)據(jù)收集模塊部分的功能,主要是體現(xiàn)在處理平臺(tái)服務(wù)器端口數(shù)據(jù)的時(shí)候,能夠用最短的時(shí)間反悔得到有效的數(shù)據(jù)信息。數(shù)據(jù)預(yù)處理模塊其實(shí)就是將原始數(shù)據(jù)進(jìn)行簡(jiǎn)單的處理之后返回處理之后的數(shù)據(jù),處理的過程就是將一些沒有利用價(jià)值的數(shù)據(jù)清除,從而增加數(shù)據(jù)挖掘系統(tǒng)的挖掘時(shí)間。但是在選取模塊規(guī)則的時(shí)候必須要得到幾個(gè)具有象征性的通用信息模塊,這是一種經(jīng)過科學(xué)優(yōu)化的全新模式。設(shè)置這個(gè)應(yīng)用接口模塊,主要就是為了能夠處理好數(shù)據(jù)與挖掘平臺(tái)之間提供合理解決問題的途徑。
3.3 平臺(tái)數(shù)據(jù)庫設(shè)計(jì)
完成平臺(tái)數(shù)據(jù)庫設(shè)計(jì)工作的時(shí)候,要充分地考慮到在實(shí)際應(yīng)用過程中的情況,合理的安排多余的數(shù)據(jù),把數(shù)據(jù)庫中的一個(gè)部分騰出來專門用于存放數(shù)據(jù)信息,通過主鍵和外鍵能夠形成動(dòng)態(tài)視圖,進(jìn)為后期的編程和檢索工作帶來極大的便利。在這個(gè)平臺(tái)上,Reduce能夠使用不同的數(shù)據(jù)類型,包括其他的有序排列。在完成數(shù)據(jù)平臺(tái)挖掘工作的時(shí)候,弱勢(shì)Reduce端收到的數(shù)據(jù)量比較少,我們就可以將這些數(shù)據(jù)直接儲(chǔ)存在內(nèi)存中;若是暫存數(shù)據(jù)量在緩沖區(qū)處于一個(gè)較大的比例,就必須要及時(shí)進(jìn)行合并處理,將這部分?jǐn)?shù)據(jù)寫入磁盤中。
3.4 算法模塊插件系統(tǒng)
在算法模塊中涵蓋了很多計(jì)算方式,比方說有數(shù)據(jù)清洗算法方式、數(shù)據(jù)挖掘算法方式、結(jié)果可視化算法等各種。在設(shè)計(jì)算法模塊插件的時(shí)候,該過程包含有幾個(gè)方面的內(nèi)容,這幾個(gè)部分的內(nèi)容如下:
1)對(duì)于云技術(shù)來說,大數(shù)據(jù)計(jì)算的方式不僅缺乏規(guī)律性,同時(shí)還具有嚴(yán)重的噪聲影響,所以我們?cè)趯?shí)踐的過程中,通常都會(huì)先用數(shù)據(jù)可以先采用清洗算法完成初步的處理工作,把一堆沒有任何規(guī)律的數(shù)據(jù)整理成有明顯規(guī)律的數(shù)據(jù)文件;2)利用數(shù)據(jù)挖掘算法可以獲得在數(shù)據(jù)處理過程中不能獲取的數(shù)據(jù)信息;3)數(shù)據(jù)集訪問模塊。數(shù)據(jù)集訪問模塊與算法模塊插件系統(tǒng)相比具有很多相同之處,兩者都是利用插件對(duì)各種信息數(shù)據(jù)進(jìn)行調(diào)用處理。不過,在這個(gè)過程中會(huì)有一部分信息有可能會(huì)被分解,產(chǎn)生于之前的訪問地址不同的地址訪問信息,并向數(shù)據(jù)機(jī)訪問模塊傳遞處理之后的信息。
3.5 數(shù)據(jù)挖掘平臺(tái)算法實(shí)現(xiàn)
將數(shù)據(jù)挖掘技術(shù)以及云計(jì)算進(jìn)行彼此穿插,采用融合處理的方式,在規(guī)模不受限制的機(jī)器上進(jìn)行運(yùn)算的時(shí)候,就能夠得到最客觀的分析數(shù)據(jù)。在Map/Reduce的框架結(jié)構(gòu)上,在整個(gè)計(jì)算的過程中,我們會(huì)對(duì)每一個(gè)步驟進(jìn)行詳細(xì)的核查,經(jīng)過核查之后的計(jì)算結(jié)果才能夠進(jìn)行下一階段的處理。在進(jìn)行數(shù)據(jù)挖掘工作的時(shí)候,我們可以將不同的挖掘任務(wù)分成不同模塊,并把每一個(gè)模塊進(jìn)行合理地分配給機(jī)器,各模塊在各個(gè)機(jī)器上進(jìn)行下一步的操作,每個(gè)模塊處理完畢之后就要進(jìn)入到下一階段的數(shù)據(jù)挖掘工作中去,之后再將這些分開的文件作合并處理,并將其輸出。利用這個(gè)算法去設(shè)計(jì)數(shù)據(jù)挖掘平臺(tái),將數(shù)據(jù)的靈活性提高到最大限度,使數(shù)據(jù)挖掘的效率與質(zhì)量得到顯著的提升,進(jìn)而使整體的工作效率與質(zhì)量都得到很大的進(jìn)步。
4 基于云計(jì)算數(shù)據(jù)挖掘平臺(tái)的關(guān)鍵技術(shù)
4.1 云計(jì)算技術(shù)
為了使云平臺(tái)在處理數(shù)據(jù)的時(shí)候效率能夠得到有效的提升,使處理數(shù)據(jù)的工作更高效,在選用計(jì)算方式的時(shí)候,可以選用分布式計(jì)算的方式,這一種計(jì)算的方式能夠順利地完成這個(gè)目標(biāo)。在整個(gè)系統(tǒng)的幾個(gè)主流的分布式文件系統(tǒng)和分布式并行計(jì)算框架之中,能夠有效地更加合理的處理云計(jì)算數(shù)據(jù)挖掘平臺(tái)的構(gòu)建工作,對(duì)于平臺(tái)搭建的工作來說,云計(jì)算在平臺(tái)中發(fā)揮著最為關(guān)鍵的作用,能夠支撐起整個(gè)平臺(tái)的工作。分布式的文件系統(tǒng)能夠騰出更多的存儲(chǔ)空間,這樣不僅能夠減少數(shù)據(jù)存儲(chǔ)的成本,同時(shí)還能夠使數(shù)據(jù)存儲(chǔ)的可靠性增強(qiáng),這個(gè)優(yōu)勢(shì)對(duì)于一家大型企業(yè)來說有著極大的誘惑力,對(duì)于普通的用戶而言,也能幫助他們更加方便的處理數(shù)據(jù)。
4.2 分布式并行計(jì)算框架
分布式并行計(jì)算框架在分布式計(jì)算中還是有使用到一些細(xì)節(jié)處理的方式,但是如果想要在終端進(jìn)行操作的話,那么自身就需要達(dá)到一定的要求。利用分布式并行計(jì)算框架,就能夠明顯的提升數(shù)據(jù)挖掘的工作效率,通過這樣的方式能夠使企業(yè)在數(shù)據(jù)挖掘平臺(tái)上花費(fèi)更少的費(fèi)用。
因?yàn)樵朴?jì)算技術(shù)的快速發(fā)展,分布式計(jì)算框架也開始走進(jìn)了企業(yè)的視線,許多企業(yè)對(duì)這方面的事物都相當(dāng)?shù)闹匾?,把谷歌集團(tuán)作為我們研究的典型例子,他們搭建了一個(gè)并行的計(jì)算框架MapReduce,這個(gè)框架可以在多臺(tái)PC機(jī)上同時(shí)進(jìn)行大量的數(shù)據(jù)處理工作,在處理的過程中還能對(duì)數(shù)據(jù)進(jìn)行分析。不僅如此,谷歌集團(tuán)還有一個(gè)迭代處理計(jì)算框架Pregel,這個(gè)框架更加高效,在可擴(kuò)展性和容錯(cuò)性方面的表現(xiàn)更為亮眼,是一個(gè)極易編程的計(jì)算框架,這一個(gè)科學(xué)性的框架可以在大型圖計(jì)算領(lǐng)域進(jìn)行應(yīng)用,就像交通線路和Web搜索等。
4.3 服務(wù)調(diào)度以及針對(duì)服務(wù)的管理技術(shù)
數(shù)據(jù)挖掘平臺(tái)在很多方面都具有明顯的優(yōu)勢(shì),其中開放性優(yōu)勢(shì)表現(xiàn)明顯,能夠同時(shí)把不同的業(yè)務(wù)在平臺(tái)上計(jì)算,因?yàn)檫@項(xiàng)服務(wù)調(diào)度和服務(wù)管理,對(duì)于發(fā)揮整個(gè)平臺(tái)的功能是非常重要的。正因如此,技術(shù)部門必須要保障數(shù)據(jù)挖掘平臺(tái)的云服務(wù)能夠有足夠的安全保障,嚴(yán)格保守用戶的相關(guān)數(shù)據(jù)信息,進(jìn)而是整個(gè)資源與服務(wù)的調(diào)度能夠得到有效地改善,同時(shí)還可以參考服務(wù)管控系統(tǒng),把平臺(tái)中的數(shù)據(jù)進(jìn)行合理的管控。
4.4 數(shù)據(jù)匯集的調(diào)度中心
搭建數(shù)據(jù)挖掘平臺(tái)最主要是為了解決數(shù)據(jù)收集、數(shù)據(jù)分析和數(shù)據(jù)處理的問題,數(shù)據(jù)挖掘平臺(tái)需要在第一時(shí)間匯集相關(guān)數(shù)據(jù),這主要是因?yàn)閿?shù)據(jù)具有針對(duì)性,不同的數(shù)據(jù)用來解決不同的問題。將數(shù)據(jù)集中在一起進(jìn)行調(diào)度還能是數(shù)據(jù)在更新的時(shí)候?qū)崿F(xiàn)同步,讓數(shù)據(jù)可以在最短的時(shí)間內(nèi)完成更新,讓用戶得到更準(zhǔn)確的數(shù)據(jù)信息,發(fā)揮出云平臺(tái)的數(shù)據(jù)分析和數(shù)據(jù)處理能力。
5 結(jié)語
隨著信息化時(shí)代的不斷發(fā)展,面臨著信息的膨脹以及數(shù)據(jù)的大爆炸,當(dāng)前社會(huì)對(duì)大數(shù)據(jù)資源的整合利用能夠轉(zhuǎn)化為社會(huì)經(jīng)濟(jì)效益和重要價(jià)值。各行各業(yè)在依托云計(jì)算技術(shù)的基礎(chǔ)上,開發(fā)和建立大數(shù)據(jù)資源挖掘的平臺(tái),通過云技術(shù)的支撐,從而實(shí)現(xiàn)云計(jì)算為社會(huì)各行各業(yè)提供高效、優(yōu)質(zhì)的服務(wù),實(shí)現(xiàn)大量信息資源的共建與共享,并為社會(huì)各種的數(shù)據(jù)資源分析、處理和信息應(yīng)用創(chuàng)造更多的發(fā)展的可能,為全社會(huì)帶來更大的經(jīng)濟(jì)效益。
參考文獻(xiàn):
[1] 薛蓓;周延懷;王曉蘭.基于云平臺(tái)的大數(shù)據(jù)資源挖掘技術(shù)研究[J].計(jì)算機(jī)測(cè)量與控制,2017(12).
[2] 陳茂軍.基于云平臺(tái)下的數(shù)據(jù)挖掘研究[J].華東交通大學(xué),2016(6).
【通聯(lián)編輯:唐一東】