解姍姍
(閩南理工學院信息管理系,福建泉州 362000)
進入21世紀以來,我國在社會產(chǎn)業(yè)結(jié)構(gòu)與科學技術(shù)等領(lǐng)域,都取得了長足的發(fā)展,尤其是在互聯(lián)網(wǎng)領(lǐng)域。隨著我國移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的快速發(fā)展,使我國逐漸步入信息化、數(shù)據(jù)化新時代,在這個網(wǎng)絡(luò)數(shù)據(jù)、資源信息過載的海量信息時代,加強對數(shù)據(jù)挖掘平臺架構(gòu)模型的研究與設(shè)計,將會極大的促進我國信息化辦公的發(fā)展。而這種互聯(lián)網(wǎng)應(yīng)用技術(shù)被稱作“云計算”技術(shù),它主要是基于“云”的一種分布式web安全系統(tǒng)。
近些年來,隨著數(shù)據(jù)量的急劇增加,我國許多行業(yè)在數(shù)據(jù)挖掘等領(lǐng)域面臨著嚴重的實現(xiàn)難題,包括一些對數(shù)據(jù)的分析計算、對數(shù)據(jù)的復(fù)雜處理技術(shù)、數(shù)據(jù)挖掘系統(tǒng)的計算能力等,這些矛盾日益突出?!霸朴嬎恪钡某霈F(xiàn)與迅速發(fā)展,改變了傳統(tǒng)的單機系統(tǒng)在計算過程中的不足之處,“云計算”這種商業(yè)化的計算模型,使得數(shù)據(jù)挖掘平臺系統(tǒng)的操作性、安全性、靈活性、穩(wěn)定性都得到了極大的提升。
“云計算”——Cloud Computing,它是一種基于信息技術(shù)時代環(huán)境下互聯(lián)網(wǎng)的計算方式,也可稱其為“云技術(shù)”。而云計算平臺也可以稱作為云平臺,云計算平臺它能夠以一種快速、簡單、可擴展的互聯(lián)網(wǎng)計算方式來創(chuàng)建和管理大型、復(fù)雜的IT基礎(chǔ)設(shè)施的建設(shè)。本文重點研究的數(shù)據(jù)挖掘平臺也是基于這種方式來進行構(gòu)建和實現(xiàn)的??偠灾朴嬎闫脚_就是一種以數(shù)據(jù)挖掘處理技術(shù)為主的計算型——“云平臺”。
“云計算”主要包括三個層次面的服務(wù),分別是:LaaS——基礎(chǔ)設(shè)施即時服務(wù);PaaS——系統(tǒng)平臺即時服務(wù);SaaS。
通常情況下,云計算主要應(yīng)用于商業(yè)網(wǎng)絡(luò)模式的發(fā)展,其主要具有以下幾個方面的特征:①通用性。通用性是云計算在工作過程中最為顯著的一個特征,在商業(yè)運營模式中,云計算一般不針對特定的應(yīng)用,它主要是在“云”的支撐下來構(gòu)造出許許多多的千變?nèi)f化的互聯(lián)網(wǎng)信息技術(shù)的應(yīng)用。②虛擬性。云計算最大的功能作用主要體現(xiàn)在“云”上,云計算支持用戶可以在任意位置不受時間、空間限制的使用各種互聯(lián)網(wǎng)終端,并以此來獲取相應(yīng)的專業(yè)化的系統(tǒng)服務(wù)。對于云計算用戶而言,他們所獲取的信息資源并不是有形的、固定的實體服務(wù),而是在使用“云”技術(shù)條件下所提供的互聯(lián)網(wǎng)終端服務(wù)。③經(jīng)濟性好。在互聯(lián)網(wǎng)云計算技術(shù)應(yīng)用下,云的特殊容錯機制,直接導(dǎo)致了云計算用戶可以采用更為廉價的節(jié)點來構(gòu)成“云”。與此同時,云本身所具有的通用性,間接的促使互聯(lián)網(wǎng)數(shù)據(jù)信息資源的利用率得到了大幅度的提升。
數(shù)據(jù)挖掘是人類社會在發(fā)展的過程中,知識發(fā)現(xiàn)領(lǐng)域的一項重要應(yīng)用技術(shù),數(shù)據(jù)挖掘涉及與應(yīng)用的領(lǐng)域很多,包括一些模式識別、機器學習、人工智能等,其具體的操作技術(shù)可分為:Classification——分 類;Estimation——估 計;Prediction——預(yù) 測;Affinty grouping or association rules——相關(guān)性分組;Clustering——聚類等。
關(guān)于數(shù)據(jù)挖掘平臺架構(gòu)的設(shè)計,這就需要互聯(lián)網(wǎng)——“云計算”技術(shù)來作為支撐。云計算應(yīng)用技術(shù)是當前社會各個領(lǐng)域發(fā)展過程中的應(yīng)用需求,在實際應(yīng)用與操作中,云計算技術(shù)已然成為了數(shù)據(jù)挖掘平臺架構(gòu)中最為核心的互聯(lián)網(wǎng)應(yīng)用技術(shù)手段之一。這些云計算應(yīng)用技術(shù)手段中,主要包括分布式存儲應(yīng)用技術(shù)、并行云計算應(yīng)用技術(shù)、云計算虛擬化應(yīng)用技術(shù)等。在實際應(yīng)用過程中,分布式存儲應(yīng)用技術(shù)比較廣泛,它可以利用本身所具備的高性能的先進計算機信息軟件,以此來彌補傳統(tǒng)計算機應(yīng)用技術(shù)中硬件的不足之處,不僅如此,分布式存儲這種云計算應(yīng)用技術(shù),起到的最主要的作用就是保證了存儲數(shù)據(jù)信息的穩(wěn)定性與經(jīng)濟性。在下文中,將會以分布式存儲技術(shù)作為云計算技術(shù)實施數(shù)據(jù)挖掘處理的關(guān)鍵技術(shù)來研究與探討。
1.目標系統(tǒng)模型的設(shè)計
在互聯(lián)網(wǎng)云計算環(huán)境下,數(shù)據(jù)挖掘平臺中的目標系統(tǒng)起到著關(guān)鍵的促進作用,科學、合理的構(gòu)架系統(tǒng)平臺中的目標系統(tǒng)模型,它不僅僅可以在互聯(lián)網(wǎng)——“云計算”技術(shù)環(huán)境下為各種終端用戶提供高透明化的界面服務(wù),同時還能夠在此基礎(chǔ)之上進一步為互聯(lián)網(wǎng)終端用戶提供較為開放式的接口支持。加強和完善這種系統(tǒng)模型的建設(shè),不僅可以滿足云計算用戶對互聯(lián)網(wǎng)終端訪問系統(tǒng)的性能要求,同時還可以綜合利用互聯(lián)網(wǎng)——“云計算”信息技術(shù)中其它類型的端口應(yīng)用程序。
2.功能層次模型的設(shè)計
關(guān)于功能層次模型的設(shè)計,我們可以將其基本的框架結(jié)構(gòu)進行細分,具體劃分為:算法層、應(yīng)用層、用戶層這三個層次面。
首先,算法層是功能層次模型中最為核心的目標層。算法層在功能層次系統(tǒng)平臺中的工作原理是,它在工作過程中,主要是利用和準確的結(jié)合下一層所提供的統(tǒng)一數(shù)據(jù)源來調(diào)用相關(guān)算法以及對接口處進行合理的數(shù)據(jù)處理管理。在計算與實驗過程中,可以根據(jù)不同算法的執(zhí)行順序來得到并分析不同的結(jié)果構(gòu)成。
其次,功能層次中的應(yīng)用層,它和其它目標層相比較,首選就是具有極強的抽象性,同時還可以將云計算環(huán)境下數(shù)據(jù)挖掘中的海量信息進行系統(tǒng)的規(guī)劃與描述,包括一些重要的數(shù)據(jù)處理分析以及關(guān)鍵核心算法等。在功能層次框架設(shè)計的過程中,應(yīng)用層還具有其它方面的高效功能,包括為云計算數(shù)據(jù)挖掘平臺提供應(yīng)用調(diào)用系統(tǒng)服務(wù)以及維護接口系統(tǒng)服務(wù)等。
3.數(shù)據(jù)挖掘系統(tǒng)設(shè)計中的關(guān)鍵技術(shù)
開放式接口設(shè)計技術(shù)。在互聯(lián)網(wǎng)——“云計算”技術(shù)環(huán)境中,在一般情況下,云計算數(shù)據(jù)挖掘平臺中的開放式接口,它主要被應(yīng)用于數(shù)據(jù)挖掘平臺中的資源管理開發(fā)利用。這種云技術(shù)應(yīng)用的研發(fā)與開發(fā)者,他們能夠更高效、更全面、更深入的利用數(shù)據(jù)挖掘平臺所提供的數(shù)據(jù)信息資源及其數(shù)據(jù)信息服務(wù)。
插件系統(tǒng)設(shè)計技術(shù)。插件系統(tǒng)設(shè)計是云計算數(shù)據(jù)挖掘系統(tǒng)設(shè)計中比較關(guān)鍵的設(shè)計技術(shù),插件在云計算數(shù)據(jù)挖掘平臺中,主要是結(jié)合了相應(yīng)的互聯(lián)網(wǎng)計算機應(yīng)用程序及其開發(fā)接口規(guī)范,從而在一定程度上實現(xiàn)了數(shù)據(jù)挖掘平臺構(gòu)架的一種應(yīng)用程序。而在功能層次模型的設(shè)計過程中,技術(shù)開發(fā)工作人員一般都會把這種插件系統(tǒng)設(shè)置為三個部分:擴展點、調(diào)用下層擴展點、業(yè)務(wù)邏輯。
關(guān)于分布式存儲技術(shù)的算法分析,CDK-means——Cloud Distrbuted K - means 。CDK-means是當前學術(shù)界新提出來的一種基于云計算數(shù)據(jù)挖掘平臺的分布式算法。
這種基于互聯(lián)網(wǎng)——“云計算”技術(shù)下的新型數(shù)據(jù)挖掘程序算法,可以將其劃分為四種不同的程序算法:①一種基于地域性路由優(yōu)化的程序算法;②資源約束型的自適應(yīng)程序算法;③云計算環(huán)境下局部數(shù)據(jù)挖掘算法;④云計算平臺中的全局挖掘算法。
表1 資源約束型自適應(yīng)程序算法相關(guān)符號
其中聚類半徑臨界值的表達公式具體為:
基于“云計算”環(huán)境下的數(shù)據(jù)挖掘平臺為廣大用戶所帶來的好處:①零管理?!霸朴嬎恪奔夹g(shù)應(yīng)用環(huán)境下的數(shù)據(jù)挖掘平臺為廣大的互聯(lián)網(wǎng)——“云計算”用戶節(jié)約了大量的管理費用,降低了商業(yè)模式的運營管理成本,在這種情況下,云計算用戶不需要投入相應(yīng)的人員管理、技術(shù)管理、設(shè)備管理等資金費用。②零安裝。零安裝可以說是目前最便利的新技術(shù),這也是云計算數(shù)據(jù)挖掘平臺得以推廣與發(fā)展的基礎(chǔ)。零安裝主要是指互聯(lián)網(wǎng)用戶在使用過程中,完全不需要進行安裝,包括一些計算機軟硬件等,互聯(lián)網(wǎng)云平臺中的用戶只需要通過網(wǎng)絡(luò)配置將其接入到云計算系統(tǒng)網(wǎng)址當中。③零維護。在“云計算”環(huán)境下,數(shù)據(jù)挖掘網(wǎng)絡(luò)系統(tǒng)平臺可以為廣大的互聯(lián)網(wǎng)用戶節(jié)約大量的維護成本。因為這種系統(tǒng)平臺是建立在云計算體系基礎(chǔ)之上的,與那些傳統(tǒng)的系統(tǒng)平臺相比較,“云平臺”系統(tǒng)可以實時在線,并時刻保持著系統(tǒng)的最新版本以及最佳的防護能力。
總而言之,分布式存儲應(yīng)用技術(shù),在數(shù)據(jù)挖掘平臺系統(tǒng)中的優(yōu)勢正是互聯(lián)網(wǎng)——“云計算”技術(shù)的本質(zhì)體現(xiàn)。它之所以得到了高速的發(fā)展與普及,主要是為了適應(yīng)當今知識經(jīng)濟信息化時代的社會發(fā)展需求。簡單的舉個例子:假設(shè)只有一個網(wǎng)站采用了“云計算”這種互聯(lián)網(wǎng)信息應(yīng)用技術(shù),那么他肯定無法得到發(fā)展,無論從成本費用上還是從企業(yè)規(guī)模效益上,都將會受到極大的損失。因此,云計算只有在為大規(guī)模的互聯(lián)網(wǎng)用戶提供專項服務(wù)的時候,才能最大限度的發(fā)揮其應(yīng)有的效益。
[1]云曉東.云計算的數(shù)據(jù)挖掘應(yīng)用分析[J].電子制作,2014(1):131-131.
[2]崇陽.云計算的數(shù)據(jù)挖掘應(yīng)用分析[J].計算機光盤軟件與應(yīng)用,2014(9):30-31.
[3]朱江.基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)研究[J].計算機光盤軟件與應(yīng)用,2014(21):111-111,113.
[4]張敏.云計算環(huán)境下的并行數(shù)據(jù)挖掘策略研究[D].南京:南京郵電大學,2011.
[5]陳林沖.云計算技術(shù)的探討與研究[J].電腦知識與技術(shù),2014(36):8607 -8608.