安強強,李趙興,張峰,張雅瓊
(榆林學(xué)院陜西榆林719000)
目前,大數(shù)據(jù)的含義并沒有統(tǒng)一。從狹義方面研究,大數(shù)據(jù)表示計算機內(nèi)存儲器中的載入數(shù)據(jù)。從廣義方面研究,大數(shù)據(jù)指的是在傳統(tǒng)軟件、硬件和計算機技術(shù)中的某時間范圍中無法獲取、感知和處理的數(shù)據(jù)結(jié)合??偟膩碚f,大數(shù)據(jù)的主要特點就是龐大的數(shù)據(jù)量和角度的數(shù)據(jù)類型,并且其變化速度較快。在此背景下實現(xiàn)數(shù)據(jù)的有效挖掘,是我國現(xiàn)代化產(chǎn)業(yè)在發(fā)展過程中的主要研究方向。傳統(tǒng)機器學(xué)習(xí)主要為:實現(xiàn)發(fā)現(xiàn)全新事物程序,從而進行機器學(xué)習(xí)的設(shè)計目的;實現(xiàn)問題的自動規(guī)劃設(shè)計。但是傳統(tǒng)的機器學(xué)習(xí)都是通過數(shù)據(jù)環(huán)境進行,不能夠進行大數(shù)據(jù)的學(xué)習(xí)。針對此問題,文中對大數(shù)據(jù)問題進行有效解決,對基于機器學(xué)習(xí)的大數(shù)據(jù)分析算法進行深入的研究。
為了能夠有效滿足現(xiàn)代計算能力在短時間內(nèi)就要求處理上百萬次的需求,大數(shù)據(jù)分析具有較大挑戰(zhàn),此種挑戰(zhàn)主要是大數(shù)據(jù)的特點。
大數(shù)據(jù)最基本的特點就是具有較大的數(shù)據(jù)量,然后數(shù)據(jù)為異構(gòu)數(shù)據(jù),不能夠?qū)崿F(xiàn)批量處理。并且,大數(shù)據(jù)一般都是分布式無法實現(xiàn)集中處理工具一次性多種操作的處理[1]。
在現(xiàn)代最新大數(shù)據(jù)分析過程中,調(diào)整大數(shù)據(jù)的特點,使其成為:
1)提高每分鐘的大數(shù)據(jù)量;
2)數(shù)據(jù)具有多種格式,不能夠?qū)崿F(xiàn)批量處理;
3)在大數(shù)據(jù)量不斷增加的過程中,數(shù)據(jù)之間的關(guān)系較為復(fù)雜,并且此種復(fù)雜關(guān)系在不斷的增加;
4)能夠為決策人員提供數(shù)據(jù)的支持及實證決策;
5)數(shù)據(jù)來源于多個終端設(shè)備,聚合尤為復(fù)雜。
從另外一個角度分析,大數(shù)據(jù)屬于C3緯度,以存儲、挖掘、機器學(xué)習(xí)及數(shù)據(jù)分析的方面進行建模及分析[2],C3分別對應(yīng)的就是一下內(nèi)容:
1)集合化的對象,其實現(xiàn)了特征和數(shù)量的記錄;
2)包括大數(shù)據(jù)的表達特點和大數(shù)據(jù)的占用空間;
3)負載性主要包括三維度,分別為較高的數(shù)據(jù)集維度、較廣的數(shù)據(jù)類型變化分為用戶具有較高的數(shù)據(jù)高速處理需求[3]。
大數(shù)據(jù)中的數(shù)據(jù)復(fù)雜度及大小數(shù)據(jù)大數(shù)據(jù)分析過程中解決問題過程中的核心內(nèi)容,只要實現(xiàn)問題的有效處理,大數(shù)據(jù)分析之后的結(jié)果才能夠被有效使用[4]。比如現(xiàn)代教育已經(jīng)創(chuàng)新了傳統(tǒng)課堂方式的教育,成為了現(xiàn)代化的交互教育,各國各地的學(xué)生都能夠利用互聯(lián)網(wǎng)在虛擬化的教師中學(xué)習(xí),學(xué)習(xí)的模式也發(fā)生了創(chuàng)新,在學(xué)習(xí)過程中出現(xiàn)的數(shù)據(jù)也在不斷的增加,并且互聯(lián)網(wǎng)互通程度越來越高,在線教育過程中數(shù)據(jù)形式及格式在不斷更新。在線教育具有明顯的數(shù)據(jù)源特點,首先,教學(xué)過程中使用的材料并不是電子化的形式,其屬于具有一定比例的非電子化材料;其次,全新的數(shù)據(jù)不僅具有信息系統(tǒng)中數(shù)據(jù)運行過程中產(chǎn)生的數(shù)據(jù),社交網(wǎng)絡(luò)過程中學(xué)生對于各種內(nèi)容的看法信息,學(xué)校服務(wù)器運行過程中的日志。
現(xiàn)代面向多樣化的數(shù)據(jù)量和具有較大數(shù)據(jù)量的特點,可以使大數(shù)據(jù)的分析和處理性能更進一步的提高,從而滿足不斷發(fā)展大數(shù)據(jù)的需求[5]。
文中提出的以機器學(xué)習(xí)為基礎(chǔ)的通信網(wǎng)絡(luò)非結(jié)構(gòu)化大數(shù)據(jù)分析算法屬于在線終端分析算法,其具體的設(shè)計為以下:
在線終端分析算法床啊經(jīng)模型的學(xué)習(xí)方式就是對模型和輸入的數(shù)據(jù)形式進行推理,以此得到數(shù)據(jù)的最終結(jié)果[6]。
在線終端分析的學(xué)習(xí)算法在數(shù)據(jù)庫挖掘中廣泛使用。訓(xùn)練集輸入數(shù)據(jù)包括非生成集、識別標(biāo)簽及生成集等。在迭代過程中每一次迭代都要將針對性的數(shù)據(jù)進行輸入,在進行訓(xùn)練過程中,實現(xiàn)數(shù)據(jù)的預(yù)測尤為重要,在預(yù)測結(jié)果出現(xiàn)問題的時候能夠?qū)崿F(xiàn)自動的修改,一直到訓(xùn)練集的數(shù)據(jù)能夠滿足需求,并且實現(xiàn)數(shù)據(jù)的精度就結(jié)束[7]。
在線終端分析算法主要指的是對于非結(jié)構(gòu)化的數(shù)據(jù)進行全面的分析設(shè)計,為了能夠?qū)崿F(xiàn)場景的直接化,在線終端分析的算法就要通過訓(xùn)練集的實際例子組成非結(jié)構(gòu)化數(shù)據(jù),在線終端分析算法的過程中主要實現(xiàn)相鄰兩個節(jié)點之間加權(quán)參數(shù)的關(guān)聯(lián)度評價。圖1為在線終端算法在Hadoop中的結(jié)構(gòu),圖2為在線終端算法在HDFS中的內(nèi)部文件讀取過程,圖3為在線終端算法在Map中的分析過程。
圖1 在線終端算法在Hadoop中的結(jié)構(gòu)
圖2 在線終端算法在HDFS中的內(nèi)部文件讀取過程
名字節(jié)點文件的存儲系統(tǒng)轉(zhuǎn)換數(shù)據(jù)主要的形態(tài)就是兩張表,第一張屬于在數(shù)據(jù)節(jié)點中融入數(shù)據(jù)塊,第二張屬于在塊編號中融入數(shù)據(jù)節(jié)點[8]。
圖3 在線終端算法在Map中的分析過程
本文對在線終端分析算法中進行了任務(wù)跟蹤器的布置,以此能夠全面監(jiān)督工作節(jié)點的任務(wù)執(zhí)行,并且將其對工作跟蹤器進行匯報。在任務(wù)跟蹤器接收到任務(wù)的時候就會分配到本地工作跟蹤器,從而實現(xiàn)數(shù)據(jù)生成,以此對工作跟蹤器實現(xiàn)進程的匯報。
為了能夠?qū)崿F(xiàn)Map過程的檢驗,將其中的輸入數(shù)據(jù)劃分成為多個切片,將OTA進行輸入,之后在Hadoop平臺中將數(shù)據(jù)切片進行輸入和處理。
在Map結(jié)束之后就會進入到Red階段中,此過程就是實現(xiàn)數(shù)據(jù)的并行處理。其中的任務(wù)就是合并數(shù)據(jù),此合并的數(shù)據(jù)就是最后的分析結(jié)果[9]。
因為Red是以Map結(jié)果為基礎(chǔ)進行執(zhí)行的 ,所以在處理過程中并不是絕對并行,是在Map結(jié)束之后開始Red,此并不能夠優(yōu)化。但是從理論上分析,利用Map及Red實現(xiàn)數(shù)據(jù)傳輸過程中,接收數(shù)據(jù)值和結(jié)構(gòu)相互對應(yīng)。接收數(shù)據(jù)映射的輸出為相同映射機構(gòu),但是具體值要根據(jù)相應(yīng)的步驟進行處理。
在線終端分析算法處理分類的過程就算法的核心內(nèi)容,為了能夠?qū)崿F(xiàn)算法效率的進一步提高,在進行分類時就要進行以下優(yōu)化:為了對x點信息密度進行檢測,就將x位置作為中心,布置混合立方體X,將X體積不斷的擴大,直到X中具有x點的k相鄰點[10]。
利用以下公式能夠?qū)崿F(xiàn)x點信息密度的獲?。?/p>
以此表示,密度為體積函數(shù),與x的相鄰點信息密度較高的過程中屬于隨機分布,此時k點和對于x來說初選的機率比較大。混合的立方體體積并不是最直接的關(guān)注量,最重要的就是相互對應(yīng)的密度[11]。
為了對本文研究的在線終端分析算法性能深入分析,本文就進行在線購物研究,分析原始數(shù)據(jù)性能,表示在線購物時候的用戶數(shù)據(jù)信息較多[12]。
創(chuàng)建大數(shù)據(jù)平臺,使其能夠?qū)崿F(xiàn)數(shù)據(jù)的測試,之后實現(xiàn)平臺的配置。在實現(xiàn)配置之后,全面分析運行數(shù)據(jù),每次運行的信息節(jié)點數(shù)量不同,并且每次處理的時間也并不相同[13]。表1為每次分析使用的時間和節(jié)點數(shù)量,圖4為每次分析使用的時間和節(jié)點數(shù)量圖。
表1 每次分析使用的時間和節(jié)點數(shù)量
圖4 每次分析使用的時間和節(jié)點數(shù)量圖
為了能夠?qū)υ诰€終端分析算法在運行過程中數(shù)據(jù)分析的結(jié)果進行全面的評估[14],表2和圖5就對以上的分析結(jié)果名稱節(jié)點及數(shù)據(jù)節(jié)點進行了全面的分析。
表2 四次運算的名字及數(shù)據(jù)節(jié)點的大小對比
圖5 四次運算的名字及數(shù)據(jù)節(jié)點的大小對比圖
圖6為傳統(tǒng)數(shù)據(jù)庫和本文研究的算法在計算過程中效率的對比,將兩種算法每秒實現(xiàn)處理的次數(shù)作為單位進行對比[15-16],圖6中表示的運行節(jié)點和數(shù)量也以上的分析結(jié)果全部相同。
圖6 傳統(tǒng)數(shù)據(jù)庫和在線終端算法分析的結(jié)果對比
目前,我們正處于數(shù)字化的時代中,在數(shù)據(jù)不斷積累的過程中,大數(shù)據(jù)中的問題也越來越突出,大數(shù)據(jù)的構(gòu)成較為復(fù)雜,并且數(shù)據(jù)量較多,變化較快,使用傳統(tǒng)的機器學(xué)習(xí)算法無法實現(xiàn)大數(shù)據(jù)的處理及分析。所以,本文就對以機器學(xué)習(xí)為基礎(chǔ)的通信網(wǎng)絡(luò)非結(jié)構(gòu)化大數(shù)據(jù)分析算法進行了全面的分析。通過對本文研究的算法性能分析表示,本文研究的在線終端分析算法性能良好,能夠有效滿足大數(shù)據(jù)的分析處理,還能夠有效解決傳統(tǒng)機器學(xué)習(xí)過程中遇到的問題。