葉娟
摘 要:基于網(wǎng)絡數(shù)據(jù)包環(huán)境下大數(shù)據(jù)分析任務對精準度與速度要求不斷提升,本文在此基礎上重點論述大數(shù)據(jù)處理開展的理論環(huán)境?;趥鹘y(tǒng)技術方法中存在的弊端,重點論述技術方法優(yōu)化解決措施,提出大數(shù)據(jù)分析程序的有效設計方法,從而達到最佳數(shù)據(jù)處理效果,幫助提升網(wǎng)絡數(shù)據(jù)包文件下載速率。
關鍵詞:網(wǎng)絡數(shù)據(jù)包;大數(shù)據(jù)分析;程序設計
中圖分類號:TP311 文獻標識碼:A
Abstract:Given that the requirements for accuracy and speed in big data analysis is in rapid escalation in the network data packet environment,this paper mainly discusses the theoretical environment for big data processing as well as technical optimization solutions based on the existing drawbacks in traditional technology and methods and proposes an effective design method of big data analysis program,aiming to achieve optimum results of data processing and to help accelerating the download speed of network packet files.
Keywords:network packets;big data analysis;program design
1 引言(Introduction)
網(wǎng)絡數(shù)據(jù)包技術下,數(shù)據(jù)處理可以同時完成更大任務量,對于發(fā)展期間比較常見的數(shù)據(jù)處理隱患問題,通過數(shù)據(jù)分析處理也得到了有效預防控制。大數(shù)據(jù)分析程序設計中,充分利用云計算技術來提升數(shù)據(jù)處理速度,將數(shù)據(jù)處理任務結合環(huán)境來進行,在處理數(shù)據(jù)的同時進行數(shù)據(jù)對接傳輸,滿足程序運行控制需求。面臨大工作任務環(huán)境下的數(shù)據(jù)處理,程序內(nèi)會自動將處理能力從TB級向FB級轉變,最大程度優(yōu)化數(shù)據(jù)處理系統(tǒng)應用效率,避免在最終功能上因此受到影響。批量處理符合大數(shù)據(jù)程序運行特征。面對大數(shù)據(jù)環(huán)境所開展的批量處理,將客戶信息建立成為一個整體,共同進行數(shù)據(jù)處理。根據(jù)所得結果進入到更細致的分析環(huán)節(jié),從而實現(xiàn)程序運行的數(shù)據(jù)處理任務[1]。
MapReduce屬于當前常用的大數(shù)據(jù)處理系統(tǒng),在處理過程中能夠滿足大規(guī)模群任務需求。在該系統(tǒng)中,將不同任務需要之間整合在一起,共同形成大數(shù)據(jù)處理模型。該項處理技術屬于主流技術,應用后自動化性能更理想,處理運算能力強大,同時操作界面更簡單且利于理解[2]。該項技術在數(shù)據(jù)處理期間可以將復雜的處理過程隱藏起來,節(jié)省顯示界面所占據(jù)的內(nèi)容空間。同時通過學習記憶功能來實現(xiàn)更深層次的數(shù)據(jù)挖掘和算法應用,為管理計劃進行建立一個適合的基礎環(huán)境,記憶所處理的數(shù)據(jù)并編排成為歷史數(shù)據(jù)庫。面對海量數(shù)據(jù)處理任務,首先會進行歷史數(shù)據(jù)對比,參照記憶功能來處理剩余部分數(shù)據(jù),自然能夠節(jié)省大量時間,這也是該項技術最常使用的原因。隨著計算機網(wǎng)絡技術不斷發(fā)展,也產(chǎn)生了更多的大數(shù)據(jù)處理系統(tǒng),可以滿足不同類型的高端數(shù)據(jù)處理需求。本文將針對這一技術性方案展開探討。
2 傳統(tǒng)網(wǎng)絡數(shù)據(jù)包大數(shù)據(jù)分析模式(Big data
analysis mode for traditional network packets)
2.1 BSP計算模式
數(shù)據(jù)信息處理采用周期性方法,在處理系統(tǒng)中將數(shù)據(jù)整體劃分成為多個單元格,再依次完成各個單元格的處理任務,在精準度上可以達到大數(shù)據(jù)分析標準。但由于劃分單元格過多,面對海量數(shù)據(jù)處理分析需要一段時間,在時間和速度上難以達到最佳使用效果。每個數(shù)據(jù)均會在單元格內(nèi)完成分析計算,對于計算期間的各項處理分析任務,機遇網(wǎng)絡數(shù)據(jù)包環(huán)境下面臨大量處理任務,這也是當前常用技術性方法,其數(shù)據(jù)分析構成模型如圖1所示。
圖1表示為BSP計算模式的結構狀態(tài),在系統(tǒng)中會自動將需要分析處理的數(shù)據(jù)進行匯總,整理成為等待處理的數(shù)據(jù),劃分單元結構基礎上共同進行多核處理,通過這種方法來幫助節(jié)省時間。在超級處理步驟中會同時啟動多項處理器,共同參與到全局通信系統(tǒng)中,將網(wǎng)絡環(huán)境中所獲取的數(shù)據(jù)通過這種方法來整合成為需要的模式。傳統(tǒng)處理模式中需要大量時間來調(diào)動各個處理器,在效率與時間上急需調(diào)整。
2.2 BSP模式中的缺陷
該模式中存在一個超級步驟,在此環(huán)節(jié)中應用處理器來對數(shù)據(jù)進行處理、傳輸都會浪費大量時間,同時面對多項信息處理任務時在信息容量上也很容易達到上限,數(shù)據(jù)開發(fā)期間更是難以達到最佳使用效果?;诰W(wǎng)絡數(shù)據(jù)環(huán)境下實現(xiàn)大數(shù)據(jù)分析程序開發(fā)設計,需要一個適合的數(shù)據(jù)存儲環(huán)境,而在BSP模式下并沒有達到這一效果,處理問題的能力自然也因此受到影響[3]。超級處理步驟不僅在存儲空間中要求大,數(shù)據(jù)傳輸也會同時占據(jù)大量網(wǎng)絡空間,導致企業(yè)信息傳輸任務進行遇到網(wǎng)絡延遲,難以在預期時間內(nèi)完成分析任務。BSP模式中存在的主要弊端是處理量與網(wǎng)絡需求之間的矛盾。該種開發(fā)模式在運算方式上需要繼續(xù)優(yōu)化改變,這樣才能達到最佳效果。對于運算期間可能會產(chǎn)生的問題更要采取預防控制中方案,以免最終的功能穩(wěn)定性因此受到影響。
3 基于網(wǎng)絡數(shù)據(jù)包的大數(shù)據(jù)分析程序設計構想
3.1 SAT模型邏輯分層
邏輯層共由三個結構組成。首先S層是針對數(shù)據(jù)進行分隔,避免分析處理過程中數(shù)據(jù)之間出現(xiàn)干擾。A層中表示數(shù)據(jù)分析處理和處理過程中的任務操作穩(wěn)定性,會根據(jù)大數(shù)據(jù)處理特征來有針對性地規(guī)劃相關信息,從而達到最佳處理分析效果。T層中則表示數(shù)據(jù)分析過程中的加工整合和具體包裝情況,與實際情況之間相互對應進行,可以根據(jù)不同數(shù)據(jù)分析任務中的特征來進行包裝優(yōu)化,符合網(wǎng)絡數(shù)據(jù)包大信息量使用特征,最終控制任務進行效率也更高速。SAT模型的具體大數(shù)據(jù)分析流程圖如圖2所示。endprint
由圖2可知,在SAT模式中,大數(shù)據(jù)處理各個任務劃分十分嚴格。對于分析處理過程中可能會產(chǎn)生的問題,在此環(huán)境下也能得到充分解決。有關于現(xiàn)場任務處理中可能會產(chǎn)生的問題,各個模塊中可以加入預防程序,在大數(shù)據(jù)處理過程中啟動這一程序,從而達到最佳分析效果。與之相匹配的數(shù)據(jù)分析處理任務,最終結果也更加理想。為提升大數(shù)據(jù)分析速度,五個功能模塊采用統(tǒng)一系統(tǒng)進行總控制,最大程度減少中間處理環(huán)節(jié),這樣在處理時間上更優(yōu)化節(jié)約。該模式下可以充分調(diào)動多個系統(tǒng)之間相互合作,共同完成處理分析任務,從而實現(xiàn)對控制計劃中的綜合控制,分析層之的間轉換也更高效和諧,分析結果也能直接通過程序運行展現(xiàn)出來。
3.2 SAT大數(shù)據(jù)分析程序?qū)崿F(xiàn)流程
(1)數(shù)據(jù)預處理
在使用需求的基礎上對數(shù)據(jù)信息進行預處理,并結合實際情況觀察所分析數(shù)據(jù)是否在使用中與實際情況可以保持一致。在網(wǎng)絡數(shù)據(jù)包的基礎上所開展的數(shù)據(jù)分析和處理,需要充分利用云計算技術來幫助處理數(shù)據(jù)。預處理后能夠?qū)⒎治鋈蝿者M行模塊劃分,確定其具體屬性所在,在此基礎上幫助提升最終功能,并結合各項技術性方法來探究相關問題的解決處理措施,建立起各個數(shù)據(jù)庫預處理聯(lián)系性,以便更好地確定其屬性[4]。模糊預處理可幫助節(jié)省大量時間,并篩選出其中重要信息內(nèi)容,進行接下來更深入的任務分析,發(fā)現(xiàn)問題后充分探討其解決規(guī)劃措施,從而達到最佳處理效果。模糊處理后篩選出的數(shù)據(jù)需要進行二次精準分析,進入到分析程序中的循環(huán)部分[5]。因此在對程序進行構建期間,循環(huán)流程也是不可缺少的。將多項任務相互結合共同高效運行,可以達到理想的使用效果,并為管理任務開展建立一個適合的基礎環(huán)境。設計篩選后的數(shù)據(jù)集合,二次循環(huán)過程中的數(shù)據(jù)分析可以針對這部分信息來進行,從而幫助節(jié)省大量時間,進入到系統(tǒng)分析平臺中。
(2)淘汰失效數(shù)據(jù)
預處理和分析任務結束后,都需要進行現(xiàn)場預處理,觀察到信息結果與實際情況之間存在差異性聯(lián)系后,將無用數(shù)據(jù)進行淘汰處理。系統(tǒng)程序內(nèi)自動完成這一任務,將失效數(shù)據(jù)刪除后可節(jié)省大量存儲空間,數(shù)據(jù)分析任務進行也可以在特征數(shù)據(jù)庫中進行。為了解決系統(tǒng)復雜性帶來的挑戰(zhàn),人們需要結合大數(shù)據(jù)的價值稀疏性和訪問弱局部性的特點,針對能效優(yōu)化的大數(shù)據(jù)分布存儲和處理的系統(tǒng)架構,以大數(shù)據(jù)感知、存儲與計算融合為大數(shù)據(jù)的計算準則,在性能評價體系、分布式系統(tǒng)架構、流式數(shù)據(jù)計算框架、在線數(shù)據(jù)處理方法等方面展開基礎性研究,并對作為重要驗證工具的基準測試程序及系統(tǒng)性能預測方法進行研究,通過設計、實現(xiàn)與驗證的迭代完善,最終實現(xiàn)大數(shù)據(jù)計算系統(tǒng)的數(shù)據(jù)獲取高吞吐、數(shù)據(jù)存儲低能耗和數(shù)據(jù)計算高效率,建立如下的程序文件代碼,將其應用在程序中,控制各個系統(tǒng)模塊運行。
篩選程序設計完成,在以上程序中能夠?qū)崿F(xiàn)不通區(qū)域之間跨越分析,適用于大數(shù)據(jù)環(huán)境,對于不同環(huán)境分析使用需求,改變程序內(nèi)部控制模式,可以實現(xiàn)與數(shù)據(jù)環(huán)境符合的分析模式。網(wǎng)絡數(shù)據(jù)包獲取速度受網(wǎng)絡環(huán)境穩(wěn)定性直接影響,如果不能控制好當前需要的環(huán)境和各項控制計劃,最終的工作穩(wěn)定性也將會因此受到影響[6]。程序系統(tǒng)開發(fā)設計中考慮網(wǎng)絡平臺信息傳輸能力,在此基礎上完成程序系統(tǒng)更高效的開發(fā)任務。
(3)基于網(wǎng)絡數(shù)據(jù)包的文件下載
系統(tǒng)內(nèi)會根據(jù)大數(shù)據(jù)分析任務來進行相關文件包下載流程如圖3所示,并將其應用在適合的控制模塊中。執(zhí)行程序后首先進入檢索環(huán)節(jié),將其連接到文件夾有用價值判斷中。判斷該文件夾無用,則進行文件夾重新獲取,直到所確定的文件夾范圍與使用需求之間保持一致,進行到下載環(huán)節(jié)中。基于網(wǎng)絡數(shù)據(jù)包基礎上下載正確的文件夾,才能進入到更理想的數(shù)據(jù)使用環(huán)節(jié)中,接下來的大數(shù)據(jù)分析計劃也能與之保持一致。
當檢測所獲取的文件夾能夠與使用需求之間保持一致,則會直接進入到大數(shù)據(jù)分析環(huán)節(jié)中。數(shù)據(jù)分析過程中比較容易出現(xiàn)隱患,要加強文件夾現(xiàn)在階段的審核,確定數(shù)據(jù)精準程度后再次進入到分析環(huán)節(jié)中,更精準高效地完成任務。
(4)程序系統(tǒng)功能初始化
初始化功能能夠?qū)λ治龅拇髷?shù)據(jù)文件進行恢復,節(jié)省大量信息篩選所用時間,并直接將系統(tǒng)運行中需要的信息引入其中,初始化流程框圖如圖4所示。
初始化具有清除和恢復功能,程序開發(fā)中設計多項控制功能,并將其規(guī)劃到具體方案中,落實完善后才能達到更理想的程序使用效果,初始化過程中會自動恢復系統(tǒng)不需要的信息內(nèi)容,以便節(jié)省處理空間,為所開展的各項設計任務建立一個適合的基礎。檢查過程也是一項篩選功能,判斷所存在的問題,并加以優(yōu)化解決。文件夾處理分析過程中程序內(nèi)各個模塊之間相互配合運行,共同參與完成信息檢索任務。
4 結論(Conclusion)
互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算技術的快速發(fā)展,各類應用的層出不窮引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長,使數(shù)據(jù)滲透到了當今每一個行業(yè)和業(yè)務領域,成為重要的生產(chǎn)因素。大數(shù)據(jù)因此成為社會各界關注的新焦點,大數(shù)據(jù)時代已然來臨。為了應對不同的業(yè)務需求,以Google、Facebook、Linkedin、Microsoft等為代表的互聯(lián)網(wǎng)企業(yè)近幾年推出了各種大數(shù)據(jù)處理系統(tǒng),深度學習、知識計算、可視化等大數(shù)據(jù)分析技術也得到迅速發(fā)展,已被廣泛應用于不同的行業(yè)和領域。本文根據(jù)處理形式的不同,介紹了批量處理數(shù)據(jù)、流式處理數(shù)據(jù)、交互處理數(shù)據(jù)和圖數(shù)據(jù)四種不同形式數(shù)據(jù)的突出特征和各自的典型應用場景,以及相應的代表性處理系統(tǒng),并總結出引擎專用化、平臺多樣化、計算實時化是當前大數(shù)據(jù)處理系統(tǒng)的三大發(fā)展趨勢。隨后,對系統(tǒng)支撐下的深度學習、知識計算、社會計算與可視化四類大數(shù)據(jù)分析技術和應用進行了簡要綜述,總結了各種技術在大數(shù)據(jù)分析理解過程中的關鍵作用,即深度學習提高精度,知識計算挖掘深度,社會計算促進認知,強可視化輔助決策。
參考文獻(References)
[1] 周情濤,何軍,胡昭華.基于GPU的Spark大數(shù)據(jù)技術在實驗室的開發(fā)應用[J].實驗室研究與探索,2017,36(1):112-116.
[2] 程平,張礫.大數(shù)據(jù)時代基于云會計的房地產(chǎn)開發(fā)企業(yè)稅務管理探析——以A集團為例[J].會計之友,2017(8):134-137.
[3] 王崗.基于大數(shù)據(jù)的用戶體驗分析應用——“互聯(lián)網(wǎng)+”環(huán)境下新品研發(fā)質(zhì)量管理探索[J].上海質(zhì)量,2017(6):26-27.
[4] 黃冬梅.大數(shù)據(jù)時代下地勘業(yè)務轉型發(fā)展的實踐與思考——以五礦勘查開發(fā)有限公司實踐為例[J].中國國土資源經(jīng)濟,2017,30(3):9-13.
[5] 孫秀春,廉新宇.基于大數(shù)據(jù)分析的高職院校物聯(lián)網(wǎng)專業(yè)創(chuàng)新創(chuàng)業(yè)教育模式研究與實踐[J].人才資源開發(fā),2017(4):234-234.
[6] 呂慧.“95后”大學生思想變化特點和規(guī)律研究——基于大數(shù)據(jù)思想分析維度[J].人才資源開發(fā),2017(8):138-140.
作者簡介:
葉 娟(1973-),女,本科,副教授.研究領域:計算機應用.endprint