孟麗麗+宋鋒
摘 要: Web網(wǎng)絡(luò)中的數(shù)據(jù)量巨大,傳統(tǒng)系統(tǒng)只采用軟件或只采用硬件實(shí)現(xiàn)Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng)的設(shè)計(jì),所需消耗的系統(tǒng)資源較多,處理時(shí)間長(zhǎng),配置與管理不靈活,無法滿足實(shí)時(shí)性的要求。為此,設(shè)計(jì)一種新的Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng),采用軟硬件相結(jié)合的形式對(duì)Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng)的總體結(jié)構(gòu)進(jìn)行設(shè)計(jì),分析了的系統(tǒng)硬件結(jié)構(gòu),主要包括數(shù)據(jù)采集器、Web網(wǎng)絡(luò)處理器、網(wǎng)絡(luò)接口和存儲(chǔ)模塊,并詳細(xì)介紹了各硬件結(jié)構(gòu)。軟件設(shè)計(jì)中,給出數(shù)據(jù)采集和大數(shù)據(jù)分類的部分代碼,對(duì)大數(shù)據(jù)分類的實(shí)現(xiàn)進(jìn)行了改進(jìn)。實(shí)驗(yàn)結(jié)果表明,采用所設(shè)計(jì)系統(tǒng)對(duì)Web網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行分類,不僅分類精度高,而且能耗較低、效率較高,具有好的分類性能。
關(guān)鍵詞: Web網(wǎng)絡(luò); 數(shù)據(jù)采集; 數(shù)據(jù)分類系統(tǒng); 系統(tǒng)設(shè)計(jì)
中圖分類號(hào): TN926?34; TP311 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)22?0036?0
0 引 言
近年來,隨著計(jì)算機(jī)和Web網(wǎng)絡(luò)的逐漸發(fā)展與廣泛應(yīng)用,Web網(wǎng)絡(luò)中的數(shù)據(jù)量逐漸增多,但豐富的數(shù)據(jù)資源卻令使用者面臨更大的挑戰(zhàn),大量數(shù)據(jù)分散、無序大大增加了人們對(duì)Web網(wǎng)絡(luò)信息利用的困難程度[1?3]。所以,需設(shè)計(jì)一種Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng),使用戶快速有效地獲取信息資源[4?5]。因此,對(duì)其進(jìn)行探討顯得非常重要,已經(jīng)變成了有關(guān)學(xué)者重要的研究方向,受到廣大學(xué)者的關(guān)注,也產(chǎn)生了很多好方法[6]。
現(xiàn)在,有關(guān)Web網(wǎng)絡(luò)大數(shù)據(jù)分類方法的研究有很多,有關(guān)學(xué)者還取得了非常好的成果。文獻(xiàn)[7]提出基于決策樹的Web網(wǎng)絡(luò)大數(shù)據(jù)分類方法,該方法采用從上到下的方式,依據(jù)一組雜亂無章的數(shù)據(jù)建立樹形的分類信息,將選擇的測(cè)試樣本屬性作為樹的節(jié)點(diǎn),在對(duì)決策樹進(jìn)行建立時(shí),依據(jù)一定的規(guī)則實(shí)現(xiàn)樹的剪枝。決策樹方法實(shí)現(xiàn)過程簡(jiǎn)單,計(jì)算量較少,但可擴(kuò)展性較差,且易受到噪聲的干擾。文獻(xiàn)[8]提出一種基于關(guān)聯(lián)規(guī)則的Web大數(shù)據(jù)分類方法,該方法的關(guān)聯(lián)規(guī)則挖掘過程如下:利用迭代獲取數(shù)據(jù)庫的全部頻繁項(xiàng)集,也就是支持度高于既定閾值的項(xiàng)集,通過頻繁項(xiàng)集獲取符合用戶最小置信度的規(guī)則,依據(jù)挖掘的關(guān)聯(lián)規(guī)則對(duì)Web網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分類。但該方法受計(jì)算機(jī)硬件條件約束,運(yùn)行時(shí)間較長(zhǎng),資源耗費(fèi)較多。文獻(xiàn)[9]提出一種基于支持向量機(jī)的數(shù)據(jù)分類方法,該方法依據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,不受數(shù)據(jù)維數(shù)的影響。在對(duì)數(shù)據(jù)進(jìn)行分類的過程中,將分類面置于兩類數(shù)據(jù)樣本距離較遠(yuǎn)處,經(jīng)高維空間變換,將低維線性不可分問題轉(zhuǎn)換為高維線性可分問題,實(shí)現(xiàn)數(shù)據(jù)的分類,但該方法分類的種類較少,性能不佳。
針對(duì)上述方法的弊端,設(shè)計(jì)了一種新的Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng),采用軟硬件相結(jié)合的形式對(duì)Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng)的總體結(jié)構(gòu)進(jìn)行設(shè)計(jì),分析了的系統(tǒng)硬件設(shè)計(jì)。軟件設(shè)計(jì)中,給出的數(shù)據(jù)采集和大數(shù)據(jù)分類的部分代碼,對(duì)數(shù)據(jù)分類的實(shí)現(xiàn)進(jìn)行了改進(jìn)。實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)系統(tǒng)具有很高的分類性能。
1 Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng)總體設(shè)計(jì)方案
在對(duì)Web網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行分類時(shí),如果只依據(jù)軟件對(duì)大數(shù)據(jù)進(jìn)行分類會(huì)消耗大量系統(tǒng)資源,同時(shí)處理時(shí)間長(zhǎng),不能達(dá)到實(shí)時(shí)性的要求。而若只通過硬件進(jìn)行大數(shù)據(jù)分類,那么對(duì)硬件資源的需求將很大,讓成本大大提高,且配置和管制上也不方便。為了能一起發(fā)揮軟、硬件的優(yōu)點(diǎn),達(dá)成Web網(wǎng)絡(luò)大數(shù)據(jù)的區(qū)分,使用軟硬件相連接的形式實(shí)現(xiàn)Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng)的設(shè)計(jì),設(shè)計(jì)的系統(tǒng)總體結(jié)構(gòu)圖如圖1所示。
首先,通過數(shù)據(jù)采集器和軟件部分?jǐn)?shù)據(jù)采集源代碼的共同作用對(duì)Web網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行采集,將采集到的Web網(wǎng)絡(luò)數(shù)據(jù)通過網(wǎng)絡(luò)接口傳輸至Web網(wǎng)絡(luò)處理器中進(jìn)行處理,在Web網(wǎng)絡(luò)處理器中通過軟件部分的數(shù)據(jù)分類程序?qū)崿F(xiàn)對(duì)大數(shù)據(jù)的分類處理,最終將處理的結(jié)果傳輸至存儲(chǔ)模塊進(jìn)行保存,以供管理者進(jìn)行進(jìn)一步的處理。
2 Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng)硬件設(shè)計(jì)
2.1 數(shù)據(jù)采集器
該部分重點(diǎn)包含以太網(wǎng)管制芯片 CP2200及C8051F340單片機(jī),用于實(shí)現(xiàn)Web網(wǎng)絡(luò)大數(shù)據(jù)的采集,通過網(wǎng)絡(luò)接口向Web網(wǎng)絡(luò)處理器發(fā)送采集的Web網(wǎng)絡(luò)數(shù)據(jù)。數(shù)據(jù)采集器的硬件結(jié)構(gòu)如圖2所示。
由圖2可知,數(shù)據(jù)采集器電源模塊產(chǎn)生的5 V電壓經(jīng)單片機(jī)的REGIN 引腳發(fā)送至C8051F340單片機(jī)的片上電壓調(diào)節(jié)器,使得C8051F340單片機(jī)產(chǎn)生工作所需的3 V電壓,同時(shí)將產(chǎn)生的3 V電壓通過VDD引腳輸送到剩余3 V器件運(yùn)用。單片機(jī)經(jīng)過P3,P4口及其余的I/O引腳結(jié)束與CP2200之間的信息交換。Web網(wǎng)絡(luò)中被預(yù)測(cè)信號(hào)經(jīng)過信號(hào)調(diào)整電路后,使用C8051F340單片機(jī)的P25引腳駛?cè)雴纹瑱C(jī)片上的A/D 轉(zhuǎn)換器中,通過A/D轉(zhuǎn)換器將信號(hào)轉(zhuǎn)換成相應(yīng)的數(shù)據(jù),從而實(shí)現(xiàn)Web網(wǎng)絡(luò)數(shù)據(jù)的采集。為了使數(shù)據(jù)采集器的收集領(lǐng)域加大,需要將采集器轉(zhuǎn)變的參考電壓、轉(zhuǎn)化開啟的時(shí)鐘、差分及單端采集選取、采樣頻率等參數(shù)進(jìn)行設(shè)置,而這些均能利用相應(yīng)的軟件設(shè)計(jì)靈活的改變。
2.2 Web網(wǎng)絡(luò)處理器
Web網(wǎng)絡(luò)處理器用于對(duì)接收到的Web數(shù)據(jù)進(jìn)行處理,這里的數(shù)據(jù)處理主要針對(duì)大數(shù)據(jù)的分類。Web網(wǎng)絡(luò)處理器選用由Intel公司產(chǎn)生的第二代網(wǎng)絡(luò)處理器產(chǎn)品IXP2400,在硬件設(shè)計(jì)的過程中,采用高效靈活的共享數(shù)據(jù)線程與微引擎之間的事件信號(hào)對(duì)Web數(shù)據(jù)進(jìn)行處理。IXP2400硬件結(jié)構(gòu)圖如圖3所示。
圖3中,通過Control Processor對(duì)Web網(wǎng)絡(luò)處理器接收到的數(shù)據(jù)進(jìn)行處理,其是完全可編程的,其工作模式可利用編程確定,該程序被保存在其內(nèi)部的存儲(chǔ)區(qū)中,將數(shù)據(jù)分類程序載入存儲(chǔ)區(qū)的操作是在Control Processor的控制下實(shí)現(xiàn)的,將程序載入存儲(chǔ)區(qū)后即可使Web網(wǎng)絡(luò)處理模塊實(shí)現(xiàn)對(duì)Web大數(shù)據(jù)的分類處理。將得到的Web數(shù)據(jù)處理結(jié)果通過SRAM控制器和外部存儲(chǔ)模塊相連,發(fā)送至外部存儲(chǔ)模塊中進(jìn)行保存。
2.3 網(wǎng)絡(luò)接口
在AT91RM9200的BSP研發(fā)的根本上達(dá)成,并可根據(jù)DM9161的網(wǎng)絡(luò)接口進(jìn)行硬件設(shè)置。AT91RM9200的集成內(nèi)部有MAC模塊,主要用于實(shí)現(xiàn)MAC子層的功能,提供MII接口。網(wǎng)絡(luò)接口以DM9161為核心,其是高集成度、低功耗的100Base?TX物理層收發(fā)芯片,僅需和較少的外圍元件連接即可完成Web數(shù)據(jù)的物理層收發(fā),AT91RM9200及DM9161芯片構(gòu)造成的網(wǎng)絡(luò)接口硬件設(shè)計(jì),如圖4所示。
由圖4可知,將非屏蔽雙絞線看作是傳輸媒質(zhì),為MAC層設(shè)備提供MII,MII為接口規(guī)范,主要負(fù)責(zé)供應(yīng)一個(gè)便捷的、容易達(dá)成的MAC子層及物理層的連接口。MII接口可以使不同的傳送媒質(zhì)和物理層接口版塊經(jīng)過一樣的接口及MAC子層完成數(shù)據(jù)轉(zhuǎn)換。
2.4 存儲(chǔ)模塊硬件設(shè)計(jì)
存儲(chǔ)模塊選用C8051F系列單片機(jī)和AT45DB081共同作用實(shí)現(xiàn)Web數(shù)據(jù)的存儲(chǔ)。C8051F系列單片機(jī)為完全集成的混合信號(hào)SoC芯片,內(nèi)置的FLASH程序存儲(chǔ)器及內(nèi)部RAM,都具備較高的存儲(chǔ)性能。AT45DB081是Atmel公司的能夠與系統(tǒng)重寫的SPI兼容的FLASH數(shù)據(jù)存儲(chǔ)器。C8051F020單片機(jī)與AT45DB081的硬件原理圖如圖5所示。由圖5可知,把C8051F020的P0.2,P0.3和P0.4引腳采用交叉開關(guān)設(shè)置為SPI的CLK,MISO及MOSI (主出從入)信號(hào)線,均與AT45DB081的時(shí)鐘、串行輸出及串行輸入引腳連接在一起。把P3.0,P3.1及P3.2和AT45DB081的芯片復(fù)位、片選及忙閑狀況引腳相連接。C8051F020單片機(jī)采用SPI及存儲(chǔ)器間開啟一次數(shù)據(jù)存儲(chǔ)的進(jìn)程如下:先將SPI的標(biāo)識(shí)SPIF進(jìn)行清除,再向數(shù)據(jù)寄存器SPIODAT里寫入一個(gè)字節(jié),假如SPI由硬件1組成,那么表示一次存儲(chǔ)結(jié)束。
3 Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng)軟件設(shè)計(jì)
3.1 Web網(wǎng)絡(luò)大數(shù)據(jù)采集程序
為了使硬件設(shè)計(jì)中的數(shù)據(jù)采集器有效實(shí)現(xiàn)對(duì)Web數(shù)據(jù)的采集,需設(shè)計(jì)Web數(shù)據(jù)采集源代碼。軟件設(shè)計(jì)中,通過javahttpUser對(duì)Web網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行采集,通過鏈接地址得到網(wǎng)頁源碼,為了保證采集數(shù)據(jù)的完整性,采用編碼轉(zhuǎn)換的形式進(jìn)行數(shù)據(jù)采集。
3.2 Web網(wǎng)絡(luò)大數(shù)據(jù)分類程序
為了實(shí)現(xiàn)Web網(wǎng)絡(luò)處理器中大數(shù)據(jù)的分類,需給出相關(guān)的實(shí)現(xiàn)程序。對(duì)Web網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行分類,也就是依據(jù)數(shù)據(jù)的歸屬情況進(jìn)行歸類,以提供網(wǎng)絡(luò)處理器邏輯判斷的依據(jù),相關(guān)代碼如下:
3.3 Web網(wǎng)絡(luò)大數(shù)據(jù)分類程序的改進(jìn)
數(shù)據(jù)分類程序的有效性是整個(gè)系統(tǒng)的關(guān)鍵,第3.2節(jié)分析的代碼僅依據(jù)Web數(shù)據(jù)屬性對(duì)大數(shù)據(jù)進(jìn)行分類,分類效率較低,實(shí)時(shí)性較差。因此,將決策樹算法代碼引入第3.2節(jié)的分類程序中對(duì)其進(jìn)行改進(jìn),共同實(shí)現(xiàn)Web網(wǎng)絡(luò)大數(shù)據(jù)的分類,相關(guān)代碼如下:
4 實(shí)驗(yàn)結(jié)果分析
為了證明本文設(shè)計(jì)的系統(tǒng)的有效性,需要進(jìn)行有關(guān)的實(shí)驗(yàn)解析。實(shí)驗(yàn)將基于知識(shí)庫的Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng)作為對(duì)比進(jìn)行分析,系統(tǒng)由5臺(tái)計(jì)算機(jī)構(gòu)成,硬件配置如下: Intel Dual?core 2.6 GHz處理器,5 GB內(nèi)存。Web網(wǎng)絡(luò)測(cè)試集數(shù)據(jù)如表1所示。
分別采用本文系統(tǒng)和知識(shí)庫系統(tǒng)對(duì)測(cè)試數(shù)據(jù)樣本進(jìn)行分類,將兩種系統(tǒng)的分類與實(shí)際的結(jié)果進(jìn)行對(duì)比解析,獲取的結(jié)果如表2所示。
分析表2可以看出,在上述實(shí)驗(yàn)中采用本文系統(tǒng)進(jìn)行分類正確的數(shù)量是6個(gè),采用知識(shí)庫系統(tǒng)進(jìn)行分類正確的數(shù)量是3個(gè),本文系統(tǒng)的分類準(zhǔn)確性明顯高于知識(shí)庫系統(tǒng),說明本文系統(tǒng)的分類效果較好。
Web網(wǎng)絡(luò)大數(shù)據(jù)分類過程實(shí)質(zhì)上就是一個(gè)映射過程,對(duì)數(shù)據(jù)分類的性能評(píng)測(cè)可有效體現(xiàn)分類系統(tǒng)分類的準(zhǔn)確程度。通常采用召回率(recall)與精確率(precision)兩個(gè)指標(biāo)對(duì)系統(tǒng)的正確性實(shí)行評(píng)估。對(duì)本文系統(tǒng)及知識(shí)庫系統(tǒng)的召回率及準(zhǔn)確率實(shí)行對(duì)比解析,獲取的結(jié)果如表3所示。
分析表3可以看出,采用本文系統(tǒng)對(duì)各類數(shù)據(jù)進(jìn)行分類,得到的召回率與精確率均明顯優(yōu)于知識(shí)庫系統(tǒng),說明本文系統(tǒng)的分類精度較高,進(jìn)一步驗(yàn)證了本文系統(tǒng)的有效性。在上述實(shí)驗(yàn)的基礎(chǔ)上,對(duì)本文系統(tǒng)及知識(shí)庫系統(tǒng)的內(nèi)存損耗和分類速率實(shí)行對(duì)比解析,獲取的結(jié)果如表4所示。
分析表4可以看出,采用本文系統(tǒng)所需的內(nèi)存消耗明顯低于知識(shí)庫系統(tǒng),且一直低于知識(shí)庫系統(tǒng),不僅如此,本文系統(tǒng)的分類時(shí)間也一直優(yōu)于知識(shí)庫系統(tǒng),說明本文系統(tǒng)不僅分類精度高,而且分類速度快,所需能耗少。
5 結(jié) 論
本文設(shè)計(jì)了一種新的Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng),采用軟硬件相結(jié)合的形式對(duì)Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng)的整體構(gòu)造實(shí)行設(shè)計(jì),解析了的系統(tǒng)硬件構(gòu)造,重點(diǎn)包含數(shù)據(jù)收集器、Web網(wǎng)絡(luò)處理器、網(wǎng)絡(luò)接口和存儲(chǔ)模塊,詳細(xì)介紹了各硬件結(jié)構(gòu)。軟件設(shè)計(jì)中,給出的數(shù)據(jù)采集和大數(shù)據(jù)分類的部分代碼,對(duì)大數(shù)據(jù)分類的實(shí)現(xiàn)進(jìn)行了改進(jìn)。實(shí)驗(yàn)結(jié)果表明,采用所設(shè)計(jì)系統(tǒng)對(duì)Web網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行分類,不僅分類精度很高,而且能耗較低效率較高,具有很好的分類性能。
參考文獻(xiàn)
[1] 趙艷,唐誠,張華,等.基于GeoServer海底數(shù)據(jù)RIA WebGIS系統(tǒng)設(shè)計(jì)與建立[J].環(huán)境科學(xué)與技術(shù),2014,37(z2):507?510.
[2] 高夢(mèng)超,胡慶寶,程耀東,等.基于眾包的社交網(wǎng)絡(luò)數(shù)據(jù)采集模型設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2015(4):36?40.
[3] 李雪.基于大數(shù)據(jù)實(shí)時(shí)Web防火墻日志安全審計(jì)系統(tǒng)的探究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(12):109?110.
[4] 朱寧.面向Web大數(shù)據(jù)的企業(yè)競(jìng)爭(zhēng)情報(bào)平臺(tái)設(shè)計(jì)[J].淮海工學(xué)院學(xué)報(bào)(自然科學(xué)版),2015,24(4):26?29.
[5] 哈達(dá),李斌兵,劉大偉.基于WebGIS消防網(wǎng)上合成訓(xùn)練系統(tǒng)的研究與設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(2):256?258.
[6] 張瑜.斯倫貝謝微地震數(shù)據(jù)處理系統(tǒng)改進(jìn)完井設(shè)計(jì)[J].科技信息:石油與裝備,2013(5):84.
[7] 瞿林,陳海亮,甄國(guó)涌,等.某飛行器雙絞線數(shù)據(jù)傳輸系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電子技術(shù)應(yīng)用,2014,40(6):49?51.
[8] 毛中亮,應(yīng)俊,周丹,等.國(guó)人健康檔案卡終端數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與開發(fā)[J].醫(yī)療衛(wèi)生裝備,2013,34(8):47?50.
[9] 吳丹.改進(jìn)的人工免疫負(fù)選擇算法在數(shù)據(jù)分類中的應(yīng)用[J].電子世界,2013(12):109?110.