国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分布式數(shù)據(jù)流的網(wǎng)絡(luò)處理器數(shù)據(jù)收集分類平臺(tái)

2019-02-20 02:07段汝林林德豐
現(xiàn)代電子技術(shù) 2019年4期
關(guān)鍵詞:數(shù)據(jù)收集

段汝林 林德豐

關(guān)鍵詞: 分布式數(shù)據(jù)流; 網(wǎng)絡(luò)處理器; 數(shù)據(jù)收集; 數(shù)據(jù)分類; 分類平臺(tái); 特征更新

中圖分類號(hào): TN711?34; TP274+.2 ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)04?0117?04

Network processor data acquisition and classification platform

based on distributed data streams

DUAN Rulin1,2, LIN Defeng1

(1. School of Education Information Technology, South China Normal University, Guangzhou 510631, China;

2. Department of Computer Engineering, Guangdong Youth Vocational College, Guangzhou 510545, China)

Abstract: The accurate data classifier is not constructed when the adaptive distributed data stream processing and adjustment technology is used for acquisition and classification of distributed data, resulting in classification accuracy deviation. Therefore, a network processor data acquisition and classification platform based on distributed data streams is designed. The overall architecture of the designed platform includes the platform management layer, distributed data acquisition layer and distributed data classification layer. The network processor receives the distributed data streams by means of the network switch port. The transformers and PHYs are adopted to process the obtained data, and interact with the master control chip FPGA, so as to save the data and realize collection of distributed data streams. The distributed data stream classification process realized in the network processor includes the training phase and the testing phase. During the training phase, the update rules of distributed data streams are used to complete the data feature selection. During the testing phase, the classification feature update of distributed data streams is conducted, and screening of the feature data with high correlation degrees is conducted, so as to realize classification of distributed data streams. The experimental results show that the designed platform has an average classification accuracy of as high as 99.5%, a short time?consumption, and small memory usage.

Keywords: distributed data stream; network processor; data acquisition; data classification; classification platform; feature update

隨著大數(shù)據(jù)時(shí)代的到來(lái),計(jì)算機(jī)網(wǎng)絡(luò)不斷更新、分布式計(jì)算機(jī)技術(shù)日新月異,使得數(shù)據(jù)流分布在不同的網(wǎng)絡(luò)節(jié)點(diǎn)上[1],因此,網(wǎng)絡(luò)處理器如何實(shí)現(xiàn)分布式數(shù)據(jù)流高效、全面、準(zhǔn)確的收集與分類成為重點(diǎn)研究的問(wèn)題。文獻(xiàn)[2]中,采用基于Web數(shù)據(jù)的自動(dòng)采集與分類系統(tǒng)對(duì)網(wǎng)絡(luò)信息進(jìn)行收集與分類,能夠?qū)崿F(xiàn)集中式數(shù)據(jù)流的有效采集與分類,但面對(duì)分布式數(shù)據(jù)流的采集與分類性能較弱。文獻(xiàn)[3]采用自適應(yīng)的分布式數(shù)據(jù)流處理調(diào)整技術(shù)對(duì)網(wǎng)絡(luò)處理器中的分布式數(shù)據(jù)流進(jìn)行收集與分類,能夠根據(jù)具體的數(shù)據(jù)分布狀況進(jìn)行數(shù)據(jù)采集,缺點(diǎn)是未構(gòu)建精準(zhǔn)的數(shù)據(jù)分類器,導(dǎo)致分類精度有所偏差。文獻(xiàn)[4]描述的是一種面向分布式數(shù)據(jù)流的閉頻繁模式挖掘方法,能夠有效挖掘分布式數(shù)據(jù)流的特征并實(shí)施準(zhǔn)確分類,但在分布式數(shù)據(jù)流采集階段,僅對(duì)分布式數(shù)據(jù)庫(kù)進(jìn)行一次掃描,采集到的數(shù)據(jù)不全面。針對(duì)上述問(wèn)題,本文設(shè)計(jì)基于分布式數(shù)據(jù)流的網(wǎng)絡(luò)處理器數(shù)據(jù)收集分類平臺(tái),實(shí)現(xiàn)網(wǎng)絡(luò)中分布式數(shù)據(jù)流高效、準(zhǔn)確收集與分類。

1 ?網(wǎng)絡(luò)處理器數(shù)據(jù)收集分類平臺(tái)

1.1 ?基于分布式數(shù)據(jù)流的網(wǎng)絡(luò)處理器平臺(tái)總體架構(gòu)

圖1為網(wǎng)絡(luò)處理器數(shù)據(jù)收集分類平臺(tái)的總體架構(gòu),主要包括平臺(tái)管理層、分布式數(shù)據(jù)收集層、分布式數(shù)據(jù)分類層[5]。平臺(tái)管理層主要是對(duì)分布式數(shù)據(jù)流、Web方式、SNMP方式進(jìn)行管理,與分布式數(shù)據(jù)收集層連接,為分布式數(shù)據(jù)流的收集提供基礎(chǔ);分布式數(shù)據(jù)分類層與分布式數(shù)據(jù)收集層可通過(guò)數(shù)據(jù)轉(zhuǎn)發(fā)適配層的接口進(jìn)行連接,分布式數(shù)據(jù)收集層采集的分布式數(shù)據(jù)流信息被傳輸?shù)椒植际綌?shù)據(jù)分類層,根據(jù)相關(guān)標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)分類。

1.2 ?基于分布式數(shù)據(jù)流的網(wǎng)絡(luò)處理器數(shù)據(jù)收集

網(wǎng)絡(luò)處理器中分布式數(shù)據(jù)流的收集,主要采用與網(wǎng)絡(luò)交換機(jī)的隨機(jī)端口連接的方式收集數(shù)據(jù)信息,網(wǎng)絡(luò)處理器中的數(shù)據(jù)收集器對(duì)獲取的數(shù)據(jù)進(jìn)行處理[6],確保收集到的數(shù)據(jù)完整保存。

網(wǎng)絡(luò)處理器中分布式數(shù)據(jù)流采集架構(gòu)如圖2所示。圖2中,網(wǎng)絡(luò)處理器通過(guò)A1接口、A2接口接收網(wǎng)絡(luò)中分布式數(shù)據(jù)流,數(shù)據(jù)收集器的變壓器、PHY會(huì)對(duì)收集到的數(shù)據(jù)進(jìn)行處理,然后與主控芯片F(xiàn)PGA進(jìn)行交互。經(jīng)過(guò)數(shù)據(jù)收集器處理后的分布式數(shù)據(jù),從A3接口經(jīng)過(guò)以太網(wǎng)交換機(jī)被完整地傳輸?shù)接涗浽O(shè)備中,實(shí)現(xiàn)分布式數(shù)據(jù)流的收集。

1.3 ?基于分布式數(shù)據(jù)流的網(wǎng)絡(luò)處理器數(shù)據(jù)分類

網(wǎng)絡(luò)處理器分布式數(shù)據(jù)流分類的主要過(guò)程為訓(xùn)練階段與測(cè)試階段。訓(xùn)練階段主要進(jìn)行分布式數(shù)據(jù)流的訓(xùn)練、對(duì)其進(jìn)行特征選擇[7];測(cè)試階段主要進(jìn)行分布式數(shù)據(jù)流特征選擇、對(duì)關(guān)聯(lián)度較大的特征數(shù)據(jù)進(jìn)行篩選,實(shí)現(xiàn)分布式數(shù)據(jù)流的分類。

在分布式數(shù)據(jù)流訓(xùn)練階段,網(wǎng)絡(luò)處理器對(duì)分布式數(shù)據(jù)流進(jìn)行特征選擇時(shí),需采用分布式數(shù)據(jù)頻率調(diào)整規(guī)則更新分布式數(shù)據(jù)頻率,分布式數(shù)據(jù)流詳細(xì)更新規(guī)則為[8]:

[HDdj=cdjB]

式中:[cdj]為包含特征項(xiàng)[dj]的分布式數(shù)據(jù)數(shù)量;[B]為訓(xùn)練集的分布式數(shù)據(jù)數(shù)量。

利用獲取的分布式數(shù)據(jù)流中特征數(shù)據(jù)的[HD]值,根據(jù)特征數(shù)據(jù)是否包含分布式數(shù)據(jù)流分類特征實(shí)施更新。設(shè)置[O1=uii=1,2,…,x]表示網(wǎng)絡(luò)處理器中分布式數(shù)據(jù)流的一級(jí)分類標(biāo)準(zhǔn)集合,其中,[ui]表示一級(jí)分類標(biāo)準(zhǔn),[x]表示一級(jí)分類標(biāo)準(zhǔn)的數(shù)量。[O2=vii=1,2,…,a]表示網(wǎng)絡(luò)處理器中分布式數(shù)據(jù)流的二級(jí)分類標(biāo)準(zhǔn)集合。其中,[vi]表示二級(jí)分類標(biāo)準(zhǔn),[a]表示二級(jí)分類標(biāo)準(zhǔn)的數(shù)量。經(jīng)過(guò)分布式數(shù)據(jù)流特征選擇后獲取新特征集合[A=djj=1,2,…,m],拆分不符合分布式數(shù)據(jù)流特征分類標(biāo)準(zhǔn)的數(shù)據(jù),[A1=djij=1,2,…,m;i=1,2,…,l]為[dj]拆分后的特征子集,[dj]拆分后的分布式數(shù)據(jù)用[dji]描述,[m]為特征項(xiàng)數(shù)量,特征子集包含[l]個(gè)分布式特征數(shù)據(jù)。

定義分布式數(shù)據(jù)流的分類閾值用[α,β]描述,詳細(xì)的數(shù)據(jù)收集分類過(guò)程為:

進(jìn)行初始化,[A=?]

[Fori=1,2,…,n]

[IFHDdj<aTHENdj?A]

[IFdj∩ui∈A1THENA=dj,A,HDdj=β]

[IFdj∩vi∈A1THENA=dj,A,HDdj=β-1]

根據(jù)上述的數(shù)據(jù)收集分類過(guò)程,能夠降低數(shù)據(jù)特征的維度,獲取關(guān)聯(lián)度較大的特征數(shù)據(jù)[9],對(duì)關(guān)聯(lián)度較大的特征數(shù)據(jù)實(shí)施篩選,可獲取符合分類標(biāo)準(zhǔn)的分布式數(shù)據(jù)流分類結(jié)果,實(shí)現(xiàn)網(wǎng)絡(luò)處理器數(shù)據(jù)的有效分類[10]。

2 ?實(shí)驗(yàn)分析

2.1 ?平臺(tái)性能測(cè)試

為了驗(yàn)證本文設(shè)計(jì)平臺(tái)的性能,采用本文平臺(tái)、自適應(yīng)的分布式數(shù)據(jù)流處理調(diào)整平臺(tái)和基于Web數(shù)據(jù)的自動(dòng)采集與分類平臺(tái)構(gòu)建三種仿真測(cè)試平臺(tái)。實(shí)驗(yàn)從運(yùn)行時(shí)間、內(nèi)存使用量以及網(wǎng)絡(luò)通信傳輸量三方面驗(yàn)證本文平臺(tái)的性能。表1為三種平臺(tái)在不同分布式數(shù)據(jù)流量下進(jìn)行數(shù)據(jù)收集與分類的運(yùn)行時(shí)間對(duì)比情況;圖3描述了不同平臺(tái)的內(nèi)存使用量對(duì)比情況;圖4描述了不同平臺(tái)的網(wǎng)絡(luò)通信傳輸量對(duì)比情況。

分析表1可知,本文平臺(tái)的運(yùn)行時(shí)間均值為2.98 s,隨著分布式數(shù)據(jù)流量大幅度增加,本文平臺(tái)的運(yùn)行時(shí)間增長(zhǎng)比較緩慢,運(yùn)行時(shí)差較小,說(shuō)明本文平臺(tái)面對(duì)大規(guī)模分布式數(shù)據(jù)流量同樣具有較高的效率;自適應(yīng)的分布式數(shù)據(jù)流處理調(diào)整平臺(tái)運(yùn)行時(shí)間均值為9.86 s,該平臺(tái)面對(duì)小規(guī)模的分布式數(shù)據(jù)流量,運(yùn)行效率較高,但隨著分布式數(shù)據(jù)流量的增大,運(yùn)行時(shí)間快速增長(zhǎng),直至5 000 KB時(shí),運(yùn)行時(shí)間為18.3 s,用時(shí)較長(zhǎng);基于Web數(shù)據(jù)的自動(dòng)采集與分類平臺(tái)的運(yùn)行時(shí)間均值為11.34 s,該平臺(tái)在分布式數(shù)據(jù)流量為1 000 KB與5 000 KB時(shí)運(yùn)行時(shí)間分別為4.6 s,18.9 s,運(yùn)行用時(shí)相對(duì)本文平臺(tái)較長(zhǎng),效率較低。

由圖3能夠看出,隨著運(yùn)行時(shí)間的增長(zhǎng),本文平臺(tái)的內(nèi)存使用量最少,基本穩(wěn)定在300 MB左右;自適應(yīng)的分布式數(shù)據(jù)流處理調(diào)整平臺(tái)所占內(nèi)存隨著時(shí)間的增長(zhǎng)呈現(xiàn)大幅度增長(zhǎng),最高達(dá)到800 MB;基于Web數(shù)據(jù)的自動(dòng)采集與分類平臺(tái)的內(nèi)存使用量同樣隨著時(shí)間的增長(zhǎng)呈現(xiàn)較大漲幅,最大值為910 MB。

分析圖4可知,三種平臺(tái)在實(shí)驗(yàn)初始階段分布式數(shù)據(jù)流量為200 KB時(shí)的網(wǎng)絡(luò)傳輸通信量相差較少,均在100~200 KB之間,本文平臺(tái)在之后5個(gè)分布式數(shù)據(jù)流量節(jié)點(diǎn)的網(wǎng)絡(luò)傳輸通信量增長(zhǎng)幅度最大;自適應(yīng)的分布式數(shù)據(jù)流處理調(diào)整平臺(tái)在之后5個(gè)分布式數(shù)據(jù)流量節(jié)點(diǎn)的網(wǎng)絡(luò)傳輸通信量增長(zhǎng)幅度較小;基于Web數(shù)據(jù)的自動(dòng)采集與分類平臺(tái)分布式數(shù)據(jù)流量不斷增加,該平臺(tái)傳輸通信量并沒(méi)有明顯的增長(zhǎng)趨勢(shì),說(shuō)明該平臺(tái)的網(wǎng)絡(luò)傳輸能力較弱,進(jìn)行分布式數(shù)據(jù)流收集的效率較低。

實(shí)驗(yàn)結(jié)果表明,本文平臺(tái)能夠根據(jù)網(wǎng)絡(luò)處理器中分布式數(shù)據(jù)流的數(shù)量及時(shí)調(diào)整網(wǎng)絡(luò)傳輸通信量,數(shù)據(jù)傳輸效率較高,同時(shí)具有運(yùn)行時(shí)間短、使用內(nèi)存較小的優(yōu)勢(shì)。

2.2 ?分布式數(shù)據(jù)流分類精確度分析

為驗(yàn)證本文平臺(tái)對(duì)分布式數(shù)據(jù)流分類的高精確度優(yōu)勢(shì),利用第2.1節(jié)的實(shí)驗(yàn)方法,構(gòu)建3種仿真實(shí)驗(yàn)平臺(tái),人工控制網(wǎng)絡(luò)交換機(jī)發(fā)送分布式流量數(shù)據(jù)包,實(shí)驗(yàn)分5次進(jìn)行,分別記錄3種平臺(tái)的數(shù)據(jù)分類精確度如圖5所示。

由圖5得,3種平臺(tái)在實(shí)驗(yàn)中呈現(xiàn)不同的分類狀態(tài)。本文平臺(tái)的分類精確度曲線始終位于99%~100%之間,分類精確度均值高達(dá)99.5%,無(wú)明顯波動(dòng)狀態(tài),說(shuō)明本平臺(tái)不僅分類精確度高,且性能比較穩(wěn)定。隨著實(shí)驗(yàn)次數(shù)的增加,基于Web數(shù)據(jù)的自動(dòng)采集與分類平臺(tái)的分類精確度呈大幅度下降趨勢(shì),最低精確度僅為94.5%,該平臺(tái)不可用于網(wǎng)絡(luò)處理器中分布式數(shù)據(jù)流的有效分類。自適應(yīng)的分布式數(shù)據(jù)流處理調(diào)整平臺(tái)分類精確度雖然總體上是上升的趨勢(shì),但在第4次實(shí)驗(yàn)時(shí)分類精確度僅為96.9%,降低了該平臺(tái)分類精確度均值。說(shuō)明本文平臺(tái)能夠?qū)Ψ植际綌?shù)據(jù)流進(jìn)行準(zhǔn)確分類。

3 ?結(jié) ?論

本文設(shè)計(jì)基于分布式數(shù)據(jù)流的網(wǎng)絡(luò)處理器數(shù)據(jù)收集分類平臺(tái),經(jīng)驗(yàn)證,該平臺(tái)能夠根據(jù)網(wǎng)絡(luò)處理器中分布式數(shù)據(jù)流的數(shù)量及時(shí)調(diào)整網(wǎng)絡(luò)傳輸通信量,數(shù)據(jù)傳輸效率較高;同時(shí)具有運(yùn)行時(shí)間短、使用內(nèi)存較小的優(yōu)勢(shì),可用于網(wǎng)絡(luò)處理器中分布式數(shù)據(jù)流的快速收集與分類;對(duì)于分布式數(shù)據(jù)流的分類,該平臺(tái)的分類精確度均值高達(dá)99.5%,所設(shè)計(jì)平臺(tái)為網(wǎng)絡(luò)中分布式數(shù)據(jù)的高效、科學(xué)處理提供參考依據(jù)。

參考文獻(xiàn)

[1] 段青玲,魏芳芳,張磊,等.基于Web數(shù)據(jù)的農(nóng)業(yè)網(wǎng)絡(luò)信息自動(dòng)采集與分類系統(tǒng)[J].農(nóng)業(yè)工程學(xué)報(bào),2016,32(12):172?178.

DUAN Qingling, WEI Fangfang, ZHANG Lei, et al. Automatic acquisition and classification system for agricultural network information based on Web data [J]. Transactions of the Chinese Society of Agricultural Engineering, 2016, 32(12): 172?178.

[2] 馬元文,王鵬,周之敏,等.一種自適應(yīng)的分布式數(shù)據(jù)流處理調(diào)整技術(shù)[J].計(jì)算機(jī)工程,2015,41(12):15?20.

MA Yuanwen, WANG Peng, ZHOU Zhimin, et al. An adaptive adjustment technology of distributed data stream processing [J]. Computer engineering, 2015, 41(12): 15?20.

[3] 唐穎峰,陳世平.一種面向分布式數(shù)據(jù)流的閉頻繁模式挖掘方法[J].計(jì)算機(jī)應(yīng)用研究,2015,32(12):3560?3564.

TANG Yingfeng, CHEN Shiping. Closed frequent patterns mining method over distributed data streams [J]. Application research of computers, 2015, 32(12): 3560?3564.

[4] 唐穎峰,陳世平.一種基于網(wǎng)格塊的分布式數(shù)據(jù)流聚類算法[J].小型微型計(jì)算機(jī)系統(tǒng),2016,37(3):488?493.

TANG Yingfeng, CHEN Shiping. Distributed data stream clustering algorithm with grid blocks [J]. Journal of Chinese computer systems, 2016, 37(3): 488?493.

[5] ZHENG Z, JEONG H Y, HUANG T, et al. KDE based outlier detection on distributed data streams in multimedia network [J]. Multimedia tools & applications, 2017, 76(17): 18027?18045.

[6] PAPAPETROU O, GAROFALAKIS M, DELIGIANNAKIS A. Sketching distributed sliding?window data streams [J]. The VLDB journal, 2015, 24(3): 345?368.

[7] 田澤,索高華,張榮華,等.基于FPGA的AFDX網(wǎng)絡(luò)高速數(shù)據(jù)采集器設(shè)計(jì)[J].電子技術(shù)應(yīng)用,2016,42(8):179?182.

TIAN Ze, SUO Gaohua, ZHANG Ronghua, et al. Design of high speed data acquisition system for AFDX network based on FPGA [J]. Application of electronic technique, 2016, 42(8): 179?182.

[8] 陳付梅,韓德志,畢坤,等.大數(shù)據(jù)環(huán)境下的分布式數(shù)據(jù)流處理關(guān)鍵技術(shù)探析[J].計(jì)算機(jī)應(yīng)用,2017,37(3):620?627.

CHEN Fumei, HAN Dezhi, BI Kun, et al. Key technologies of distributed data stream processing based on big data [J]. Journal of computer applications, 2017, 37(3): 620?627.

[9] 李維聰,孫海蓉.基于LabVIEW的USB無(wú)線數(shù)據(jù)采集儀[J].計(jì)算機(jī)仿真,2015,32(2):455?458.

LI Weicong, SUN Hairong. A wireless data acquisition system based on USB and LabVIEW [J]. Computer simulation, 2015, 32(2): 455?458.

[10] RHO J, AZUMI T, OYAMA H, et al. Distributed processing for automotive data stream management system on mixed single? and multi?core processors [J]. ACM SIGBED review, 2016, 13(3): 15?22.

猜你喜歡
數(shù)據(jù)收集
無(wú)線移動(dòng)多信道感知網(wǎng)絡(luò)上的數(shù)據(jù)聚集傳輸規(guī)劃
經(jīng)歷過(guò)程 積累經(jīng)驗(yàn)
基于無(wú)線傳感器網(wǎng)絡(luò)的無(wú)線定位算法研究
關(guān)于計(jì)算機(jī)在數(shù)據(jù)收集中的作用分析
智能分類垃圾箱的設(shè)計(jì)與研發(fā)
裝備使用階段RMS數(shù)據(jù)收集研究
電力企業(yè)管理信息系統(tǒng)的建設(shè)探討
淺談?dòng)?jì)算機(jī)技術(shù)在電力系統(tǒng)自動(dòng)化中的應(yīng)用
變電運(yùn)行設(shè)備的狀態(tài)檢修與數(shù)據(jù)收集
淺談公路工程項(xiàng)目竣工資料整理常見(jiàn)問(wèn)題及解決措施