鄧文雯 孫成明 秦培亮
摘 要: 針對傳統(tǒng)數(shù)據(jù)采集方法主要通過數(shù)據(jù)特征采集,忽略采集過程對數(shù)據(jù)特征造成的影響,導(dǎo)致數(shù)據(jù)采集耗時長、誤差大的問題,提出基于REID技術(shù)與F統(tǒng)計計量結(jié)合的云儲存海量數(shù)據(jù)采集方法。在分析數(shù)據(jù)采集原理的基礎(chǔ)上,對云儲存的原始數(shù)據(jù)進行非線性補償,設(shè)置參數(shù)對數(shù)據(jù)進行預(yù)處理,建立一種能夠?qū)?nèi)存進行直接訪問的硬件機制,給出部分傳輸程序;采用聚類算法對云儲存數(shù)據(jù)進行聚類,結(jié)合F統(tǒng)計計量進行檢驗所建立的判別函數(shù)的有效性,實現(xiàn)對云儲存海量數(shù)據(jù)的采集。實驗結(jié)果表明,采用改進方法進行云儲存數(shù)據(jù)采集時,其采集結(jié)果相比傳統(tǒng)方法精度及完整度均有提高,具有一定的優(yōu)勢。
關(guān)鍵詞: 云儲存; 海量數(shù)據(jù)采集; REID技術(shù); F統(tǒng)計計量; 非線性補償; 聚類算法
中圖分類號: TN911?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2018)14?0010?04
Research on acquisition method of cloud storage mass data
DENG Wenwen1,2, SUN Chengming3, QIN Peiliang2
(1. School of Accounting & Information Systems, Virginia Polytechnic Institute and State University, Virginia 24061, U.S.A;
2. Smart Agriculture School of Suzhou Polytechnic Institute of Agriculture, Suzhou 215008, China;
3. Agricultural College of Yangzhou University, Yangzhou 225127, China)
Abstract: In allusion to the problems of long time consumption and big error of data acquisition existing in the traditional data collection method, in which the influence of acquisition process on data features is ignored due to its data feature acquisition, a cloud storage mass data acquisition method based on the combination of REID technology and F statistical metrology is proposed. On the basis of analyzing the data acquisition principle, nonlinear compensation is conducted for the cloud storage original data, some parameters are set for data preprocessing to establish a hardware mechanism that can directly access the memory, and part of transmission programs are given. The clustering algorithm is adopted to cluster the cloud storage data, and the F statistical metrology is combined to detect the effectiveness of the established discrimination function, so as to realize the acquisition of cloud storage mass data. The experimental results show that the acquisition precision and integrity of the improved cloud storage data acquisition method are higher than those of the traditional data acquisition method.
Keywords: cloud storage; mass data acquisition; REID technology; F statistical metrology; nonlinear compensation; clustering algorithm
0 引 言
網(wǎng)絡(luò)上的數(shù)據(jù)量隨著互聯(lián)網(wǎng)的快速發(fā)展而呈現(xiàn)爆炸式增長態(tài)勢,也導(dǎo)致了數(shù)據(jù)存儲成本高,存儲可靠性低,大量數(shù)據(jù)管理困難等問題長期困擾企業(yè)[1]。這些困難導(dǎo)致許多企業(yè)開始考慮將數(shù)據(jù)存儲從企業(yè)本身分離出來,交給專門的云存儲服務(wù)供應(yīng)商進行管理。云存儲技術(shù)同時具備分步文獻、網(wǎng)絡(luò)技術(shù)、集群應(yīng)用等系統(tǒng)功能,能夠通過應(yīng)用軟件,將網(wǎng)絡(luò)中的不同類型的存儲設(shè)備急用運用,協(xié)調(diào)工作。其具有高可靠性、高通用性、高擴展性及大容量存儲等特點,因此,其對數(shù)據(jù)采集提出更高的要求[2]。傳統(tǒng)方法主要在各采集步驟采用以太網(wǎng)、TCP/IP網(wǎng)絡(luò)通信協(xié)議,通過對標準網(wǎng)絡(luò)協(xié)議進行改進、簡化,減小采集出現(xiàn)延時的現(xiàn)象;但忽略了數(shù)據(jù)特征對采集結(jié)果造成的影響,導(dǎo)致采集耗時長、誤差大的問題。因此,本文提出基于REID技術(shù)與F統(tǒng)計計量結(jié)合的云儲存海量數(shù)據(jù)采集方法。
1 數(shù)據(jù)采集原理及特點
目前的云儲存數(shù)據(jù)采集技術(shù)多以使用成熟且價格低廉的條碼技術(shù)為基礎(chǔ)。由于數(shù)據(jù)云儲存速度快,會遇到存儲環(huán)境惡劣,條形碼信息受干擾容易誤讀、漏讀的現(xiàn)象[3],所以多采用REID技術(shù)。數(shù)據(jù)采集原理如圖1所示,存儲數(shù)據(jù)的無源電子標簽進入磁場后,接收讀寫器發(fā)出的信號,通過數(shù)據(jù)感應(yīng)模塊獲得云儲存數(shù)據(jù)在芯片中存儲形式,讀寫器接收數(shù)據(jù)儲存解碼后再傳輸給具體的采集系統(tǒng),最終實現(xiàn)云儲存海量數(shù)據(jù)的自動采集。
2 數(shù)據(jù)預(yù)處理
海量數(shù)據(jù)采集程序中寫入FIFO中的數(shù)據(jù),包括幀頭、通道數(shù)、數(shù)據(jù),再對原始數(shù)據(jù)進行提取處理。首先將這些原始數(shù)據(jù)進行非線性補償?shù)玫嚼硐氲脑拼鎯?shù)據(jù)[4]。然后截取部分數(shù)據(jù)進行計算,在循環(huán)計算中加入1個計數(shù)器,當讀取出1個數(shù)時,計數(shù)器數(shù)值加1,直到獲取足夠用的云存儲數(shù)據(jù)后停止。
LabVIEW FPGA軟件提供了計算相位的控件及對應(yīng)的計算方法。算法的參數(shù)可以在控件內(nèi)進行設(shè)置[5]??丶械乃惴ň邆鋽?shù)據(jù)量大,計算快速的性能特點,因此只需把SCTL所需的數(shù)據(jù)錄入到空間中,就能夠計算出經(jīng)過選取后的結(jié)果特征,將計算出的數(shù)據(jù)特征寫入到與之對應(yīng)的存儲器中[6?7]。再將存儲器中的數(shù)據(jù)讀取出來,在對應(yīng)的計算控件中的數(shù)據(jù)特征點的對應(yīng)位置輸入這些數(shù)據(jù),以此為依據(jù)截取中心頻率點。而附近相對的頻率點寫入DMAFIFO中,完成海量數(shù)據(jù)預(yù)處理過程,整體框架如圖2所示。需要注意的是,數(shù)據(jù)量與通道數(shù)量必須一一對應(yīng),否則上位機無法判斷解調(diào)得到的結(jié)果屬于哪個通道。
3 數(shù)據(jù)傳輸程序
在存儲層上進行的存儲器與數(shù)據(jù)之間的數(shù)據(jù)傳輸,首先將處理過的云儲存數(shù)據(jù)輸入到傳輸層。利用數(shù)據(jù)收集應(yīng)用廣泛的DMA,建立一種能夠?qū)?nèi)存進行直接訪問的硬件機制,借助主內(nèi)存與外圍設(shè)備之間的鏈接直接傳輸?shù)絻Υ鎸覽8],不需要再通過處理器進行進一步處理。當使用這種機制時,與設(shè)備之間傳輸量會得到很大的提高。由于海量數(shù)據(jù)傳輸?shù)木_度高,在單一傳輸層內(nèi)部的不同傳輸通道間借助FIFO進行數(shù)據(jù)傳遞難度較低,但海量云存儲在不同傳輸層之間實現(xiàn)數(shù)據(jù)則較為復(fù)雜[9]。在采集過程中,云儲存數(shù)據(jù)的特征直接影響數(shù)據(jù)采集速率,需要在采集過程中完整地讀取出數(shù)據(jù),防止出現(xiàn)云儲存數(shù)據(jù)丟失的情況[10],因此須采用DMAFIFO方式,部分云儲存數(shù)據(jù)傳輸程序代碼如下:
} //數(shù)據(jù)采集結(jié)束
4 云儲存海量數(shù)據(jù)采集方法優(yōu)化
在對云儲存海量數(shù)據(jù)進行預(yù)處理及傳輸?shù)幕A(chǔ)上,對其采集方法進行優(yōu)化,詳細步驟如下,流程圖如圖3所示。
1) 訓(xùn)練數(shù)據(jù)集。從云存儲器中采集海量數(shù)據(jù),除留下部分所需數(shù)據(jù)外,其余數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集參與相關(guān)的采集計算[11]。
2) 聚類算法。依據(jù)實際需要,采用k?medoids聚類算法,將訓(xùn)練數(shù)據(jù)聚成[k]個類。由于存儲過程中會對云儲存數(shù)據(jù)形成干擾,則在滿足理想狀態(tài)下,兩個云儲存數(shù)據(jù)分別為[f1=A+Bcos φ(t)],[f2=A+Bsin φ(t)]。其中,A為干擾參數(shù),B為干擾篇頻率,[φ(t)]為受干擾后的數(shù)據(jù)信息,[φ(t)=2kL(t)],[k=2π/λ1],[L(t)]為受干擾的時長。要進行聚類,得到[L(t)]只需要數(shù)據(jù)信息求得[φ(t)],提取干擾數(shù)據(jù)進行歸一化得到[g1=cos φ(t)],[g2=sin φ(t)],并進行聚類,則云儲存數(shù)據(jù)信息[φ(t)]為:
[φ(t)=01g1g2-g1dt] (1)
3) 依據(jù)訓(xùn)練數(shù)據(jù)集,及其聚類結(jié)果建立[fisher]判斷函數(shù),運用方差理論計算出判別函數(shù)。
4) 判別準則。將新測樣本代入判別函數(shù)檢驗新樣本[x]屬于是否需要采集,即把具有[p]個指標的樣本[x]代入判別函數(shù),使得[λ(α)=(α′Aα)(α′Eα)]取極大值,此時對應(yīng)的[yi=maxishskyh],則[x∈Gi]。假設(shè)數(shù)據(jù)受干擾時長為[L0],輸入數(shù)量分別為[λ1],[λ2],要滿足采集云儲存海量數(shù)據(jù)的要求,云儲存數(shù)據(jù)之間對應(yīng)數(shù)據(jù)信息為[φ1],[φ2],則需要滿足以下要求:
[φ1-φ2=4πλ2-λ1λ1λ2, L0=nπ+π2] (2)
式中,n=0,1,2,…。
5) 檢驗采集判別函數(shù)有效性。運用F統(tǒng)計計量進行檢驗所建立的判別函數(shù)的有效性。如果有效,則可對云儲存海量數(shù)據(jù)進行采集,反之尋找其他方法。
6) 采集結(jié)束。亦即將符合[yi=maxishskyh]的[x]進行采集。
5 實驗結(jié)果分析
為了驗證改進方法在云儲存數(shù)據(jù)采集方面的有效性及可行性,采用改進方法與傳統(tǒng)方法為對比,以數(shù)據(jù)采集量及完整度為指標,在0.5 cm×0.5 cm區(qū)域內(nèi)進行對比分析,結(jié)果如圖4、圖5所示。
由圖4、圖5可知,在0.5 cm×0.5 cm區(qū)域內(nèi)進行數(shù)據(jù)采集分析時,采用傳統(tǒng)方法,在遠離分割線越遠,云儲存數(shù)據(jù)采集多次出現(xiàn)不完整現(xiàn)象,且采集量過少,導(dǎo)致數(shù)據(jù)采集結(jié)果誤差越大,耗時越長;采用改進方法相比傳統(tǒng)方法,數(shù)據(jù)沿著分割線逐漸降低,但未出現(xiàn)數(shù)據(jù)不完整的現(xiàn)象,分割線左右呈現(xiàn)相對應(yīng)的形式,且采集量較大,具有一定的優(yōu)勢。
6 結(jié) 論
本文提出基于REID技術(shù)與F統(tǒng)計計量結(jié)合的云儲存海量數(shù)據(jù)采集方法,達到了降低數(shù)據(jù)采集能耗,提高采集效率的目的。在相同區(qū)域采用傳統(tǒng)采集方法為對比,其采集誤差降低、準確率提高,能夠更完整地進行采集。改進數(shù)據(jù)采集方法主要針對云儲存數(shù)據(jù)進行采集,對于數(shù)據(jù)特征處理及采集環(huán)境對采集結(jié)果的影響,有待進一步研究。
參考文獻
[1] 董一兵,劉麗,楊銳,等.一種測震儀器數(shù)據(jù)實時接入中間件設(shè)計與實現(xiàn)[J].地震工程學(xué)報,2017,39(5):969?975.
DONG Yibing, LIU Li, YANG Rui, et al. Design and implementation of the middleware to access realtime stream of digitizers [J]. China earthquake engineering journal, 2017, 39(5): 969?975.
[2] 趙芳云,張明富.基于云存儲的海量海洋監(jiān)測數(shù)據(jù)平臺設(shè)計[J].艦船科學(xué)技術(shù),2016,38(13):143?148.
ZHAO Fangyun, ZHANG Mingfu. Based on monitoring data of vast ocean cloud storage platform design [J]. Ship science and technology, 2016, 38(13): 143?148.
[3] 徐立艷.基于ARM和LabVIEW的網(wǎng)絡(luò)數(shù)據(jù)采集測試系統(tǒng)設(shè)計[J].現(xiàn)代電子技術(shù),2016,39(5):24?27.
XU Liyan. Design of network data acquisition and test system based on ARM and LabVIEW [J]. Modern electronics technique, 2016, 39(5): 24?27.
[4] 韓立,劉正捷,李暉,等.基于情境感知的遠程用戶體驗數(shù)據(jù)采集方法[J].計算機學(xué)報,2015(11):2234?2246.
HAN Li, LIU Zhengjie, LI Hui, et al. A method based on context?awareness for remote user experience data capturing [J]. Chinese journal of computers, 2015(11): 2234?2246.
[5] 趙妍,蘇玉召.一種批量數(shù)據(jù)處理的云存儲方法[J].科技通報,2017,33(7):81?85.
ZHAO Yan, SU Yuzhao. A cloud storage method of batch data processing [J]. Bulletin of science and technology, 2017, 33(7): 81?85.
[6] 周朝揮,蔡燕霞,魯國瑞.信牌驅(qū)動式Web數(shù)據(jù)采集模型的應(yīng)用[J].計算機應(yīng)用,2016,36(z1):252?256.
ZHOU Chaohui, CAI Yanxia, LU Guorui. Applications of XINPAI?driven Web data scraping model [J]. Journal of computer applications, 2016, 36(S1): 252?256.
[7] 高夢超,胡慶寶,程耀東,等.基于眾包的社交網(wǎng)絡(luò)數(shù)據(jù)采集模型設(shè)計與實現(xiàn)[J].計算機工程,2015,41(4):36?40.
GAO Mengchao, HU Qingbao, CHENG Yaodong, et al. Design and implementation of crowdsourcing?based social network data collection model [J]. Computer engineering, 2015, 41(4): 36?40.
[8] 韓盈黨,李哲.MEMS加速度傳感器的數(shù)據(jù)采集和預(yù)處理[J].儀表技術(shù)與傳感器,2015(2):16?19.
HAN Yingdang, LI Zhe. Data acquisition and pre?processing based on MEMS accelerometer [J]. Instrument technique and sensor, 2015(2): 16?19.
[9] 倪曉寅,馮志生,陳瑩.2013年岷縣6.6級地震前天水臺磁通門秒數(shù)據(jù)異常提取分析[J].地震工程學(xué)報,2016,38(z2):203?207.
NI Xiaoyin, FENG Zhisheng, CHEN Ying. Extraction and analysis of anomalies of the second data from GM4 fluxgate magnetometer at Tianshui station before the 2013 Minxian MS6.6 earthquake [J]. China earthquake engineering journal, 2016, 38(S2): 203?207.
[10] 邱雪松,藺艷斐,邵蘇杰,等.一種面向智能電網(wǎng)數(shù)據(jù)采集的傳感器聚合布局構(gòu)造算法[J].電子與信息學(xué)報,2015,37(10):2411?2417.
QIU Xuesong, LIN Yanfei, SHAO Sujie, et al. Sensor aggregation distribution construction algorithm for smart grid data collection system [J]. Journal of electronics & information technology, 2015, 37(10): 2411?2417.
[11] 何茂輝.4G網(wǎng)絡(luò)下的多終端建筑工程現(xiàn)場移動數(shù)據(jù)采集系統(tǒng)設(shè)計[J].現(xiàn)代電子技術(shù),2016,39(15):25?27.
HE Maohui. Design of multi?terminal mobile data acquisition system utilizing 4G network for architectural engineering field [J]. Modern electronics technique, 2016, 39(15): 25?27.