潘文秀
關(guān)鍵詞: 微分方程; 大數(shù)據(jù); 分類系統(tǒng); 微分分類; 數(shù)學(xué)模型; 數(shù)據(jù)采集
中圖分類號: TN99?34 ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)04?0027?04
Design of big data classification system based on differential equation
PAN Wenxiu
(School of Science, Qinzhou University, Qinzhou 535011, China)
Abstract: The differential classification mathematical model is not used for big data classification in the big data classification system based on orthogonal decomposition, which causes the problem of low classification accuracy. Therefore, a big data classification system based on the differential equation is designed. The hardware of the system mainly includes a data collector and a storage module. The data collector is composed of a chip and a single chip microcomputer. The collected data is transmitted to the network processor for processing by means of the network interface. The storage module is used for storing all the data in the system, which is divided into the application layer, functional layer, semantic layer, design layer and data layer. In the software part of the system, the differential classification mathematical model is constructed by establishing the differential equation with second?order time delay and the constraint conditions for specification set of the differential classification mathematical model. The big data classification codes are designed according to the differential classification mathematical model, so as to realize big data classification. The experimental results show that the designed system has a big data classification accuracy rate of as high as 95%, a memory occupancy rate of only 21%~32%, and a high classification performance.
Keywords: differential equation; big data; classification system; differential classification; mathematical model; data acquisition
隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展和大范圍應(yīng)用,網(wǎng)絡(luò)中的數(shù)據(jù)量大幅增加,過量散亂的數(shù)據(jù)增加了用戶使用網(wǎng)絡(luò)信息的難度[1]。因此,需要設(shè)計一種大數(shù)據(jù)分類系統(tǒng),幫助用戶在大量網(wǎng)絡(luò)數(shù)據(jù)中快速有效地獲取所需信息[2]。
目前,網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng)有很多,相關(guān)學(xué)者取得了較好的成果。文獻(xiàn)[3]設(shè)計基于Web數(shù)據(jù)的大數(shù)據(jù)分類系統(tǒng),該系統(tǒng)的存儲模塊未采用層次結(jié)構(gòu),系統(tǒng)內(nèi)存占用率高。文獻(xiàn)[4]設(shè)計基于正交分解的大數(shù)據(jù)分類系統(tǒng),其未運用微分分類數(shù)學(xué)模型,系統(tǒng)大數(shù)據(jù)分類準(zhǔn)確率低。針對上述系統(tǒng)的弊端,設(shè)計基于微分方程的大數(shù)據(jù)分類系統(tǒng),采用軟、硬件結(jié)合的方式對該系統(tǒng)的總體結(jié)構(gòu)設(shè)計進(jìn)行描述,運用微分方程對大數(shù)據(jù)分類系統(tǒng)軟件部分進(jìn)行改進(jìn)[5],提高大數(shù)據(jù)分類準(zhǔn)確率。
1.1 ?數(shù)據(jù)采集器設(shè)計
系統(tǒng)硬件中的數(shù)據(jù)采集器由芯片CP2210和C8147單片機(jī)組成,實現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)采集,通過網(wǎng)絡(luò)接口將采集的數(shù)據(jù)傳送給網(wǎng)絡(luò)處理器[6],數(shù)據(jù)采集器硬件結(jié)構(gòu)圖如圖1所示。
從圖1可以看出,數(shù)據(jù)采集器電源發(fā)出6 V電壓,通過單片機(jī)REGIN引腳傳送到單片機(jī)電壓調(diào)節(jié)器上,將電壓調(diào)節(jié)到單片機(jī)工作所需的4 V電壓,并將剩余的2 V電壓通過VDD引腳發(fā)送給其余部件使用。單片機(jī)通過P3,P4端和其他I/O引腳進(jìn)行信息交換。從網(wǎng)絡(luò)中獲取的信號經(jīng)過信號調(diào)整器,由單片機(jī)P25引腳到達(dá)A/D轉(zhuǎn)換器,A/D轉(zhuǎn)換器將信號轉(zhuǎn)化為對應(yīng)的數(shù)據(jù),由此完成網(wǎng)絡(luò)數(shù)據(jù)的采集。
1.2 ?存儲模塊設(shè)計
存儲模塊是大數(shù)據(jù)分類系統(tǒng)中的核心,用于儲存系統(tǒng)中的所有數(shù)據(jù)。構(gòu)建存儲模塊前需明確系統(tǒng)需求,再通過語義層將任務(wù)映射給不同種類的分析模型和挖掘模型,并運用系統(tǒng)內(nèi)的數(shù)據(jù)得到最終解[7]。本文依據(jù)層次模型法和群體協(xié)作智能聚類層次模型,將大數(shù)據(jù)分類系統(tǒng)存儲模塊劃分為應(yīng)用層、功能層、語義層、設(shè)計層和數(shù)據(jù)層。具體結(jié)構(gòu)如圖2所示。
圖中,應(yīng)用層為大數(shù)據(jù)分類系統(tǒng)存儲模塊的頂層,該層能夠進(jìn)行問題的描述、區(qū)分以及任務(wù)分配;功能層是應(yīng)用層的支持結(jié)構(gòu),包含相關(guān)的功能代碼,功能層是大數(shù)據(jù)在數(shù)據(jù)存儲模塊中與用戶進(jìn)行交互的橋梁;語義層實現(xiàn)設(shè)計層的數(shù)據(jù)模型到功能層業(yè)務(wù)的轉(zhuǎn)化,將設(shè)計層的數(shù)據(jù)模型轉(zhuǎn)化為業(yè)務(wù)術(shù)語進(jìn)行描述;設(shè)計層基于系統(tǒng)需求,運用信息包圖設(shè)置分類內(nèi)容,通過數(shù)據(jù)模型可視化描述分類數(shù)據(jù),實時響應(yīng)大數(shù)據(jù)分類系統(tǒng)用戶檢索需求;數(shù)據(jù)層通過系統(tǒng)控制事件的方式對大數(shù)據(jù)進(jìn)行組織,數(shù)據(jù)層對系統(tǒng)源數(shù)據(jù)進(jìn)行訪問,完成源數(shù)據(jù)的提取、整合等操作,其存儲被設(shè)計為可供查詢的關(guān)系數(shù)據(jù)庫結(jié)構(gòu)。
1.3 ?微分分類數(shù)學(xué)模型
為實現(xiàn)大數(shù)據(jù)分類,系統(tǒng)軟件采用微分方程進(jìn)行數(shù)據(jù)分類處理,在Bochner?Riesz空間里建立具有二階時滯的微分方程[8]:
[x(u)=Bx(u)+Cx(u-e(u))] ? ? ? ?(1)
式中:[e(u)]為二階時滯微分方程特征解穩(wěn)定狀態(tài)[x(u)]下的時滯項;B,C為二階時滯微分方程參數(shù)。二階時滯微分方程在界限穩(wěn)定平衡點[eQi(u)eu=Ui(u)QUQi+Li(u)QLQi]的特征向量表達(dá)為:
[φ1(e1(u))=φ+e1(u)Q(X1+X2+X3)-1QU+ ? ? ? ? ? ? ? ? ? ? ? ?(u1-e1(u))[QX-11QU+L(X2+X3)-1LU]] (2)
式中:[Li(u)]和[Ui(u)]分別用于描述參量u在界限邊界最低點以及最高點的穩(wěn)定狀態(tài);[QLQi]以及[QUQi]分別表示邊界最低以及最高均衡點;[φ]表示二階時滯微分方程特征解的特征向量。
在[Q0(x01,x02)]點對存在二階時滯微分方程的穩(wěn)定解進(jìn)行Lyapunove泛函處理,根據(jù)優(yōu)化理論得出新的幾何區(qū)域,通過構(gòu)建適當(dāng)?shù)睦钛牌罩Z夫泛函加入輔助積分矩陣[9],得到二階時滯微分方程的穩(wěn)定解為:
在雙界限條件的穩(wěn)定約束下,把原點相鄰區(qū)域[M(0)]的解向量作為初始條件,得出存在二階時滯微分方程穩(wěn)定解的參量為:
[νn=[Vn+11 ?Qn+11 ?0 ? 0 ? 0]U] (4)
式中,與[ν1]的平均特征泛函相同,根據(jù)二階時滯微分項的周期性獨立波解,采用穩(wěn)定解向量作為大數(shù)據(jù)分類的聚類中心矢量[10],進(jìn)行微分分類數(shù)學(xué)模型的構(gòu)建。
1.4 ?大數(shù)據(jù)采集程序
為實現(xiàn)系統(tǒng)硬件中數(shù)據(jù)采集器對大數(shù)據(jù)的采集,設(shè)計相關(guān)邏輯代碼如下:
//采集功能
Common affiliation tehean DapperKonlacatin
{common web dapperBy Befy()
{Link web = dapper(done);
//采集網(wǎng)絡(luò)數(shù)據(jù)
while (web** i <15)
{
web = dapper(done);
i++;}
return web;
//返回客戶端
Common affiliation customer
Common affiliation data tehean done;
}}
1.5 ?大數(shù)據(jù)分類程序
為了實現(xiàn)系統(tǒng)網(wǎng)絡(luò)處理器中的大數(shù)據(jù)分類,根據(jù)微分分類數(shù)學(xué)模型設(shè)計相關(guān)大數(shù)據(jù)分類代碼。對網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行分類,依據(jù)數(shù)據(jù)歸屬狀態(tài)進(jìn)行類別劃分,給網(wǎng)絡(luò)數(shù)據(jù)處理器提供邏輯判別的依據(jù),設(shè)計代碼如下:
//分類對象
Common affiliation data
{Witemind Deep datanum;
Witemind Deep dataFinder;
Witemind set dataInter;
Witemind circle yeak
Witemind circle ping}
if (concent have no "mind")
//將相同數(shù)據(jù)歸屬狀態(tài)的數(shù)據(jù)劃分為一類
for(data list)
if(data does not belong to the data list)
for(confirm the keyword list)
if(it is)
continue;
else
為驗證基于微分方程的大數(shù)據(jù)分類系統(tǒng)的有效性進(jìn)行實驗,實驗所用數(shù)據(jù)來自網(wǎng)絡(luò)信息庫,系統(tǒng)運行需要2臺計算機(jī),系統(tǒng)硬件配置為:Intel Rean?core 3 GHz處理器,32 GB內(nèi)存。
2.1 ?參數(shù)設(shè)置
實驗所用數(shù)據(jù)類型分別為:經(jīng)濟(jì)學(xué)數(shù)據(jù)、工業(yè)經(jīng)濟(jì)數(shù)據(jù)、貿(mào)易經(jīng)濟(jì)數(shù)據(jù)、交通運輸經(jīng)濟(jì)數(shù)據(jù)等大數(shù)據(jù),將它們編號分別為K1,K2,K3,K4等;數(shù)據(jù)大小分別為1 742,1 685,1 693,1 824等。
2.2 ?大數(shù)據(jù)分類效果分析
依據(jù)上述實驗數(shù)據(jù)參數(shù),對本文系統(tǒng)、基于Web數(shù)據(jù)的大數(shù)據(jù)分類系統(tǒng)以及基于正交分解的大數(shù)據(jù)分類系統(tǒng)的大數(shù)據(jù)分類性能進(jìn)行對比實驗,實驗采用三個系統(tǒng)對實驗大數(shù)據(jù)進(jìn)行分類處理,三個系統(tǒng)所得大數(shù)據(jù)分類結(jié)果分別如表1~表3所示。
由表1可知,基于Web數(shù)據(jù)系統(tǒng)在5次測試中,隨著實驗次數(shù)的增多,大數(shù)據(jù)分類的準(zhǔn)確率和大數(shù)據(jù)分類預(yù)測值未明顯升高,且系統(tǒng)數(shù)據(jù)召回率一直處于90%左右。由表2可知,基于正交分解系統(tǒng)在5次測試中,大數(shù)據(jù)分類的準(zhǔn)確率未超過90%,系統(tǒng)數(shù)據(jù)召回率同樣一直處于90%左右,大數(shù)據(jù)分類預(yù)測值較低。由表3可知,本文系統(tǒng)的大數(shù)據(jù)分類準(zhǔn)確率一直高于95%,且分類準(zhǔn)確率隨著實驗次數(shù)的增加而升高,本文系統(tǒng)數(shù)據(jù)召回率高達(dá)99%,大數(shù)據(jù)預(yù)測值較高。由表1~表3的實驗數(shù)據(jù)可以看出,本文系統(tǒng)進(jìn)行大數(shù)據(jù)分類的準(zhǔn)確率和系統(tǒng)數(shù)據(jù)召回率都明顯高于另外兩個分類系統(tǒng)。
為了進(jìn)一步驗證本文系統(tǒng)的性能,對不同系統(tǒng)CPU占用率和內(nèi)存占用率情況進(jìn)行對比,結(jié)果如表4所示。
由表4可知,本文系統(tǒng)的CPU占用率范圍為55%~67%,內(nèi)存占用率范圍為21%~32%;而基于Web數(shù)據(jù)系統(tǒng)的CPU占用率范圍為65%~82%,內(nèi)存占用率范圍為38%~49%;而基于正交分解系統(tǒng)的CPU占用率范圍為68%~85%,內(nèi)存占用率范圍為41%~51%。因此,本文系統(tǒng)的資源占用率明顯低于另外兩個系統(tǒng),驗證了本文系統(tǒng)有較好的性能。
本文系統(tǒng)與另外兩個對比系統(tǒng)在內(nèi)存消耗和分類速度上也有較大區(qū)別,三個系統(tǒng)內(nèi)存消耗對比如圖3所示,三個系統(tǒng)分類速度對比如圖4所示。
由圖3可以看出,本文系統(tǒng)的內(nèi)存消耗最高為1 000 KB,相比于另外兩個系統(tǒng)的最高消耗2 500 KB,1 900 KB明顯較低;由圖4可以看出,本文系統(tǒng)的分類速度在50 s達(dá)到最高,為240 KB/s,另外兩個系統(tǒng)的最高分類速度分別為180 KB/s,110 KB/s。
由以上數(shù)據(jù)可以得出,本文系統(tǒng)的資源占用率低,內(nèi)存消耗較小,同時系統(tǒng)數(shù)據(jù)庫的內(nèi)存較大;本文系統(tǒng)不僅提升了大數(shù)據(jù)分類的準(zhǔn)確率,還減少了數(shù)據(jù)分類所需時間,具有較高的大數(shù)據(jù)分類性能。
本文設(shè)計基于微分方程的大數(shù)據(jù)分類系統(tǒng),采用軟硬件結(jié)合的方式對系統(tǒng)整體構(gòu)造進(jìn)行設(shè)計。首先分析了系統(tǒng)硬件構(gòu)造,主要包括數(shù)據(jù)收集器、網(wǎng)絡(luò)處理器、網(wǎng)絡(luò)接口和存儲模塊;軟件設(shè)計中,采用數(shù)學(xué)模型對大數(shù)據(jù)進(jìn)行分類,并給出數(shù)據(jù)采集和大數(shù)據(jù)分類的關(guān)鍵代碼。實驗結(jié)果表明,所設(shè)計的系統(tǒng)在進(jìn)行大數(shù)據(jù)分類時,分類準(zhǔn)確率為95%,同時系統(tǒng)資源消耗低,具有很好的分類性能。
參考文獻(xiàn)
[1] 袁芬,徐從富.基于機(jī)會協(xié)作的農(nóng)業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)處理系統(tǒng)設(shè)計[J].計算機(jī)應(yīng)用,2014,34(7):2136?2139.
YUAN Fen, XU Congfu. Big data processing system based on opportunistic cooperation for agricultural Internet of Things [J]. Journal of computer applications, 2014, 34(7): 2136?2139.
[2] 王永坤,羅萱,金耀輝.基于私有云和物理機(jī)的混合型大數(shù)據(jù)平臺設(shè)計及實現(xiàn)[J].計算機(jī)工程與科學(xué),2018,40(2):191?199.
WANG Yongkun, LUO Xuan, JIN Yaohui. A hybrid big data platform based on private cloud VMs and bare metals [J]. Computer engineering & science, 2018, 40(2): 191?199.
[3] 段青玲,魏芳芳,張磊,等.基于Web數(shù)據(jù)的農(nóng)業(yè)網(wǎng)絡(luò)信息自動采集與分類系統(tǒng)[J].農(nóng)業(yè)工程學(xué)報,2016,32(12):172?178.
DUAN Qingling, WEI Fangfang, ZHANG Lei, et al. Automatic acquisition and classification system for agricultural network information based on Web data [J]. Transactions of the Chinese Society of Agricultural Engineering, 2016, 32(12): 172?178.
[4] 向小佳,趙曉芳,劉洋,等.一種正交分解大數(shù)據(jù)處理系統(tǒng)設(shè)計方法及實現(xiàn)[J].計算機(jī)研究與發(fā)展,2017,54(5):1097?1108.
XIANG Xiaojia, ZHAO Xiaofang, LIU Yang, et al. A design method and implementation of orthogonal decomposition based big data processing system [J]. Journal of computer research and development, 2017, 54(5): 1097?1108.
[5] 魏萍,丁卯,左信,等.基于微分方程對稱的分布參數(shù)系統(tǒng)穩(wěn)態(tài)控制[J].自動化學(xué)報,2014,40(10):2163?2170.
WEI Ping, DING Mao, ZUO Xin, et al. Steady?state control for distributed parameter systems by symmetry of differential equations [J]. Acta Automatica Sinica, 2014, 40(10): 2163?2170.
[6] 曾勝.重大危險源動態(tài)智能監(jiān)測監(jiān)控大數(shù)據(jù)平臺框架設(shè)計[J].中國安全科學(xué)學(xué)報,2014,24(11):166?171.
ZENG Sheng. Framework design of large data platform for monitoring and controlling major hazards dynamically and intelligently [J]. China safety science journal, 2014, 24(11): 166?171.
[7] 李雨童,姚登舉,李哲,等.基于R的醫(yī)學(xué)大數(shù)據(jù)挖掘系統(tǒng)研究[J].哈爾濱理工大學(xué)學(xué)報,2016,21(2):38?43.
LI Yutong, YAO Dengju, LI Zhe, et al. Research on data mining system for big data in medical field based on R platform [J]. Journal of Harbin University of Science and Technology, 2016, 21(2): 38?43.
[8] 陳學(xué)斌,王師,董巖巖.面向大數(shù)據(jù)的并行分類混合算法研究[J].微電子學(xué)與計算機(jī),2016,33(4):138?140.
CHEN Xuebin, WANG Shi, DONG Yanyan. Research on parallel classification hybrid algorithm for big data [J]. Microelectronics & computer, 2016, 33(4): 138?140.
[9] 胡為艷,艾民,周光彬,等.基于大數(shù)據(jù)的信令監(jiān)測系統(tǒng)的設(shè)計與實現(xiàn)[J].電視技術(shù),2016,40(1):95?101.
HU Weiyan, AI Min, ZHOU Guangbin, et al. Design and implementation of big data based signaling monitoring system [J]. Video engineering, 2016, 40(1): 95?101.
[10] 王丹,張廣,陳鋒,等.智能檢傷分類系統(tǒng)的設(shè)計與研究[J].軍事醫(yī)學(xué),2015,39(9):651?655.
WANG Dan, ZHANG Guang, CHEN Feng, et al. Design and research of intelligent system for triage [J]. Military medical sciences, 2015, 39(9): 651?655.