朱麗波,馬 欣
(淄博師范高等??茖W(xué)校 信息系,山東 淄博 255100)
我國是一個傳統(tǒng)的農(nóng)業(yè)大國,正處于發(fā)展階段.雖然消費產(chǎn)業(yè)、工業(yè)產(chǎn)業(yè)也得到了快速發(fā)展,但是農(nóng)業(yè)依然位居第一產(chǎn)業(yè)地位,是國家經(jīng)濟發(fā)展的基礎(chǔ).建設(shè)社會主義新農(nóng)村是中國現(xiàn)代化進程的關(guān)鍵任務(wù),并在各個省、市建設(shè)新農(nóng)村試點取得了不錯的成績.與城市規(guī)劃相比,目前鄉(xiāng)村規(guī)劃管理較薄弱,主要原因為鄉(xiāng)村綜合信息的缺失以及信息數(shù)據(jù)管理技術(shù)的缺乏,無法真實地對鄉(xiāng)村情況進行全面地了解,致使鄉(xiāng)村規(guī)劃或者出臺政策與鄉(xiāng)村實際發(fā)展需求不符.
現(xiàn)今社會已經(jīng)進入了一個信息爆炸時代,鄉(xiāng)村綜合信息也不例外,其信息數(shù)據(jù)量達到了大數(shù)據(jù)級別,如何對其進行智能管理以及快速找到有價值的信息數(shù)據(jù),是當前鄉(xiāng)村規(guī)劃與發(fā)展領(lǐng)域的重點研究課題之一[1].就現(xiàn)有研究成果來看,已有數(shù)據(jù)管理系統(tǒng)無法對鄉(xiāng)村綜合信息進行有效整合或者統(tǒng)一,缺乏明確的數(shù)據(jù)庫構(gòu)建規(guī)范,管理智能化也較低,無法滿足鄉(xiāng)村發(fā)展的需求,因此本文提出基于決策樹的鄉(xiāng)村綜合信息數(shù)據(jù)智能管理系統(tǒng).通過決策樹算法挖掘鄉(xiāng)村信息之間的關(guān)系,有效推進鄉(xiāng)村信息化建設(shè),實現(xiàn)“數(shù)字鄉(xiāng)村”的建設(shè)目標[2].
硬件單元的設(shè)計是鄉(xiāng)村綜合信息數(shù)據(jù)智能管理系統(tǒng)運行的基礎(chǔ).為了提升數(shù)據(jù)管理水平,設(shè)計系統(tǒng)硬件單元包括數(shù)據(jù)智能管理框架搭建單元、數(shù)據(jù)處理器選取單元與網(wǎng)絡(luò)通信單元.
為了滿足鄉(xiāng)村綜合信息數(shù)據(jù)智能管理的需求,以C/S架構(gòu)為基礎(chǔ),通過AreSDE引擎對鄉(xiāng)村綜合信息數(shù)據(jù)進行存儲與管理[3].鄉(xiāng)村綜合信息數(shù)據(jù)智能管理框架如圖1所示.
通過圖1可以看出,搭建框架主要分為3個層次,分別為數(shù)據(jù)層、邏輯層與應(yīng)用層.數(shù)據(jù)層主要應(yīng)用多種器件對鄉(xiāng)村綜合信息進行采集與處理,例如地理信息、人口信息等;邏輯層承擔(dān)著數(shù)據(jù)訪問接口建立、數(shù)據(jù)關(guān)系挖掘等任務(wù),是鄉(xiāng)村綜合信息數(shù)據(jù)存儲及其管理的基礎(chǔ);應(yīng)用層基于C#語言等工具搭建用戶交互界面,依據(jù)用戶的需求,提供對應(yīng)的鄉(xiāng)村綜合信息[4].
圖1 數(shù)據(jù)智能管理框架
以搭建數(shù)據(jù)智能管理框架為基礎(chǔ),選取適當?shù)臄?shù)據(jù)處理器,對鄉(xiāng)村綜合信息數(shù)據(jù)進行統(tǒng)一處理,方便后續(xù)數(shù)據(jù)的應(yīng)用與管理[5].
根據(jù)設(shè)計系統(tǒng)需求,研究選取STM32F103ZET6芯片作為數(shù)據(jù)處理設(shè)備,具有多種優(yōu)質(zhì)特性,具體如下所示:
(1)功耗較低.STM32F103ZET6芯片具有多種工作模式,每種工況適應(yīng)的工作模式不同,工作模式切換時間較短,能夠極大地降低設(shè)計系統(tǒng)的運行功耗;
(2)運算速度快.STM32F103ZET6芯片工作頻率能夠達到72 MHz,可以滿足鄉(xiāng)村綜合信息數(shù)據(jù)的處理需求;
(3)資源豐富[6].處理器芯片內(nèi)部包含數(shù)模轉(zhuǎn)換器、DMA控制器、定時器、存儲器以及多種類型接口等;
(4)供電電壓裕度較大.在正常工作環(huán)境下,供電電壓范圍為2.0~3.6 V.
STM32F103ZET6芯片結(jié)構(gòu)如圖2所示.
由圖2可知,STM32F103ZET6芯片包含多個功能模塊,并具有多種接口類型,能夠有效連接其他硬件單元,從而高效地完成數(shù)據(jù)處理任務(wù)[7].
通信單元是系統(tǒng)硬件與軟件運行的前提,也是鄉(xiāng)村綜合信息數(shù)據(jù)采集與傳輸?shù)幕A(chǔ).為了滿足設(shè)計系統(tǒng)的通信需求,選取以CC2530芯片為核心的Zigbee通信模式[8].CC2530通信芯片中具有增強型的控制內(nèi)核,并搭載可編程內(nèi)存,能夠滿足設(shè)計系統(tǒng)低能耗的需求.另外,該芯片可以根據(jù)用戶的需求,對自身運行模式進行靈活調(diào)節(jié).CC2530通信芯片關(guān)鍵性能指標如表1所列.
圖2 STM32F103ZET6芯片結(jié)構(gòu)
表1 CC2530通信芯片關(guān)鍵性能指標
根據(jù)設(shè)計系統(tǒng)網(wǎng)絡(luò)通信需求以及表1所列數(shù)值范圍,對CC2530通信芯片性能參數(shù)進行合理設(shè)置,從而保障設(shè)計系統(tǒng)的通信順暢.
上述過程完成硬件單元的選取與設(shè)計,但仍然無法實現(xiàn)鄉(xiāng)村綜合信息數(shù)據(jù)的智能管理,故以硬件為基礎(chǔ),設(shè)計系統(tǒng)軟件模塊.
系統(tǒng)軟件模塊包括數(shù)據(jù)關(guān)系挖掘模塊、數(shù)據(jù)智能管理模塊與數(shù)據(jù)庫構(gòu)建模塊.
一般情況下,鄉(xiāng)村綜合信息數(shù)據(jù)量較大,數(shù)據(jù)類型較為復(fù)雜,為數(shù)據(jù)智能管理帶來了極大阻礙,為此本文引入決策樹算法,深入挖掘數(shù)據(jù)之間的關(guān)系,并以樹狀結(jié)構(gòu)清晰地表示數(shù)據(jù)關(guān)系,以此來簡化數(shù)據(jù)的管理過程[9].
決策樹算法分裂標準為屬性選擇,即基于數(shù)據(jù)屬性來決定節(jié)點元組的分裂方式.假設(shè)鄉(xiāng)村綜合信息數(shù)據(jù)訓(xùn)練集為D,屬性總數(shù)量為m,其對應(yīng)類記為Ci,i取值范圍為[1,m].在決策樹算法運行過程中,節(jié)點N的分類屬性為最高信息增益的屬性,從而使元組分類信息量最小,樹結(jié)構(gòu)最簡單[10].
訓(xùn)練集D元組分類期望信息量表達式為:
(1)
式中:Info(D)表示識別訓(xùn)練集D中元組類標號需要的平均信息量,簡稱為訓(xùn)練集D的熵;pi表示訓(xùn)練集D中任意元組屬于Ci類的概率,由|Ci,D|/|D|計算,其中,Ci,D代表D中Ci類元組的集合;m代表元組數(shù)量.
以屬性A元組劃分為例,訓(xùn)練集中該屬性數(shù)據(jù)值為{a1,a2,…,av},總數(shù)量為v,屬性A將訓(xùn)練集劃分為v個子集,表示為{D1,D2,…,Dv},每一個子集均代表一個元組,一一對應(yīng)屬性數(shù)據(jù)值,也是節(jié)點N的分支.為了獲得精準的分類,需要度量屬性期望信息,計算公式為:
(2)
Gain(A)=αInfo(D)-βInfoA(D),
(3)
式中:α與β表示決策樹生成輔助參數(shù).以公式(3)計算結(jié)果的最大值作為節(jié)點N的分裂屬性,實現(xiàn)原則分類信息的最小化.
通過上述過程完成鄉(xiāng)村綜合信息決策樹的構(gòu)建,顯示了數(shù)據(jù)之間的關(guān)系,為后續(xù)數(shù)據(jù)智能管理提供充足準備[11].
鄉(xiāng)村綜合信息數(shù)據(jù)智能管理主要包含數(shù)據(jù)清洗與數(shù)據(jù)編輯兩個功能.其中,數(shù)據(jù)清洗主要針對相似重復(fù)記錄進行刪除操作[12].設(shè)計系統(tǒng)應(yīng)用S-W算法對相似重復(fù)記錄進行識別,識別依據(jù)為數(shù)據(jù)屬性字段匹配數(shù)值,則屬性字段匹配表達式為
(4)
式中:E表示任意兩個數(shù)據(jù)的匹配分值矩陣;E(i,j)表示任意兩個數(shù)據(jù)前i個字符與前j個字符的最可能匹配分值;σ(i,j)表示輔助匹配參數(shù),取值范圍為0~1.
另外,鄉(xiāng)村綜合信息數(shù)據(jù)智能管理過程中,記錄也存在著重復(fù)現(xiàn)象,其相似度度量公式表示為:
(5)
式中:RS(R1,R2)表示數(shù)據(jù)中記錄R1與R2之間的相似度;Fi表示記錄中的屬性字段;Wi表示屬性字段Fi對應(yīng)的權(quán)重數(shù)值.
將公式(4)、(5)計算結(jié)果與設(shè)置閾值進行比較,若大于閾值,表明數(shù)據(jù)或者記錄高度相似,即對其進行刪除操作,反之則進行保留操作[13].
數(shù)據(jù)編輯功能主要包括數(shù)據(jù)添加、導(dǎo)出等操作.鄉(xiāng)村綜合信息數(shù)據(jù)添加時序如圖3所示.
圖3 鄉(xiāng)村綜合信息數(shù)據(jù)添加時序
通過上述過程完成了鄉(xiāng)村綜合信息數(shù)據(jù)的清洗與編輯,實現(xiàn)了數(shù)據(jù)的智能管理,為鄉(xiāng)村規(guī)劃與發(fā)展提供幫助[14].
數(shù)據(jù)庫主要承擔(dān)鄉(xiāng)村綜合信息數(shù)據(jù)運行、數(shù)據(jù)存儲等任務(wù),以表格形式對數(shù)據(jù)進行分類存儲,方便數(shù)據(jù)的應(yīng)用與查詢[15].本系統(tǒng)部分數(shù)據(jù)庫表數(shù)據(jù)如表2所列.
表2 部分數(shù)據(jù)庫表
通過上述硬件單元與軟件模塊的設(shè)計,實現(xiàn)了鄉(xiāng)村綜合信息數(shù)據(jù)智能管理系統(tǒng)的運行,對鄉(xiāng)村綜合信息數(shù)據(jù)提供新的管理手段,有助于“數(shù)字鄉(xiāng)村”的建設(shè)與發(fā)展.
為了驗證設(shè)計系統(tǒng)的應(yīng)用性能,選取某鄉(xiāng)村作為實驗對象.以該鄉(xiāng)村某年綜合信息作為實驗數(shù)據(jù),將數(shù)據(jù)量較大的6個月提取出來,對其進行整合與處理,為后續(xù)實驗做好準備.依據(jù)上述描述,獲得實驗數(shù)據(jù)如表3所列.
表3 實驗數(shù)據(jù)表
另外,決策樹算法輔助參數(shù)的選取也是影響實驗結(jié)論的關(guān)鍵,決定算法是否能夠達到最優(yōu)狀態(tài),因此,需要在實驗開始之前,選取最佳輔助參數(shù).輔助參數(shù)與決策樹生成時間之間的關(guān)系曲線如圖4所示.
由圖4可知,當α取值為0.28、β取值為0.68時,決策樹生成時間達到最小值10 s,說明此時決策樹算法能夠達到最佳狀態(tài).因此,實驗選組最佳輔助參數(shù)為α=0.28,β=0.68.
上述過程完成了實驗對象選取、實驗數(shù)據(jù)準備與決策樹算法參數(shù)的設(shè)置,以此為基礎(chǔ),進行鄉(xiāng)村綜合信息數(shù)據(jù)智能管理實驗.參數(shù)實驗系統(tǒng)為設(shè)計系統(tǒng)與基于CART決策樹的CCL大數(shù)據(jù)有效信息提取系統(tǒng)(對比系統(tǒng)),通過系統(tǒng)響應(yīng)延遲及其搜索延遲來反映設(shè)計系統(tǒng)的應(yīng)用效果.
圖4 輔助參數(shù)與決策樹生成時間曲線
鄉(xiāng)村綜合信息數(shù)據(jù)智能管理系統(tǒng)需要面對較大的數(shù)據(jù)量,涉及數(shù)據(jù)增加、刪除等較多操作,系統(tǒng)響應(yīng)速度直接決定系統(tǒng)的可用性.響應(yīng)延遲指的是用戶在點擊某一按鈕后的響應(yīng)時間.響應(yīng)延遲越短,表明系統(tǒng)響應(yīng)實時性越好.通過實驗獲得系統(tǒng)響應(yīng)延遲數(shù)據(jù)如圖5所示.
圖5 系統(tǒng)響應(yīng)延遲數(shù)據(jù)
由圖5可知,與對比系統(tǒng)相比較,本設(shè)計系統(tǒng)獲得的響應(yīng)延遲更短,表明設(shè)計系統(tǒng)能夠更快響應(yīng)用戶的需求.
鄉(xiāng)村綜合信息數(shù)據(jù)智能管理系統(tǒng)主要服務(wù)于鄉(xiāng)村規(guī)劃與建設(shè),這就要求其能夠快速提供鄉(xiāng)村建設(shè)所需的數(shù)據(jù).搜索延遲指的是數(shù)據(jù)搜索申請發(fā)出到返回正確數(shù)據(jù)的時間.搜索延遲越短,表明系統(tǒng)搜索性能越好.
通過實驗獲得系統(tǒng)搜索延遲數(shù)據(jù)如圖6所示.
圖6 搜索延遲數(shù)據(jù)
由圖6可知,與對比系統(tǒng)相比較,應(yīng)用設(shè)計系統(tǒng)獲得的搜索延遲更短,主要是因為決策樹算法將數(shù)據(jù)關(guān)系變得更加清晰、簡單.
上述實驗數(shù)據(jù)表明:相較于對比系統(tǒng),應(yīng)用設(shè)計系統(tǒng)的響應(yīng)延遲與搜索延遲均較短,充分證實了設(shè)計系統(tǒng)的可用性.
本文設(shè)計的鄉(xiāng)村綜合信息管理系統(tǒng)中,應(yīng)用決策樹算法挖掘了鄉(xiāng)村綜合信息數(shù)據(jù)之間的關(guān)系,在此基礎(chǔ)上,對信息數(shù)據(jù)進行相應(yīng)的管理.通過實驗驗證了設(shè)計系統(tǒng)的響應(yīng)性能與搜索性能,可以為鄉(xiāng)村綜合信息數(shù)據(jù)管理提供有效的支撐,也為數(shù)據(jù)管理研究提供一定的理論基礎(chǔ).