荀文婧 徐銘明 劉曉峰 張福全
摘要:大氣溫度和大氣濕度在農(nóng)林、氣候、生物化學(xué)等領(lǐng)域具有重要意義。為了解光照對大氣溫度和大氣濕度的影響。對傳統(tǒng)數(shù)據(jù)分析方法進行改進,使用數(shù)據(jù)挖掘工具RapidMiner對大數(shù)據(jù)進行處理。對南京紫金山地區(qū)森林海拔在500米以下的大氣溫度、大氣濕度、光照的大數(shù)據(jù)進行了研究。利用RapidMJner的Filter Samples等算子對林業(yè)物聯(lián)網(wǎng)數(shù)據(jù)進行處理,并利用MATLAB軟件對三者之間的關(guān)系進行關(guān)聯(lián)分析研究,進而研究光照對海拔在500米以下大氣溫度和大氣濕度的影響。
關(guān)鍵詞:大數(shù)據(jù);物聯(lián)網(wǎng):RapidMiner;Filter Samples;Replace Missing Values
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1009-3044(2017)22-0208-04
1概述
隨著生活水平的提高,人們越來越注重自己的生活質(zhì)量。為了出行方便,人們也更加關(guān)注天氣預(yù)報。現(xiàn)在的天氣預(yù)報會告訴我們當天的最高、最低氣溫、濕度、氣壓、風速等信息。氣溫和濕度等因素影響著人們的生活,因此人們對這兩個參數(shù)尤為關(guān)注。除了日常生活,大氣溫度和大氣濕度在氣象、生物等方面也有著重要意義。大氣溫度是地球大氣系統(tǒng)能量和水分循環(huán)的關(guān)鍵參數(shù),也是影響土壤呼吸速率變化的關(guān)鍵氣象因子,與土壤水分蒸發(fā)速率和大氣濕度呈極顯著正相關(guān)。大氣濕度的變化在霧-霾轉(zhuǎn)變中也起到了一定作用。除此之外,大氣溫度和大氣濕度也影響著動植物的分布和生活習(xí)性。
森林是地球之肺。森林資源不僅是一種物質(zhì)資源,更是重要的生態(tài)資源、旅游資源和環(huán)境資源。因此,對森林地區(qū)的大氣溫度、大氣濕度、地表濕度等的檢測具有重要意義。
就理論而言,大氣溫度、大氣濕度與光照強度、土壤濕度、經(jīng)緯度等有一定關(guān)系。本研究不考慮一些復(fù)雜因素,基于南京紫金山地區(qū)森林實際測量的海拔在500米以下的大氣溫度、大氣濕度的光照的數(shù)據(jù),借助RapidMiner來研究它們之間的關(guān)系。
2數(shù)據(jù)的采集
目前森林物聯(lián)網(wǎng)在林業(yè)資源監(jiān)管、林業(yè)災(zāi)害監(jiān)控及應(yīng)急響應(yīng)、生態(tài)檢測等方面起著重要作用。南京紫金山地區(qū)的森林中就使用林業(yè)物聯(lián)網(wǎng)技術(shù)來對森林進行檢測。在南京紫金山地區(qū)森林中,存在著許多個傳感器。這些森林中的傳感器每隔一段時間會通過互聯(lián)網(wǎng)向數(shù)據(jù)庫發(fā)送數(shù)據(jù),包括傳感器編號、記錄時間、大氣溫度、大氣濕度、地表濕度等信息。在對數(shù)據(jù)的處理分析中,發(fā)現(xiàn)一些大于100%的大氣溫度數(shù)據(jù),這些都是噪聲數(shù)據(jù)。一般在傳感器電量不足、無電或者損壞等情況下會傳輸這些噪聲數(shù)據(jù)。在研究時,必須去除這些噪聲數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)處理方法在處理大數(shù)據(jù)時效率較低。因此,本研究使用數(shù)據(jù)挖掘解決方案RapidMiner來處理林業(yè)物聯(lián)網(wǎng)數(shù)據(jù)。
3數(shù)據(jù)的處理方法
3.1RapidMiner
RapidMiner是世界領(lǐng)先的數(shù)據(jù)挖掘解決方案,數(shù)據(jù)挖掘過程簡單,強大和直觀。RapidMiner提供數(shù)據(jù)挖掘和機器學(xué)習(xí)程序,其中包括數(shù)據(jù)加載和轉(zhuǎn)換,數(shù)據(jù)的預(yù)處理和可視化,預(yù)測分析和統(tǒng)計建模,評估和部署。它是用Java編程語言的。Rapid-Miner提供圖形用戶界面,用戶可以不用編程,通過簡單拖拽算子來設(shè)計和執(zhí)行工作流程分析,易于學(xué)習(xí)和掌握。這些流程稱為RapidMiner“進程”,它們包括多個算子。每個算子執(zhí)行過程內(nèi)的單個任務(wù),并且每個輸出形成下一個的輸入端。同樣,引擎可以從其他程序調(diào)用或用作應(yīng)用程序編程接口。各個功能可以通過命令行調(diào)用。
3.2Fiber Samples
Filter Samples是RapidMiner最常用的算子之一。它包含了輸入和輸出兩端。將需要處理的數(shù)據(jù)輸入Filter Samples的輸入端口,經(jīng)過處理后Filter Samples會返回一個新的結(jié)果集,其中只包含滿足特定條件的數(shù)據(jù)集。這些條件可以是Rapid—Miner預(yù)先給定的條件,也可以是用戶自己定義的條件。FiberSamples的輸出端包括三種端口的輸出:輸出滿足條件的數(shù)據(jù)集、輸出不匹配的數(shù)據(jù)集和輸出原始數(shù)據(jù),即原始數(shù)據(jù)通過此端口傳遞而不更改輸出。Filter Samples算子的結(jié)構(gòu)圖見圖1。
3.3Replace Missing Values
在分析原始數(shù)據(jù)時發(fā)現(xiàn)個別記錄存在數(shù)據(jù)缺失情況,若對這些缺失值置之不理,將會影響后面研究分析數(shù)據(jù)的平均值、極差等過程以及研究結(jié)果的精確度。為了獲得更精確的結(jié)果,處理這些缺失值通常采用剔除缺失值或者使用數(shù)據(jù)替代缺失值的方法。RapidMiner中提供的Replace MissingValues是數(shù)據(jù)預(yù)處理時經(jīng)常用到的算子,能夠解決數(shù)據(jù)缺失問題。ReplaceMissing Values通過數(shù)據(jù)替代的方式來處理數(shù)據(jù)集中所選屬性中的缺失值。缺失的數(shù)據(jù)可以被該屬性的最小值,最大值或平均值代替。零或者任何補充的數(shù)據(jù)都可以放置在缺少數(shù)據(jù)的位置。ReplaceMissingValues的輸出端包括三種端口的輸出:輸出替換缺失值后的數(shù)據(jù)集、輸出有該算子相關(guān)參數(shù)信息的預(yù)處理模型和輸出原始數(shù)據(jù)。Replace Missing Values算子的結(jié)構(gòu)圖見圖2。
使用Replace Missing Values處理缺失值的過程如下:
1)選中一個Replace Missing Values算子。
2)在這個算子的參數(shù)選項中進行缺失值的設(shè)置。
3)attribute filter type的屬性有:all、single、subset、regu-lar_expression、value_type、block_type、no_missing_values和nu-meric_value_fiher八種。
①all:處理數(shù)據(jù)集中的所有屬性。
②single:只處理數(shù)據(jù)集中的單個屬性。endprint
③subset:處理數(shù)據(jù)集中多個屬性。
④regular_expression:為屬性選擇指定正則表達式。
⑤value_type:選擇特定類型的所有屬性
⑥block_type:選擇特定塊類型的所有屬性
⑦no_missing_values:輸出不含有缺失值的屬性
⑧numeric_value_filter:選擇此選項時,參數(shù)面板中將顯示另一個參數(shù)(數(shù)值條件)。
4)在attribute欄選擇需要處理缺失值的列。
5)在default欄選擇使用最小值、最大值、平均值、零或是補充的數(shù)據(jù)進行缺失值替換,也可以選擇不替換缺失值。使用平均值代替缺失的大氣溫度數(shù)據(jù)的詳細參數(shù)設(shè)置見圖3。④3.4基于RapidMiner的數(shù)據(jù)去噪
通過分析傳感器發(fā)送的數(shù)據(jù),發(fā)現(xiàn)存在大氣溫度大于100℃的數(shù)據(jù)、大氣溫度24小數(shù)內(nèi)沒有變化等有異常的數(shù)據(jù),這些都是噪聲數(shù)據(jù)。在傳感器電量不足或者損壞的情況下可能會傳回噪聲數(shù)據(jù)。在數(shù)據(jù)預(yù)處理時,必須去除這些噪聲數(shù)據(jù)。南京地區(qū),一般最低氣溫不低于-10℃,最高氣溫不高于45℃。在Filter Samples中可以創(chuàng)建過濾器,可以非??旖莸貙?shù)據(jù)進行預(yù)處理。在過濾器中設(shè)置大氣溫度≤45℃和大氣溫度≥-10℃兩個條件,即可將高于45℃或低于-10℃的大氣溫度數(shù)據(jù)在結(jié)果集中去除。
使用Fiber Samples設(shè)置過濾條件過程如下:
1)選中一個Fiher Samples算子。
2)在filters中添加過濾條件。
3)添加過濾條件時,先選擇一個屬性,然后確定其取值范圍。
4)給定一個條件數(shù)據(jù)。
5)可以設(shè)定所選屬性等于、不等于、小于、大于、小于等于或大于等于給定的條件數(shù)據(jù)。也可以將這個屬性的值設(shè)置為空。
6)對于所有添加到filters中的條件,可以選擇讓查詢結(jié)果集符合所有給定條件或者符合任一給定條件。如圖4,設(shè)置大氣溫度在-10℃到45℃之間。
3.5數(shù)據(jù)處理
RapidMiner能夠自動生成當前結(jié)果集中各項數(shù)據(jù)的最小值、最大值、平均值以及極差。通過Filter Samples我們可以得到大氣溫度、大氣濕度以及光照的日平均值和月平均值。如圖5。
4數(shù)據(jù)的分析
4.1按天分析大氣溫度、大氣濕度與光照的關(guān)系
本研究分析了2013年南京紫金山地區(qū)森林的大氣溫度、大氣濕度以及光照的數(shù)據(jù)。利用RapidMiner處理得到按日、按月的大氣溫度、大氣濕度以及光照的平均數(shù)據(jù),然后使用Mat-lab畫出圖像,建立分析模型。通過圖像發(fā)現(xiàn),大氣溫度、大氣濕度以及光照,三者之間密切相關(guān)。夜晚,光照為0,大氣溫度和大氣濕度的變化波動不大。白天,大氣溫度變化和大氣濕度變化趨勢相反。大氣溫度變化與光照變化趨勢在總體上一致,但是光照變化速率快于大氣溫度。大氣溫度和大氣濕度的變化趨勢一般晚于光照1-2小時。該研究選取了幾幅具有代表意義的大氣溫度、大氣濕度與光照的關(guān)系圖。詳見圖6到圖9。
4.2按月分析大氣溫度、大氣濕度與光照的關(guān)系
利用RapidMiner處理數(shù)據(jù)后發(fā)現(xiàn),春季和秋季夜晚大氣濕度變化趨于平穩(wěn)。白天大氣溫度、大氣濕度變化與冬季和夏季相比,變化較為明顯。這可能應(yīng)為冬夏兩季冷暖空氣交替變化較頻繁,因而導(dǎo)致了早晚溫差較大。不同季節(jié)的日出日落時間不同。南京地區(qū),冬季白天一般在7:30-17:30,春季一般在6:00~18:00,夏季一般在5:00~19:00,秋季一般在6:30-16:00。光照變化的時間與日出日落的時間有一定的關(guān)系。夏季光照最強,大氣溫度最高,大氣濕度相比其他季節(jié)略有下降。冬季光照強于春秋兩季。用Excel處理得到2013年南京紫金山觀測林關(guān)于大氣溫度、大氣濕度、光照的關(guān)系圖,見圖10。
5結(jié)論
1)在該研究區(qū)內(nèi),大氣溫度變化與光照變化趨勢在總體上一致,與大氣濕度變化趨勢相反,時間順序上不一致。大氣溫度和大氣濕度的變化趨勢一般晚于光照1-2小時。光照變化速率快于大氣溫度和大氣濕度。
2)在研究區(qū)內(nèi),大氣溫度、大氣濕度與光照存在季節(jié)特征,一般來說,夏季光照最強,大氣溫度最高,大氣濕度略低于其他季節(jié)。冬季光照強于春秋兩季。
該研究利用RapidMiner對數(shù)據(jù)進行處理,研究了海拔在500米以下的大氣溫度、大氣濕度與光照的關(guān)系。但是該研究仍有不足之處,一方面,光照受天氣變化影響較大,該研究沒有考慮天氣情況對大氣溫度、大氣濕度以及光照的影響;另一方面,該研究是否具有普遍性,是否適用于其他地區(qū)的森林不可知。因此,借助RapidMiner討論其他森林大氣溫度、大氣濕度、光照的關(guān)系是將來研究工作的方向之一。endprint