劉金明 謝秋菊 劉浩然
摘要: 針對畜禽舍內(nèi)廢氣濃度監(jiān)測過程中因傳感器故障造成部分數(shù)據(jù)缺失的問題,提出一種基于支持向量機的缺失數(shù)據(jù)恢復方法。該方法綜合考慮畜禽舍內(nèi)廢氣濃度對應的時間、空間和環(huán)境等多種影響因素,建立支持向量機回歸模型對缺失的監(jiān)測數(shù)據(jù)進行恢復性估算;為了獲得更好的估算結(jié)果,使用量子遺傳算法結(jié)合標準遺傳算法對回歸模型的參數(shù)進行優(yōu)化。以氨氣濃度為例,用某養(yǎng)殖場3 d的監(jiān)測數(shù)據(jù)測試該方法,缺失數(shù)據(jù)估算的最大相對誤差為604%,平均相對誤差為1 94%,可見估算值與實際監(jiān)測值的誤差很小。測試結(jié)果表明,本研究提出的方法可以有效地對缺失性數(shù)據(jù)進行恢復,為畜禽舍廢氣監(jiān)測提供可行的數(shù)據(jù)恢復方法。
關(guān)鍵詞: 遺傳算法;量子遺傳算法;支持向量機;廢氣監(jiān)測;數(shù)據(jù)恢復
中圖分類號: TP274 文獻標志碼: A
文章編號:1002-1302(2015)08-0421-03
伴隨著畜禽養(yǎng)殖的規(guī)?;l(fā)展,畜禽飼養(yǎng)過程中產(chǎn)生的各種有害氣體,不僅直接影響工作人員和鄰近居民的身體健康,還對畜禽本身的健康生長和食品安全產(chǎn)生重大影響 [1]。因此,在畜禽舍內(nèi)安裝多種有害氣體濃度檢測傳感器,實時監(jiān)測相應的廢氣濃度,進而精確計算廢氣的排放量,對分析各種有害氣體的排放規(guī)律和影響因素 [2],進而采取有效措施控制和處理有害氣體具有重要意義。然而,畜禽舍內(nèi)的復雜環(huán)境可能導致傳感器損壞,進而造成監(jiān)測數(shù)據(jù)缺失 [3]。為了保證監(jiān)測數(shù)據(jù)的完整性,須要對缺失的廢氣濃度監(jiān)測數(shù)據(jù)進行恢復。但畜禽舍內(nèi)的廢氣濃度與時間、空間和環(huán)境等多種因素相關(guān),各因素之間存在相互作用,是復雜的非線性系統(tǒng),使用線性插值法進行缺失數(shù)據(jù)恢復誤差較大。朱偉興等提出使用神經(jīng)網(wǎng)絡進行廢氣監(jiān)測缺失數(shù)據(jù)處理,并取得了較好的估算結(jié)果 [4-5];但神經(jīng)網(wǎng)絡存在局部極小值問題,容易出現(xiàn)過學習,且結(jié)構(gòu)和類型的選擇過分依賴經(jīng)驗。支持向量機(support vector machine,SVM)是基于小樣本統(tǒng)計學習理論和結(jié)構(gòu)風險最小化原則的機器學習方法,具有良好的泛化能力,解決了神經(jīng)網(wǎng)絡的不足,能夠有效地處理各種非線性問題,廣泛用于各種回歸預測問題的求解 [6-7]。SVM相關(guān)參數(shù)的選取直接關(guān)系到SVM的預測精度,相關(guān)學者提出使用粒子群算法(particle swarm optimization,PSO)、遺傳算法(genetic algorithm,GA)等智能算法 [8-9]對SVM的參數(shù)進行優(yōu)化。其中,GA具有很強的魯棒性和全局優(yōu)化搜索能力,適合復雜優(yōu)化問題的求解,但其存在早熟問題。因此,本研究將量子遺傳算法(quantum genetic algorithm,QGA)與標準GA相結(jié)合構(gòu)建混合遺傳算法(hybrid genetic algorithm,HGA),并利用HGA對SVM回歸模型的參數(shù)進行優(yōu)化,提出一種基于 HGA-SVM 預測模型的畜禽舍廢氣監(jiān)測缺失數(shù)據(jù)恢復方法。
1 材料與方法
1 1 SVM回歸模型理論
SVM回歸的目標就是要尋求函數(shù)f(x),使其在訓練后能夠通過樣本以外的自變量x預測對應的因變量,即尋求回歸函數(shù):
f(x)=([WTHX]w[WTBX]Tx)+b。 (1)
式中:[WTHX]w[WTBX]為權(quán)重;b為閾值。所求的回歸函數(shù) f(x) 是使下面的目標函數(shù)最?。?/p>
g(x)=min[JB((][SX(]1[]2[SX)]|[WTHX]w[WTBX]|2+c·Remp[JB))]。 (2)
式中:c為懲罰因子;Remp為訓練誤差。
SVM非線性回歸的基本思想是利用非線性變換將原問題映射到高維特征空間的線性問題上,并在該空間中進行線性回歸,而這種非線性變換是通過定義適當?shù)膬?nèi)積函數(shù)實現(xiàn)的。在高維特征空間中,線性問題中的內(nèi)積運算可以用核函數(shù)代替,常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、徑向基(radial basis function,RBF)核函數(shù)、Sigmoid核函數(shù)等。由文獻[10]可知,在求解非線性多因素預測問題時,RBF核函數(shù)SVM回歸模型的預測精度最高。最常用的RBF核函數(shù)是高斯核函數(shù),其計算公式如下:
K(u,v)=exp(-γ|u-v|2)。 (3)
式中:r=[SX(]1[]2σ2[SX)];u為空間內(nèi)任一點;v為中心點;σ為寬度參數(shù)。
本研究應用LibSVM工具箱設(shè)計并實現(xiàn)缺失數(shù)據(jù)SVM預測模型,采用的SVM類型為epsilon支持向量回歸機(epsilon-support vector regression,epsilon-SVR),采用的核函數(shù)為RBF高斯核函數(shù),待優(yōu)化參數(shù)包括懲罰參數(shù)c、核函數(shù)參數(shù)γ和不敏感損失函數(shù)參數(shù)ε。
1 2 HGA優(yōu)化SVM回歸模型參數(shù)
利用HGA對SVM進行參數(shù)尋優(yōu)時,HGA由QGA和GA兩部分構(gòu)成。其中,QGA部分負責種群初始化及擾動解集的生成,GA部分完成種群的標準遺傳進化。HGA通過擾動解集來擴展種群的多樣性,有效避免早熟收斂。
1 2 1 HGA編碼及種群初始化 HGA初始解集的編碼方式采用多量子比特編碼,將SVM的3個參數(shù)c、γ和ε編碼為染色體的3個基因,每個基因?qū)猭位量子比特,具體結(jié)構(gòu)如下:
[WTHX]P[WTBX]=[JB<2[][JB(]α11β11[JB)][JB>2|][JB(]……[JB)][JB<2|][JB(]α1kβ1k[JB)][JB>2|][JB(]α21β21[JB)][JB<2|][JB(]……[JB)][JB>2|][JB(]α2kβ2k[JB)][JB<2|][JB(]α31β31[JB)][JB>2|][JB(]……[JB)][JB<2|][JB(]α3kβ3k[JB)][JB>2]]。 (4)endprint
式中:(αmn,βmn)為量子態(tài)的概率幅,且|αmn|2+|βmn|2=1,m=1,2,3,n=1,2,…,k。種群初始化時,設(shè)(αmn,βmn)為(1/[KF(]2[KF)],1/[KF(]2[KF)])即可。
在進化過程中,QGA的編碼方式依然采用多量子比特編碼,QGA的初始種群直接采用HGA的初始種群。而GA的編碼方式采用二進制實數(shù)編碼,GA的初始種群由HGA的初始種群經(jīng)過1次量子概率塌陷獲得。
1 2 2 HGA適應度函數(shù)設(shè)計
采用K折交叉驗證結(jié)合HGA對SVM參數(shù)進行優(yōu)化時,為使預測值與實際值的誤差盡量小,可直接把K折交叉驗證的均方誤差(mean squared error,MSE)作為HGA的目標函數(shù)。顯然,目標函數(shù)值越小,模型的預測精度越高。直接采用HGA的目標函數(shù)作為QGA的適應度函數(shù),通過遺傳算法工具箱中內(nèi)置的ranking()函數(shù)對HGA的目標函數(shù)進行處理后,可獲得GA的適應度函數(shù)。
1 2 3 HGA遺傳進化設(shè)計
HGA的遺傳進化包括QGA的量子遺傳進化和GA的遺傳進化2部分。QGA的量子遺傳進化采用文獻[11]中介紹的量子旋轉(zhuǎn)門更新策略,保證QGA種群向MSE最小化方向進化,進而可在QGA的每一代種群中選取部分優(yōu)良個體構(gòu)成擾動解集。GA的遺傳進化包括選擇、交叉和變異3種操作,其選擇操作采用結(jié)合最優(yōu)保留策略的隨機遍歷抽樣方法,交叉操作采用單點交叉,變異操作采用多位變異。
綜上所述,給出使用HGA對SVM回歸模型進行參數(shù)優(yōu)化的具體步驟:步驟1,產(chǎn)生popSize個以量子比特編碼的染色體,作為QGA的初始種群,并進行量子概率塌陷獲得GA的二進制初始種群。步驟2,對GA種群中的二進制染色體進行實數(shù)解碼,得到參數(shù)c、γ和ε的值,并結(jié)合K折交叉驗證計算目標函數(shù)MSE和相應適應度函數(shù),基于適應度函數(shù)以GGAP為代溝進行遺傳進化生成GGAP×popSize個新個體;再將生成的新個體以基于適應度選擇的方式逐一替代原種群中適應度最小的個體,生成新一代種群。步驟3,對QGA種群進行概率塌陷和實數(shù)解碼后,計算目標函數(shù)MSE,在塌陷后的QGA二進制種群中選出(1-GGAP)×popSize個優(yōu)良個體形成擾動解集,并采用步驟2中介紹的方式,將擾動解集加入到GA種群中;然后再對QGA種群進行基于目標函數(shù)的量子遺傳進化生成新的QGA種群。步驟4,若滿足結(jié)束條件則退出;否則轉(zhuǎn)到步驟2,繼續(xù)進行參數(shù)優(yōu)化。
1 3 SVM缺失數(shù)據(jù)預測模型
綜合考慮影響畜禽舍廢氣濃度的時間、空間和環(huán)境等因素,建立SVM多輸入單輸出預測模型,對某一時刻的缺失監(jiān)測數(shù)據(jù)進行恢復。多個輸入包括:缺失數(shù)據(jù)前一采樣時刻的廢氣濃度監(jiān)測值,相鄰采樣點的廢氣濃度變化量,缺失數(shù)據(jù)采樣點處對應的環(huán)境溫度、相對濕度和風速監(jiān)測值;單一輸出為缺失數(shù)據(jù)采樣點的廢氣濃度估算值。在使用參數(shù)尋優(yōu)及訓練后的預測模型進行缺失數(shù)據(jù)恢復時,要由前一采樣時刻的估算值結(jié)合當前時刻的其他輸入?yún)?shù)對當前時刻的廢氣濃度值進行估算,這是一個典型的時間序列預測問題。
2 試驗仿真及分析
本研究以文獻[12]中某養(yǎng)殖場連續(xù)監(jiān)測3 d的氨氣濃度相關(guān)數(shù)據(jù)為例,對提出的缺失數(shù)據(jù)恢復方法進行評測。監(jiān)測數(shù)據(jù)采樣1次/h,3 d共計72組數(shù)據(jù)樣本,以前48個樣本作為訓練集,后24個樣本作為測試集。運用K折交叉驗證結(jié)合HGA對SVM回歸模型進行參數(shù)尋優(yōu)時,相關(guān)參數(shù)設(shè)定包括:種群規(guī)模popSize為20,基因長度k為20,遺傳代數(shù)為50,代溝GGAP為0 9,參數(shù)c、γ和ε的尋優(yōu)范圍分別是[0,100]、[0,100]和[0 001,1],交叉概率為07,變異概率為0 7/Lind(Lind=60,為染色體碼長),采用5折交叉驗證。通過多次測 試得到最佳預測模型對應的SVM參數(shù)尋優(yōu)結(jié)果:c為33784 5, γ為0 039 6,ε為0 023 5; 對應的均方誤差MSE為0 001 3。參數(shù)尋優(yōu)的進化過程如圖1所示。
由圖1可知,與GA相比,HGA在進化前期的平均目標函數(shù)值較小,而進化后期的平均目標函數(shù)值卻比較大,且收斂速度較快。原因在于QGA生成的擾動解集由優(yōu)良染色體組成,進化前期可有效加快收斂速度;同時,擾動解集由量子概率塌陷而來,具有一定的不確定性,進化后期又能在一定程度上拓展種群的多樣性,避免早熟收斂。
采用訓練好的預測模型對測試集進行測試驗證時,針對這個時間序列預測問題,沒有采用MSE作為評價標準,而是采用相對誤差對預測結(jié)果進行評價。通過多次測試,得到最佳預測模型對應的測試集回歸擬合結(jié)果:最大相對誤差為604%,最小相對誤差為0 07%,平均相對誤差為1 94%。測試集回歸擬合結(jié)果如圖2所示。
為了評價HGA-SVM預測模型在缺失數(shù)據(jù)恢復方面的優(yōu)越性,本研究將其與文獻[12]中的BP神經(jīng)網(wǎng)絡方法、網(wǎng)格搜索參數(shù)尋優(yōu)SVM方法(簡稱網(wǎng)格-SVM)、粒子群算法參數(shù)尋優(yōu)SVM方法(簡稱PSO-SVM)和遺傳算法參數(shù)尋優(yōu)SVM方法(簡稱GA-SVM)進行對比。在Win7 64位系統(tǒng)下,使用Matlab R2012b和LibSVM-3 1工具箱對各預測模型進行評測。硬件設(shè)備中CPU為AMD Athlon(tm) X4 730,內(nèi)存容量為4 GB。不同預測模型的效率和性能對比結(jié)果如表1所示。
由表1可知,4種SVM預測模型的執(zhí)行時間明顯少于BP神經(jīng)網(wǎng)絡方法,雖然HGA-SVM模型的執(zhí)行時間稍高于 GA-SVM 模型,最大相對誤差稍高于BP神經(jīng)網(wǎng)絡方法和PSO-SVM模型,最小相對誤差稍高于網(wǎng)格-SVM模型和PSO-SVM模型,但其平均相對誤差最小,實現(xiàn)了效率和性能
3 結(jié)論
通過綜合考慮畜禽舍內(nèi)的廢氣濃度與時間、空間和環(huán)境等多種因素的關(guān)系,將QGA與GA相結(jié)合構(gòu)建HGA優(yōu)化SVM回歸模型的參數(shù),建立HGA-SVM預測模型,對廢氣監(jiān)測缺失數(shù)據(jù)進行有效的恢復性估算。仿真結(jié)果表明,該方法既增強了傳感器之間的數(shù)據(jù)互補性,又提高了監(jiān)測系統(tǒng)的可靠性,為較準確地計量畜禽養(yǎng)殖場某一段時間內(nèi)連續(xù)排放的廢氣總量、分析畜禽舍內(nèi)廢氣排放規(guī)律提供可靠的依據(jù),進而可以采取有效的措施對畜禽舍排放的有害氣體進行控制和處理。endprint
參考文獻:
[1] 田愛軍,吳云波,邢雅囡,等 江蘇省畜禽養(yǎng)殖污染特征及成因分析[J] 江蘇農(nóng)業(yè)科學,2013,41(10):337-339
[2]Guo H,Dehod W,Agnew J,et al Daytime odor emission variations from various swine barns[J] Transactions of the ASABE,2007,50(4):1365-1372
[3]Jacobson L D,Hetchler B P,Schmidt D R,et al Quality assured measurements of animal building emissions:odor concentrations[J] Journal of the Air & Waste Management Association,2008,58(6):806-811
[4]朱偉興,李 麗,龐 敏 基于神經(jīng)網(wǎng)絡的數(shù)據(jù)融合在廢氣測量中的應用[J] 中國安全科學學報,2007,17(6):162-165
[5]黃建清,朱偉興,李 麗 BP神經(jīng)網(wǎng)絡在廢氣測量中的應用[J] 農(nóng)機化研究,2009,31(4):191-195
[6]都平平 基于支持向量機的綜合地質(zhì)環(huán)境評價研究[J] 采礦與安全工程學報,2012,29(4):555-558
[7]戴 棟,黃筱婷,代 州,等 基于支持向量機的輸電線路覆冰回歸模型[J] 高電壓技術(shù),2013,39(11):2822-2828
[8]劉 偉,王建平,劉長虹,等 基于粒子群尋優(yōu)的支持向量機番茄紅素含量預測[J] 農(nóng)業(yè)機械學報,2012,43(4):143-147,155
[9]陳偉根,滕 黎,劉 軍,等 基于遺傳優(yōu)化支持向量機的變壓器繞組熱點溫度預測模型[J] 電工技術(shù)學報,2014,29(1):44-51
[10] 王 霞,王占岐,金 貴,等 基于核函數(shù)支持向量回歸機的耕地面積預測[J] 農(nóng)業(yè)工程學報,2014,30(4):204-211
[11]吳 朋,林 濤 基于QGA-SVM的鎧裝熱電偶傳感器辨識建模研究[J] 儀器儀表學報,2014,35(2):343-349
[12]黃建清 具有缺失數(shù)據(jù)恢復性估算的畜禽養(yǎng)殖場有害物質(zhì)數(shù)據(jù)處理系統(tǒng)設(shè)計[D] 鎮(zhèn)江:江蘇大學,2009:59-60endprint