梁偉平,鮑鵬凱
(華北電力大學 控制與計算機工程學院,河北 保定 071003)
為了加快潔凈燃煤發(fā)電新技術的研發(fā)和推廣應用,提高煤電發(fā)電效率及節(jié)能環(huán)保水平,在未來的很多年,煤炭在中國能源結構中的主導地位不會發(fā)生根本的改變。由于未來全球能源需求預計仍將大幅增加,國際能源署煤炭產業(yè)咨詢委員會強調指出,煤炭將繼續(xù)作為21世紀的全球能源解決方案[1]。為了響應節(jié)約資源的號召,大機組、大容量、大電網的電力系統(tǒng)已經開始逐漸取代了過去的小機組、小容量的電力生產潮流,而直流鍋爐作為現代電力生產的主要設備,承載著節(jié)約資源和保護環(huán)境的作用,而分離器出口溫度作為反應直流鍋爐中給水流量和水煤比的一個重要的工況指標,它直接關系著機組的安全運行,研究它對電力生產過程的重要性不言而喻。
直流鍋爐中間點溫度一般是汽水分離器出口的飽和溫度。目前,國內的許多學者針對它開展了一系列的研究。羅志浩[2]等人在典型直流爐中間點溫度控制特點的研究中,指出直流鍋爐的中間點溫度過熱度對機組過熱汽溫、水冷壁和過熱器金屬溫度都十分敏感,中間點溫度過熱度控制的品質直接關系機組的穩(wěn)定安全運行。方彥君[3]等在基于主蒸汽溫度控制系統(tǒng),建立了鍋爐水冷壁部分的物理模型,根據守恒定律,測試了其在不同運行工況下的中間點溫度機理模型的性能。袁淑娟[4]等以超臨界直流鍋爐為研究對象,分析了給水量和燃料量與鍋爐中間點溫度的關系,建立了中間點溫度非線性離散模型,并進行控制系統(tǒng)設計,證明了該控制系統(tǒng)在適應變工況運行的同時,能夠實現中間點溫度穩(wěn)定的控制目的,能實時響應負荷變化。鐘治琨[5]從鍋爐的分布參數和多變量密切耦合的特性角度為出發(fā)點,建立了自我組織的模糊神經網絡的方法來模擬中間點溫度控制系統(tǒng),并且在水煤比發(fā)生變化的情況下很好地反映了中間點的溫度動態(tài)。
上述文獻雖有對中間點溫度的研究,但是他們只注重從機理方面研究中間點溫度與各種鍋爐工況之間的聯系,并沒有實際地去研究如何去預測中間點溫度的值。本文采集了某電廠DCS歷史數據,建立了基于PCA降維技術的隨機森林模型,并通過仿真實驗驗證了模型的有效性。
所謂的數據降維是對原始的高維特征數據進行映射,有選擇地得到一些重要的特征,實現數據從高維到低維的轉化。常見的降維方法有:獨立成分分析(ICA)[6]、奇異值分解(SVD)[7]、因子分析法[8]、等距特征映射(ISOMAP)[9]。
本文采用的PCA(主成分分析)是一種線性組合的算法,用少數新變量去代替原來變量,使得到降維后的新特征盡可能多地去包含原來特征的信息,去除原來特征中重復的一部分信息。
假設數據樣本集中的樣本數有m個,其中單個樣本的維度是n維。
其實現步驟如下:
2)計算樣本的協(xié)方差矩陣:
3)求協(xié)方差矩陣C的特征值和相對應的特征向量
根據式(6)求協(xié)方差矩陣的特征值和特征向量:
讓計算好的λ從大到小進行排列,將得到的特征向量按λ的順序進行排列。
4)通過3)得到特征向量組成的矩陣,利用其對原始數據進行降維操作,得到降維后的新數據集:
5)通過4)得到的新的數據集,然后一一計算其所包含某個特征的信息貢獻率和累計信息貢獻率。
信息貢獻率計算公式如下:
前k個特征的累計方差貢獻率如下:
根據公式(9)計算得到的累計方差貢獻率總和,當其貢獻值達到90%以上時,就選擇它所包含的部分特征代替原來的幾個特征進行分析。
隨機森林算法最早是由美國統(tǒng)計學家Leo Breiman[10]在2001年提出的,他將Bagging集成學習理論[11]與隨機子空間方法[12]相結合,提出一種機器學習算法。RF是以決策樹為基本分類器的一個集成學習模型。集成學習是將單個分類器聚集起來,通過對每個基本分類器的分類結果進行組合,來決定待分類樣本的歸屬類別[13]。其模型示意圖如圖1所示。
圖1 隨機森林模型示意圖Fig.1 Schematic diagram of random forest model
隨機森林模型構建步驟如下:
不防設樣本的特征個數為n,其中m為n的子特征(0<m ≤ n)。
1)利用隨機森林中重采樣方法(Bootstrap),從原始數據集中進行有放回的采樣,生成一個樣本數為T的訓練集 :b1,b2,b3,......,bT。
2)利用第1步得到訓練集,生成與其對應的決策樹:T1,T2,......Tn,在其生成的對應的決策樹的非葉子節(jié)點上選擇特征前,從n個特征中隨機抽取m個特征作為分裂的起始點,并且以這m中最好的生長方向為分裂的最佳方向。
3)在第2步完成以后,讓得到的決策樹都自由地生長,生長結束以后傳入樣本的測試集X,利用生長好的決策樹一一進行測試,得到相應的類別。
4)將第3步得到的決策樹采用投票的方法,把其中輸出最多的作為其類別。
圖2 PCA-隨機森林架構Fig.2 PCA Random forest architecture
本實驗采用的數據來源于華北地區(qū)某電場,數據采集是通過DCS系統(tǒng)導出來的實測數據,測量的數據種類包括:燃料量、給水流量、三級過熱器出口煙氣溫度1、三級過熱蒸汽煙氣溫度2、主蒸汽壓力、主蒸汽溫度、中間點溫度。其中,這些采集到的數據都是帶雙引號的文本格式,不能直接根據需要對其進行處理,得到正常的計算機可以識別的格式。
由于采集的數據量綱不一樣,量綱的不同會導致計算結果的不同,尺度大的特征在計算中往往起決定作用,而尺度小的特征在計算中往往會被忽略。因此,為了消除特征尺度的差異,所以需要對其數據做歸一化處理。其歸一化公式如式(10)所示:
對采集的數據處理完成后,如果直接選用8個影響因素建立預測模型,容易導致模型訓練時出現過擬合。因此,需要通過PCA算法刪除樣本中冗余的部分,采用PCA進行分析,將其分析得到的貢獻率利用排序工具讓其從大到小進行排序,如圖3所示。
圖3 各主成分的貢獻率Fig.3 Contribution rate of principal components
從圖3和表1可以看出,前3個特征的累積方差貢獻率達到了95%,可以用前2個特征來代替原始數據集,用BP神經網絡和隨機森林對降維后的數據進行訓練和預測。
表1 各主成分貢獻率的值Table 1 Values of contribution rate of principal components
通過PCA降維技術選用燃料量、給水流量兩個特征和選用數據集的前1900個數據組成原始數據集,對RF(隨機森林)和BP神經網絡進行訓練和預測。其中,BP神經網絡的訓練模型參數設定見表2。
表2 BP神經網絡的參數設定Table 2 Parameter setting of BP neural network
從圖4、圖5和表3可知,在一定的誤差范圍內,即417<range<419.5時,在100個樣本中,PCA-BP的預測個數為51個,PCA-RF的個數為78個,通過公式:
圖4 BP神經網絡的預測結果Fig.4 Prediction results of BP neural network
圖5 PCA-RF的預測結果Fig.5 Prediction results of PCA-RF
表3 在一定的誤差下預測正確率Table 3 Prediction accuracy under certain error
基于PCA降維算法隨機森林的正確率大于基于PCA降維算法的BP神經網絡的正確率,且是預測正確的樣本里其單個元素的誤差大部分都小于BP神經網絡正確樣本的單個元素。同時比沒有采用PCA降維算法的隨機森林相比,運行時間提高了0.2 s。
為了實現對中間點溫度進行有效的預測,本文提出了一種基于PCA-RF模型:
1)根據DCS系統(tǒng)采集的歷史數據,結合數據的特點引入了PCA降維算法,剔除了數據中影響較小的部分。
2)隨機森林與其它算法相比較,有著較好的擬合能力,可以對數據進行預測。
3)通過仿真實驗發(fā)現,該RF模型與BP神經網絡相比較擬合能力有進一步的提高,同時該模型的預測準確率比BP神經網絡有很大提高,進一步說明該模型具有一定的應用潛力。