王秋平,陳志強(qiáng),魏 浩
(東北電力大學(xué) 自動(dòng)化學(xué)院,吉林吉林132012)
基于數(shù)據(jù)挖掘的電站運(yùn)行參數(shù)目標(biāo)值優(yōu)化
王秋平,陳志強(qiáng),魏 浩
(東北電力大學(xué) 自動(dòng)化學(xué)院,吉林吉林132012)
為提高電站經(jīng)濟(jì)性和機(jī)組運(yùn)行效率,降低機(jī)組發(fā)電煤耗,求取電站機(jī)組運(yùn)行參數(shù)最優(yōu)值是關(guān)鍵技術(shù)。以往通過理論計(jì)算得到最優(yōu)運(yùn)行參數(shù)值是在設(shè)定的理想環(huán)境下得到的,在實(shí)際的電站運(yùn)行過程中難以實(shí)現(xiàn)。而數(shù)據(jù)挖掘算法是從電站自身的歷史數(shù)據(jù)中得到的最優(yōu)運(yùn)行參數(shù)值,電站機(jī)組能夠很容易在實(shí)際運(yùn)行中實(shí)現(xiàn)該值。通過對(duì)比近年來電站常用數(shù)據(jù)挖掘算法,總結(jié)出基于數(shù)據(jù)挖掘的電站優(yōu)化運(yùn)行的主要步驟為關(guān)聯(lián)規(guī)則、數(shù)據(jù)離散化、運(yùn)行工況劃分、粗糙集知識(shí)約減。得出以下結(jié)論:模糊關(guān)聯(lián)規(guī)則挖掘算法是電站數(shù)據(jù)挖掘中的最主要方法,能夠適用于大多數(shù)的電站優(yōu)化目標(biāo)值挖掘;模糊聚類離散化能夠克服邊界劃分過硬的問題,將電站中的連接參數(shù)離散化;粗糙集屬性約減能夠有效降低數(shù)據(jù)挖掘的參數(shù)維度,提高挖掘效率。同時(shí)指出基于數(shù)據(jù)挖掘的電站優(yōu)化運(yùn)行算法將成為電站運(yùn)行參數(shù)優(yōu)化的主要研究方向。
關(guān)聯(lián)規(guī)則;數(shù)據(jù)離散化;工況劃分;知識(shí)約簡(jiǎn)
為了保證電廠的經(jīng)濟(jì)性,電站機(jī)組應(yīng)盡量維持在最優(yōu)的工況下運(yùn)行。然而在實(shí)際的運(yùn)行中,由于外界負(fù)荷、煤質(zhì)以及運(yùn)行人員的操作等因素常常使得機(jī)組偏離最佳工況運(yùn)行,造成了一定的經(jīng)濟(jì)損失。為了維持機(jī)組在較優(yōu)的狀況下運(yùn)行,迫切需要針對(duì)不同的外界工況挖掘出機(jī)組所能達(dá)到的最優(yōu)運(yùn)行狀態(tài)以及最優(yōu)運(yùn)行狀態(tài)下各個(gè)可調(diào)參數(shù)最優(yōu)運(yùn)行范圍,以此來指導(dǎo)電廠的實(shí)際運(yùn)行。目前普遍是采用數(shù)據(jù)挖掘算法,從電廠海量的歷史數(shù)據(jù)中挖掘出電站機(jī)組在不同的工況條件下達(dá)到過的最優(yōu)值。數(shù)據(jù)挖掘算法得到的結(jié)果雖然可能不是機(jī)組理論上的最優(yōu)值,但卻是機(jī)組最容易達(dá)到的最優(yōu)值,比起理論最優(yōu)值更具有實(shí)際意義[1]。在電站的數(shù)據(jù)挖掘參數(shù)最優(yōu)目標(biāo)值的過程中,廣泛應(yīng)用的數(shù)據(jù)挖掘方法包括關(guān)聯(lián)規(guī)則、數(shù)據(jù)離散化、工況劃分等。
本文綜述了近年來采用數(shù)據(jù)挖掘算法確定電站運(yùn)行參數(shù)優(yōu)化目標(biāo)值過程中重要步驟所使用的各類方法,如關(guān)聯(lián)規(guī)則、粗糙集約簡(jiǎn)、工況劃分、數(shù)據(jù)離散化、數(shù)據(jù)預(yù)處理等。
火電廠運(yùn)行的經(jīng)濟(jì)性受到多種因素的影響,其中主要有機(jī)組負(fù)荷、使用的煤質(zhì)、外界的環(huán)境條件以及運(yùn)行人員的運(yùn)行操作水平?;痣姀S運(yùn)行參數(shù)最優(yōu)目標(biāo)值反映的是機(jī)組不同運(yùn)行工況條件下,所能達(dá)到的最佳運(yùn)行時(shí)的各個(gè)可調(diào)參數(shù)的值,是機(jī)組經(jīng)濟(jì)性和優(yōu)化運(yùn)行的基礎(chǔ)。
數(shù)據(jù)挖掘電站優(yōu)化目標(biāo)值是從電站海量的歷史運(yùn)行數(shù)據(jù)中,通過一定的挖掘算法,挖掘出電站在不同工況下的運(yùn)行最優(yōu)值。由于該值是電站的歷史記錄,所以是運(yùn)行優(yōu)化最容易實(shí)現(xiàn)的,與傳統(tǒng)理論計(jì)算方法得到的最優(yōu)值相比,數(shù)據(jù)挖掘得到的優(yōu)化目標(biāo)值更有實(shí)際應(yīng)用的意義。
目前,通過數(shù)據(jù)挖掘算法來獲取電廠優(yōu)化目標(biāo)值的基本流程步驟如圖1。
圖1 優(yōu)化目標(biāo)值獲取流程
關(guān)聯(lián)規(guī)則挖掘算法[2]是電站優(yōu)化目標(biāo)值挖掘的基礎(chǔ),但傳統(tǒng)的關(guān)聯(lián)規(guī)則并不能直接應(yīng)用在電站中,需要對(duì)傳統(tǒng)關(guān)聯(lián)算法進(jìn)行改進(jìn),常見的應(yīng)用在電站優(yōu)化目標(biāo)值挖掘的改進(jìn)關(guān)聯(lián)算法如下所述。
2.1 量化關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘在優(yōu)化中的應(yīng)用
Apriori關(guān)聯(lián)規(guī)則是最經(jīng)典的數(shù)據(jù)挖掘算法,最初是用于描述二進(jìn)制數(shù)據(jù)的,對(duì)于電廠的連續(xù)數(shù)據(jù)無法適用,因此研究人員提出了量化關(guān)聯(lián)規(guī)則算法。
量化關(guān)聯(lián)規(guī)則是將連續(xù)型數(shù)據(jù)進(jìn)行區(qū)間劃分,即將需要量化的數(shù)據(jù)劃分成不同小區(qū)間,每個(gè)區(qū)間用一個(gè)不同符號(hào)表示,連續(xù)數(shù)據(jù)屬于劃分的區(qū)間內(nèi)表示為1,否則為0。這樣將連續(xù)數(shù)據(jù)離散化為布爾型數(shù)據(jù)。然后,再采用布爾型關(guān)聯(lián)規(guī)則挖掘算法尋找量化規(guī)則。量化關(guān)聯(lián)規(guī)則簡(jiǎn)單易于理解應(yīng)用,能夠?qū)㈦娬局械倪B續(xù)運(yùn)行參數(shù)通過簡(jiǎn)單的區(qū)間劃分轉(zhuǎn)換為一個(gè)個(gè)離散的二進(jìn)制數(shù)據(jù),再利用成熟的Apriori算法,實(shí)現(xiàn)電站對(duì)連續(xù)型參數(shù)的數(shù)據(jù)挖掘。
2.2 模糊量化關(guān)聯(lián)規(guī)則在優(yōu)化中應(yīng)用
量化關(guān)聯(lián)規(guī)則中的數(shù)據(jù)離散化直接將屬于某一個(gè)區(qū)間內(nèi)的數(shù)據(jù)完全劃分到該區(qū)間內(nèi),得到的離散化數(shù)據(jù)有兩個(gè)缺點(diǎn):(1)劃分區(qū)間的邊界過硬;(2)處理具有較高偏度的數(shù)據(jù)時(shí)很難體現(xiàn)出數(shù)據(jù)的實(shí)際分布狀況,在劃分邊界處得到的關(guān)聯(lián)規(guī)則不夠準(zhǔn)確。模糊關(guān)聯(lián)規(guī)則的挖掘方法能夠解決這兩個(gè)問題。
模糊關(guān)聯(lián)規(guī)則挖掘算法,是將Apriori算法擴(kuò)展到模糊屬性事務(wù)中,用模糊集將各個(gè)劃分好的屬性區(qū)間進(jìn)行模糊離散化,得到離散化的數(shù)據(jù)[3]。模糊離散化中利用邊界交織在一起的隸屬度函數(shù)求取各個(gè)連續(xù)模糊區(qū)間的隸屬度值。用隸屬度的權(quán)值w來代替Apriori的頻繁項(xiàng)集的支持度s。之后采用與Apriori類似的算法,刪除小于minSup和minConf的項(xiàng),得到滿足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。其中的歸一化處理為公式(1);模糊化處理為公式(2);權(quán)值求取為公式(3)。
(1)
式中:v(i)為記錄中的各個(gè)真實(shí)值。
(2)
式中:Rjk為項(xiàng)目tij的第k個(gè)模糊區(qū)分;ui(Rjk)為分區(qū)Rjk上的隸屬度值。
隸屬度的權(quán)值:
(3)
模糊關(guān)聯(lián)規(guī)則解決了數(shù)量型關(guān)聯(lián)規(guī)則邊界過硬和數(shù)據(jù)偏差大的問題,同時(shí)拓寬了傳統(tǒng)確定性關(guān)聯(lián)規(guī)則的表示應(yīng)用的方法。利用模糊關(guān)聯(lián)規(guī)則表示屬性間的關(guān)系,更符合人的思維習(xí)慣和推理方式,目前模糊關(guān)聯(lián)規(guī)則挖掘常常應(yīng)用在鍋爐運(yùn)行時(shí)過量空氣系數(shù)、排煙溫度、排煙氧量等參數(shù)的確定。
2.3 增量數(shù)據(jù)挖掘在運(yùn)行優(yōu)化中的應(yīng)用
實(shí)際運(yùn)行的電廠數(shù)據(jù)庫并不是靜態(tài)的。當(dāng)數(shù)據(jù)庫發(fā)生變化時(shí),已經(jīng)挖掘出的規(guī)則可能不再適用,因此關(guān)聯(lián)規(guī)則需要經(jīng)常進(jìn)行維護(hù)。采用重新挖掘的維護(hù)方式費(fèi)時(shí)費(fèi)力,因此有學(xué)者提出增量式挖掘算法實(shí)現(xiàn)更新和原有挖掘規(guī)則的維護(hù)。針對(duì)電站連續(xù)數(shù)據(jù),牛成林在模糊量化關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則的基礎(chǔ)上提出了改進(jìn)的增量式模糊數(shù)值型關(guān)聯(lián)規(guī)則挖掘算法[4]。
增量式數(shù)據(jù)挖掘運(yùn)行優(yōu)化目標(biāo)值的基本方法為:首先將數(shù)據(jù)歸一化和模糊離散化,然后計(jì)算各個(gè)模糊集合的權(quán)值,接著利用增量數(shù)據(jù)挖掘的性質(zhì):頻繁項(xiàng)的子集也是頻繁的;不頻繁項(xiàng)的超集也是不頻繁的挖掘更新后的頻繁項(xiàng)集,最后再通過頻繁項(xiàng)集構(gòu)造關(guān)聯(lián)規(guī)則,得到更新數(shù)據(jù)庫后的新的關(guān)聯(lián)規(guī)則,其中利用性質(zhì)更新關(guān)聯(lián)規(guī)則是增量挖掘的新穎之處。
增量式關(guān)聯(lián)規(guī)則挖掘充分利用原有的挖掘結(jié)果,能夠避免重復(fù)挖掘,提高挖掘效率,常應(yīng)用在電站氧量最優(yōu)值的確定上[5]。
2.4 基于動(dòng)態(tài)數(shù)據(jù)流在優(yōu)化中應(yīng)用
增量數(shù)據(jù)挖掘技術(shù)進(jìn)行挖掘解決了數(shù)據(jù)庫更新后運(yùn)行優(yōu)化目標(biāo)值的增量更新問題。但機(jī)組的實(shí)際運(yùn)行的狀態(tài)與歷史數(shù)據(jù)得來的目標(biāo)值仍有時(shí)間延遲,運(yùn)行優(yōu)化目標(biāo)值無法實(shí)現(xiàn)實(shí)時(shí)更新。基于動(dòng)態(tài)數(shù)據(jù)的運(yùn)行優(yōu)化方法能應(yīng)對(duì)此類問題。
動(dòng)態(tài)數(shù)據(jù)挖掘的基本思想是:將數(shù)據(jù)流分割成若干個(gè)固定大小的批,計(jì)算出每批數(shù)據(jù)集中各個(gè)項(xiàng)的支持度技術(shù),然后采用類似FP-Stream算法加入大于最小支持度和最小可信度的各個(gè)項(xiàng),對(duì)FP-stream進(jìn)行更新。
動(dòng)態(tài)數(shù)據(jù)挖掘的方法通過加大增量挖掘的頻度,解決了挖掘結(jié)果與實(shí)際運(yùn)行結(jié)果有“時(shí)間差”導(dǎo)致的挖掘出的結(jié)果偏離當(dāng)前狀態(tài)“較遠(yuǎn)”,挖掘結(jié)果不可用的問題。與傳統(tǒng)的基于靜態(tài)歷史數(shù)據(jù)的增量數(shù)據(jù)挖掘方法相比,該方法在時(shí)間響應(yīng)上更具有優(yōu)勢(shì),目前用該方法研究電站最經(jīng)濟(jì)煤種決策[6]。
關(guān)聯(lián)規(guī)則是電站優(yōu)化目標(biāo)值確定最為基本的理論,但僅依靠關(guān)聯(lián)規(guī)則無法充分挖掘出優(yōu)化目標(biāo)值,因此,需要其他理論方法為關(guān)聯(lián)規(guī)則的使用提供支持。其中主要包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)離散化、工況劃分、知識(shí)約簡(jiǎn)等重要步驟。
3.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)收集是針對(duì)不同的優(yōu)化目標(biāo),從DCS中選取出對(duì)優(yōu)化目標(biāo)有影響的各個(gè)參數(shù)的歷史數(shù)據(jù)。參數(shù)的選取可以通過對(duì)鍋爐的熱平衡公式進(jìn)行確定。如優(yōu)化目標(biāo)是鍋爐的燃燒效率,此時(shí)就可以選擇過量空氣系數(shù)、風(fēng)煤比、外界負(fù)荷、排煙溫度等參數(shù)作為需要收集的數(shù)據(jù)。
由于電站現(xiàn)場(chǎng)有電磁干擾、設(shè)備或傳感器故障等原因,電站記錄的真實(shí)數(shù)據(jù)包含有許多噪聲、空缺、奇異等數(shù)據(jù),使數(shù)據(jù)挖掘挖掘過程中面對(duì)大量的不統(tǒng)一和存在錯(cuò)誤的數(shù)據(jù),因此,數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘中必備可少的步驟。數(shù)據(jù)預(yù)處理的過程主要包括數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)規(guī)約[6,7]。
3.2 數(shù)據(jù)離散化
電廠中的參數(shù)大多是連續(xù)的數(shù)值型數(shù)據(jù),對(duì)數(shù)值型數(shù)據(jù)進(jìn)行關(guān)聯(lián)挖掘,需要先將連續(xù)數(shù)值轉(zhuǎn)換為離散值,再用類似布爾型關(guān)聯(lián)規(guī)則進(jìn)行挖掘[8]。目前電站常用離散化方法主要有等寬度法、等頻率法和聚類算法等。
(1)等寬度劃分離散化。等寬度法將屬性的值域劃分成具有相同寬度的區(qū)間,使得每個(gè)區(qū)間大致包含相同數(shù)目的樣本,然后用一個(gè)符號(hào)來表示這段區(qū)間(常用區(qū)間中心值)。離散區(qū)間的個(gè)數(shù)k由用戶指定,由于區(qū)間大小對(duì)后期使用關(guān)聯(lián)規(guī)則挖掘結(jié)果影響很大,一般要求離散化區(qū)間不能過大或過小,且要有較好的離散化效果。區(qū)間劃分必須在挖掘過程中不斷摸索改進(jìn)[9]。
等寬度離散化算法簡(jiǎn)單,占用時(shí)間少,可以依據(jù)經(jīng)驗(yàn)人為設(shè)定離散區(qū)間[10]。但對(duì)于區(qū)間存在偏斜極為嚴(yán)重的點(diǎn)非常不準(zhǔn)確。
(2)等頻率離散化。等頻區(qū)間離散化法與等寬度離散化方法類似,也是將數(shù)值屬性的值域劃分為K個(gè)小區(qū)間,不同的是等頻區(qū)間法要求每個(gè)區(qū)間的樣本數(shù)目相等[11],其性能和特點(diǎn)也和等寬度離散化相類似。
(3)K-means聚類離散化。K-means聚類是一種基于劃分的聚類算法,簡(jiǎn)單地將數(shù)據(jù)對(duì)象劃分成不重疊的子集,使得每個(gè)數(shù)據(jù)對(duì)象恰好在一個(gè)子集中。每個(gè)簇的平均值代表這一段數(shù)據(jù),以此將這一段數(shù)據(jù)離散化。
對(duì)于電站的大數(shù)據(jù)集,如果數(shù)據(jù)是分布較為均勻的,這樣劃分的結(jié)果簇是密集的,且簇與簇之間的劃分是明顯的。K-means算法具有相對(duì)可伸縮性和高效性,常應(yīng)用在機(jī)組負(fù)荷和煤質(zhì)的自然工況劃分上。
(4)模糊聚類離散化。以上的劃分都是一種硬劃分,將某個(gè)對(duì)象嚴(yán)格劃分到某個(gè)類中,具有非此即彼的性質(zhì)。然而對(duì)于實(shí)際的電站運(yùn)行參數(shù),它們的數(shù)值并沒有嚴(yán)格的類劃分,在類屬性的方面具有亦此亦彼的中介性,研究人員引入模糊集理論來解決劃分過硬的問題。
電廠模糊離散化中,最為常用的方法是模糊C均值聚類算法(FCM, Fuzzy C-Means)。該算法中,各個(gè)樣本不是被唯一的劃分到某一類中,而是以不同的隸屬度劃分到各個(gè)類別,將各個(gè)類的隸屬度擴(kuò)展到[0,1],用[0,1]中的數(shù)值表示該記錄屬于不同的類,有效解決了數(shù)據(jù)劃分過硬的問題。
3.3 工況劃分
火電機(jī)組運(yùn)行效率會(huì)受到許多外界條件影響,這些外界條件人為難以改變,稱之為工況。工況的變動(dòng)會(huì)造成機(jī)組運(yùn)行參數(shù)和相應(yīng)指標(biāo)的變動(dòng)?;痣姍C(jī)組在不同工況下運(yùn)行特性差異性很大,對(duì)應(yīng)的最優(yōu)值也是不同的[12]。因此,數(shù)據(jù)挖掘電站優(yōu)化目標(biāo)值之前需要對(duì)機(jī)組運(yùn)行工況進(jìn)行劃分,目前工況具有以下幾種劃分方法。
(1)單一外界負(fù)荷工況的劃分。電站機(jī)組的設(shè)計(jì)一般都是根據(jù)額定負(fù)荷進(jìn)行的,因此機(jī)組在額定負(fù)荷下經(jīng)濟(jì)性最好。負(fù)荷的變化會(huì)引起許多運(yùn)行參數(shù)偏離基準(zhǔn)值,引起機(jī)組相應(yīng)性能的變化[13]。因此,負(fù)荷作為工況的劃分的方法是選擇機(jī)組比較常見典型負(fù)荷作為機(jī)組的工況劃分,如將50%,80%,90%,100%等負(fù)荷劃分為獨(dú)立工況。
(2)多外界條件的人工劃分。外界負(fù)荷并不是唯一的影響機(jī)組運(yùn)行效率的不可控條件,煤質(zhì)和外界環(huán)境溫度對(duì)機(jī)組的運(yùn)行效率也是十分重要的外界因素。于是研究人員使用等寬度法將煤質(zhì)系數(shù)[14]、外界環(huán)境溫度、負(fù)荷分別進(jìn)行均勻的區(qū)間劃分。各個(gè)劃分后的參數(shù)區(qū)間組合起來定義為不同的工況,每個(gè)工況用一個(gè)單獨(dú)的符號(hào)表示。
(3)多因素自然工況劃分。電廠的典型負(fù)荷不一定是其常見的運(yùn)行工況,煤質(zhì)用等寬度的方法直接進(jìn)行劃分也缺乏科學(xué)性,因此引入了自然工況劃分方法,采用聚類算法中K-means算法將負(fù)荷和煤質(zhì)進(jìn)行自然劃分。而對(duì)于變化緩慢的外界環(huán)境溫度仍采用等寬度法進(jìn)行劃分。其中K-means算法的公式為:
(4)
式中:E為數(shù)據(jù)庫中所有對(duì)象與相應(yīng)簇的質(zhì)心的距離之和;p為對(duì)象空間中的一個(gè)點(diǎn);mi為簇的算數(shù)平均值。
(4)改進(jìn)K均值聚類算法的工況劃分。傳統(tǒng)K-means算法需要首先指定構(gòu)造的簇?cái)?shù)K,而沒有可靠方法判斷K值是否選取的正確;K-means同時(shí)對(duì)初值敏感,初始值選取不當(dāng)可能使結(jié)果陷入局部最優(yōu)解的缺點(diǎn)。文獻(xiàn)[15]提出了一種采用均值標(biāo)準(zhǔn)差的方法確定初始聚類中心,通過評(píng)價(jià)函數(shù)自適應(yīng)調(diào)整值改進(jìn)K均值聚類算法,解決了初值敏感問題;文獻(xiàn)[16]提出了一種SOM神經(jīng)網(wǎng)絡(luò)改進(jìn)K均值算法相結(jié)合的雙層聚類算法,利用SOM神經(jīng)網(wǎng)絡(luò)將大量實(shí)時(shí)數(shù)據(jù)進(jìn)行壓縮,再利用改進(jìn)K均值聚類算法將神經(jīng)元聚類。SOM神經(jīng)網(wǎng)絡(luò)改進(jìn)K均值算法改善了K-means的處理離散點(diǎn)時(shí)導(dǎo)致的分類增加問題,降低了數(shù)據(jù)聚類的計(jì)算量,從而降低了運(yùn)算的時(shí)間。
總之,單一的負(fù)荷劃分簡(jiǎn)單、高效,有一定的實(shí)際應(yīng)用依據(jù),但劃分方法太過粗糙,不能夠滿足全工況節(jié)能優(yōu)化運(yùn)行、AGC約束變化[17]。多因素人工劃分對(duì)于工況的劃分更為細(xì)致準(zhǔn)確,但人為確定負(fù)荷和煤質(zhì)的劃分寬度,缺乏科學(xué)依據(jù)。自然工況劃分,遵循了機(jī)組運(yùn)行工況的自然分布規(guī)律,考慮了不同電廠運(yùn)行的客觀規(guī)律,劃分方法物理意義明確其易于工程實(shí)現(xiàn)。改進(jìn)k-means方法具有更高的分類準(zhǔn)確率及更強(qiáng)的無監(jiān)督自學(xué)習(xí)能力,能契合實(shí)際生產(chǎn)規(guī)律。
3.4 屬性約簡(jiǎn)
在優(yōu)化過程中通常會(huì)選取一些決策屬性顯示機(jī)組的經(jīng)濟(jì)性,如鍋爐效率、發(fā)電煤耗等。電站中的許多參數(shù)對(duì)決策參數(shù)都有影響,但每個(gè)參數(shù)影響程度大小不同,如果把每個(gè)有影響的參數(shù)都納入到挖掘的對(duì)象中,會(huì)使得挖掘效率變得極低。因此,需要引入一種方法來降低挖掘的維數(shù)。目前應(yīng)用的較多的屬性約簡(jiǎn)方法如下:
(1)粗糙集屬性約簡(jiǎn)。粗糙集理論的主要思想是在保持分類能力不變的前提下,通過知識(shí)約簡(jiǎn),得到問題的決策或分類規(guī)則;而在優(yōu)化目標(biāo)值確定的過程中應(yīng)用粗糙集,是在保持條件屬性相對(duì)于決策屬性的分類能力不變的情況下,刪除其中不必要或不重要的屬性[18]。這里主要介紹基于區(qū)分矩陣的約簡(jiǎn)算法。
區(qū)分矩陣[19]由Showron提出。區(qū)分矩陣約簡(jiǎn)首先構(gòu)建出一個(gè)差別矩陣,然后通過差別矩陣計(jì)計(jì)算出各個(gè)參數(shù)集合的區(qū)分函數(shù),區(qū)分函數(shù)值小的集合將會(huì)被舍棄掉,最終保留下較少的區(qū)分函數(shù)大的集合,這些集合就是約簡(jiǎn)后的參數(shù)集合。
區(qū)分矩陣的約簡(jiǎn)算法清晰簡(jiǎn)單,但對(duì)于有較多影響因素的參數(shù)集合,該算法的區(qū)分函數(shù)龐大,計(jì)算復(fù)雜。對(duì)于改進(jìn)的基于區(qū)分矩陣的約簡(jiǎn)算法有多種[20],在這里不再詳述。
(2)基于參數(shù)的關(guān)聯(lián)性分析?;痣姀S的生產(chǎn)過程實(shí)際上是一個(gè)能力轉(zhuǎn)換傳遞的過程,體現(xiàn)了其內(nèi)在的物質(zhì)平衡和能量平衡的關(guān)系。這個(gè)平衡關(guān)系使得整個(gè)生產(chǎn)過程中許多參數(shù)是有相關(guān)性的[21],變量間的相關(guān)關(guān)系可以用解析式表達(dá)出來。描述變量間相關(guān)性的指標(biāo)采用隨機(jī)變量的相關(guān)系數(shù),變量X、Y的相關(guān)系數(shù)定義為:
(5)
式中:Cov(X,Y)=E(X-Ex)(Y-Ey)=EXY-EXEY,Var(X)、Var(Y)分別是X、Y的方差。
變量間的相關(guān)性可以通過求樣本相關(guān)矩陣來估計(jì),文獻(xiàn)[22]給出了相關(guān)矩陣行列進(jìn)行調(diào)整以尋找相關(guān)數(shù)據(jù)塊的方法,以此可按照關(guān)系數(shù)對(duì)運(yùn)行參數(shù)重新分組,從而找到具有較強(qiáng)相關(guān)性的變量組作為重要的約簡(jiǎn)屬性集。
綜述,屬性約簡(jiǎn)能夠降低關(guān)聯(lián)規(guī)則挖掘的維數(shù),提高關(guān)聯(lián)規(guī)則挖掘效率。盲目刪除屬性方法直觀簡(jiǎn)單、易于理解,但計(jì)算過程空間及時(shí)間復(fù)雜度過高;重要度的約簡(jiǎn)過程也計(jì)算較慢;區(qū)分矩陣和區(qū)分函數(shù)以及他們的改進(jìn)版本能夠較好地處理屬性約簡(jiǎn)的過程,適合電站數(shù)據(jù)挖掘過程中的使用。目前,電站應(yīng)用較廣的是基于粗糙集的屬性約簡(jiǎn)算法,在鍋爐效率的影響參數(shù)的約簡(jiǎn)、發(fā)電煤耗影響參數(shù)的約簡(jiǎn)上得到應(yīng)用。
基于數(shù)據(jù)挖掘的電站優(yōu)化運(yùn)行算法是一種與計(jì)算機(jī)技術(shù)緊密結(jié)合的定量的優(yōu)化運(yùn)行方法。該方法以電站海量歷史運(yùn)行數(shù)據(jù)為基礎(chǔ),主要應(yīng)用關(guān)聯(lián)分析法從歷史數(shù)據(jù)中挖掘出符合優(yōu)化目標(biāo)的參數(shù)運(yùn)行范圍。比傳統(tǒng)的依靠理論計(jì)算確定優(yōu)化目標(biāo)值更符合電站實(shí)際運(yùn)行狀態(tài);挖掘出的運(yùn)行參數(shù)優(yōu)化目標(biāo)值比理論計(jì)算法更容易在電站中指導(dǎo)電站運(yùn)行。因此,隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展和SIS系統(tǒng)在電站中的廣泛應(yīng)用,電站數(shù)據(jù)挖掘優(yōu)化算法將能夠不斷從電站海量運(yùn)行歷史記錄中挖掘出機(jī)組在安全、經(jīng)濟(jì)、環(huán)保、高效條件下的運(yùn)行規(guī)律,為電站的實(shí)時(shí)優(yōu)化運(yùn)行提供指導(dǎo)?;跀?shù)據(jù)挖掘的電站優(yōu)化運(yùn)行算法將成為電站運(yùn)行參數(shù)優(yōu)化的重要研究方向。
[1]Zhao W J, Liu C. The Optimizing for Boiler Combustion Based on Fuzzy Association Rules[C].2011 International Conference of Soft Computing and Pattern Recognition, Dalian, China, 14-16 October, 2011.
[2]Liu W C, Shi H J, Ma S Q. Algorithm of Weight Fuzzy Association rules[J].Computer Engineering and Design,2010, 31(16):3654-3657.
[3]Li J Q, Niu C L, Gu J J, et al. Energy Loss Analysis Based on Fuzzy Association Rule Mining in power Plant[C].International Symposium on Computational Intelligence and Design, Wuhan, China, 17-18 October, 2008:186-189.
[4]牛成林.增量數(shù)據(jù)挖掘及其在電站運(yùn)行中的理論研究及應(yīng)用[D]. 北京:華北電力大學(xué),2010.
[5]Niu C J, Li J Q, Liu J Z, et al. The application of improved incremental updating association rule mining in optimal oxygen content[C].International Symposium on Computational Intelligence and Design, Wuhan, China,17 October,2008:246-249.
[6]冉鵬.基于動(dòng)態(tài)數(shù)據(jù)挖掘的電站熱力系統(tǒng)運(yùn)行優(yōu)化方法研究[D].北京:華北電力大學(xué),2012:1-124.
[7]Han J W, Kamber M, Pei J. Data Mining Concepts and Techniques[M]. New York: Margan Kaufmann Publishers,2011.
[8]Li J Q, Niu C L, Liu J Z. Application of Data Mining Technique in Optimizing the Operation of Power Plants [J].Journal of Power Engineering,2006, 26(6):830-835.[9]翟少磊,黃孝彬,劉吉臻.基于工況劃分的電廠經(jīng)濟(jì)性指標(biāo)挖掘[J].中國(guó)電力, 2009,42(7):68-71.
[10]鄭茜茜,楊海婭,谷俊杰.基于關(guān)聯(lián)規(guī)則的電廠優(yōu)化目標(biāo)值確定的研究[J].電力科學(xué)與工程, 2010,26(9):48-51.
[11]張仁杰.粗糙集理論在電站運(yùn)行優(yōu)化中的應(yīng)用研究[D].北京:華北電力大學(xué), 2011:1-44.
[12]李宗山.機(jī)組經(jīng)濟(jì)運(yùn)行模式數(shù)據(jù)挖掘系統(tǒng)的研究與開發(fā)[D].北京:華北電力大學(xué),2011:1-61.
[13]Li J Q,Liu J Z.The research and application of data Mining in power plant operation optimization[C].International Conference on Machine Learning and Cybernetics, Guangzhou, China, 18-21 August, 2005:1642-1647.
[14]趙征,劉吉臻,田亮.基于數(shù)據(jù)融合的燃料量軟測(cè)量及煤質(zhì)發(fā)熱量在線校正[J].熱能動(dòng)力工程,2007,22(1):42-45,60.
[15]苑一方,孫建平,田婧.改進(jìn)K均值聚類算法在電廠工況劃分中的實(shí)現(xiàn)[J].儀器儀表用戶,2010,17(4):54-55.
[16]苑一方,孫建平.基于電廠工況劃分的雙層聚類算法研究[J].電力科學(xué)與工程,2010,26(9):56-58.
[17]楊婷婷.基于數(shù)據(jù)的電站節(jié)能優(yōu)化控制研究[D].北京:華北電力大學(xué),2010:1-105.
[18]高俊山,郎平,孫真和.基于改進(jìn)粗糙集方法的電力系統(tǒng)數(shù)據(jù)挖掘[J].自動(dòng)化技術(shù)與應(yīng)用,2009,28(3):15-17.
[19]蘇?。诖植诩臄?shù)據(jù)挖掘與決策支持方法研究[D].杭州:浙江大學(xué),2002:1-121.
[20]陳丹丹.基于粗糙集的電站運(yùn)行數(shù)據(jù)分析與運(yùn)行優(yōu)化[D].保定:華北電力大學(xué),2013:1-60.
[21]Li J Q,Niu C L, Liu J Z, et al. TanWen.Correlation Analysis of Operation Data and Its Application in Operation in Power plant[C].Fifth International Conference on Fuzzy Systems and Knowledge Discovery,Shandong, China, 18-20 October, 2008:581-585.
[22]李建強(qiáng).基于數(shù)據(jù)挖掘的電站運(yùn)行優(yōu)化理論研究與應(yīng)用[D]保定:華北電力大學(xué),2006:1-119.
The Summary of Optimal Operation Parameters in Power Station Based on the Data Mining
Wang Qiuping, Chen Zhiqiang, Wei Hao
(Department of Automation,Northeast Dianli University, Jilin 132012, China)
In order to increase the economy and the operation efficiency of the power plant and decrease the coal consumption of electrical facilities, it is of great significance to get the optimal operation parameter value of power station. The previous optimal operating parameters were obtained by theortical calculation under the ideal environment, which were difficult to achieve in the actual operation of the power plant. However, the data mining algorithm is a way to get the optimal operating parameters from previous data, which can easily obtained in the actual operation. By comparing previous data mining algorithm of power plant in recent years, the paper summarized the main steps of optimal parameters by data mining, which include association rules, data discretization, condition identification and knowledge reduction. In addition, it concluded that fuzzy association data mining is the main method of data mining in power plant, which can be applied to power stations for optimization value mining and fuzzy clustering discretization can disperse the continuous data of parameters in power plant. Rough set theory can reduce the dimension of parameters and improve the efficiency of data mining. Finally, the result shows the optimization of parameter based on data mining algorithm may provide guidence for optimal running future research.
association rules; data discretization; condition identification; knowledge reduction
2015-05-04。
王秋平(1973-),女,副教授,研究領(lǐng)域?yàn)榭柭鼮V波、火電機(jī)組數(shù)據(jù)挖掘,E-mail:18654929296@163.com。
TP274.2
A
10.3969/j.issn.1672-0792.2015.07.004