曹立新, 劉偉民, 郭虎全
(1. 甘肅省特種設(shè)備檢驗(yàn)檢測(cè)研究院, 甘肅 蘭州 730050; 2. 蘭州理工大學(xué) 機(jī)電工程學(xué)院, 甘肅 蘭州 730050)
風(fēng)電是目前最成熟、發(fā)展最快的可再生能源之一.截止2020年底,全球新增裝機(jī)容量為93 GW,同比增長(zhǎng)53%,總裝機(jī)容量達(dá)到743 GW;中國(guó)新增裝機(jī)容量占比達(dá)到55.91%,在風(fēng)電發(fā)展中占據(jù)重要地位[1].隨著風(fēng)電的迅速發(fā)展,為保證風(fēng)電機(jī)組正常運(yùn)轉(zhuǎn),風(fēng)機(jī)的日常狀態(tài)監(jiān)測(cè)成為了重要的研究方向[2].
海上風(fēng)電遠(yuǎn)離內(nèi)陸,風(fēng)機(jī)故障會(huì)造成更加嚴(yán)重的經(jīng)濟(jì)損失,目前解決此類(lèi)問(wèn)題的主要方法是建立高效精確的日常風(fēng)機(jī)工作監(jiān)控曲線模型[3-4].因此,風(fēng)電場(chǎng)功率曲線建模成為重要的研究方向.主要包括2部分:1) 風(fēng)電場(chǎng)風(fēng)速和功率數(shù)據(jù)的采集與異常數(shù)據(jù)清洗,風(fēng)電場(chǎng)異常數(shù)據(jù)的識(shí)別和清洗不僅可用于功率曲線建模,還能進(jìn)行風(fēng)能評(píng)估和發(fā)電量預(yù)測(cè)[5];2) 利用清洗后的數(shù)據(jù),建立實(shí)時(shí)風(fēng)速-功率曲線狀態(tài)監(jiān)控模型,及時(shí)發(fā)現(xiàn)風(fēng)機(jī)故障信息[6-7].
在風(fēng)電場(chǎng)異常數(shù)據(jù)的識(shí)別和清洗中,最常用的方法是基于數(shù)據(jù)方差、中位數(shù)和平均值等特征進(jìn)行清洗.婁建樓等[8]通過(guò)降序排列組內(nèi)功率數(shù)據(jù),計(jì)算滑差并設(shè)置閾值完成異常數(shù)據(jù)清洗,該方法雖然計(jì)算簡(jiǎn)單方便,但忽略風(fēng)速-功率曲線上方異常數(shù)據(jù),清洗不完全.Shen等[9]通過(guò)計(jì)算方差變化率等進(jìn)一步完善了閾值的選擇,結(jié)果更加精確,但計(jì)算較為復(fù)雜.此外,基于數(shù)據(jù)之間距離和密度進(jìn)行數(shù)據(jù)剔除也是清洗異常數(shù)據(jù)的常見(jiàn)方法之一.趙永寧等[10]首先利用四分位法剔除分散異常數(shù)據(jù),然后利用k-means聚類(lèi)方法剔除疊加異常數(shù)據(jù).朱倩雯等[11]利用臨近風(fēng)場(chǎng)數(shù)據(jù)和三次樣條插值重構(gòu)缺失數(shù)據(jù).Zheng等[12]利用加權(quán)距離和局部離群因子算法(LOF)來(lái)實(shí)現(xiàn)異常數(shù)據(jù)的識(shí)別和剔除.Zhao等[13]首先利用2次四分位法消除稀疏異常數(shù)據(jù),然后利用基于密度的聚類(lèi)方法消除疊加異常數(shù)據(jù).Long等[14]將風(fēng)速功率的散點(diǎn)圖轉(zhuǎn)換為二值圖像,通過(guò)提取圖像特征完成異常數(shù)據(jù)識(shí)別和清洗.Wang等[15]和Gill等[16]基于Copula函數(shù)建立概率功率曲線,并通過(guò)提取風(fēng)場(chǎng)異常數(shù)據(jù)特征,建立了異常數(shù)據(jù)判斷準(zhǔn)則.
對(duì)風(fēng)電場(chǎng)風(fēng)速-功率曲線進(jìn)行建模和分析,可以為風(fēng)機(jī)設(shè)計(jì)、風(fēng)場(chǎng)選址、評(píng)估機(jī)組運(yùn)行性能和檢測(cè)風(fēng)機(jī)是否存在故障等提供參考[17-19].最常用的功率曲線模型是高次多項(xiàng)式模型[20],Carrillo等[21]通過(guò)比較三次多項(xiàng)式、指數(shù)函數(shù)和三次冪函數(shù),進(jìn)行建模精度對(duì)比.基于假定形狀的風(fēng)電功率曲線雖然求解簡(jiǎn)單,但精度不高,Thapar等[22]利用最小二乘法和三次樣條插值曲線擬合方法進(jìn)一步提高了擬合精度.Taslimi-Renani等[23]提出利用修正雙曲正切的參數(shù)模型擬合風(fēng)電功率曲線,并借助粒子群優(yōu)化等進(jìn)化算法進(jìn)行參數(shù)估計(jì),通過(guò)對(duì)比驗(yàn)證了該模型的有效性.此外,由于Logistic函數(shù)形狀與風(fēng)電功率形狀相似,近年來(lái)四參數(shù)Logistic和五參數(shù)Logistic也被廣泛應(yīng)用于風(fēng)電功率曲線建模,并表現(xiàn)出了較好的擬合精度[24-26].非參數(shù)模型也被廣泛應(yīng)用于功率曲線建模[25].Manobel等[27]通過(guò)高斯過(guò)程預(yù)先過(guò)濾異常數(shù)據(jù),然后利用神經(jīng)網(wǎng)絡(luò)建立風(fēng)電功率曲線.楊茂等[28]利用混合半云模型對(duì)風(fēng)電功率曲線進(jìn)行建模和數(shù)據(jù)挖掘.
本文將風(fēng)速-功率散點(diǎn)圖中的數(shù)據(jù)進(jìn)一步分類(lèi),根據(jù)異常數(shù)據(jù)的特征采用組內(nèi)方差和四分位分步進(jìn)行數(shù)據(jù)清洗.該方法簡(jiǎn)單高效,適用于不同風(fēng)場(chǎng)和不同風(fēng)機(jī),具有良好的適應(yīng)性.在此基礎(chǔ)上,利用高次多項(xiàng)式和四參數(shù)Logistic進(jìn)行風(fēng)速-功率曲線建模,通過(guò)比較均方根誤差(RMSE)、和方差(SSE)以及決定系數(shù)(R2)優(yōu)選最佳模型.
風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)可通過(guò)安裝在風(fēng)電場(chǎng)的數(shù)據(jù)采集與監(jiān)視控制(SCADA)系統(tǒng)得到.在數(shù)據(jù)采集過(guò)程中,極端天氣、通訊故障、測(cè)量?jī)x器損壞、風(fēng)電機(jī)組故障以及棄風(fēng)限電等均會(huì)造成大量異常數(shù)據(jù)[7].根據(jù)產(chǎn)生原因和分布特征,風(fēng)電場(chǎng)異常數(shù)據(jù)可以分為3類(lèi):頂部稀疏異常數(shù)據(jù)、中部稀疏異常數(shù)據(jù)和底部疊加異常數(shù)據(jù).不同類(lèi)型的異常數(shù)據(jù)分布如圖1所示.
圖1 異常數(shù)據(jù)分類(lèi)Fig.1 Outlier classification
頂部稀疏異常數(shù)據(jù)是散亂分布在功率曲線上方的數(shù)據(jù)點(diǎn),其產(chǎn)生的原因是通信故障或風(fēng)速計(jì)傳感器故障.因?yàn)樵陲L(fēng)場(chǎng)測(cè)量準(zhǔn)備期間,仔細(xì)核對(duì)了測(cè)量?jī)x器,所以這種現(xiàn)象不會(huì)大量出現(xiàn);此類(lèi)異常數(shù)據(jù)一般出現(xiàn)在低風(fēng)速區(qū)間,其功率值高于正常功率值,在總體數(shù)據(jù)中占比較少.中部稀疏異常數(shù)據(jù)是散亂分布在功率曲線下方的異常數(shù)據(jù),其產(chǎn)生的原因包括通信故障、極端天氣、傳感器記錄錯(cuò)誤和棄風(fēng)限電等;此類(lèi)異常數(shù)據(jù)一般在正常數(shù)據(jù)下方波動(dòng),無(wú)法真實(shí)反映風(fēng)機(jī)真實(shí)工作性能.底部疊加異常數(shù)據(jù)是疊加分布在風(fēng)速-功率散點(diǎn)圖底部的大量異常數(shù)據(jù),其產(chǎn)生的原因包括風(fēng)機(jī)故障停機(jī)或維護(hù)、測(cè)量設(shè)備故障和棄風(fēng)限電等;此類(lèi)異常數(shù)據(jù)存在風(fēng)速,但功率值在零附近,在總體數(shù)據(jù)中占據(jù)了很大部分,尤其在較為偏遠(yuǎn)的“三北”地區(qū),底部疊加異常數(shù)據(jù)更為嚴(yán)重.
風(fēng)機(jī)通過(guò)葉片吸收風(fēng)能并轉(zhuǎn)化為機(jī)械能,再利用發(fā)電機(jī)發(fā)電實(shí)現(xiàn)能量轉(zhuǎn)換,達(dá)到使用要求.風(fēng)機(jī)葉片捕獲的理論功率P為
P=0.5ρACpv3
(1)
式中:ρ空氣密度,kg/m3;A為葉片掃掠面積,m3;Cp為理論風(fēng)能利用系數(shù),最大值為0.593;v為風(fēng)速,m/s.
風(fēng)力發(fā)電機(jī)的工作狀態(tài)可以分為4部分:切入風(fēng)速之前功率為零,切入風(fēng)速與額定速度之間功率滿足式(1),額定速度與切出速度之間功率保持額定功率不變,超過(guò)切出速度后功率為零.風(fēng)機(jī)實(shí)際輸出功率P(v)為
(2)
式中:v1為切入速度,m/s;v2為額定速度,m/s;v3為切出速度,m/s;p(v)為切入風(fēng)速和額定風(fēng)速之間的可變功率,kW;pr為額定功率,kW.
風(fēng)機(jī)理論功率曲線如圖2所示.
圖2 風(fēng)機(jī)理論功率曲線Fig.2 The theoretical power curve of the wind turbine
異常數(shù)據(jù)的存在會(huì)造成功率曲線模型不準(zhǔn)確,無(wú)法進(jìn)行風(fēng)機(jī)檢測(cè)和功率預(yù)測(cè).尤其當(dāng)異常數(shù)據(jù)數(shù)量超過(guò)正常數(shù)據(jù)時(shí),問(wèn)題更加嚴(yán)重.在此情況下,采用IEC標(biāo)準(zhǔn)進(jìn)行功率曲線建模時(shí),發(fā)現(xiàn)擬合功率曲線明顯偏離理論值[29].圖3是采用Bin法對(duì)未進(jìn)行異常數(shù)據(jù)剔除便進(jìn)行擬合得到的風(fēng)電功率曲線.可以看出,若不進(jìn)行異常數(shù)據(jù)清洗,則無(wú)法進(jìn)行有效建模.
圖3 應(yīng)用未處理數(shù)據(jù)得到的功率曲線
為便于分析和異常數(shù)據(jù)識(shí)別,按照IEC標(biāo)準(zhǔn),對(duì)風(fēng)場(chǎng)數(shù)據(jù)按照0.5 m/s風(fēng)速區(qū)間進(jìn)行劃分.任一區(qū)間W為
W={(v1,p1),(v2,p2),…,(vi,pi),…,(vn,pn)}
i∈(1,n)
(3)
式中:vi為W區(qū)間內(nèi)第i個(gè)數(shù)據(jù)對(duì)應(yīng)的風(fēng)速,m/s;pi為vi對(duì)應(yīng)的功率,kW.
傳統(tǒng)組內(nèi)標(biāo)準(zhǔn)差算法是基于整體平均值來(lái)計(jì)算的,即
(4)
式中:s為第i個(gè)點(diǎn)的標(biāo)準(zhǔn)差;ˉp為區(qū)間W內(nèi)功率的平均值;n是區(qū)間W內(nèi)的樣本總數(shù).
由于底部疊加異常數(shù)據(jù)的存在,區(qū)間W的平均值無(wú)法真實(shí)反映功率平均值,所以無(wú)法利用傳統(tǒng)的標(biāo)準(zhǔn)差計(jì)算方法完成數(shù)據(jù)清洗.另外,根據(jù)風(fēng)電場(chǎng)異常數(shù)據(jù)特征和分類(lèi),可以確定頂部稀疏異常數(shù)據(jù)占比較小,不會(huì)大量存在.因此,可將區(qū)間W內(nèi)的數(shù)據(jù)按照功率從大到小排列,記為U= {(x1,y1), (x2,y2), … , (xi,yi), … , (xn,yn)},其中,yi (5) 最后,需要設(shè)置閾值E,當(dāng)滑差值超過(guò)所設(shè)閾值時(shí)判定為異常數(shù)據(jù). 在進(jìn)行分析時(shí),常選取額定風(fēng)速前的區(qū)間[13].本文以[9.0~9.5]風(fēng)速區(qū)間為例進(jìn)行滑差值計(jì)算和閾值確定,原始數(shù)據(jù)中位于該區(qū)間內(nèi)的數(shù)據(jù)點(diǎn)共有1 434個(gè),降序排列后計(jì)算滑差值.圖4是該區(qū)間的滑差值變化曲線,通過(guò)分析可以找出突變點(diǎn)為(1 295,118),即滑差閾值E為118.因此,當(dāng)滑差值超過(guò)118時(shí)可剔除相應(yīng)的數(shù)據(jù). 圖4 滑差曲線 圖5是利用滑差值剔除異常數(shù)據(jù)后的結(jié)果.可以看出,底部疊加的異常數(shù)據(jù)大部分被剔除掉,但中部稀疏異常數(shù)據(jù)未清理完全,且頂部稀疏異常數(shù)據(jù)還未被清理.將該區(qū)間的滑差閾值分別應(yīng)用于其他區(qū)間,可以得到應(yīng)用滑差法剔除異常數(shù)據(jù)后的結(jié)果,如圖6所示. 圖5 風(fēng)速區(qū)間[9.0-9.5]內(nèi)功率散點(diǎn)分布Fig.5 Distribution of power scatter points in the wind speed range [9.0-9.5] 圖6 滑差法清洗后的結(jié)果Fig.6 Results after cleaning by slip variance method 可以看出,用上述方法進(jìn)行異常數(shù)據(jù)剔除時(shí),將某個(gè)特定區(qū)間的滑差值突變點(diǎn)作為閾值應(yīng)用在其他區(qū)間效果并不理想.因此,僅憑滑差法進(jìn)行異常數(shù)據(jù)剔除無(wú)法達(dá)到理想效果,需要借助其他方法進(jìn)一步提高異常數(shù)據(jù)的清洗效果. 四分位算法是將數(shù)據(jù)平均分成4份,依據(jù)3個(gè)間斷點(diǎn)P1、P2和P3之間的關(guān)系進(jìn)行數(shù)據(jù)劃分.按照升序排列的任一風(fēng)速區(qū)間功率數(shù)據(jù)P=[p1,p2,…,pn],其計(jì)算過(guò)程如下[9,10,13]: 1) 計(jì)算中位數(shù)P2(第2個(gè)中位數(shù)) (6) 2) 計(jì)算第1個(gè)四分位數(shù)P1和第3個(gè)四分位數(shù)P3 當(dāng)n= 2k(k= 1, 2,…)時(shí),中位數(shù)將原本的數(shù)據(jù)從中間分為2部分.此時(shí)計(jì)算第1個(gè)和第3個(gè)四分位數(shù),并按照式(6)繼續(xù)求這2部分中位數(shù)P′2和P″2(P′2 當(dāng)n= 4k+ 1(k=1, 2,…)時(shí),有 (7) 當(dāng)n= 4k+3(k=1, 2,…)時(shí),有 (8) 利用第1個(gè)四分位數(shù)P1和第3個(gè)四分位數(shù)P3計(jì)算四分位距q,即 q=P3-P1 (9) 通過(guò)四分位距q可以計(jì)算得到異常數(shù)據(jù)的內(nèi)限,即 [Fl,Fu]=[P1-1.5q,P3+1.5q] (10) 式中:Fl為異常數(shù)據(jù)區(qū)間下限;Fu為異常數(shù)據(jù)區(qū)間上限. 位于內(nèi)限的數(shù)據(jù)均為正常數(shù)據(jù),四分位法作為穩(wěn)健統(tǒng)計(jì)方法,不受極端異常數(shù)據(jù)影響,對(duì)于異常數(shù)據(jù)較少的數(shù)據(jù)集能夠較好地完成異常數(shù)據(jù)識(shí)別和剔除.四分位法常用于稀疏異常數(shù)據(jù)的清洗,但值得注意的是,未經(jīng)處理的風(fēng)場(chǎng)數(shù)據(jù),由于底部含有大量疊加異常數(shù)據(jù),而且數(shù)量可能超過(guò)正常值,所以無(wú)法利用四分位法識(shí)別.本文利用滑差法處理后,將底部疊加異常數(shù)據(jù)進(jìn)行了初步清理,恰好滿足四分位法使用要求.圖7是用滑差法處理后的數(shù)據(jù)進(jìn)一步利用四分位法進(jìn)行清洗的效果. 圖7 四分位法清洗結(jié)果 為驗(yàn)證提出的滑差-四分位法分步剔除異常數(shù)據(jù)的有效性,本文選取江蘇某風(fēng)場(chǎng)2組數(shù)據(jù)和黑龍江某風(fēng)場(chǎng)2組數(shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證.江蘇風(fēng)場(chǎng)數(shù)據(jù)的記錄日期為2019年1月1日至2019年12月31日,風(fēng)機(jī)額定功率1 800 kW,葉輪直徑106 m,輪轂高度90 m,切入風(fēng)速3 m/s,額定風(fēng)速9.5 m/s,切出風(fēng)速20 m/s.黑龍江風(fēng)場(chǎng)數(shù)據(jù)的記錄日期為2019年5月15日至2020年5月14日,風(fēng)機(jī)額定功率1 500 kW,葉輪直徑93 m,輪轂高度90 m,切入風(fēng)速3 m/s,額定風(fēng)速9.5 m/s,切出風(fēng)速22 m/s. 表1是異常數(shù)據(jù)剔除前后利用九次多項(xiàng)式擬合功率曲線的均方根誤差,通過(guò)數(shù)據(jù)剔除前后均方根誤差對(duì)比,驗(yàn)證本文所提方法的有效性.可以看出,該方法面對(duì)不同風(fēng)場(chǎng)的不同風(fēng)機(jī)均表現(xiàn)良好.其中,江蘇的2組數(shù)據(jù)均方根誤差分別提高了46.66%和47.49%,黑龍江的2組數(shù)據(jù)均方根誤差分別提高了62.20%和74.88%.相比之下黑龍江的2組數(shù)據(jù)提升較大,主要原因是:風(fēng)場(chǎng)較為偏遠(yuǎn),沒(méi)有完善的電力調(diào)度策略,棄風(fēng)限電現(xiàn)象較為嚴(yán)重. 除了均方根誤差,運(yùn)算速度和異常數(shù)據(jù)剔除率也是重要的評(píng)價(jià)指標(biāo).表2是在PC端MATLAB程序運(yùn)行時(shí)間和數(shù)據(jù)剔除率.可以看出,平均處理時(shí)間為1.55 s,滿足工程實(shí)際需要. 圖8是不同風(fēng)場(chǎng)利用滑差-四分位法剔除,并采用Bin法取點(diǎn)后利用九次多項(xiàng)式擬合得到的實(shí)際風(fēng)速-功率曲線.與剔除前得到的功率曲線對(duì)比,更符合理論功率曲線形狀,可以作為風(fēng)機(jī)的日常狀態(tài)監(jiān)測(cè)模型. 圖8 不同風(fēng)場(chǎng)用滑差-四分位法清洗后的功率曲線 表3比較了九次多項(xiàng)式和四參數(shù)Logistic擬合功率曲線結(jié)果,引入和方差、均方根誤差和確定系數(shù)進(jìn)行評(píng)價(jià).可以看出:和方差、均方根誤差值越小,擬合效果越好,確定系數(shù)則相反;相比四參數(shù)Logistic九次多項(xiàng)式擬合效果較好. 本文基于風(fēng)場(chǎng)原始數(shù)據(jù)中存在的大量異常數(shù)據(jù),根據(jù)不同異常數(shù)據(jù)的分布特征劃分為3類(lèi):頂部稀疏異常數(shù)據(jù)、中部稀疏異常數(shù)據(jù)和底部疊加異常數(shù)據(jù).采用滑差-四分位法對(duì)不同風(fēng)場(chǎng)進(jìn)行異常數(shù)據(jù)篩選和功率曲線建模,引入和方差、均方根誤差和確定系數(shù)驗(yàn)證該方法的適用性和有效性.主要結(jié)論如下: 1) 風(fēng)場(chǎng)得到的原始數(shù)據(jù)存在大量異常數(shù)據(jù),若不進(jìn)行篩選就進(jìn)行功率曲線建模,則無(wú)法反映風(fēng)機(jī)真實(shí)工作情況,不能作為風(fēng)機(jī)日常狀態(tài)監(jiān)測(cè)模型; 2) 本文所提滑差-四分位法對(duì)不同風(fēng)場(chǎng)的數(shù)據(jù)清洗效果顯著,滑差法可以篩除底部疊加異常數(shù)據(jù)和部分中部稀疏異常數(shù)據(jù),四分位法可以清洗部分中部稀疏異常數(shù)據(jù)和頂部稀疏異常數(shù)據(jù),具有較強(qiáng)的通用性和有效性,可以為風(fēng)場(chǎng)電力調(diào)度和風(fēng)機(jī)故障檢測(cè)提供新策略; 3) 數(shù)據(jù)篩選中無(wú)法辨識(shí)是否剔除了正常數(shù)據(jù),需要進(jìn)一步提高異常數(shù)據(jù)識(shí)別率;同時(shí),數(shù)據(jù)清洗效果缺乏評(píng)價(jià)指標(biāo),有待提出新的評(píng)價(jià)準(zhǔn)則; 4) 比較了現(xiàn)有功率曲線建模方法九次多項(xiàng)式和四參數(shù)Logistic,發(fā)現(xiàn)九次多項(xiàng)式略優(yōu),但參數(shù)較多,有待提出更加簡(jiǎn)單精確的函數(shù)模型.3.2 四分位算法
4 實(shí)例分析和算法對(duì)比
5 結(jié)論