劉濤 高慧
【摘要】 為了預(yù)測(cè)未來某時(shí)刻風(fēng)力發(fā)電功率的情況,論文提出了一種高斯分布模型,并以此模型為基礎(chǔ)利用高斯分布的特點(diǎn)對(duì)每一區(qū)域進(jìn)行去噪處理,進(jìn)而擬合出一條合適的預(yù)測(cè)曲線。通過對(duì)實(shí)驗(yàn)數(shù)據(jù)的分析驗(yàn)證了高斯分布模型的可行性。
【關(guān)鍵詞】 高斯分布 去噪
數(shù)據(jù)預(yù)處理是指在主要的處理以前對(duì)數(shù)據(jù)進(jìn)行的一些處理?,F(xiàn)實(shí)世界中的數(shù)據(jù)大體上都是不完整、不一致的噪聲數(shù)據(jù),無法直接進(jìn)行數(shù)據(jù)挖掘,或挖掘結(jié)果差強(qiáng)人意。為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)預(yù)處理有多種方法:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)規(guī)約等。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量,降低實(shí)際挖掘所需要的時(shí)間。
論文主要采用了一種新型的基于正態(tài)分布模型的去噪方法,在數(shù)據(jù)挖掘前進(jìn)行預(yù)處理,使數(shù)據(jù)挖掘得到的效果更加令人滿意。
一、改進(jìn)的數(shù)據(jù)去噪算法
目前的數(shù)據(jù)去噪算法有很多種,例如K-近臨點(diǎn)云去噪算法、散亂點(diǎn)云去噪算法、基于幾何關(guān)系的數(shù)據(jù)點(diǎn)云去噪算法等等,但是各種各樣的數(shù)據(jù)去噪算法都存在著一定的問題。
本文所采用的方法是基于高斯分布模型的數(shù)據(jù)去噪算法,在研究原有算法的基礎(chǔ)上加以分析,進(jìn)一步優(yōu)化數(shù)據(jù)去噪算法,彌補(bǔ)了多種去噪算法的缺點(diǎn),進(jìn)而更好的進(jìn)行去噪處理,得到理想的結(jié)果。
1.1算法基本思想
通過高斯分布模型對(duì)整體數(shù)據(jù)進(jìn)行收縮進(jìn)而求得數(shù)據(jù)分布的中心點(diǎn),直到中心點(diǎn)小于某一誤差。每一步用正態(tài)分布去擬合,求得方差,按比例去掉方差之外的點(diǎn),直至收斂。
1.2算法具體內(nèi)容
A、將原始數(shù)據(jù)在X軸上分成N等份區(qū)間,對(duì)于每一個(gè)區(qū)間內(nèi)的數(shù)據(jù)分布都看成是一個(gè)正態(tài)分布模型,然后求出正態(tài)分布的均值μ和標(biāo)準(zhǔn)差σ。由于有大量噪聲數(shù)據(jù)的影響,所以之前求出的均值μ和標(biāo)準(zhǔn)差σ并不是最準(zhǔn)確最理想的數(shù)值,進(jìn)而對(duì)剩下的數(shù)據(jù)進(jìn)行迭代操作。
σ越大,數(shù)據(jù)分布越分散,σ越小,數(shù)據(jù)分布越集中在μ附近。對(duì)每個(gè)區(qū)間的數(shù)據(jù)進(jìn)行有限次迭代直至σ逐漸趨向收斂。
B、對(duì)每個(gè)區(qū)間進(jìn)行完如上操作之后,根據(jù)數(shù)據(jù)挖掘需求者的誤差允許范圍設(shè)置一個(gè)理想的誤差參數(shù),使得到的數(shù)據(jù)都處于理想誤差范圍之內(nèi)。
初始化理想的誤差參數(shù)為m%,對(duì)每個(gè)區(qū)間隨機(jī)取樣20個(gè)數(shù)據(jù),將這20個(gè)隨機(jī)樣本看作是一個(gè)小的正態(tài)分布模型,進(jìn)行同樣的操作求出隨機(jī)樣本的均值μi和標(biāo)準(zhǔn)差σi。將隨機(jī)樣本的均值μi和標(biāo)準(zhǔn)差σi和整個(gè)區(qū)間的均值μ和標(biāo)準(zhǔn)差σ進(jìn)行比較,若誤差在m%以為,則本區(qū)間去噪成功,若誤差在m%以外,則對(duì)本區(qū)間的所有數(shù)據(jù)繼續(xù)進(jìn)行迭代操作,直至誤差范圍在m%以內(nèi)或者達(dá)到設(shè)定的最大迭代次數(shù)為止。
C、最后將所有區(qū)間的數(shù)據(jù)處理完之后利用matlab擬合出一條分布曲線,求出數(shù)據(jù)分布曲線的函數(shù),然后對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析處理,通過求得的分布函數(shù)進(jìn)行風(fēng)力發(fā)電預(yù)測(cè)。
二、風(fēng)力發(fā)電預(yù)測(cè)問題
本文主要針對(duì)風(fēng)電預(yù)測(cè)問題進(jìn)行分析,并應(yīng)用實(shí)例分析去噪算法,進(jìn)而對(duì)結(jié)果加以分析,從而驗(yàn)證算法的可行性。
根據(jù)電力調(diào)度部門的安排,風(fēng)電功率預(yù)測(cè)分為日前預(yù)測(cè)和實(shí)時(shí)預(yù)測(cè)。
實(shí)例:某風(fēng)電場由N臺(tái)風(fēng)電機(jī)組構(gòu)成,每臺(tái)機(jī)組的額定輸出功率固定。附件中給出了2006年6月10日至2013年8月15日時(shí)間段內(nèi)該風(fēng)電場中指定的風(fēng)電機(jī)組輸出功率數(shù)據(jù)記為W,另有測(cè)得實(shí)時(shí)的風(fēng)速為V,表中僅列出其中一部分?jǐn)?shù)據(jù),請(qǐng)利用Matlab程序擬合出風(fēng)速與功率之間的關(guān)系。由于測(cè)得數(shù)據(jù)量較大,下面僅給出原始數(shù)據(jù)分布圖。
三、基于改進(jìn)的數(shù)據(jù)去噪算法的實(shí)驗(yàn)研究
風(fēng)力發(fā)電原始數(shù)據(jù)分布圖如圖1所示:
首先根據(jù)改進(jìn)算法的第一步對(duì)原始數(shù)據(jù)進(jìn)行處理,將X軸分成N等份,然后對(duì)每個(gè)區(qū)間的數(shù)據(jù)進(jìn)行預(yù)處理求得均值和方差,將誤差之外的噪聲點(diǎn)全部刪除,最后將得到的處理后的數(shù)據(jù)導(dǎo)入Matlab中進(jìn)行曲線擬合,進(jìn)而對(duì)發(fā)電功率進(jìn)行實(shí)時(shí)預(yù)測(cè),處理后的數(shù)據(jù)擬合曲線效果圖如圖2所示:
利用三次方的高斯公式擬合得到預(yù)測(cè)函數(shù):
f(x) =a1*exp(-((x-b1)/c1)^2) + a2*exp(-((x-b2)/c2)^2)+a3*exp(-((x-b3)/c3)^2)
a1 = 1450 b1 = 22.27 c1 = 6.832 a2 = 6.371e+005 b2 = 15.24
c2 = 7.614e-005 a3 = 1181 b3 = 12.96 c3 = 5.477
通過隨機(jī)取樣驗(yàn)證了模型的可行性和合理性。
四、總結(jié)
本論文提出的正態(tài)分布模型通過簡單的區(qū)間劃分和數(shù)據(jù)迭代,對(duì)原始數(shù)據(jù)進(jìn)行了預(yù)處理,去除了對(duì)數(shù)據(jù)挖掘有影響的噪聲數(shù)據(jù),進(jìn)而使得數(shù)據(jù)挖掘的精確性更高,得到的數(shù)據(jù)更有價(jià)值性。實(shí)驗(yàn)通過正反對(duì)比檢驗(yàn),驗(yàn)證了模型的可行性及正確性。最后通過matlab擬合得到預(yù)測(cè)函數(shù),從而可以對(duì)未來某一時(shí)刻的風(fēng)力發(fā)電功率進(jìn)行精確預(yù)測(cè)。這一模型不僅可以用于本實(shí)驗(yàn)的數(shù)據(jù),對(duì)于大多數(shù)數(shù)據(jù)分布集中且有線性規(guī)律的數(shù)據(jù)都可以應(yīng)用。同時(shí)該模型更是為以后數(shù)據(jù)挖掘預(yù)處理提供了一種好的思想,會(huì)在未來更好的發(fā)展利用。
參 考 文 獻(xiàn)
[1] 董明曉,鄭康平.一種點(diǎn)云數(shù)據(jù)噪聲點(diǎn)的隨機(jī)濾波處理方法[J].中國圖像圖形學(xué)報(bào),2004,9(2):246-248.
[2] 劉大峰,廖文和,戴寧,等.散亂點(diǎn)云去噪算法的研究與實(shí)現(xiàn)[J].東南大學(xué)學(xué)報(bào),2007,37(6).
[3] 王麗輝,袁保宗.魯棒的模糊C均值和點(diǎn)云雙邊濾波去噪[J].北京交通大學(xué)學(xué)報(bào),2008,32(2).
[4] 顧亞芳.高斯模糊圖像的盲復(fù)原[D].南京:東南大學(xué),2005