基于高斯分布模型的數(shù)據(jù)去噪算法

2015-05-30 16:27:18劉濤高慧

中國新通信 2015年17期

關(guān)鍵詞：數(shù)據(jù)分布高斯分布數(shù)據(jù)挖掘

劉濤高慧

【摘要】為了預(yù)測(cè)未來某時(shí)刻風(fēng)力發(fā)電功率的情況，論文提出了一種高斯分布模型，并以此模型為基礎(chǔ)利用高斯分布的特點(diǎn)對(duì)每一區(qū)域進(jìn)行去噪處理，進(jìn)而擬合出一條合適的預(yù)測(cè)曲線。通過對(duì)實(shí)驗(yàn)數(shù)據(jù)的分析驗(yàn)證了高斯分布模型的可行性。

【關(guān)鍵詞】高斯分布去噪

數(shù)據(jù)預(yù)處理是指在主要的處理以前對(duì)數(shù)據(jù)進(jìn)行的一些處理?，F(xiàn)實(shí)世界中的數(shù)據(jù)大體上都是不完整、不一致的噪聲數(shù)據(jù)，無法直接進(jìn)行數(shù)據(jù)挖掘，或挖掘結(jié)果差強(qiáng)人意。為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)預(yù)處理有多種方法：數(shù)據(jù)清理，數(shù)據(jù)集成，數(shù)據(jù)變換，數(shù)據(jù)規(guī)約等。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用，大大提高了數(shù)據(jù)挖掘模式的質(zhì)量，降低實(shí)際挖掘所需要的時(shí)間。

論文主要采用了一種新型的基于正態(tài)分布模型的去噪方法，在數(shù)據(jù)挖掘前進(jìn)行預(yù)處理，使數(shù)據(jù)挖掘得到的效果更加令人滿意。

一、改進(jìn)的數(shù)據(jù)去噪算法

目前的數(shù)據(jù)去噪算法有很多種，例如K-近臨點(diǎn)云去噪算法、散亂點(diǎn)云去噪算法、基于幾何關(guān)系的數(shù)據(jù)點(diǎn)云去噪算法等等，但是各種各樣的數(shù)據(jù)去噪算法都存在著一定的問題。

本文所采用的方法是基于高斯分布模型的數(shù)據(jù)去噪算法，在研究原有算法的基礎(chǔ)上加以分析，進(jìn)一步優(yōu)化數(shù)據(jù)去噪算法，彌補(bǔ)了多種去噪算法的缺點(diǎn)，進(jìn)而更好的進(jìn)行去噪處理，得到理想的結(jié)果。

1.1算法基本思想

通過高斯分布模型對(duì)整體數(shù)據(jù)進(jìn)行收縮進(jìn)而求得數(shù)據(jù)分布的中心點(diǎn)，直到中心點(diǎn)小于某一誤差。每一步用正態(tài)分布去擬合，求得方差，按比例去掉方差之外的點(diǎn)，直至收斂。

1.2算法具體內(nèi)容

A、將原始數(shù)據(jù)在X軸上分成N等份區(qū)間，對(duì)于每一個(gè)區(qū)間內(nèi)的數(shù)據(jù)分布都看成是一個(gè)正態(tài)分布模型，然后求出正態(tài)分布的均值μ和標(biāo)準(zhǔn)差σ。由于有大量噪聲數(shù)據(jù)的影響，所以之前求出的均值μ和標(biāo)準(zhǔn)差σ并不是最準(zhǔn)確最理想的數(shù)值，進(jìn)而對(duì)剩下的數(shù)據(jù)進(jìn)行迭代操作。

σ越大，數(shù)據(jù)分布越分散，σ越小，數(shù)據(jù)分布越集中在μ附近。對(duì)每個(gè)區(qū)間的數(shù)據(jù)進(jìn)行有限次迭代直至σ逐漸趨向收斂。

B、對(duì)每個(gè)區(qū)間進(jìn)行完如上操作之后，根據(jù)數(shù)據(jù)挖掘需求者的誤差允許范圍設(shè)置一個(gè)理想的誤差參數(shù)，使得到的數(shù)據(jù)都處于理想誤差范圍之內(nèi)。

初始化理想的誤差參數(shù)為m%，對(duì)每個(gè)區(qū)間隨機(jī)取樣20個(gè)數(shù)據(jù)，將這20個(gè)隨機(jī)樣本看作是一個(gè)小的正態(tài)分布模型，進(jìn)行同樣的操作求出隨機(jī)樣本的均值μi和標(biāo)準(zhǔn)差σi。將隨機(jī)樣本的均值μi和標(biāo)準(zhǔn)差σi和整個(gè)區(qū)間的均值μ和標(biāo)準(zhǔn)差σ進(jìn)行比較，若誤差在m%以為，則本區(qū)間去噪成功，若誤差在m%以外，則對(duì)本區(qū)間的所有數(shù)據(jù)繼續(xù)進(jìn)行迭代操作，直至誤差范圍在m%以內(nèi)或者達(dá)到設(shè)定的最大迭代次數(shù)為止。

C、最后將所有區(qū)間的數(shù)據(jù)處理完之后利用matlab擬合出一條分布曲線，求出數(shù)據(jù)分布曲線的函數(shù)，然后對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析處理，通過求得的分布函數(shù)進(jìn)行風(fēng)力發(fā)電預(yù)測(cè)。

二、風(fēng)力發(fā)電預(yù)測(cè)問題

本文主要針對(duì)風(fēng)電預(yù)測(cè)問題進(jìn)行分析，并應(yīng)用實(shí)例分析去噪算法，進(jìn)而對(duì)結(jié)果加以分析，從而驗(yàn)證算法的可行性。

根據(jù)電力調(diào)度部門的安排，風(fēng)電功率預(yù)測(cè)分為日前預(yù)測(cè)和實(shí)時(shí)預(yù)測(cè)。

實(shí)例：某風(fēng)電場由N臺(tái)風(fēng)電機(jī)組構(gòu)成，每臺(tái)機(jī)組的額定輸出功率固定。附件中給出了2006年6月10日至2013年8月15日時(shí)間段內(nèi)該風(fēng)電場中指定的風(fēng)電機(jī)組輸出功率數(shù)據(jù)記為W，另有測(cè)得實(shí)時(shí)的風(fēng)速為V，表中僅列出其中一部分?jǐn)?shù)據(jù)，請(qǐng)利用Matlab程序擬合出風(fēng)速與功率之間的關(guān)系。由于測(cè)得數(shù)據(jù)量較大，下面僅給出原始數(shù)據(jù)分布圖。

三、基于改進(jìn)的數(shù)據(jù)去噪算法的實(shí)驗(yàn)研究

風(fēng)力發(fā)電原始數(shù)據(jù)分布圖如圖1所示：

首先根據(jù)改進(jìn)算法的第一步對(duì)原始數(shù)據(jù)進(jìn)行處理，將X軸分成N等份，然后對(duì)每個(gè)區(qū)間的數(shù)據(jù)進(jìn)行預(yù)處理求得均值和方差，將誤差之外的噪聲點(diǎn)全部刪除，最后將得到的處理后的數(shù)據(jù)導(dǎo)入Matlab中進(jìn)行曲線擬合，進(jìn)而對(duì)發(fā)電功率進(jìn)行實(shí)時(shí)預(yù)測(cè)，處理后的數(shù)據(jù)擬合曲線效果圖如圖2所示：

利用三次方的高斯公式擬合得到預(yù)測(cè)函數(shù)：

f（x） =a1*exp（-（（x-b1）/c1）^2） + a2*exp（-（（x-b2）/c2）^2）+a3*exp（-（（x-b3）/c3）^2）

a1 = 1450 b1 = 22.27 c1 = 6.832 a2 = 6.371e+005 b2 = 15.24

c2 = 7.614e-005 a3 = 1181 b3 = 12.96 c3 = 5.477

通過隨機(jī)取樣驗(yàn)證了模型的可行性和合理性。

四、總結(jié)

本論文提出的正態(tài)分布模型通過簡單的區(qū)間劃分和數(shù)據(jù)迭代，對(duì)原始數(shù)據(jù)進(jìn)行了預(yù)處理，去除了對(duì)數(shù)據(jù)挖掘有影響的噪聲數(shù)據(jù)，進(jìn)而使得數(shù)據(jù)挖掘的精確性更高，得到的數(shù)據(jù)更有價(jià)值性。實(shí)驗(yàn)通過正反對(duì)比檢驗(yàn)，驗(yàn)證了模型的可行性及正確性。最后通過matlab擬合得到預(yù)測(cè)函數(shù)，從而可以對(duì)未來某一時(shí)刻的風(fēng)力發(fā)電功率進(jìn)行精確預(yù)測(cè)。這一模型不僅可以用于本實(shí)驗(yàn)的數(shù)據(jù)，對(duì)于大多數(shù)數(shù)據(jù)分布集中且有線性規(guī)律的數(shù)據(jù)都可以應(yīng)用。同時(shí)該模型更是為以后數(shù)據(jù)挖掘預(yù)處理提供了一種好的思想，會(huì)在未來更好的發(fā)展利用。

參考文獻(xiàn)

[1] 董明曉，鄭康平.一種點(diǎn)云數(shù)據(jù)噪聲點(diǎn)的隨機(jī)濾波處理方法[J].中國圖像圖形學(xué)報(bào)，2004，9（2）：246-248.

[2] 劉大峰，廖文和，戴寧，等.散亂點(diǎn)云去噪算法的研究與實(shí)現(xiàn)[J].東南大學(xué)學(xué)報(bào)，2007，37（6）.

[3] 王麗輝，袁保宗.魯棒的模糊C均值和點(diǎn)云雙邊濾波去噪[J].北京交通大學(xué)學(xué)報(bào)，2008，32（2）.

[4] 顧亞芳.高斯模糊圖像的盲復(fù)原[D].南京：東南大學(xué)，2005

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于高斯分布模型的數(shù)據(jù)去噪算法