基于無(wú)放回抽樣的帕爾森窗口集成方法

2018-11-20 05:59何武超王曉蘭何玉林熊睿杰

深圳大學(xué)學(xué)報(bào)（理工版） 2018年6期

何武超，王曉蘭，何玉林，熊睿杰

1)滄州職業(yè)技術(shù)學(xué)院信息工程系，河北滄州 061001；2)深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院，廣東深圳 518060；3)深圳大學(xué)大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)國(guó)家工程實(shí)驗(yàn)室，廣東深圳 518060

帕爾森窗口(Parzen window)法[1]又稱核密度估計(jì)方法[2]，它利用多正態(tài)分布的疊加去擬合數(shù)據(jù)真實(shí)的概率分布，是一種建立在大樣本理論之上的無(wú)參數(shù)概率密度函數(shù)估計(jì)方法，也是一種真正的從數(shù)據(jù)本身出發(fā)研究數(shù)據(jù)分布特征的方法[3]．該方法在有監(jiān)督學(xué)習(xí)[4]、無(wú)監(jiān)督學(xué)習(xí)[5]、特征選擇[6]和圖像處理[7]等領(lǐng)域有廣泛應(yīng)用．

用帕爾森窗口法進(jìn)行概率密度函數(shù)估計(jì)的關(guān)鍵在于窗口寬度(bandwidth)參數(shù)的確定[8]，其中代表性的工作有SILVERMAN[9]的拇指原則(Silverman’s rule of thumb)、TERRELL[10]的過平滑窗口選取規(guī)則(over smoothed bandwidth selection rules)、ALEXANDRE[11]的solve-the-equation法、茹楊等[12-13]的迭代solve-the-equation法等．盡管帕爾森窗口法在實(shí)際應(yīng)用中有著良好的概率密度函數(shù)估計(jì)表現(xiàn)，但仍存在顯著缺陷：① 計(jì)算復(fù)雜度較高，不適合較大規(guī)模數(shù)據(jù)集的概率密度函數(shù)估計(jì)；② 對(duì)窗口寬度參數(shù)敏感，估計(jì)表現(xiàn)嚴(yán)重依賴于窗口寬度參數(shù)的確定．為解決上述問題，本研究基于無(wú)放回抽樣的帕爾森窗口集成(sampling without replacement-based Parzen window ensemble，SR-PWE)機(jī)制，通過抽樣和集成策略提高了傳統(tǒng)帕爾森窗口法的效率和精度．

1 帕爾森窗口法

為簡(jiǎn)便起見，本研究?jī)H討論一維概率密度函數(shù)估計(jì)的情況．假設(shè)由隨機(jī)變量X的N個(gè)觀察值構(gòu)成的數(shù)據(jù)集D={x1,x2, …,xN}, 其中xn∈R，n=1, 2, …,N，對(duì)于大多數(shù)的實(shí)際應(yīng)用而言，X的概率密度函數(shù)p(x)未知，經(jīng)典的對(duì)p(x)進(jìn)行估計(jì)的方法為帕爾森窗口法，即

(1)

其中，h為窗口寬度，h>0，它是關(guān)于N的函數(shù)，取值滿足式(2)的條件

(2)

由式(1)可見，帕爾森窗口法是用N個(gè)正態(tài)分布N(xn,h)的疊加去擬合未知的概率分布．這導(dǎo)致當(dāng)N過大時(shí)，帕爾森窗口法需耗費(fèi)較多的計(jì)算時(shí)間去處理大規(guī)模數(shù)據(jù)的概率密度估計(jì)問題．同時(shí)，帕爾森窗口法的估計(jì)表現(xiàn)嚴(yán)重依賴窗口寬度h的選取[8]：較小的h常導(dǎo)致較為粗糙的擬合，而較大的h又易導(dǎo)致較為平滑的擬合．對(duì)于h的選取尚無(wú)統(tǒng)一準(zhǔn)則，至今仍是學(xué)界關(guān)注的難點(diǎn)和熱點(diǎn)．

2 無(wú)放回抽樣

(3)

(4)

由式(4)可見，P1=P2．

3 SR-PWE方法

SR-PWE方法的實(shí)現(xiàn)過程為：

1) 對(duì)數(shù)據(jù)集D進(jìn)行Q次無(wú)放回抽樣，得到Q個(gè)D對(duì)應(yīng)的抽樣數(shù)據(jù)集

(5)

2)采用帕爾森窗口法估計(jì)抽樣數(shù)據(jù)集的基概率密度函數(shù)

(6)

其中，窗口寬度為

(7)

3)采用求和平均的方式對(duì)基概率密度函數(shù)進(jìn)行集成，從而估計(jì)數(shù)據(jù)集D的概率密度函數(shù)為

(8)

4 實(shí)驗(yàn)驗(yàn)證

為驗(yàn)證SR-PWE方法的可行性和有效性，比較并分析在柯西分布和正態(tài)分布上對(duì)比帕爾森窗口法和SR-PWE方法的概率密度函數(shù)估計(jì)表現(xiàn)．

4.1 實(shí)驗(yàn)數(shù)據(jù)和設(shè)置

表1給出了兩種經(jīng)典概率分布的詳細(xì)信息．本研究采用如式(9)[18]的Matlab命令生成服從柯西分布(Cauchyrnd)和正態(tài)分布(normrnd)的隨機(jī)數(shù)．

(9)

對(duì)于概率密度函數(shù)估計(jì)方法性能的評(píng)價(jià)，本研究采用如式(10)的均方根誤差(root mean square error，RMSE)度量標(biāo)準(zhǔn)．

(10)

其中，p(xn)和p′(xn)分別表示數(shù)據(jù)xn對(duì)應(yīng)的真實(shí)和估計(jì)概率密度值，n=1, 2, …,N．

表1 兩種概率分布Table 1 Two probability distributions

4.2 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證子集個(gè)數(shù)Q和子集規(guī)模M對(duì)SR-PWE方法估計(jì)表現(xiàn)的影響，本研究分別對(duì)其在柯西分布和正態(tài)分布上的RMSE值進(jìn)行了分析，并進(jìn)一步與使用帕爾森窗口法的估計(jì)表現(xiàn)進(jìn)行對(duì)比．該估計(jì)表現(xiàn)由其RMSE值體現(xiàn)，令Q={10, 20, …, 200}和M={25, 50, 75, 200}，分別測(cè)試對(duì)于給定的Q， SR-PWE的估計(jì)表現(xiàn)隨M的變化情況，以及對(duì)于給定的M， SR-PWE的估計(jì)表現(xiàn)隨Q的變化情況．對(duì)于每種分布生成2×104個(gè)隨機(jī)樣本(結(jié)果從100次獨(dú)立實(shí)驗(yàn)中隨機(jī)選取的．實(shí)驗(yàn)源代碼請(qǐng)掃描論文末頁(yè)右下角二維碼)．圖1展示了在柯西和正態(tài)兩種概率分布上參數(shù)Q和M對(duì)SR-PWE概率密度函數(shù)估計(jì)表現(xiàn)的影響情況．

從圖1可見，對(duì)于給定的子集規(guī)模M，隨著子集個(gè)數(shù)的增加，SR-PWE在兩種概率分布上對(duì)應(yīng)的RMSE值均逐漸減少，直到趨于收斂．同時(shí)，對(duì)于給定的子集個(gè)數(shù)，隨著子集規(guī)模M的增加，SR-PWE對(duì)應(yīng)的估計(jì)誤差也是逐漸減小的．這表明我們?cè)O(shè)計(jì)的基于無(wú)放回抽樣的帕爾森窗口集成方法是可行的．同時(shí)在圖1中還可發(fā)現(xiàn)，SR-PWE的估計(jì)效果顯著優(yōu)于帕爾森窗口法在全部數(shù)據(jù)上的概率密度函數(shù)估計(jì)．表2給出了帕爾森窗口和SR-PWE在兩種分布上具體的估計(jì)效果對(duì)比，通過總結(jié)SR-PWE的8個(gè)(Q,M)參數(shù)對(duì)對(duì)應(yīng)的RMSE值，從中發(fā)現(xiàn)SR-PWE每個(gè)參數(shù)對(duì)對(duì)應(yīng)的RMSE值均低于帕爾森窗口，證實(shí)了SR-PWE方法的有效性．

圖1 兩種概率分布上參數(shù)Q和M對(duì)SR-PWE估計(jì)表現(xiàn)的影響Fig.1 (Color online) The impacts of Q and M on the estimation performance of SR-PWE based on Caudy and normal probability distributions

表2 SR-PWE的估計(jì)表現(xiàn)1)Table 2 The estimation performance of SR-PWE

1)·表示均方根誤差小于帕爾森窗口法

結(jié) 語(yǔ)

針對(duì)傳統(tǒng)帕爾森窗口法計(jì)算復(fù)雜度高、對(duì)窗口寬度參數(shù)敏感的缺陷，本研究設(shè)計(jì)了一種基于無(wú)放回抽樣的帕爾森窗口集成方法，該方法具備處理大規(guī)模數(shù)據(jù)集概率密度函數(shù)的能力，通過將大數(shù)據(jù)集切分成與大數(shù)據(jù)集保持概率分布一致性的數(shù)據(jù)子集，可將數(shù)據(jù)子集上估計(jì)的基概率密度函數(shù)集成得到原始數(shù)據(jù)集的概率密度函數(shù)．實(shí)驗(yàn)結(jié)果表明，該方法的概率密度函數(shù)估計(jì)效果顯著優(yōu)于經(jīng)典的帕爾森窗口法，證實(shí)該方法可行且有效．

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡