何武超,王曉蘭,何玉林,熊睿杰
1)滄州職業(yè)技術(shù)學(xué)院信息工程系,河北滄州 061001;2)深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院,廣東深圳 518060;3)深圳大學(xué)大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)國(guó)家工程實(shí)驗(yàn)室,廣東深圳 518060
帕爾森窗口(Parzen window)法[1]又稱核密度估計(jì)方法[2],它利用多正態(tài)分布的疊加去擬合數(shù)據(jù)真實(shí)的概率分布,是一種建立在大樣本理論之上的無(wú)參數(shù)概率密度函數(shù)估計(jì)方法,也是一種真正的從數(shù)據(jù)本身出發(fā)研究數(shù)據(jù)分布特征的方法[3].該方法在有監(jiān)督學(xué)習(xí)[4]、無(wú)監(jiān)督學(xué)習(xí)[5]、特征選擇[6]和圖像處理[7]等領(lǐng)域有廣泛應(yīng)用.
用帕爾森窗口法進(jìn)行概率密度函數(shù)估計(jì)的關(guān)鍵在于窗口寬度(bandwidth)參數(shù)的確定[8],其中代表性的工作有SILVERMAN[9]的拇指原則(Silverman’s rule of thumb)、TERRELL[10]的過平滑窗口選取規(guī)則(over smoothed bandwidth selection rules)、ALEXANDRE[11]的solve-the-equation法、茹楊等[12-13]的迭代solve-the-equation法等.盡管帕爾森窗口法在實(shí)際應(yīng)用中有著良好的概率密度函數(shù)估計(jì)表現(xiàn),但仍存在顯著缺陷:① 計(jì)算復(fù)雜度較高,不適合較大規(guī)模數(shù)據(jù)集的概率密度函數(shù)估計(jì);② 對(duì)窗口寬度參數(shù)敏感,估計(jì)表現(xiàn)嚴(yán)重依賴于窗口寬度參數(shù)的確定.為解決上述問題,本研究基于無(wú)放回抽樣的帕爾森窗口集成(sampling without replacement-based Parzen window ensemble,SR-PWE)機(jī)制,通過抽樣和集成策略提高了傳統(tǒng)帕爾森窗口法的效率和精度.
為簡(jiǎn)便起見,本研究?jī)H討論一維概率密度函數(shù)估計(jì)的情況.假設(shè)由隨機(jī)變量X的N個(gè)觀察值構(gòu)成的數(shù)據(jù)集D={x1,x2, …,xN}, 其中xn∈R,n=1, 2, …,N, 對(duì)于大多數(shù)的實(shí)際應(yīng)用而言,X的概率密度函數(shù)p(x)未知,經(jīng)典的對(duì)p(x)進(jìn)行估計(jì)的方法為帕爾森窗口法,即
(1)
其中,h為窗口寬度,h>0, 它是關(guān)于N的函數(shù),取值滿足式(2)的條件
(2)
由式(1)可見,帕爾森窗口法是用N個(gè)正態(tài)分布N(xn,h)的疊加去擬合未知的概率分布.這導(dǎo)致當(dāng)N過大時(shí),帕爾森窗口法需耗費(fèi)較多的計(jì)算時(shí)間去處理大規(guī)模數(shù)據(jù)的概率密度估計(jì)問題.同時(shí),帕爾森窗口法的估計(jì)表現(xiàn)嚴(yán)重依賴窗口寬度h的選取[8]:較小的h常導(dǎo)致較為粗糙的擬合,而較大的h又易導(dǎo)致較為平滑的擬合.對(duì)于h的選取尚無(wú)統(tǒng)一準(zhǔn)則,至今仍是學(xué)界關(guān)注的難點(diǎn)和熱點(diǎn).
(3)
(4)
由式(4)可見,P1=P2.
SR-PWE方法的實(shí)現(xiàn)過程為:
1) 對(duì)數(shù)據(jù)集D進(jìn)行Q次無(wú)放回抽樣,得到Q個(gè)D對(duì)應(yīng)的抽樣數(shù)據(jù)集
(5)
2)采用帕爾森窗口法估計(jì)抽樣數(shù)據(jù)集的基概率密度函數(shù)
(6)
其中,窗口寬度為
(7)
3)采用求和平均的方式對(duì)基概率密度函數(shù)進(jìn)行集成,從而估計(jì)數(shù)據(jù)集D的概率密度函數(shù)為
(8)
為驗(yàn)證SR-PWE方法的可行性和有效性,比較并分析在柯西分布和正態(tài)分布上對(duì)比帕爾森窗口法和SR-PWE方法的概率密度函數(shù)估計(jì)表現(xiàn).
表1給出了兩種經(jīng)典概率分布的詳細(xì)信息.本研究采用如式(9)[18]的Matlab命令生成服從柯西分布(Cauchyrnd)和正態(tài)分布(normrnd)的隨機(jī)數(shù).
(9)
對(duì)于概率密度函數(shù)估計(jì)方法性能的評(píng)價(jià),本研究采用如式(10)的均方根誤差(root mean square error,RMSE)度量標(biāo)準(zhǔn).
(10)
其中,p(xn)和p′(xn)分別表示數(shù)據(jù)xn對(duì)應(yīng)的真實(shí)和估計(jì)概率密度值,n=1, 2, …,N.
表1 兩種概率分布Table 1 Two probability distributions
為了驗(yàn)證子集個(gè)數(shù)Q和子集規(guī)模M對(duì)SR-PWE方法估計(jì)表現(xiàn)的影響,本研究分別對(duì)其在柯西分布和正態(tài)分布上的RMSE值進(jìn)行了分析,并進(jìn)一步與使用帕爾森窗口法的估計(jì)表現(xiàn)進(jìn)行對(duì)比.該估計(jì)表現(xiàn)由其RMSE值體現(xiàn),令Q={10, 20, …, 200}和M={25, 50, 75, 200}, 分別測(cè)試對(duì)于給定的Q, SR-PWE的估計(jì)表現(xiàn)隨M的變化情況,以及對(duì)于給定的M, SR-PWE的估計(jì)表現(xiàn)隨Q的變化情況.對(duì)于每種分布生成2×104個(gè)隨機(jī)樣本(結(jié)果從100次獨(dú)立實(shí)驗(yàn)中隨機(jī)選取的.實(shí)驗(yàn)源代碼請(qǐng)掃描論文末頁(yè)右下角二維碼).圖1展示了在柯西和正態(tài)兩種概率分布上參數(shù)Q和M對(duì)SR-PWE概率密度函數(shù)估計(jì)表現(xiàn)的影響情況.
從圖1可見,對(duì)于給定的子集規(guī)模M, 隨著子集個(gè)數(shù)的增加,SR-PWE在兩種概率分布上對(duì)應(yīng)的RMSE值均逐漸減少,直到趨于收斂.同時(shí),對(duì)于給定的子集個(gè)數(shù),隨著子集規(guī)模M的增加,SR-PWE對(duì)應(yīng)的估計(jì)誤差也是逐漸減小的.這表明我們?cè)O(shè)計(jì)的基于無(wú)放回抽樣的帕爾森窗口集成方法是可行的.同時(shí)在圖1中還可發(fā)現(xiàn),SR-PWE的估計(jì)效果顯著優(yōu)于帕爾森窗口法在全部數(shù)據(jù)上的概率密度函數(shù)估計(jì).表2給出了帕爾森窗口和SR-PWE在兩種分布上具體的估計(jì)效果對(duì)比,通過總結(jié)SR-PWE的8個(gè)(Q,M)參數(shù)對(duì)對(duì)應(yīng)的RMSE值,從中發(fā)現(xiàn)SR-PWE每個(gè)參數(shù)對(duì)對(duì)應(yīng)的RMSE值均低于帕爾森窗口,證實(shí)了SR-PWE方法的有效性.
圖1 兩種概率分布上參數(shù)Q和M對(duì)SR-PWE估計(jì)表現(xiàn)的影響Fig.1 (Color online) The impacts of Q and M on the estimation performance of SR-PWE based on Caudy and normal probability distributions
表2 SR-PWE的估計(jì)表現(xiàn)1)Table 2 The estimation performance of SR-PWE
1)·表示均方根誤差小于帕爾森窗口法
針對(duì)傳統(tǒng)帕爾森窗口法計(jì)算復(fù)雜度高、對(duì)窗口寬度參數(shù)敏感的缺陷,本研究設(shè)計(jì)了一種基于無(wú)放回抽樣的帕爾森窗口集成方法,該方法具備處理大規(guī)模數(shù)據(jù)集概率密度函數(shù)的能力,通過將大數(shù)據(jù)集切分成與大數(shù)據(jù)集保持概率分布一致性的數(shù)據(jù)子集,可將數(shù)據(jù)子集上估計(jì)的基概率密度函數(shù)集成得到原始數(shù)據(jù)集的概率密度函數(shù).實(shí)驗(yàn)結(jié)果表明,該方法的概率密度函數(shù)估計(jì)效果顯著優(yōu)于經(jīng)典的帕爾森窗口法,證實(shí)該方法可行且有效.