国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MATLAB 的核密度估計研究

2021-04-13 06:03王萌萌梁瀘丹寇俊克
科技視界 2021年4期
關(guān)鍵詞:密度估計樣本容量參數(shù)估計

王萌萌 梁瀘丹 寇俊克

(桂林電子科技大學(xué)數(shù)學(xué)與計算科學(xué)學(xué)院,廣西 桂林 541004)

0 引言

在數(shù)理統(tǒng)計研究中,密度估計一直是一個極其重要的熱門研究問題。 其研究成果被廣泛應(yīng)用到經(jīng)濟學(xué)、社會學(xué)以及生物統(tǒng)計等領(lǐng)域[1-4]。 特別是當前大數(shù)據(jù)時代,如何對數(shù)據(jù)進行高效地分析處理以便找出數(shù)據(jù)之間的特征規(guī)律就顯得尤其重要。密度估計作為數(shù)據(jù)分析的一種有效工具,能夠高效地找到數(shù)據(jù)所蘊含的分布規(guī)律,這為后續(xù)數(shù)據(jù)分析處理提供了重要的參考依據(jù)。密度估計研究的本質(zhì)問題是如何高效地利用觀測數(shù)據(jù)找到數(shù)據(jù)的分布規(guī)律。常規(guī)密度估計方法分為參數(shù)估計和非參數(shù)估計兩類。參數(shù)估計方法需要事先假設(shè)數(shù)據(jù)滿足某個特定的模型或者有先驗知識可以參考。 然而在實際應(yīng)用中,對于獲取的數(shù)據(jù)事先沒有任何先驗知識可以利用且無法確定數(shù)據(jù)滿足哪些模型,因此,參數(shù)估計方法有一定的局限性,無法廣泛應(yīng)用。 相反,非參數(shù)估計方法不需要借助任何先驗知識,僅僅利用數(shù)據(jù)本身信息進行估計,因而在實際應(yīng)用中得到了廣泛的應(yīng)用。

在非參數(shù)估計方法中,核密度估計方法以其原理簡單易懂且操作便捷而備受關(guān)注。核密度估計方法不需要先驗知識,且能夠處理較為復(fù)雜的數(shù)據(jù),同時其估計效果也十分理想。 鑒于上述特點,核密度估計方法被廣泛應(yīng)用于公共事務(wù)、地理信息、醫(yī)療教育等多個領(lǐng)域[5-8]。核密度估計方法估計效果的優(yōu)劣其關(guān)鍵在于核函數(shù)的選取以及帶寬的選擇。 針對這一問題,本文將借助MATLAB 軟件進行數(shù)值模擬實驗, 對比分析不同核函數(shù)、不同帶寬以及不同樣本容量對密度估計效果的影響。通過實驗分析核密度估計方法參數(shù)選取的優(yōu)劣性,以期為當前大數(shù)據(jù)處理提供理論依據(jù)。

1 核密度估計理論

核密度估計方法作為非參數(shù)密度估計的經(jīng)典方法之一,在大數(shù)據(jù)處理中發(fā)揮著極其重要的作用。本文首先簡要介紹核密度估計方法的原理。 在某一事件概率分布未知的情況下,利用觀測數(shù)據(jù)進行密度函數(shù)估計。另外, 數(shù)據(jù)之間由于距離的遠近也會產(chǎn)生不同程度的影響。 故認為距離較近的數(shù)據(jù)互相之間產(chǎn)生的影響較大,而距離較遠的數(shù)據(jù)產(chǎn)生的影響較小。核密度估計方法正是基于上述思想建立起來的。

設(shè)隨機變量X1,X2,…,Xn是從總體中抽取的獨立同分布樣本,其密度函數(shù)為f(x),則核密度估計器(為其中,n 為樣本容量,h 為帶寬,K(x)表示核函數(shù)。作為核密度估計方法的核心,其核函數(shù)應(yīng)具備以下條件:(1)非負性K(x)≥0;(2)對稱性K(x)=K(-x);(3)歸一性∫RK(x)dx=1。 針對核密度估計器(f(x)來說,通過觀察發(fā)現(xiàn)該方法主要強調(diào)當隨機變量Xi與變量x 的絕對值越小, 則兩者距離越小, 進而隨機變量Xi對點x 處的密度函數(shù)值影響越大。另外,核密度估計器只依賴于樣本數(shù)據(jù)、帶寬以及核函數(shù),對于樣本數(shù)據(jù)是否滿足特定的模型或者規(guī)律不做要求。

針對核密度估計器來說,只要其核函數(shù)以及帶寬選取得當,核密度估計方法可以以任意精度去逼近真實密度函數(shù)。 常規(guī)核函數(shù)主要有表1 所示的幾種。

表1

2 數(shù)值實驗

針對核密度估計問題,不同核函數(shù)、不同帶寬以及不同樣本容量都會對估計效果產(chǎn)生影響。鑒于上述參數(shù)的重要性, 本文下面將借助MATLAB 軟件進行核密度估計數(shù)值實驗對比分析[9-10]。

2.1 不同核函數(shù)實驗

本節(jié)將分別選取高斯核、均勻核、三角核以及二次核函數(shù)進行實驗對比分析。 首先,利用MATLAB 軟件隨機生成1 000 個服從標準正態(tài)分布的隨機樣本數(shù)據(jù);然后,針對這1 000 個樣本數(shù)據(jù)分別選用高斯核、均勻核、三角核以及二次核進行密度估計實驗,其實驗結(jié)果如圖1 所示。

從圖1 可以看出,4 種核函數(shù)估計結(jié)果均呈現(xiàn)正態(tài)分布形態(tài)。這說明當樣本數(shù)據(jù)大致呈正態(tài)分布的時候,上述4 種核函數(shù)都能取得不錯的估計效果。但是,不同核函數(shù)的估計效果仍存在比較明顯的差異,其差異性主要表現(xiàn)在X 軸的負半軸以及峰值附近。高斯核函數(shù)和二次核函數(shù)在X 軸負半軸的估計效果要優(yōu)于三角核與均勻核。 另外,在峰值處雖然估計值均比真實值小,但是高斯核峰值附近產(chǎn)生差異的區(qū)間要小于其他核函數(shù)。 從整體上來說,4 個核函數(shù)的估計結(jié)果與真實密度函數(shù)大體保持一致,所得到的密度估計曲線基本相同。

圖1 不同核函數(shù)估計結(jié)果

2.2 不同帶寬實驗

在核密度估計方法中,帶寬的選取會對估計效果產(chǎn)生很大的影響。 前文已經(jīng)通過分析核估計器的函數(shù)特性說明了這一點。 下面將通過數(shù)值實驗對比分析帶寬選擇的優(yōu)劣性。 首先,利用MATLAB 軟件生成100個服從正態(tài)分布的隨機樣本數(shù)據(jù),核函數(shù)選擇高斯核函數(shù)。 為了更加充分地分析帶寬選擇對估計效果產(chǎn)生的影響,帶寬依次選擇h=1,h=3,h=5 以及h=10。 其實驗結(jié)果如圖2 所示。

從圖2 可以看出,對于同一組樣本數(shù)據(jù)且核函數(shù)相同的情況下,當帶寬為1 時,曲線波峰過多且參差不齊,過分細化導(dǎo)致密度估計波動太大,從而喪失了密度估計的意義。當帶寬h=10 時,數(shù)據(jù)平均化過于突出,密度估計太過平穩(wěn),從而使得估計值與真實值偏差過大。 由此可知,帶寬選取過小或過大都會使密度估計值與真實值偏差過大。 另外,從圖2 也可以看出當帶寬h=3 時估計結(jié)果與真實密度函數(shù)圖像幾乎完全重合, 這就意味著在此帶寬條件下估計效果最好。綜上可知,帶寬的選取對核密度估計效果具有顯著的影響。

圖2 不同帶寬估計結(jié)果

2.3 不同樣本容量實驗

針對核密度估計問題,樣本容量的大小也會對估計效果產(chǎn)生影響。 一般來說,可以利用的有效數(shù)據(jù)越多,則估計效果就越好。 為了充分分析樣本容量對估計效果好壞的影響,在同一帶寬和核函數(shù)的條件下對比分析不同樣本容量的估計結(jié)果。分別進行樣本容量為20、50、100、1 000 的數(shù)值實驗, 其實驗結(jié)果如圖3所示。

由圖3 可知,當樣本容量過小時(n=20),其估計結(jié)果與真實密度函數(shù)相差太大,尤其在峰值處更為突出。 當樣本容量過大時(n=1 000),雖然其估計結(jié)果與真實密度函數(shù)大體一致,但是在峰值處仍存在較大差異。 當樣本容量為100 時,其核估計結(jié)果與真實密度函數(shù)圖像幾乎重合,估計效果最好。 另一方面,對比樣本容量20,50,100 的估計結(jié)果可以得出, 隨著樣本容量的增大,核密度估計效果越來越好。 但是這并不意味著樣本容量越大越好, 這一觀點可以從樣本容量1 000 時的估計結(jié)果可以看出。

綜上分析可知,在帶寬固定的條件下,樣本容量選取過小,數(shù)據(jù)細化作用突出,估計偏差較大,無法反映出真實數(shù)據(jù)的特性;樣本容量選取過大,估計效果整體偏好,但是在峰值附近誤差過大。

3 結(jié)論

針對密度估計問題, 本文借助MATLAB 軟件分析了核密度估計方法關(guān)鍵參數(shù)核函數(shù)、帶寬以及樣本容量對估計結(jié)果的影響。 通過實驗對比分析發(fā)現(xiàn),核函數(shù)的選取對于估計效果的好壞影響不大,但是帶寬以及樣本容量的選取對于估計結(jié)果的影響程度較大。其次,帶寬過小或者過大都會導(dǎo)致密度估計結(jié)果與真實密度函數(shù)偏差較大,因此,必須選擇合適的帶寬才能得到理想的估計效果。 另外,樣本容量并不是越大越好,而是應(yīng)該在一個合理的范圍之內(nèi)。最后,對于密度估計問題,核密度估計方法必須依據(jù)數(shù)據(jù)的某些特征,合理恰當?shù)剡x取核函數(shù)以及帶寬,并利用一定數(shù)量的樣本數(shù)據(jù)進行密度估計,以期得到更加理想的估計結(jié)果。

猜你喜歡
密度估計樣本容量參數(shù)估計
m-NOD樣本最近鄰密度估計的相合性
面向魚眼圖像的人群密度估計
基于新型DFrFT的LFM信號參數(shù)估計算法
一種基于改進Unet的蝦苗密度估計方法
Logistic回歸模型的幾乎無偏兩參數(shù)估計
基于向前方程的平穩(wěn)分布參數(shù)估計
基于競爭失效數(shù)據(jù)的Lindley分布參數(shù)估計
END樣本最近鄰密度估計的一致強相合速度
廣義高斯分布參數(shù)估值與樣本容量關(guān)系
多種檢測目標下樣本容量設(shè)計的比較