国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

廣義可加模型的擬最優(yōu)樣本選擇方法

2022-10-15 06:50葉玲瓏謝邦昌
統(tǒng)計(jì)與信息論壇 2022年10期
關(guān)鍵詞:參數(shù)估計(jì)廣義誤差

秦 磊,葉玲瓏,謝邦昌

(1.對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué) 統(tǒng)計(jì)學(xué)院,北京 100029;2.廈門大學(xué) 公共事務(wù)學(xué)院,福建 廈門 361005;3.臺(tái)灣輔仁大學(xué) 管理學(xué)院,臺(tái)灣 242062)

一、引言

大數(shù)據(jù)開(kāi)啟了一個(gè)時(shí)代的轉(zhuǎn)型,帶給人們的是信息的豐富積淀和思維的巨大變革,同時(shí)也使得數(shù)據(jù)的建模和預(yù)測(cè)面臨著新的困難和挑戰(zhàn)。隨著數(shù)據(jù)搜集和儲(chǔ)存能力不斷提升,數(shù)據(jù)量大成為大數(shù)據(jù)的首要特征,即便是簡(jiǎn)單的計(jì)算公式,也有可能伴隨著巨大的計(jì)算成本。為此,如何篩選有效的信息并且在有限的計(jì)算條件下還原大數(shù)據(jù)中的統(tǒng)計(jì)特征就成為當(dāng)下值得深入思考的問(wèn)題。

為了高效便捷地探索大數(shù)據(jù)統(tǒng)計(jì)特征,一個(gè)有效的做法就是抽樣,即選取具有代表性的抽樣樣本來(lái)代替全體從而刻畫(huà)變量之間的關(guān)系并進(jìn)行有效預(yù)測(cè)。文獻(xiàn)中給出的抽樣方式通常有兩種,一種是概率抽樣也叫隨機(jī)抽樣,另一種是非概率抽樣。而在概率抽樣中最常用的是等概率抽樣(均勻抽樣),原始數(shù)據(jù)的所有樣本點(diǎn)以相同的概率進(jìn)入新樣本中。但該抽樣方法有明顯的缺陷,當(dāng)樣本為不均衡樣本時(shí)該方法往往表現(xiàn)很差。受到這個(gè)問(wèn)題的啟發(fā),很多統(tǒng)計(jì)學(xué)家基于數(shù)據(jù)本身的特殊結(jié)構(gòu)提出了大規(guī)模數(shù)據(jù)的非均勻抽樣方法,用于提升小樣本的估計(jì)精度。一個(gè)經(jīng)典的做法就是基于觀測(cè)矩陣的Leverage分?jǐn)?shù)對(duì)觀測(cè)矩陣的行或者列做不等概率抽樣之后,再進(jìn)行各種參數(shù)估計(jì)或者矩陣計(jì)算,這樣Leverage分?jǐn)?shù)較高的數(shù)據(jù)更有可能進(jìn)入新的樣本,文獻(xiàn)主要包含:最小二乘近似的研究,見(jiàn)Drineas等[1-2];最小一乘近似的研究,見(jiàn)Meng和Mahoney[3];低秩矩陣近似的研究,見(jiàn)Mahoney和Drineas[4]。這方面較為全面的總結(jié)和回顧可以參照Mahoney,另外Ma等給出了Leverage重要性抽樣的統(tǒng)計(jì)理論,并以大量的數(shù)據(jù)分析證實(shí)該方法的可行性及有效性[5-6]。然而Leverage重要性抽樣也具有一些缺陷,例如Leverage分?jǐn)?shù)并不是一個(gè)直接影響估計(jì)精度的指標(biāo),不等概率抽樣也可能令某些重要的樣本漏選,而且抽取樣本得到的估計(jì)不具有唯一性。

樣本選取的另一種方式是確定性抽樣,也稱作非概率抽樣,其本質(zhì)思想是尋找一個(gè)直接影響估計(jì)精度的條件和準(zhǔn)則,然后按照這種準(zhǔn)則對(duì)樣本點(diǎn)排序,依次選擇重要的樣本點(diǎn)。相比于概率抽樣,這種方法的難點(diǎn)在于抽樣準(zhǔn)則的尋找,但是這種方法不會(huì)因隨機(jī)篩選而漏掉某些具有代表性的樣本點(diǎn),并且由于抽樣樣本的確定性,模型的估計(jì)結(jié)果也相對(duì)唯一。確定性抽樣的文獻(xiàn)相對(duì)較少,這源于保證抽樣估計(jì)精度的準(zhǔn)則較難尋找,一個(gè)有趣的做法是Shin和Xiu[7]對(duì)于線性回歸的研究,作者希望通過(guò)選擇一個(gè)小樣本來(lái)近似全樣本的最小二乘估計(jì)結(jié)果,他們對(duì)小樣本估計(jì)量和全樣本估計(jì)量的差距進(jìn)行理論分析后找出了最具代表性的抽樣樣本應(yīng)該滿足的條件,給出了一種樣本選擇的標(biāo)準(zhǔn),數(shù)值分析的結(jié)果顯示了這種做法要優(yōu)于常見(jiàn)的概率抽樣方法。

本文綜合借鑒了隨機(jī)抽樣與確定性抽樣的思想,考慮了更為復(fù)雜的廣義可加模型的估計(jì)問(wèn)題[8]。選取的原因在于,該模型是重要的半?yún)?shù)模型,可以擬合復(fù)雜的數(shù)據(jù)結(jié)構(gòu),避免高維協(xié)變量下維數(shù)災(zāi)難的影響,而且估計(jì)結(jié)果更具有解釋性,在實(shí)證分析中有著廣泛的應(yīng)用。另外,對(duì)于大規(guī)模數(shù)據(jù)的參數(shù)估計(jì)問(wèn)題,很多學(xué)者也都從廣義可加模型入手,例如Wood等以及許亦頻和倪蘋(píng)對(duì)此的總結(jié)[9-10]。本文考慮的這類模型可以寫(xiě)為:

(1)

其中,Y是服從指數(shù)分布的響應(yīng)變量,X是已知的自變量向量,g{·}是連接函數(shù),fj是一個(gè)或者多個(gè)自變量形成的未知光滑函數(shù),βj是函數(shù)中包含的未知參數(shù)。式(1)包含常見(jiàn)的廣義可加模型、廣義部分線性模型、廣義變系數(shù)模型等等。本文的主要貢獻(xiàn)在于,一方面將確定性抽樣的理論從線性模型的情形擴(kuò)展到廣義可加模型上,這種方法不僅包含了部分線性可加模型,也同樣適用于變系數(shù)模型和部分線性變系數(shù)模型的估計(jì),另一方面由于廣義可加模型在估計(jì)過(guò)程中需要用到懲罰估計(jì),因此確定性抽樣的理論也可以擴(kuò)展到嶺回歸等懲罰估計(jì)方法。

本文通過(guò)高斯連接函數(shù)下可加模型的估計(jì)過(guò)程給出抽樣樣本應(yīng)該滿足的正交性條件,并提出基于此條件的最優(yōu)樣本選擇方法,將結(jié)果推廣到復(fù)雜連接函數(shù)和廣義變系數(shù)模型,并補(bǔ)充了計(jì)算過(guò)程中的一些細(xì)節(jié)。然后,分別在模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)上,比較了本文提出的方法和概率抽樣方法的估計(jì)精度和預(yù)測(cè)精度。

二、高斯連接函數(shù)下的樣本選擇條件和擬最優(yōu)樣本選擇算法

(一)樣本選擇條件

考慮高斯連接函數(shù)g{μ}=μ下廣義可加模型的樣本選擇條件,假設(shè)Y=(Y1,Y2,…,YN)T是N×1維的因變量,X=(X1,X2,…,XN)T是N×p維的觀測(cè)矩陣,其中Xi=(Xi,1,Xi,2,…,Xi,p)T是第i個(gè)個(gè)體p個(gè)特征的觀測(cè)值,可加模型可以寫(xiě)為:

Yi=f1(Xi,1)+f1(Xi,2)+…+fp(Xi,p)+εi

(2)

(3)

Y=Φβ+ε

(4)

其中β=(β1,1,…,β1,l1,…,βp,1,…,βp,lp)T。由于基函數(shù)會(huì)增加解釋變量的個(gè)數(shù),為此一般會(huì)采用類似嶺回歸的方式去做懲罰估計(jì),

(5)

其中,βTΩβ是二次懲罰函數(shù),Ω是預(yù)先設(shè)定的懲罰結(jié)構(gòu),設(shè)定方式見(jiàn)第3節(jié)。式(5)可以通過(guò)求導(dǎo)得到顯示解:

(6)

(7)

(8)

(9)

(二)擬最優(yōu)樣本選擇算法

(10)

特別地,如果ΦN本身就是正交矩陣,那么無(wú)需對(duì)ΦN進(jìn)行Skinny QR分解,這個(gè)問(wèn)題可以直接寫(xiě)為:

(11)

(12)

其中QIk表示矩陣QN對(duì)應(yīng)于Ik的所有行,數(shù)據(jù)集ΘN的行標(biāo)號(hào)集合為IN。第3步:重復(fù)執(zhí)行第2步,直到選出n個(gè)樣本為止。

值得注意的是,上述算法采用了貪婪的策略,依次選入了最大化正交指標(biāo)的樣本,其結(jié)果可能只是局部最優(yōu)的,這種方式類似于聚類算法中的K均值聚類。另外,由于前P個(gè)樣本的選取具有一定隨機(jī)性,所以我們最終得到的樣本子集會(huì)略有不同,但是由于P相對(duì)于n比較小,因此并不影響參數(shù)估計(jì)的結(jié)果。出于以上兩點(diǎn),本文的樣本選擇算法給出的是一個(gè)擬最優(yōu)的結(jié)果。

三、算法擴(kuò)展及計(jì)算細(xì)節(jié)

(一)復(fù)雜連接函數(shù)下的算法擴(kuò)展

(13)

結(jié)合前述分析不難看出,該模型的樣本選擇問(wèn)題可以被定義為如下優(yōu)化函數(shù):

(14)

(二)廣義變系數(shù)模型下的算法擴(kuò)展

提出的樣本選擇方法也適用于廣義變系數(shù)模型[11],這里以高斯連接函數(shù)為例進(jìn)行簡(jiǎn)要說(shuō)明,其模型表示為:

Yi=β1(Ri)Xi,1+β1(Ri)Xi,2+…+βp(Ri)Xi,p+εi

(15)

(16)

其矩陣形式寫(xiě)成:

Y=Ψγ+ε

(17)

Ψ的第i行Ψi=[φ1,1(Ri)Xi,1,…,φ1,l1(Ri)Xi,1,…,φp,1(Ri)Xi,p,…,φp,lp(Ri)Xi,p]T,系數(shù)向量γ=(γ1,1,…,γ1,l1,…,γp,1,…,γp,lp)T。由于式(20)含有較多的基函數(shù)變量,一般也會(huì)采用類似嶺回歸的方式去估計(jì):

(18)

式(21)的顯示解為:

(19)

(三)計(jì)算中的一些細(xì)節(jié)

1.基函數(shù)的選擇

(20)

其中結(jié)點(diǎn)ξj1、ξj2和ξj3分別為第j個(gè)變量的25%、50%和75%分位數(shù)。

2.懲罰函數(shù)中Ω的選擇

由于估計(jì)過(guò)程中基函數(shù)展開(kāi)引入了較多的解釋變量,會(huì)造成估計(jì)量的方差增加以及預(yù)測(cè)精度的下降,因此要對(duì)估計(jì)參數(shù)施加一定的懲罰約束,表示為式(4)中的βTΩβ,其中Ω是懲罰的權(quán)重矩陣,Ω中的元素越大,懲罰力度將越大,β的估計(jì)量將越接近于0,在文獻(xiàn)中Ω有很多選擇方式,本文令Ω為對(duì)角陣,對(duì)于第j個(gè)變量而言,βjk中k=1時(shí),Ω對(duì)角陣相應(yīng)的元素為0,k≠1時(shí),Ω對(duì)角陣相應(yīng)的元素為1,表示為:

Ω=diag{0,1,1,1,1,1,…,0,1,1,1,1,1}

(21)

這樣就以嶺回歸的方式對(duì)基函數(shù)中的二次和三次項(xiàng)進(jìn)行約束,雖然估計(jì)量增加了一些偏差,但是系數(shù)的約束換來(lái)了方差的下降,而使得估計(jì)量的預(yù)測(cè)誤差下降。

3.調(diào)整參數(shù)λ的選擇

在可加模型的收縮估計(jì)中,調(diào)整參數(shù)λ決定了懲罰力度。當(dāng)λ=0時(shí),參數(shù)估計(jì)相當(dāng)于無(wú)約束的最小二乘法,當(dāng)λ→∞時(shí),參數(shù)估計(jì)都趨向于0,λ越大參數(shù)估計(jì)就越靠近于0。選擇λ通常使用的準(zhǔn)則有AIC、BIC、CV和GCV準(zhǔn)則等[12-14],高斯連接函數(shù)下,本文選擇了BIC準(zhǔn)則用于選取調(diào)整參數(shù)λ,表示為式(17),其中A(λ)=Φ(ΦTΦ+λΩ)-1ΦT。BIC準(zhǔn)則的左右兩個(gè)部分體現(xiàn)了樣本內(nèi)的預(yù)測(cè)誤差和復(fù)雜程度,兩者的變化具有相反的方向,而λ將選取一個(gè)折中的狀態(tài):

BIC(λ)=nlog[(Y-AY)T(Y-AY)]+log(n)trace(A)

(22)

四、數(shù)據(jù)分析

(一)模擬數(shù)據(jù)分析

參考已有文獻(xiàn),本文構(gòu)造了三種模型用于產(chǎn)生可加結(jié)構(gòu)的數(shù)據(jù)集,其中模型1來(lái)源于Koenker,模型2來(lái)源于Huang等,模型3來(lái)源于Xue等[15-17]。每種模型中的自變量都產(chǎn)生于[0,1]上的均勻分布,擾動(dòng)項(xiàng)ε~N(0,0.22)。

2017年大連市三次產(chǎn)業(yè)結(jié)構(gòu)比例為6.4∶41.5∶52.1,第三產(chǎn)業(yè)占比超過(guò)一半以上,形成了以服務(wù)經(jīng)濟(jì)為主導(dǎo)產(chǎn)業(yè)結(jié)構(gòu),服務(wù)業(yè)成為穩(wěn)增長(zhǎng)的 “壓艙石”。工業(yè)結(jié)構(gòu)不斷優(yōu)化,數(shù)控機(jī)床、軌道交通、核電裝備、集成電路、儲(chǔ)能裝備等領(lǐng)域推出一批新產(chǎn)品、新技術(shù),2017年全市規(guī)模以上高技術(shù)產(chǎn)業(yè)增加值增長(zhǎng)50.8%,戰(zhàn)略性新興產(chǎn)業(yè)增加值增長(zhǎng)16.5%。 “互聯(lián)網(wǎng)+”迅猛發(fā)展,新技術(shù)、新產(chǎn)業(yè)、新業(yè)態(tài)、新模式快速成長(zhǎng),2017年規(guī)模以上軟件和信息服務(wù)業(yè)實(shí)現(xiàn)營(yíng)業(yè)收入增長(zhǎng)19.7%。投資結(jié)構(gòu)進(jìn)一步優(yōu)化,高技術(shù)產(chǎn)業(yè)投資增長(zhǎng)94.1%,民間投資增長(zhǎng)22.4%,服務(wù)業(yè)投資占比達(dá)62.4%。

模型2:Y=5X1+4sin(2πX2)/(2-sin(2πX2))+ε

模型3:Y=2X1+8(X2-0.5)3+sin(2πX3)+ε

圖1~3分別給出了三種模擬數(shù)據(jù)下的估計(jì)結(jié)果對(duì)比,每張圖左側(cè)表示樣本內(nèi)的參數(shù)估計(jì)誤差,右側(cè)表示樣本外的預(yù)測(cè)誤差。從三個(gè)模擬數(shù)據(jù)的結(jié)果上看,簡(jiǎn)單隨機(jī)抽樣下的結(jié)果是最差的,其次是Leverage抽樣,而擬最優(yōu)樣本選擇是最優(yōu)的,其誤差曲線均處于最低的位置,說(shuō)明該方法選出的樣本具有更好的代表性,有利于參數(shù)估計(jì)和數(shù)據(jù)預(yù)測(cè)。雖然Leverage抽樣和擬最優(yōu)選擇方法都是以重要性來(lái)選擇樣本的,但是前者的重要性度量建立在Leverage值上,和估計(jì)以及預(yù)測(cè)沒(méi)有很大關(guān)系,而后者建立在正交性條件上,是用來(lái)盡量減少估計(jì)誤差的,因此擬最優(yōu)樣本選擇具有相對(duì)優(yōu)勢(shì)。另外,從圖形的細(xì)節(jié)上可以發(fā)現(xiàn)一些事實(shí):擬最優(yōu)樣本選擇對(duì)參數(shù)估計(jì)的提升要明顯高于預(yù)測(cè)誤差的提升,因?yàn)楸疚脑趯で髽颖具x取準(zhǔn)則的時(shí)候就是從參數(shù)估計(jì)誤差來(lái)入手的,因此該準(zhǔn)則將更偏向于參數(shù)估計(jì)的提升;在樣本量增大的情況下,三種方法的估計(jì)和預(yù)測(cè)誤差都在下降;可加模型的樣條估計(jì)中常用的基函數(shù)都不是正交的,因此無(wú)法使用式(10)進(jìn)行計(jì)算,如果可以找到正交的基函數(shù),那么式(10)將是一個(gè)計(jì)算負(fù)擔(dān)較小的準(zhǔn)則。

圖1 模擬數(shù)據(jù)1的估計(jì)結(jié)果對(duì)比

圖2 模擬數(shù)據(jù)2的估計(jì)結(jié)果對(duì)比

圖3 模擬數(shù)據(jù)3的估計(jì)結(jié)果對(duì)比

(二)實(shí)際數(shù)據(jù)分析

本文提出的方法可以用來(lái)分析政府統(tǒng)計(jì)和經(jīng)濟(jì)統(tǒng)計(jì)中產(chǎn)生的微觀大數(shù)據(jù)。以UCI數(shù)據(jù)庫(kù)的Bike Sharing數(shù)據(jù)集為例[18],對(duì)比了可加模型結(jié)合擬最優(yōu)樣本選擇、簡(jiǎn)單隨機(jī)抽樣和Leverage抽樣在實(shí)際數(shù)據(jù)中的估計(jì)效果。

Bike Sharing數(shù)據(jù)集來(lái)源于美國(guó)某城市公共自行車共享系統(tǒng),該系統(tǒng)中用戶注冊(cè)、租借和歸還自行車都是自動(dòng)的。用戶可以從一個(gè)地方租一輛自行車,然后在另一個(gè)地方歸還,整個(gè)行程的起點(diǎn)、終點(diǎn)、時(shí)間都會(huì)被詳細(xì)地記錄下來(lái)。自行車共享系統(tǒng)的運(yùn)行對(duì)于整個(gè)城市的交通、環(huán)境和健康問(wèn)題都做出了巨大的貢獻(xiàn),因此運(yùn)行中產(chǎn)生的數(shù)據(jù)受到了越來(lái)越多學(xué)者的關(guān)注。該數(shù)據(jù)集以小時(shí)為單位記錄了車輛租借次數(shù)、當(dāng)時(shí)的日期和天氣狀況,時(shí)間跨度為2011—2012年,共有17 389條數(shù)據(jù),目的是探索租借次數(shù)和環(huán)境變量之間的關(guān)系。

本文租借次數(shù)作為響應(yīng)變量Y,溫度、體感溫度、濕度和風(fēng)速作為預(yù)測(cè)變量X,在1~9 000條數(shù)據(jù)形成的訓(xùn)練集上結(jié)合三種抽樣方式進(jìn)行可加模型的估計(jì),在9 001~17 389條數(shù)據(jù)形成的測(cè)試集上進(jìn)行預(yù)測(cè),參數(shù)估計(jì)誤差和預(yù)測(cè)誤差隨抽樣次數(shù)的變化呈現(xiàn)在圖4中??梢钥闯?對(duì)于參數(shù)估計(jì)誤差,擬最優(yōu)樣本選擇下通常是三種方法中最低的;對(duì)于樣本外的預(yù)測(cè)誤差,抽樣個(gè)數(shù)小于350的情況下擬最優(yōu)樣本選擇和隨機(jī)抽樣有相近的表現(xiàn),但是在大于350以后擬最優(yōu)樣本選擇是三種方法中最低的。因此從整體上來(lái)看,本文提出的方法在實(shí)際數(shù)據(jù)上具有較好的效果。

圖4 Biking Sharing數(shù)據(jù)集的估計(jì)結(jié)果對(duì)比

五、結(jié)論和未來(lái)的研究方向

面對(duì)海量數(shù)據(jù),如何選取一個(gè)合適的樣本子集去精準(zhǔn)還原大數(shù)據(jù)中的統(tǒng)計(jì)特征是值得深入思考的問(wèn)題。本文主要研究了廣義可加模型的確定性抽樣方法,通過(guò)比較全樣本和抽樣樣本估計(jì)結(jié)果之間的差距,發(fā)現(xiàn)樣本選擇應(yīng)該滿足正交條件。在給定的正交性指標(biāo)下,進(jìn)一步給出了一種貪婪算法用于尋找最大化正交性指標(biāo)的局部最優(yōu)解。由于初始值的隨機(jī)性,因此本文的樣本選擇算法給出的是一個(gè)擬最優(yōu)的結(jié)果,大量的模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)集也證實(shí)了該方法的可行性、科學(xué)性及有效性。

本文討論了大數(shù)據(jù)下廣義可加模型和廣義變系數(shù)模型的確定性抽樣方法。在未來(lái)的研究過(guò)程中,可以進(jìn)一步研究以下問(wèn)題:(1)在目前的樣本選擇條件下,是否存在一個(gè)更優(yōu)的正交性指標(biāo),用于提升樣本選擇的質(zhì)量。由于目前的正交性指標(biāo)需要以P個(gè)樣本為前提,導(dǎo)致提出的算法獲得了擬最優(yōu)的結(jié)果。如果正交性指標(biāo)能夠以更少的樣本為基礎(chǔ),那么樣本會(huì)更加接近于全局最優(yōu)選擇的結(jié)果。(2)是否存在新的樣本選擇條件,使得估計(jì)和預(yù)測(cè)具有更高的精確程度。本文的樣本選擇條件是通過(guò)比較全樣本和抽樣樣本的估計(jì)結(jié)果而給出的,原則上樣本選擇條件會(huì)隨著估計(jì)方法、損失函數(shù)或抽樣設(shè)計(jì)[19]而變化,進(jìn)而影響估計(jì)和預(yù)測(cè)的結(jié)果,因此具有最優(yōu)預(yù)測(cè)性能的樣本選擇條件是個(gè)值得研究的問(wèn)題。

猜你喜歡
參數(shù)估計(jì)廣義誤差
基于參數(shù)組合估計(jì)的多元控制圖的優(yōu)化研究
The Last Lumberjacks
一類特別的廣義積分
隧道橫向貫通誤差估算與應(yīng)用
隧道橫向貫通誤差估算與應(yīng)用
任意半環(huán)上正則元的廣義逆
淺談死亡力函數(shù)的非參數(shù)估計(jì)方法
淺談死亡力函數(shù)的非參數(shù)估計(jì)方法
統(tǒng)計(jì)推斷的研究
精確與誤差
林甸县| 探索| 黔江区| 莱阳市| 子长县| 稷山县| 青岛市| 石渠县| 峨山| 定远县| 合川市| 托克托县| 洞口县| 彭山县| 西和县| 新平| 南投市| 伊吾县| 姚安县| 简阳市| 福安市| 吴江市| 台湾省| 弥渡县| 遵义市| 齐齐哈尔市| 永新县| 石楼县| 会泽县| 古田县| 哈密市| 白城市| 修文县| 奈曼旗| 梅州市| 镇康县| 景泰县| 望奎县| 昔阳县| 图木舒克市| 甘南县|