国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分布式大數(shù)據(jù)的Expectile回歸分析

2022-10-31 12:40:28胡愛軍李楚進(jìn)
應(yīng)用數(shù)學(xué) 2022年4期
關(guān)鍵詞:估計(jì)量樣本量位數(shù)

胡愛軍 ,李楚進(jìn)

(1.湖北第二師范學(xué)院數(shù)學(xué)與經(jīng)濟(jì)學(xué)院,湖北 武漢 430205;2.華中科技大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北 武漢 430074)

1.引言

現(xiàn)代技術(shù)的發(fā)展使得數(shù)據(jù)采集的規(guī)模前所未有,大規(guī)模數(shù)據(jù)集無法在單臺(tái)服務(wù)器上存儲(chǔ),必須分布在具備有限內(nèi)存的多臺(tái)機(jī)器上,因此通常的經(jīng)典統(tǒng)計(jì)方法不再適用,許多估計(jì)和推理方法需要重新研究.在多臺(tái)機(jī)器之間進(jìn)行數(shù)據(jù)分塊以及并行計(jì)算[1]是緩解此類瓶頸的常用方法.

隨機(jī)抽樣和隨機(jī)投影算法[2-3]已被應(yīng)用于解決大規(guī)模數(shù)據(jù)的分位數(shù)回歸問題.但是,在該類算法中,執(zhí)行子采樣需要主內(nèi)存中有足夠大存儲(chǔ)空間來存儲(chǔ)整個(gè)數(shù)據(jù)集.而且,估計(jì)過程中只使用了數(shù)據(jù)集中的部分?jǐn)?shù)據(jù),而忽略整個(gè)數(shù)據(jù)集來執(zhí)行估計(jì)過程.因此,隨機(jī)抽樣和隨機(jī)投影算法效果并不理想,并且所得估計(jì)效率較低.為了解決這些問題,FAN和CHENG[4],FAN等[5],LI等[6]提出了分塊平均估計(jì)方法,這種方法顯著地解決了存儲(chǔ)內(nèi)存和估計(jì)效率兩個(gè)問題.同樣,ZHANG等[7],CHEN和XIE[8]提出了一種分而治之(divide-and-conquer,DC)的方法.它已成功用于解決海量數(shù)據(jù)集上的均值回歸問題,可以大大縮短計(jì)算時(shí)間并減少存儲(chǔ)內(nèi)存需求.

上述關(guān)于DC的研究主要集中在最小二乘線性回歸上,而普通最小二乘線性回歸對(duì)負(fù)殘差和正殘差賦予相同的權(quán)重,并將響應(yīng)變量的期望值估計(jì)為協(xié)變量的線性函數(shù).基于不對(duì)稱l1范數(shù)的分位數(shù)回歸,對(duì)殘差的正負(fù)部分賦予不同的權(quán)重來改進(jìn)最小二乘線性回歸模型[9-11].與分位數(shù)回歸模型不同,Newey和Powell[9]基于l2范數(shù)提出了以下非對(duì)稱二次損失函數(shù)

這里τ∈(0,1).隨機(jī)變量ξ的τ-expectile定義為μτ=自從Newey和Powell[9]提出該模型以來,對(duì)expectile回歸(ER)統(tǒng)計(jì)推斷進(jìn)行了大量廣泛的研究[10-12].但是這些方法只能用于中等樣本數(shù)據(jù)的計(jì)算.

相對(duì)于分位數(shù)回歸而言,非對(duì)稱最小二乘法有獨(dú)特的優(yōu)點(diǎn),首先它充分考慮數(shù)據(jù)的距離和位置信息,期望值比分位數(shù)的統(tǒng)計(jì)推斷更有效,而經(jīng)驗(yàn)分位數(shù)僅利用關(guān)于觀測(cè)值是低于還是高于預(yù)測(cè)值的信息[13].此外,與樣本分位數(shù)不同,樣本expectile值提供了一類作為水平τ的平滑曲線函數(shù),并且對(duì)重尾分布數(shù)據(jù)表現(xiàn)出更強(qiáng)的魯棒性[14-15].

然而上述提到的大數(shù)據(jù)回歸建模方法大多是針對(duì)均值回歸和分位數(shù)回歸問題的,而對(duì)于ER問題的研究很少,尤其是對(duì)于大規(guī)模數(shù)據(jù)的ER問題.在本文中,我們提出了分塊平均ER(BAER)方法在海量數(shù)據(jù)集上進(jìn)行有效的ER估計(jì).該方法包含三個(gè)具體步驟: 1)按塊順序分區(qū)、存儲(chǔ)和讀取具有可管理的樣本大小的數(shù)據(jù)集,該數(shù)據(jù)集可以完全存儲(chǔ)在主內(nèi)存中;2)分別計(jì)算每個(gè)塊內(nèi)的ER估計(jì)量;3)將從每個(gè)塊獲得的估計(jì)量的平均值聚合為最終估計(jì)量.所提出的BAER方法在海量數(shù)據(jù)下可以顯著地降低對(duì)計(jì)算機(jī)存儲(chǔ)硬件的要求,并且得到的估計(jì)與將整個(gè)數(shù)據(jù)集集中一起分析的結(jié)果一樣有效.此外,我們研究了所得估計(jì)量的漸近正態(tài)性.

2.分布式expectile回歸

設(shè)隨機(jī)樣本{(xi,yi),i=1,···,N}來自于如下ER模型:

這里xi和yi分別表示p維預(yù)測(cè)變量和響應(yīng)變量,εi的τ-expectileφτ(εi)=0.

ER未知參數(shù)的估計(jì)量可以通過最小化以下非對(duì)稱最小二乘損失函數(shù)得到,

由于上述估計(jì)沒有顯示表達(dá)式,通常只能采用迭代的方法計(jì)算,然而迭代對(duì)于相對(duì)較小的數(shù)據(jù)量是可行的,但是對(duì)于海量數(shù)據(jù)變得越來越困難,當(dāng)(2.2)中當(dāng)樣本量N過大時(shí),計(jì)算空間和時(shí)間被確定為潛在的瓶頸.我們的工作建立在FAN等[5],ZHANG等[7],CHEN和XIE[8]等人的方法之上.將觀察數(shù)據(jù)分布式存儲(chǔ)在多臺(tái)機(jī)器中.然后我們對(duì)每臺(tái)機(jī)器中的數(shù)據(jù)應(yīng)用標(biāo)準(zhǔn)ER,并通過簡單的平均值組合這些回歸結(jié)果.我們將此過程命名為BAER方法,它將DC的思想擴(kuò)展到ER框架.

不失一般性,我們首先將整個(gè)數(shù)據(jù)集隨機(jī)存儲(chǔ)在K臺(tái)機(jī)器中,為簡單每臺(tái)機(jī)器數(shù)據(jù)量為n,即N=nK.記y=(y1,y2,···,yK)T,x=(x1,x2,···,xK)T,這里yk=(y1k,···,ynk)T∈Rn,xk=(x1k,···,xnk)T∈Rn×p,k=1,···,K.

3.算法

迭代BADM算法,直到滿足某個(gè)停止標(biāo)準(zhǔn).我們采用Boyd等[16]的停止準(zhǔn)則:

這里通常選擇ε1=ε2=10-3,或者當(dāng)?shù)螖?shù)超過一定數(shù)量如105.

4.漸近性質(zhì)

5.模擬研究

本節(jié)通過模擬研究所提出方法的有限樣本性質(zhì).比較我們的方法(BAER)與將全部數(shù)據(jù)集中存儲(chǔ)在一臺(tái)機(jī)器內(nèi)分析的理想方法(Oracle)的表現(xiàn).

我們考慮數(shù)據(jù)模型:yik=+σεik,這里φτ(εik)=0,τ∈(0,1),k=1,···,K,i=1,···,n,β0∈Rp,p=20,N=105是總樣本量,分布式存儲(chǔ)在K=10,100,500臺(tái)機(jī)器中,因此,n=N/K是每臺(tái)機(jī)器上局部樣本量.p維協(xié)變量xik~Np(0,Σ),Σ=(Σjl)p×p,這里Σjl=0.5|j-l|.真實(shí)回歸系數(shù)β0的每個(gè)分量獨(dú)立并來自U(-3,3).我們考慮三種不同的誤差分布:εik~N(0,1),εik~t(3),εik~χ2(2).取σ=1,1+|xik2|分別產(chǎn)生同方差和異方差的數(shù)據(jù),這里xik2是xik的第2個(gè)分量.我們選擇三種不同水平τ=0.3,0.5,0.7,計(jì)算估計(jì)誤差來比較兩種方法的表現(xiàn),獨(dú)立重復(fù)模擬100次.圖5.1和圖5.2分別給出了同方差和異方差情形下兩種方法估計(jì)誤差的箱線圖.表5.1給出了兩種方法的計(jì)算時(shí)間.

根據(jù)圖5.1和圖5.2可以看出,BAER方法估計(jì)的結(jié)果都與Oracle方法很接近,尤其是機(jī)器數(shù)K取10和100時(shí),在K=500時(shí)估計(jì)誤差略微增大,這主要是由于此時(shí)每塊的數(shù)據(jù)量n=200相對(duì)較小.根據(jù)表5.1從模擬計(jì)算的時(shí)間來看,Oracle方法對(duì)于大規(guī)模數(shù)據(jù)在實(shí)際中通常不可行或者計(jì)算耗時(shí)較長,而BAER方法即使是在計(jì)算最慢的情形下,其計(jì)算時(shí)間都要比Oracle方法要少,BAER方法在能保證得到較高的估計(jì)精度下既提高了計(jì)算效率且不受存儲(chǔ)內(nèi)存的限制,這顯示出我們的方法在處理大規(guī)模數(shù)據(jù)分析的優(yōu)良表現(xiàn).

圖5.1 兩種方法應(yīng)用于K=10,100,500的同方差模擬數(shù)據(jù)下的估計(jì)誤差的箱線圖

表5.1 兩種方法應(yīng)用于K=10,100,500的同方差與異方差模擬數(shù)據(jù)下的計(jì)算時(shí)間(單位: 秒)

圖5.2 兩種方法應(yīng)用于K=10,100,500的異方差模擬數(shù)據(jù)下的估計(jì)誤差的箱線圖

6.真實(shí)數(shù)據(jù)分析

為了說明我們提出的方法的有效性,我們選取大規(guī)模真實(shí)數(shù)據(jù)集進(jìn)行了分析,以比較上述兩種方法的性能.該數(shù)據(jù)集來自UCI Machine Learning Repository.1http://archive.ics.uci.edu/ml/datasets/Gas+Turbine+CO+and+NOx+Emission+Data+Set該數(shù)據(jù)集包含來自位于土耳其西北部地區(qū)的燃?xì)廨啓C(jī)在一小時(shí)內(nèi)(通過平均值或總和)匯總的11個(gè)傳感器測(cè)量值的36733個(gè)實(shí)例,用于研究煙氣排放,即CO和NOx(NO+NO2).

我們使用其中的10個(gè)環(huán)境變量: 環(huán)境溫度(AT),環(huán)境壓力(AP),環(huán)境濕度(AH),空氣過濾器壓差(AFDP),燃?xì)廨啓C(jī)排氣壓力(GTEP),渦輪入口溫度(TIT),渦輪后溫度(TAT),壓縮機(jī)排氣壓力(CDP),渦輪發(fā)電量(TEY),氮氧化物(NOx)作為預(yù)報(bào)變量,以空氣中一氧化碳(CO)含量作為響應(yīng)變量建立expectile回歸模型.

我們選擇τ=0.3,0.5,0.7三種水平下使用交叉驗(yàn)證法來比較上述兩種方法的表現(xiàn).通過對(duì)樣本隨機(jī)劃分100次,每次隨機(jī)選取30000個(gè)樣本作為訓(xùn)練集Dtrain,將剩下的6733個(gè)樣本作為測(cè)試集Dtest.我們將N=30000個(gè)訓(xùn)練樣本隨機(jī)地分別存儲(chǔ)在K=10,100,300臺(tái)機(jī)器中,相應(yīng)地每臺(tái)機(jī)器樣本量n=3000,300,100.按照WANG等[18],定義預(yù)測(cè)誤差(1/6733)).預(yù)測(cè)誤差的結(jié)果在下圖6.1中.

圖6.1 兩種方法應(yīng)用于K=10,100,300的燃?xì)廨啓C(jī)排放數(shù)據(jù)集下預(yù)測(cè)誤差的箱線圖

表6.1 兩種方法應(yīng)用于K=10,100,300的燃?xì)廨啓C(jī)排放數(shù)據(jù)集的計(jì)算時(shí)間(單位: 秒)

從圖6.1中我們可以看出,我們的方法BAER對(duì)于三種水平以及三種分塊機(jī)器數(shù)下,都呈現(xiàn)出優(yōu)良的結(jié)果,其預(yù)測(cè)誤差都與Oracle方法非常接近,幾乎是沒有區(qū)別.從表6.1中可以看到,兩種方法計(jì)算時(shí)間基本沒區(qū)別,當(dāng)K=300時(shí),BAER方法只比Oracle方法計(jì)算時(shí)間多0.1秒,這主要由于總體數(shù)據(jù)量不太大且數(shù)據(jù)集維數(shù)較小,此時(shí)分割數(shù)據(jù)的機(jī)器數(shù)不宜太大.

猜你喜歡
估計(jì)量樣本量位數(shù)
醫(yī)學(xué)研究中樣本量的選擇
五次完全冪的少位數(shù)三進(jìn)制展開
航空裝備測(cè)試性試驗(yàn)樣本量確定方法
Sample Size Calculations for Comparing Groups with Binary Outcomes
淺談估計(jì)量的優(yōu)良性標(biāo)準(zhǔn)
基于配網(wǎng)先驗(yàn)信息的諧波狀態(tài)估計(jì)量測(cè)點(diǎn)最優(yōu)配置
遙感衛(wèi)星CCD相機(jī)量化位數(shù)的選擇
負(fù)極值指標(biāo)估計(jì)量的漸近性質(zhì)
“判斷整數(shù)的位數(shù)”的算法分析
河南科技(2014年11期)2014-02-27 14:09:41
基于分位數(shù)回歸的剪切波速變化規(guī)律
和龙市| 聂拉木县| 临洮县| 淳化县| 东山县| 读书| 万宁市| 牡丹江市| 象州县| 库车县| 正镶白旗| 舒兰市| 和林格尔县| 汝城县| 宜兰市| 黔南| 宽城| 青铜峡市| 青河县| 河北省| 子洲县| 石城县| 黔西| 横峰县| 马公市| 江西省| 江津市| 沁水县| 沂水县| 南丹县| 定边县| 秦安县| 图们市| 武平县| 石首市| 纳雍县| 华池县| 贵港市| 吉安县| 西乌珠穆沁旗| 阳原县|