楊貴軍,吳潔瓊
(天津財(cái)經(jīng)大學(xué) a.統(tǒng)計(jì)學(xué)院;b.中國經(jīng)濟(jì)統(tǒng)計(jì)研究中心,天津 300222)
廣義回歸估計(jì)量(Generalized Regression Estimator,GREG估計(jì)量)是在社會、經(jīng)濟(jì)和人口等領(lǐng)域的抽樣調(diào)查中經(jīng)常使用的一類估計(jì)量[1]。加拿大、英國等諸多國家的政府統(tǒng)計(jì)部門已廣泛運(yùn)用GREG估計(jì)量構(gòu)建抽樣調(diào)查估計(jì)體系,如加拿大勞動力調(diào)查(LFS)。關(guān)于GREG估計(jì)量的研究很多,但很少有文獻(xiàn)在系統(tǒng)性應(yīng)用GREG估計(jì)量時,考慮GREG估計(jì)量的假設(shè)條件。傳統(tǒng)的GREG估計(jì)量假設(shè)域與域之間是相互獨(dú)立的,忽略了域值間聯(lián)系,如域總值、域均值等域特征值間的相關(guān)關(guān)系。更多的實(shí)際情況下,域值與域值間并非是獨(dú)立的,調(diào)查變量的域值互為約束,隨著域的變化呈特定的變化趨勢。如全國工資統(tǒng)計(jì)抽樣調(diào)查中分行業(yè)人均工資的估計(jì),由一產(chǎn)農(nóng)林牧漁業(yè),到二產(chǎn)制造業(yè)、三產(chǎn)信息傳輸、計(jì)算及服務(wù)和軟件業(yè)、金融業(yè),行業(yè)內(nèi)學(xué)歷為本科及以上的人員占比、行業(yè)平均工資等變量隨之呈遞增趨勢。在利用樣本對總體估計(jì)時,忽視目標(biāo)變量域值具有的特定趨勢,將增大估計(jì)量方差,降低估計(jì)精度。Oliva等使用形狀約束下的HT估計(jì)量估計(jì)美國高校畢業(yè)生的年平均收入,結(jié)果表明,較傳統(tǒng)的HT估計(jì)量,形狀約束下的HT估計(jì)量置信區(qū)間更小,精度更高[2]。
GREG估計(jì)量的研究主要圍繞擴(kuò)展GREG估計(jì)量應(yīng)用場景和提高GREG估計(jì)量估計(jì)精度兩個方面。Cassel等提出GREG估計(jì)量,并證明在輔助變量與目標(biāo)變量線性回歸方程過原點(diǎn)情況下,GREG估計(jì)量在所有設(shè)計(jì)線性無偏估計(jì)量中估計(jì)精度最高[3]。GREG估計(jì)量精度高、易構(gòu)建,應(yīng)用領(lǐng)域不斷拓展。Estevao等歸納加拿大統(tǒng)計(jì)局的廣義估計(jì)系統(tǒng),提出應(yīng)用于單階段整群抽樣、多階段輔助抽樣的GREG估計(jì)量[4]。陳光慧在總結(jié)加拿大等國家成功經(jīng)驗(yàn)的基礎(chǔ)上,嘗試引進(jìn)廣義回歸估計(jì)系統(tǒng),并應(yīng)用到中國連續(xù)多階段抽樣中[5]。然而對于GREG估計(jì)量,超總體模型設(shè)定不準(zhǔn)確將降低GREG估計(jì)量的估計(jì)精度[6]。對此,眾多學(xué)者嘗試?yán)梅菂?shù)回歸模型建立目標(biāo)變量和輔助變量間的關(guān)系模型,不需要對超總體模型設(shè)定。Breidt等分別基于局部多項(xiàng)式回歸、樣條回歸、廣義相加模型回歸等構(gòu)建超總體模型[7-9]。陳光慧和吳默妮通過借鑒局部多項(xiàng)式,對原始輔助變量信息進(jìn)行擴(kuò)展,得到原始輔助變量多次方形式的新輔助變量,基于新輔助變量提出廣義最優(yōu)回歸估計(jì)量[10]。然而這些提高精度的方法都需要額外的調(diào)查信息,增大調(diào)查成本,部分信息甚至難以全部獲取,使得估計(jì)方法很難廣泛使用。本文擬借助輔助變量域值的排序信息構(gòu)建含約束的GREG估計(jì)量,在既有的輔助信息域值已知的條件下提高估計(jì)量精度。
含單調(diào)約束的GREG估計(jì)量所借助的輔助變量需要滿足其域值的變化趨勢同目標(biāo)變量域值的變化趨勢一致的條件。該條件在農(nóng)業(yè)調(diào)查、環(huán)境調(diào)查等大部分調(diào)查中都是易于滿足的。一方面,在調(diào)查中輔助變量選取階段,輔助變量同目標(biāo)變量的相關(guān)關(guān)系是選取輔助變量的重要標(biāo)準(zhǔn)之一,輔助變量的增長速度和目標(biāo)變量增長速度越一致,估計(jì)量的精度越高。因此,大多數(shù)抽樣調(diào)查中,輔助變量的域特征值同目標(biāo)變量的域特征值的變化趨勢是一致的,如農(nóng)業(yè)調(diào)查中利用養(yǎng)殖場(戶)輔助估計(jì)牛羊禽的存欄量,隨著養(yǎng)殖場(戶)的增加,牛羊禽的存欄量增長。另一方面,隨著大數(shù)據(jù)技術(shù)發(fā)展,輔助信息的來源愈加豐富,行政記錄、互聯(lián)網(wǎng)數(shù)據(jù)等各種類型的信息作為輔助信息被引入到抽樣調(diào)查中。這為探尋到同目標(biāo)變量域值變化趨勢更加一致的輔助變量提供了現(xiàn)實(shí)基礎(chǔ),使得含單調(diào)約束的GREG估計(jì)量的應(yīng)用前景更加廣闊。
本文首先通過總結(jié)GREG估計(jì)量特點(diǎn),在目標(biāo)變量域值和輔助變量域值變化趨勢一致情況下,利用GREG估計(jì)量的保序回歸構(gòu)建含單調(diào)約束的GREG估計(jì)量,并從理論上證明其優(yōu)良性。其次,通過數(shù)值模擬的方法,在輔助變量域均值增長模型和超總體模型的各種組合下,分析比較含單調(diào)約束的GREG估計(jì)量和傳統(tǒng)GREG估計(jì)量的估計(jì)效果,驗(yàn)證含單調(diào)約束的GREG估計(jì)量的應(yīng)用優(yōu)勢。最后,使用中國健康與營養(yǎng)調(diào)查數(shù)據(jù),演示含單調(diào)約束的GREG估計(jì)量的應(yīng)用效果。
(1)
(2)
(3)
(4)
與經(jīng)典的HT估計(jì)量相比,GREG估計(jì)量借助輔助信息對目標(biāo)變量的估計(jì)量進(jìn)行校準(zhǔn),估計(jì)精度更高。然而,GREG估計(jì)量忽略了域和域之間的相互聯(lián)系,在域總值呈特定趨勢情況下,估計(jì)結(jié)果存在背離目標(biāo)變量趨勢的可能,特別是在小樣本下,估計(jì)量精度低。含單調(diào)約束的GREG估計(jì)量是在GREG估計(jì)量的保序回歸基礎(chǔ)上構(gòu)建而成,能夠在不增加調(diào)查信息的情況下,借助輔助域值排序信息,提高GREG估計(jì)量精度。結(jié)合GREG估計(jì)量的特點(diǎn),在構(gòu)建含單調(diào)約束的GREG估計(jì)量時需注意三點(diǎn),一是含單調(diào)約束的GREG估計(jì)量所借助的輔助變量,其域值變化趨勢同目標(biāo)變量的域值變化趨勢需一致。輔助變量和目標(biāo)變量域值變化趨勢的相關(guān)關(guān)系既可以由前期數(shù)據(jù)歸納得出,也可以由理論推導(dǎo)得出。同時,行政記錄、互聯(lián)網(wǎng)數(shù)據(jù)等資源的引入極大地豐富了輔助變量的來源,為獲取域值變化趨勢同目標(biāo)變量一致的輔助變量提供了現(xiàn)實(shí)基礎(chǔ)。二是含單調(diào)約束的GREG估計(jì)量所需的輔助變量信息同GREG估計(jì)量所需的輔助變量信息相同,均為樣本單元的輔助變量信息和輔助變量的域特征值。含單調(diào)約束的GREG估計(jì)量借助輔助變量域值的排序信息作為約束條件,提高GREG估計(jì)量精度,無需額外調(diào)查信息。三是GREG估計(jì)量的估計(jì)精度與目標(biāo)變量和輔助變量之間的相關(guān)性密切相關(guān)。應(yīng)用含單調(diào)約束的GREG估計(jì)量,需要考慮目標(biāo)變量與輔助變量的相關(guān)關(guān)系對估計(jì)量的影響。
本節(jié)擬在目標(biāo)變量域值同輔助變量域值變化趨勢一致情況下,通過借助輔助變量域值的變化趨勢,構(gòu)建含單調(diào)約束的GREG估計(jì)量,約束目標(biāo)變量域值估計(jì)量的變化趨勢。
(5)
其中,域i的順序不高于域t,域j的順序不低于域t,si:j是域i到域j中所有的樣本單元。
(6)
(7)
(8)
(9)
借鑒史寧中和Wu對保序回歸的研究方法,研究含單調(diào)約束的GREG估計(jì)量的性質(zhì)[12-13]。首先需要以下的假設(shè)條件:
假設(shè)1:當(dāng)N→∞時,Nt/N在[0,1]內(nèi),t=1,2,…,T;
假設(shè)3:GREG估計(jì)量協(xié)方差的極限滿足0
(10)
(11)
其中Σ是T×T維可逆矩陣,矩陣元素為Σtm。
假設(shè)1和假設(shè)2是總體中域數(shù)量和域均值的有界性假設(shè)。在大部分抽樣中,例如中國農(nóng)業(yè)抽樣調(diào)查、全國人口調(diào)查等,假設(shè)1和假設(shè)2均成立。假設(shè)3、假設(shè)4和假設(shè)5是為確保估計(jì)量具有漸進(jìn)無偏性的假設(shè),在Fuller的研究中有類似的假設(shè),對于HT估計(jì)量、GREG估計(jì)量等都成立[14]。根據(jù)以上幾點(diǎn)假設(shè),可以得出含單調(diào)約束的GREG估計(jì)量的以下性質(zhì):
(12)
(13)
(14)
由此,有:
(15)
(16)
(17)
第一步,依據(jù)外部信息,選擇和目標(biāo)變量域值變動趨勢一致的輔助變量。獲取輔助變量的域特征值以及樣本單元的目標(biāo)變量和輔助變量觀察值。
第二步,針對總體內(nèi)的每個域,利用樣本單元觀察值構(gòu)建GREG估計(jì)量。第t個域第k個總體單元的目標(biāo)變量觀察值為ytk,輔助變量的觀察值為xtk,則第t個域目標(biāo)變量總值的GREG估計(jì)量為:
(18)
第四步,計(jì)算含單調(diào)約束的GREG估計(jì)量的方差估計(jì)量。利用樣本殘差,得到含單調(diào)約束的GREG估計(jì)量的方差估計(jì)為:
(19)
為驗(yàn)證含單調(diào)約束的GREG估計(jì)量的估計(jì)效果,采用模擬仿真的方法對GREG估計(jì)量和含單調(diào)約束的GREG估計(jì)量進(jìn)行比較分析。
表1 輔助變量域均值的增長模型
表2 目標(biāo)變量和輔助變量的回歸關(guān)系模型
最后,分別計(jì)算不同域中GREG估計(jì)量和含單調(diào)約束的GREG估計(jì)量的評價(jià)指標(biāo):均方誤差(MSE)、平均百分比絕對誤差(MAPE)。MSE的計(jì)算公式為:
(20)
(21)
為評價(jià)方差估計(jì)量的有效性,分別計(jì)算GREG估計(jì)量和含單調(diào)約束的GREG估計(jì)量的方差估計(jì)量的均值(MV)及平均誤差(ME)。MV的計(jì)算公式為:
(22)
(23)
其中MSEt是第t個域的均方誤差。
表3 輔助變量域值和目標(biāo)變量域值呈線性變化時和的比較
表4 輔助變量域值和目標(biāo)變量域值的變化趨勢呈二次函數(shù)時和的比較
表5 輔助變量域值和目標(biāo)變量域值的變化趨勢呈S型時和的比較
4.目標(biāo)變量域值和輔助變量域值的變化趨勢為COS型函數(shù)情況下的模擬結(jié)果。當(dāng)目標(biāo)變量域值和輔助變量域值的變化趨勢為COS型函數(shù)時,目標(biāo)變量域值隨輔助變量域值先降低后增加,模擬結(jié)果由表6給出,表6的結(jié)構(gòu)同表3。表6顯示,含單調(diào)約束的GREG估計(jì)量在各類超總體模型下均優(yōu)于GREG估計(jì)量。對于線性函數(shù)的超總體模型,含單調(diào)約束的GREG估計(jì)量和GREG估計(jì)量估計(jì)精度高,估計(jì)效果好。對于二次函數(shù)和三次函數(shù)的超總體模型設(shè)定出現(xiàn)偏誤,GREG估計(jì)量和含單調(diào)約束的GREG估計(jì)量的精度降低,但含單調(diào)約束的GREG估計(jì)量精度降低得更慢。
表6 輔助變量域值和目標(biāo)變量域值的變化趨勢為COS型時和的比較
通過上述數(shù)值模擬分析,可以得出以下四點(diǎn)結(jié)論。在目標(biāo)變量域值和輔助變量域值變動趨勢一致的情況下,首先,含單調(diào)約束的GREG估計(jì)量在多種變動趨勢下的估計(jì)精度均優(yōu)于GREG估計(jì)量。該性質(zhì)使其在農(nóng)業(yè)調(diào)查、住戶調(diào)查等使用GREG估計(jì)量的調(diào)查中具有廣闊的應(yīng)用空間。特別是隨著大數(shù)據(jù)技術(shù)發(fā)展,行政記錄、網(wǎng)絡(luò)搜索記錄等為估計(jì)量的構(gòu)建提供了相關(guān)程度更高、更豐富的輔助信息來源,為含單調(diào)約束的GREG估計(jì)量的廣泛應(yīng)用提供了數(shù)據(jù)基礎(chǔ)。其次,當(dāng)超總體模型為線性函數(shù)時,含單調(diào)約束的GREG估計(jì)量和GREG估計(jì)量的估計(jì)效果趨于一致。再次,當(dāng)超總體模型為非線性模型時,模型設(shè)定偏誤將降低估計(jì)量精度,含單調(diào)約束的GREG估計(jì)量較GREG估計(jì)量精度更高,優(yōu)勢明顯。但是,隨著模型設(shè)定偏誤的增加,含單調(diào)約束的GREG估計(jì)量的方差估計(jì)量精度有所降低,存在進(jìn)一步的改進(jìn)空間。最后,每個域中,含單調(diào)約束的GREG估計(jì)量的MSE降低的程度不同,當(dāng)目標(biāo)變量域值和輔助變量域值的變化趨勢為一次函數(shù),且超總體模型設(shè)定為三次函數(shù)時,含單調(diào)約束的GREG估計(jì)量在每個域的MSE降低的程度相近,且降低程度較多。在輔助變量域值的變化趨勢為一次函數(shù),超總體模型設(shè)定為三次函數(shù)情況下,含單調(diào)約束的GREG估計(jì)量最適用。
本文使用2009年度中國健康與營養(yǎng)調(diào)查(CHNS)來驗(yàn)證含單調(diào)約束的GREG估計(jì)量的統(tǒng)計(jì)性質(zhì)。CHNS由國家營養(yǎng)與健康研究所和北卡羅萊納大學(xué)的卡羅萊納人口中心合作開展,旨在對中國社會經(jīng)濟(jì)狀況、衛(wèi)生服務(wù)、居民膳食結(jié)構(gòu)和營養(yǎng)狀況等內(nèi)容進(jìn)行觀察和研究。本文選取總膽固醇水平作為目標(biāo)變量,擬估計(jì)每個年齡階段的平均膽固醇水平。由膽固醇相關(guān)研究可知,腰圍異常和血脂異常的發(fā)生密切相關(guān),腰圍較同年齡腰圍均值的偏離程度越大,高膽固醇血癥患病的風(fēng)險(xiǎn)越大。腰圍同膽固醇的變化趨勢相近,因此可以借助腰圍作為輔助變量估計(jì)膽固醇水平。目標(biāo)變量和輔助變量的具體情況見表7。表7顯示,隨著年齡的增長,腰圍均值和總膽固醇均值呈S型變化,同研究結(jié)論一致。
表7 各年齡段總體數(shù)據(jù)概況
以簡單隨機(jī)抽樣方式從每個年齡階段構(gòu)成的域中抽取1%的樣本,基于樣本單元的膽固醇水平和腰圍數(shù)據(jù),以及各年齡階段的平均腰圍,分別計(jì)算每個年齡階段的平均膽固醇水平的GREG估計(jì)量和含單調(diào)約束的GREG估計(jì)量,該過程重復(fù)1 000次。估計(jì)量的評價(jià)指標(biāo)為均方誤差MSE和平均百分比絕對誤差MAPE。
表8給出GREG估計(jì)量及含單調(diào)約束的GREG估計(jì)量的估計(jì)效果。表8中第2列、第3列為GREG估計(jì)量的MSE和MAPE;第4列、第5列為含單調(diào)約束的GREG估計(jì)量的MSE和MAPE。表8顯示,在估計(jì)偏差方面,含單調(diào)約束的GREG估計(jì)量的MAPE均小于GREG估計(jì)量的MAPE,含單調(diào)約束的GREG估計(jì)量相對偏差更小。在估計(jì)精度方面,含單調(diào)約束的GREG估計(jì)量的MSE均低于GREG估計(jì)量,含單調(diào)約束的GREG估計(jì)量的估計(jì)精度要優(yōu)于GREG估計(jì)量??傊?盡管目標(biāo)變量域均值的變動趨勢和輔助變量域均值的變動趨勢并不完全一致,含單調(diào)約束的GREG估計(jì)量仍較GREG估計(jì)量的估計(jì)精度更高。
表8 平均總膽固醇估計(jì)結(jié)果
傳統(tǒng)的GREG估計(jì)量對域值估計(jì)時要求域與域之間相互獨(dú)立。忽視域與域之間的趨勢,會出現(xiàn)估計(jì)值違背各域真實(shí)值趨勢的情況,估計(jì)量精度低。對此,本文在目標(biāo)變量域值和輔助變量域值變動趨勢一致情況下,基于輔助變量域值,利用GREG估計(jì)量的保序回歸,構(gòu)建了含單調(diào)約束的GREG估計(jì)量。在目標(biāo)變量域值和輔助變量域值的變化趨勢近似情況下,含單調(diào)約束的GREG估計(jì)量的估計(jì)精度高于GREG估計(jì)量,偏差小于GREG估計(jì)量。
一方面,含單調(diào)約束的GREG估計(jì)量能夠利用輔助變量域值順序提高估計(jì)量精度,不需要獲取額外的信息,估計(jì)精度高,調(diào)查成本低。特別是在超總體模型設(shè)定存在偏誤的情況下,含單調(diào)約束的GREG估計(jì)量能夠有效降低模型偏誤對估計(jì)量造成的精度損失。另一方面,隨著大數(shù)據(jù)技術(shù)發(fā)展,輔助信息的來源愈加豐富,比如覆蓋范圍廣、數(shù)據(jù)準(zhǔn)確度高的普查數(shù)據(jù),高頻率的行政記錄,及時性更高的互聯(lián)網(wǎng)搜索數(shù)據(jù)。豐富的輔助數(shù)據(jù)來源使得尋求同目標(biāo)變量趨勢一致的輔助變量更加便捷,也為含單調(diào)約束的GREG估計(jì)量的應(yīng)用提供了現(xiàn)實(shí)基礎(chǔ),有利于社會、經(jīng)濟(jì)等領(lǐng)域抽樣調(diào)查數(shù)據(jù)質(zhì)量提高和成本降低。