国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用小普查數據對“隨機婚配”假定的再檢驗

2016-05-30 02:17許琪
人口與經濟 2016年3期
關鍵詞:獨生子女夫婦模型

摘 要:使用2005年人口小普查數據研究了獨生子女之間的婚配選擇問題,發(fā)現獨生子女更可能與獨生子女結婚,且非獨生子女也更可能與非獨生子女結婚,所以認為獨生子女與非獨生子女之間“隨機婚配”的假定并不符合實際。然而,以往有關生育政策調整的人口預測大都基于這一假定之上,這導致預測結果一方面低估了“雙獨”和“雙非”夫婦的數量,另一方面高估了“單獨”夫婦的數量。同時,本文還以獨生子女的婚配選擇問題為例討論了嵌套模型中Logistic回歸系數的可比性問題。直接比較Logistic回歸系數可能導致錯誤的結論,借助“y*標準化”法和“KHB分解法”可以在一定程度上解決Logistic回歸系數不可比的問題。

關鍵詞:2005年小普查數據;獨生子女;“隨機婚配”假定;Logistic回歸系數

中圖分類號:C92-05 文獻標識碼:A 文章編號:1000-4149(2016)03-0043-09

Abstract:Based on the 2005 minicensus data, this paper studies the mating selection problem of only child under the age of 30 and finds that only child is more likely to marry only child and that people with siblings are more likely to marry people with siblings. Therefore, the “Random Mating” hypothesis is far beyond the truth. However, the previous studies concerning fertility policy adjustment were all based on this hypothesis, which probably underestimated the quantity of couples that both/neither are only child and overestimated the quantity of couples that either is only child. Taking the mating selection problem of only child for example, this paper also discusses the comparability of coefficients of nested Logistic regression and points out that direct comparison of the coefficients of nested Logistic models will result in incorrect conclusion. “y* standardization” and “KHB decomposition” are two methods that can resolve the incomparability problem of the coefficients of nested Logistic regressions.

Keywords:2005 minicensus data; only child; “Random Mating” hypothesis; coefficient of Logistic regression

一、導論

中國的計劃生育政策,特別是30 多年來獨生子女政策的全面推行不僅產生了數以億計的獨生子女[1],而且創(chuàng)造了“雙獨”、“單獨”和“雙非”

“雙獨”夫婦指夫婦雙方均為獨生子女;“單獨”夫婦指夫婦中只有一方是獨生子女;“雙非”夫婦指夫婦雙方都不是獨生子女。等獨具中國特色的夫婦類型[2]。研究這些夫婦類型一方面有助于我們辨識一些特殊的家庭結構(如“四二一”家庭結構),另一方面也有助于當前和未來生育政策的制定(如“雙獨二孩”政策和“單獨二孩”政策都以夫婦雙方是否是獨生子女為條件)。所以,研究“雙獨”、“單獨”和“雙非”夫婦的數量、結構及其在未來的發(fā)展趨勢是關系到家庭養(yǎng)老和生育政策調整等一系列重大決策的重要問題。

郭志剛等學者曾對這些問題進行過研究,但在研究時面臨的一個技術難題是如何確定獨生子女之間的婚配概率[3]。由于缺乏相關的數據資料,他們假定年輕人在擇偶時不會刻意選擇配偶的獨生屬性,即:假定獨生子女和非獨生子女之間的婚配是完全隨機的(以下簡稱“隨機婚配”假定)。雖然后來有學者對這個假定提出過質疑,但是由于缺乏充分的數據資料,“隨機婚配”假定一直沿用至今,并成為后續(xù)研究者預測“四二一”家庭結構、“單獨”和“雙獨”夫婦數量的前提和基礎[4-7]。但正如該假定的提出者郭志剛等人所指出的,“隨機婚配”假定實則是在沒有其他更好替代方案情況下的一個無奈之舉,而一旦這個假定條件不能得到滿足,則很有可能低估“雙獨”夫婦、“雙非”夫婦和“四二一”家庭的數量,并高估“單獨”夫婦的數量,從而影響相關政策的制定[3]。

為了檢驗該假定是否合理,郭志剛和許琪曾使用2010年中國家庭追蹤調查數據研究了獨生子女的婚配選擇問題。他們發(fā)現獨生子女更可能與獨生子女結婚,且非獨生子女也更可能與非獨生子女結婚,所以“隨機婚配”假定并不成立[8]。此后,宋健使用2009年中國城市青年調查數據又對該假定進行了檢驗,并得到了相同的結論[2]。但由于這兩項研究的樣本量都較小,其可靠性仍然存在爭議。

本研究的主要目的是使用2005年小普查這一樣本量更大、權威性更強的數據對“隨機婚配”假定進行再檢驗。在研究時,我們還以獨生子女的婚配選擇問題為例討論了嵌套模型中Logistic回歸系數的可比性問題。雖然Logistic回歸模型已經在社會科學領域得到了非常廣泛的應用,但它的系數比較問題并未引起國內學者的足夠重視。本文以一個實例說明直接比較Logistic回歸系數時可能導致的錯誤,并提出了兩種可行的解決方案。這對其他基于Logistic回歸的學術研究同樣具有指導意義。

二、數據和變量

本研究使用的是2005年全國1%人口抽樣調查(也稱人口小普查)數據

實際使用的數據的抽樣比約為1/500。與歷次人口普查和抽樣調查數據不同的是,2005年調查登記了30歲及以下人口是否有兄弟姐妹,據此可以判斷其是否為獨生子女。

分析時,我們首先將樣本限定為居住在家庭戶中的在婚人口,然后根據同一戶中的家庭成員關系對夫妻進行匹配。如果夫妻雙方都為初婚,我們還根據雙方填報的初婚年是否一致對數據進行校驗,并刪除初婚年不一致的樣本。最后,我們保留雙方年齡都在30歲及以下的夫婦(56118對);在刪除缺失值以后,進入分析的夫婦對數為55981對。

分析的核心變量是夫婦雙方的獨生屬性,據此可以判斷夫婦所屬的類型。如果夫婦雙方都為獨生子女,即為“雙獨”夫婦;如果僅有一方為獨生子女,即為“單獨”夫婦;如果雙方都不是獨生子女,即為“雙非”夫婦。樣本中,“雙獨”、“單獨”和“雙非”夫婦的數量分別為3410對、8484對和44087對,所占比例分別為6.1%、15.2%和78.7%。

除了夫婦雙方的獨生屬性之外,分析時還考慮了雙方的年齡、教育程度、戶口性質和戶籍地。因為在中國,城鄉(xiāng)戶籍、籍貫、年齡和教育程度是人們非常看重的四個擇偶標準,而且這四重標準都與是否為獨生子女密切相關[8]。所以,從這四個維度出發(fā)有助于我們探索夫婦在獨生子女屬性上的關聯性。

表1分“雙獨”、“單獨”和“雙非”三種類型對夫婦雙方的上述特征進行了描述。結果顯示,“雙獨”夫婦中戶口為非農的比例明顯大于“單獨”和“雙非”夫婦;且“雙獨”夫婦的戶籍地落在北京、天津、上海等生育政策較嚴格省份的比例也比其他兩類夫婦高;除此之外,“雙獨”夫婦的教育程度也是三類夫婦中最高的,這都與我們的預期相一致。

不過,表1顯示“雙獨”夫婦的平均年齡是三類夫婦中最高的,這與我們的預期不太相符。因為一般來說,年輕隊列中獨生子女的比例較高,相應的年輕夫婦中“雙獨”出現的可能性也較大,所以“雙獨”夫婦的平均年齡應該比“單獨”和“雙非”夫婦小。我們認為,出現這種不一致的原因可能在于獨生子女結婚普遍比非獨生子女晚 這可能是因為獨生子女大多出生于城市或相對發(fā)達的地區(qū),且教育程度比較高。所以,雖然年輕隊列中獨生子女的比例較高,但由于結婚晚,“單獨”和“雙非”夫婦反而比“雙獨”夫婦顯得更加年輕。分析結果顯示,15-30歲男性和女性人口中獨生子女的比例分別占該年齡段人口的20.2%和17.0%;但在15-30歲在婚人口中,男女獨生子女的比例卻僅為占該年齡段人口的13.6%和13.7%,而且在越年輕的隊列中,二者的差異越大,這就在很大程度上佐證了我們的猜測。與此同時,這一結果也提醒我們在分析時可能需要為不同人群賦予不同的權重,以反映他們在總人口中的構成比例,而加權對數據分析結果的影響我們在下面還將繼續(xù)討論。

三、分析結果

1. 雙變量列聯表分析

為了檢驗“隨機婚配”假定是否成立,我們首先使用雙變量的列聯表分析了夫婦雙方在獨生子女屬性上的關聯性。從表2可以發(fā)現,根據夫妻是否獨生子女交互分類以后,主對角線上的兩個單元格的觀測頻數都明顯大于期望頻數 期望頻數反映在“隨機婚配”條件下應有的結果。而非主對角線上兩個單元格的觀測頻數都小于期望頻數。這說明,獨生子女更可能與獨生子女結婚,且非獨生子女也更可能與非獨生子女結婚,而獨生子女與非獨生子女結婚的可能性則相對較小。

經計算,獨生子中與獨生女結婚的比例為44.7%,而非獨生子中與獨生女結婚的比例僅為8.8%,二者相差35.9個百分點。

對該比例差的t檢驗結果非常顯著(p<0.000),所以二者的差異是真實存在的。此外,我們還對該列聯表的獨立性進行了卡方檢驗,結果也是非常顯著的(p<0.000),這就再次拒絕了獨生與非獨生之間隨機婚配的原假設。根據表2計算得到的獨生子相對于非獨生子與獨生女結婚的優(yōu)勢比(odds ratio)為8.35,大大高于1。由此可見,夫婦雙方是否為獨生子女的關聯性是很強的,“隨機婚配”假定并不符合實際。

分城鄉(xiāng)(見表3)和年齡組(見表4)來看,我們也能得到類似的結論。經計算,城鎮(zhèn)和農村的優(yōu)勢比分別為7.95和7.78,25歲以下組和25-30歲組的優(yōu)勢比分別為7.02和8.76,且統(tǒng)計檢驗結果顯示,上述所有優(yōu)勢比都顯著大于1。所以,無論在農村還是城市,也無論夫婦的年齡大小,都呈現獨生子女更可能與獨生子女結婚,而非獨生子女更可能與非獨生子女結婚的規(guī)律。

2. Logistic回歸分析

上面的分析結果否定了“隨機婚配”假定,而且無論從全國還是從分城鄉(xiāng)、分年齡組的分析結果看,夫婦雙方是否為獨生子女的關聯性是很強的。是什么原因導致獨生子女更可能與獨生子女結婚?

一些有關婚姻同質性匹配(homogamy)的研究認為,具有相同特征的人更可能結婚,其原因主要有兩個:一是偏好(preference)問題,即人們在主觀上更樂意選擇與自己有相同特征的人組建家庭;二是機會(opportunity)問題,即一些結構性的因素限制了不同群體之間相互接觸的機會,從而導致具有相同特征的人更可能結合在一起。

上述理論為我們研究獨生子女之間的同質性婚配現象提供了很好的分析思路。一方面,從偏好的角度看,獨生子女在成長經歷、性格特征、生活方式等方面的相似性以及中國大多數省份允許“雙獨”夫婦生育二孩的政策規(guī)定都可能導致獨生子女在擇偶時更傾向于選擇獨生子女。另一方面,從機會的角度看,獨生子女和非獨生子女在城鄉(xiāng)、地區(qū)、年齡和教育程度等方面的分布均存在顯著差異,而中國人在擇偶時總會對配偶的城鄉(xiāng)屬性、籍貫、年齡和教育程度進行嚴格篩選[8],這種擇偶過程中不可避免的選擇性也會導致獨生子女更可能與獨生子女結婚。那么在中國,獨生子女更可能與獨生子女結婚的主要原因是什么?表5使用Logistic回歸模型研究了這一問題。

表5采用了嵌套模型的分析策略。模型1僅納入妻子是否為獨生子女這一個自變量。結果顯示,該變量對丈夫是否為獨生子女具有非常顯著的影響,其回歸系數為2.123,換算成優(yōu)勢比后為8.35,這說明總體來看,夫婦雙方在獨生子女屬性方面具有非常強的相關性。為了研究這種相關性的來源,我們又在模型1的基礎上控制了夫婦雙方的戶口性質、戶籍地、年齡和教育程度。從模型2可以發(fā)現,在控制住這四組變量之后,妻子是獨生子女這個變量的統(tǒng)計檢驗結果依然非常顯著,但是與模型1相比,該變量的回歸系數下降到了1.835,降幅為13.6%。這種下降反映出,新加入的四組變量對獨生子女之間的同質性婚配現象有一定程度的解釋力。如前所述,人們總是傾向于同自己有相同城鄉(xiāng)屬性、來自同一地域范圍、具有相似年齡和教育程度的人結婚,這就在很大程度上限制了擇偶的范圍。特別地,由于獨生子女在城市、生育政策較嚴格的省份、低年齡組和高教育程度的人群中分布較為廣泛,而非獨生子女在農村、生育政策較寬松的省份、高年齡組和教育程度較低的人群中分布比較廣泛,人們在擇偶時對城鄉(xiāng)、戶籍地、年齡和教育程度的選擇在無形中會降低獨生子女與非獨生子女結婚的機會,并增加了獨生子女之間和非獨生子女之間結婚的機會。所以,當我們控制住夫婦雙方的這些特征之后,夫婦在獨生屬性上的關聯性下降了。

但是從模型1到模型2,妻子是獨生子女這個變量的回歸系數僅下降了13.6%。這似乎意味著人們在上述四個維度上的選擇性并不是導致獨生子女更可能與獨生子女結婚的主要原因。夫婦獨生屬性之間的相關主要表現為二者的凈相關。換言之,這種相關性更可能來源于獨生子女擇偶時對獨生子女本身的偏好。但事實果真如此嗎?在回答這個問題之前,我們需要首先探討兩個方法上的問題。

3. Logistic回歸系數的可比性

上述基于嵌套模型的分析建立在Logistic回歸系數在不同模型之間可以相互比較這一前提之上。但遺憾的是,與線性回歸模型不同,Logistic模型的回歸系數并不直接可比[9-10],其原因在于Logistic回歸的誤差項并不具有一個固定的可觀測的測量尺度[11]。

我們可以用潛變量的方式來表示Logistic回歸模型。定義一個連續(xù)潛變量y*

可以將y*理解為y=1的潛在傾向。,并規(guī)定當y*>0時,y=1;當y*≤0時,y=0。將y*表示為自變量

xk和誤差項ε的一個線性函數,同時假定ε服從標準Logistic回歸分布,可以證明公式(1)對y*所做的線性回歸與公式(2)對取值為0和1的二分因變量y所做的Logistic回歸是完全等價的。

由于未被解釋的殘差方差被設定成了固定值,只要被解釋的方差有所增長,那么因變量y*的總方差也會有所增長。這意味著y*的總方差會隨自變量數目的增多而增加(增加自變量通常會增加被解釋的方差)。換言之,y*的測量尺度會隨自變量的增多而增加。這導致在嵌套模型中,不同Logistic模型的回歸系數是不可以直接比較的,因為全模型的回歸系數總是要比簡化模型來得大。

為了解決不同模型中Logistic回歸系數的比較問題,溫什普(Winship)和邁耶(Mare)建議,可以把不同模型的系數估計值都根據y*的標準差進行重新調整[12]。具體而言,就是用系數除以各自模型潛在因變量的估計標準差SD(y*),然后再進行比較[9]。SD(y*)的計算公式見公式(3)。這種方法也被稱為“y*標準化”法。

在此之后,卡爾森(Karlson)等人又提出了一種被他們稱為“KHB分解”的方法以解決嵌套模型中Logistic回歸系數的比較問題[13]。該方法的核心是將納入控制變量后Logistic回歸系數的變化量分解為兩個獨立的部分,第一個部分叫做“混雜效應”,即增加控制變量對自變量系數的真實影響,這類似于一般線性回歸模型中納入控制變量后回歸系數的變化;第二個部分叫做“標尺改變效應”,即增加控制變量后導致模型潛在因變量的測量尺度發(fā)生變化所造成的自變量系數的變化,這個部分是Logistic回歸所特有的。由于篇幅限制,本文無法詳細論述KHB方法的相關細節(jié),有興趣的讀者可以參考卡爾森等人的論文[13]。

表6使用“y*標準化”法和“KHB分解”法重復了表5的分析過程。結果顯示,在不納入控制變量的情況下,SD(y*)的估計值為1.955;而在納入控制變量后,由于被解釋方差的增加,SD(y*)增加到了2.107。根據前面的分析,這會導致完全模型的回歸系數出現一定程度的膨脹,進而導致低估回歸系數從簡化模型到完全模型的真實變化。計算結果顯示,經過y*標準化以后,簡化模型的回歸系數為1.086,完全模型的回歸系數為0.871,從簡化模型到完全模型,系數真實下降的百分比為19.8%,高于直接比較時的13.6%。

猜你喜歡
獨生子女夫婦模型
工地上的一對夫婦
自制空間站模型
夫婦自編曳步舞,快樂感染數百萬人
模型小覽(二)
政協(xié)委員提議獨生子女帶薪休假照顧父母
圓周運動與解題模型
離散型隨機變量分布列的兩法則和三模型
邀請了多少對夫婦