楊朝越,唐 劍,丁 瀟,汪云辰
(阜陽(yáng)師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,安徽 阜陽(yáng) 236037)
近年來(lái),我國(guó)高等教育階段形成了以國(guó)家助學(xué)金、助學(xué)貸款、學(xué)費(fèi)補(bǔ)償、貸款代償、勤工助學(xué)、困難補(bǔ)助、伙食補(bǔ)貼、學(xué)費(fèi)減免等多種方式相結(jié)合的資助政策體系[1]。但每到高校助學(xué)金評(píng)定的時(shí)期,在學(xué)生中總會(huì)有不公平、不透明的議論,網(wǎng)上更是出現(xiàn)了高校助學(xué)金認(rèn)定的“比窮演講”,某生因用助學(xué)金購(gòu)買名牌球鞋而被取消資助資格等案例。因此高校助學(xué)金評(píng)定問(wèn)題還存在進(jìn)一步完善的空間。隨著大數(shù)據(jù)時(shí)代的來(lái)臨,利用大數(shù)據(jù)挖掘技術(shù)與數(shù)學(xué)建模理論知識(shí)相結(jié)合的資助評(píng)判方式有助于提高學(xué)生資助工作的合理性和公平性,對(duì)加強(qiáng)學(xué)生資助管理具有重要意義。
國(guó)內(nèi)學(xué)者的研究成果大致分為以下兩種。一種是依據(jù)學(xué)生家庭經(jīng)濟(jì)狀況,通過(guò)建立來(lái)指標(biāo)評(píng)分體系法進(jìn)行研究,另一種是利用層次分析、模糊綜合評(píng)價(jià)等數(shù)學(xué)模型的方法來(lái)確定大學(xué)生助學(xué)金評(píng)價(jià)體系[2]。夏陽(yáng)等人將指標(biāo)定為操行等第、學(xué)習(xí)成績(jī)、家庭情況、消費(fèi)水平四類,并運(yùn)用模糊層次分析法來(lái)評(píng)定助學(xué)金[3]。王明露等人將指標(biāo)定為收入、助崗、交際花費(fèi)、年級(jí)、民族五類,并運(yùn)用泊松回歸來(lái)研究[4]。唐業(yè)喜采用家庭、個(gè)人、學(xué)校、社會(huì)和特殊情況的“五維”高校貧困生精準(zhǔn)認(rèn)定指標(biāo)體系,并運(yùn)用層次分析法(AHP)和比較法(CM)相結(jié)合的模型進(jìn)行研究[5]。張彥坤將指標(biāo)定為生源地指標(biāo)、家庭基礎(chǔ)指標(biāo)、學(xué)生在校支出指標(biāo)、學(xué)生綜合素質(zhì)指標(biāo)并以此來(lái)確定評(píng)分體系[6]。
國(guó)外對(duì)高校貧困生認(rèn)定的方法較為客觀,因其擁有較為完善的收入和稅收統(tǒng)計(jì)系統(tǒng),故大都基于客觀數(shù)據(jù)來(lái)認(rèn)定。如美國(guó)通過(guò)學(xué)生的教育成本和家庭能夠分擔(dān)的成本來(lái)確定學(xué)生的家庭經(jīng)濟(jì)狀況;英國(guó)通過(guò)上年剩余收入及上年總收入減去購(gòu)房分期付款及其他費(fèi)用再核對(duì)家庭為學(xué)生負(fù)擔(dān)的其他費(fèi)用進(jìn)行綜合判定[7];德國(guó)通過(guò)學(xué)生父母上繳的個(gè)人所得稅采用支付稅單法;日本通過(guò)居民的資產(chǎn)指標(biāo)、收入與各種分類采用權(quán)重指標(biāo)相結(jié)合法等[5]。
參考國(guó)內(nèi)外的研究成果,在高校助學(xué)金的評(píng)定中國(guó)內(nèi)學(xué)者采用的層次分析法、模糊綜合評(píng)價(jià)法較為主觀,不能克服助學(xué)金評(píng)定問(wèn)題中存在的人情因素和主觀臆斷,而國(guó)外的一些客觀評(píng)定方法由于國(guó)情不同在中國(guó)難以廣泛實(shí)施。綜合考慮國(guó)內(nèi)外的研究現(xiàn)狀,通過(guò)客觀的數(shù)據(jù)采集和客觀數(shù)學(xué)模型的建立能夠更好的解決助學(xué)金評(píng)定問(wèn)題,基于此,本文將采用Logistic回歸模型[8-9]對(duì)大學(xué)生助學(xué)金的合理評(píng)定問(wèn)題進(jìn)行深入研究。
家庭經(jīng)濟(jì)困難的學(xué)生即學(xué)生家庭總收入無(wú)法承擔(dān)起其在學(xué)校的生活和消費(fèi)支出的學(xué)生。家庭經(jīng)濟(jì)狀況能較為直接的反映其生活水平。影響其家庭經(jīng)濟(jì)狀況的因素隨著生活質(zhì)量的不同而存在較大差異。如農(nóng)村人口多以農(nóng)業(yè)為主,故收入高低受氣候、自然災(zāi)害等影響;如家中有慢性?。埣玻┗颊咝栝L(zhǎng)期治療,則家庭經(jīng)濟(jì)狀況受醫(yī)療支出影響。影響可以分為兩類:直接影響與間接影響。學(xué)生家庭經(jīng)濟(jì)狀況的直接影響實(shí)際上就是家庭收入與家庭支出,學(xué)生家庭經(jīng)濟(jì)狀況的間接影響并非是通過(guò)收入與支出去直接影響,而是由于意外或突發(fā)狀況等因素間接影響收入與支出,從而對(duì)家庭經(jīng)濟(jì)水平造成損失。通過(guò)參考已有的國(guó)內(nèi)外研究成果中關(guān)于影響因素的確定和《高等學(xué)校學(xué)生及家庭情況調(diào)查表》以及《教育部財(cái)政部關(guān)于認(rèn)真做好高等學(xué)校家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定工作的指導(dǎo)意見(jiàn)》等相關(guān)政策,最終將直接影響因素確定為學(xué)生月消費(fèi),家庭年收入;間接影響因素確定為生源類別,家庭健康狀況,意外或突發(fā)狀況,失業(yè)情況,孤兒、單親、烈士子女,如圖1。
圖1 大學(xué)生助學(xué)金影響因素
本研究的因變量為二分類變量:需要資助和不需要資助,對(duì)于家庭貧困的學(xué)生應(yīng)當(dāng)予以適當(dāng)?shù)馁Y助,反之則不需要資助。通過(guò)問(wèn)卷調(diào)查的形式調(diào)查阜陽(yáng)師范學(xué)院在校學(xué)生的家庭經(jīng)濟(jì)狀況。從發(fā)放的1 300份問(wèn)卷中,回收得到有效問(wèn)卷1 139份。為克服偶然性和極端問(wèn)卷對(duì)調(diào)查的影響,通過(guò)篩選抽樣最終得出1 000份有效調(diào)查問(wèn)卷,組織相關(guān)專家、學(xué)生輔導(dǎo)員以及學(xué)生構(gòu)成民主評(píng)定小組,判定樣本學(xué)生屬于貧困還是非貧困。
由于學(xué)生月消費(fèi)和家庭年收入數(shù)據(jù)過(guò)于復(fù)雜,將其進(jìn)行分類量化,其余變量均用0-1變量表示,符合為1,不符合為0,如表1。
傳統(tǒng)的線性模型默認(rèn)因變量為連續(xù)變量,當(dāng)因變量為分類變量時(shí),傳統(tǒng)線性回歸模型的擬合方法方法會(huì)出現(xiàn)問(wèn)題,因此人們繼續(xù)發(fā)展出了專門針對(duì)分類變量的回歸模型。此類模型采用的基本方法是變量變換,使其符合傳統(tǒng)回歸模型的要求。根據(jù)變換的方法不同也就衍生出不同的回歸模型,相比之下,Logistic是使用最為廣泛的針對(duì)對(duì)分類變量的回歸模型。設(shè)因變量Y是一個(gè)二分類變量,其取值為Y=0和Y=1。影響取值的自變量分別為Xi。在自變量作用下結(jié)果發(fā)生的條件概率為P=P(Y=1|Xi),i=1,2,...,7則Logistic回歸模型[8]可表示為:
表1 大學(xué)生助學(xué)金影響因素量化
其中β0為常數(shù)項(xiàng),βi為偏回歸系數(shù)。經(jīng)過(guò)Logit變換,Logistic回歸模型可表示成如下線性形式:
當(dāng)Z趨于+∞時(shí),P值漸進(jìn)于1;當(dāng)Z趨于-∞時(shí),P值漸進(jìn)于0;并且隨Z值的變化以點(diǎn)(0,0.5)為中心成對(duì)稱形變化。
2.2.1 合理性分析
模型的綜合系數(shù)檢驗(yàn)。由檢驗(yàn)結(jié)果可知,P=0.0<0.05,說(shuō)明模型變量中,至少有一個(gè)變量的值有統(tǒng)計(jì)學(xué)意義,即模型總體有意義。
擬合優(yōu)度檢驗(yàn),P=0.981>>0.05,即樣本數(shù)據(jù)中的信息已經(jīng)被充分提取,模型擬合優(yōu)度較高。
模型的綜合系數(shù)檢驗(yàn)和擬合優(yōu)度檢驗(yàn)結(jié)果說(shuō)明模型的構(gòu)建是合理的。
2.2.2 模型求解
Logistic回歸模型的殘差項(xiàng)服從二項(xiàng)分布而不是正態(tài)分布,因此不能使用最小二乘法進(jìn)行參數(shù)估計(jì),而是采用最大似然估計(jì)。
首先,建立模型,假設(shè)獲取的樣本為(xj1,xj2,…,xj7;Yj),其中j=1,…,1 000 ,則
Yj的概率密度可表示為:
其中,Yj=0,1。
Yj的極大似然函數(shù)為:
對(duì)數(shù)似然函數(shù)為:
設(shè)
對(duì)下列各式進(jìn)行檢驗(yàn)
其次,求似然估計(jì)值,即對(duì)數(shù)似然函數(shù)最大時(shí)參數(shù)β0,β1,β2,…β7的估計(jì)值,利用 SPSS 軟件[9]對(duì)1 000組數(shù)據(jù)進(jìn)行分析得到估計(jì)結(jié)果,如表2。
最后,整理得出Logistic回歸方程為
其中X1為學(xué)生月消費(fèi),X2為家庭年收入,X3為生源類別,X4為家庭健康狀況,X5為意外或突發(fā)狀況,X6為失業(yè)情況,X7為孤兒、單親、烈士子女。
由模型可知當(dāng)P∈[0.5,1],則需要資助,反之則不需要。該判別過(guò)程的流程圖如圖2所示。
圖3是預(yù)測(cè)概率的直方圖,橫軸為獲取助學(xué)金的預(yù)測(cè)概率(0為不能獲取,1為能獲?。v軸為觀測(cè)的頻數(shù),符號(hào)“1”代表能夠獲取,“0”代表不能獲取。若預(yù)測(cè)正確,所有的1均應(yīng)在橫軸(0.5,1)這個(gè)區(qū)間內(nèi),所有的0均應(yīng)該在(0,0.5)這個(gè)區(qū)間內(nèi),由于樣本數(shù)據(jù)較大,圖中每個(gè)“0”、“1”均代表20個(gè)案例,所以總體上呈“U”型,兩邊數(shù)據(jù)多,中間數(shù)據(jù)少,能夠較為直觀的反映本模型對(duì)于助學(xué)金評(píng)定工作的預(yù)測(cè)較好。
表2 模型系數(shù)的最大似然估計(jì)結(jié)果
圖2 判別流程圖
為了進(jìn)一步檢驗(yàn)?zāi)P偷恼鎸?shí)性,隨機(jī)選取100組樣本帶入檢驗(yàn)。檢驗(yàn)結(jié)果顯示,Logistic回歸模型預(yù)測(cè)的值與真實(shí)值基本一致。
綜上所述,通過(guò)預(yù)測(cè)概率直方圖代入樣本數(shù)據(jù)檢驗(yàn),都可以說(shuō)明Logistic回歸模型能過(guò)很好的解決助學(xué)金評(píng)定問(wèn)題。
此項(xiàng)研究利用數(shù)學(xué)建模理論,采用大數(shù)據(jù)分析技術(shù),通過(guò)建立Logistic回歸模型,只要將確定的直接影響指標(biāo)學(xué)生月消費(fèi),家庭年收入和間接影響指標(biāo)生源類別,家庭健康狀況,意外或突發(fā)狀況,失業(yè)情況,孤兒、單親、烈士子女的數(shù)據(jù)量化指標(biāo)帶入模型中通過(guò)對(duì)Logistic模型所得出的結(jié)果進(jìn)行綜合評(píng)估,當(dāng)模型所得到的概率值時(shí)即可獲取助學(xué)金,反之則不可獲取助學(xué)金,這樣的助學(xué)金的評(píng)價(jià)體系,可以幫助學(xué)校和政府資助工作者科學(xué)有效的去評(píng)定及發(fā)放助學(xué)金給困難學(xué)生和發(fā)現(xiàn)“隱性貧困”與疑似“虛假認(rèn)定”學(xué)生,將有助于提高學(xué)生資助工作的精準(zhǔn)度和公平性,是加強(qiáng)學(xué)生資助管理的新模式。本研究是以阜陽(yáng)師范學(xué)院為調(diào)查地,由于不同學(xué)校所屬的地區(qū)可能生活水平經(jīng)濟(jì)狀況不同,模型的參數(shù)可能不同,但無(wú)論對(duì)什么學(xué)校,構(gòu)建模型的過(guò)程和判別方法都適用。本文的結(jié)論是基于阜陽(yáng)師范學(xué)院收集到的數(shù)據(jù)而言的,所以建立的模型具有一定的局限性和針對(duì)性。但從解決方法和模型構(gòu)建上說(shuō),當(dāng)樣本容量較大、涉及面較為廣泛時(shí),本文的研究仍具有一定的參考和指導(dǎo)價(jià)值,隨著資助區(qū)域不斷發(fā)展和擴(kuò)大,我們還可以將此模型運(yùn)用到一個(gè)城市或者一個(gè)地區(qū)的資助工作中去,進(jìn)一步提高資助工作的普及范圍。
圖3 預(yù)測(cè)概率直方圖
阜陽(yáng)師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2018年4期