詹中華,沈同平,金 力,黃方亮,許歡慶
國家各級部門為了確保貧困家庭的子女接受正常的教育,相繼頒布《教育部辦公廳關(guān)于進(jìn)一步加強(qiáng)和規(guī)范高校家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定工作的通知》和《教育部等六部門關(guān)于做好家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定工作的指導(dǎo)意見》等文件,對新時期貧困生的認(rèn)定工作作出了新的部署和要求[1].為了更好地做好“教育扶貧”和“教育救助”工作,高效、準(zhǔn)確地識別家庭經(jīng)濟(jì)困難學(xué)生,并及時給予政策資助,讓貧困學(xué)生能夠順利完成學(xué)業(yè),提高學(xué)生資助效果,成為急需解決的問題之一.只有在精準(zhǔn)識別貧困生的問題得到妥善解決以后,“精準(zhǔn)資助”工作才能真正做到公平、公正、公開,利用有限的資金幫助那些家庭經(jīng)濟(jì)真正困難的學(xué)生,達(dá)到“不讓一名學(xué)生因為家庭貧困而失學(xué)”的目的.
國家各級教育管理部門高度重視高等學(xué)校學(xué)生資助管理工作,不斷制定和頒布學(xué)生資助管理制度,學(xué)生資助工作成效卓著.但在學(xué)生資助和貧困生認(rèn)定工作中,也存在一些問題.比如,目前高校貧困生等級的評定方式和方法比較簡單,缺乏足夠的客觀量化標(biāo)準(zhǔn),容易夾雜評委的個人情感;貧困生認(rèn)定過程中存在弄虛作假情況;貧困生認(rèn)定過程中需要貧困生將家庭情況當(dāng)眾說明,進(jìn)行“比窮”“比困”和“比慘”,將貧困生家庭情況過度曝光,不利于保護(hù)個人隱私,甚至?xí)Φ截毨W(xué)生的自尊心.
為了提高學(xué)生資助管理工作的效率和效果,國內(nèi)一些專家學(xué)者從不同角度對貧困生認(rèn)定工作進(jìn)行了研究,以期實現(xiàn)對貧困生的精準(zhǔn)資助.李靜以高校助學(xué)金等級評定工作為研究對象,將采用裝袋(Bagging)集成方法的隨機(jī)森林模型應(yīng)用于助學(xué)金等級預(yù)測中,并與分類回歸樹(CART)算法進(jìn)行比較[2].謝穎等將HMM的Baum?welch算法應(yīng)用到高校家庭貧困生認(rèn)定過程中,將結(jié)果與直接計算方法及通過實際調(diào)研得到的結(jié)論進(jìn)行對比,通過對比得到HMM算法在解決此類問題中存在的局限性,同時給出了提高預(yù)測準(zhǔn)確性的新模型建立的建議[3].蔡炫在高校貧困生認(rèn)定工作中引入家庭人力資源這個概念,有助于更好地分析和判斷學(xué)生家庭經(jīng)濟(jì)情況,通過對家庭人力資源數(shù)量、類別和素質(zhì)等方面進(jìn)行分析,探索其運用于高校貧困生認(rèn)定工作中的方法[4].苗興國認(rèn)為,要想真正解決貧困生認(rèn)定難問題,必須明確家庭經(jīng)濟(jì)因素在這一認(rèn)定體系中的基礎(chǔ)性作用,以及怎樣通過各種方式最真實地反映申請貧困學(xué)生的家庭經(jīng)濟(jì)因素[5].在目前的高校助學(xué)金評定模型中,主要是通過對學(xué)生日常消費數(shù)據(jù)和圖書館借閱數(shù)據(jù)等進(jìn)行分析,采用機(jī)器學(xué)習(xí)技術(shù)中的某一個模型進(jìn)行分析和預(yù)測,缺乏模型對比分析,效果較差.貧困生是由學(xué)生家庭經(jīng)濟(jì)狀況決定的,因此對貧困家庭的識別是貧困生等級評定的前提工作.文獻(xiàn)[4]和文獻(xiàn)[5]從家庭的角度出發(fā),重點考慮家庭人力資源和家庭經(jīng)濟(jì)狀況兩個指標(biāo)對貧困生認(rèn)定的影響,但沒有給出具體的量化標(biāo)準(zhǔn)和評定方法.
本文在分析目前高校貧困生評定工作的基礎(chǔ)上,結(jié)合高校精準(zhǔn)資助研究成果,重點考慮學(xué)生家庭狀況與貧困的關(guān)系,以哥斯達(dá)黎加家庭貧困水平預(yù)測數(shù)據(jù)集為分析對象,進(jìn)行探索性數(shù)據(jù)分析和處理,以機(jī)器學(xué)習(xí)方法為技術(shù)支撐,采用隨機(jī)森林、樸素貝葉斯、邏輯回歸等模型進(jìn)行對比分析,構(gòu)建精準(zhǔn)識別貧困家庭模型.將機(jī)器學(xué)習(xí)技術(shù)融入貧困生認(rèn)定工作中,可以減少主觀經(jīng)驗判斷,實現(xiàn)精準(zhǔn)資助,確保貧困學(xué)生在政策資助下,順利完成學(xué)業(yè),阻斷貧困的代際傳遞.
機(jī)器學(xué)習(xí)主要指計算機(jī)通過模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,獲取相應(yīng)知識和技能.學(xué)習(xí)過程是借助數(shù)據(jù)模型,對輸入的訓(xùn)練數(shù)據(jù)進(jìn)行分析和歸類,找出數(shù)據(jù)之間的規(guī)律,作為決策函數(shù)的參數(shù)和權(quán)重,并用該模型函數(shù)對輸入的未知數(shù)據(jù)進(jìn)行預(yù)測和標(biāo)記,常見的機(jī)器學(xué)習(xí)模型有決策樹、支持向量機(jī)、樸素貝葉斯和K近鄰等算法模型[6].在貧困生評定等級工作中,機(jī)器學(xué)習(xí)模型通過對貧困家庭數(shù)據(jù)的學(xué)習(xí),對貧困等級進(jìn)行預(yù)測.
支持向量機(jī)是機(jī)器學(xué)習(xí)模型中的一種二分類模型,根據(jù)間隔最大化的原則,在訓(xùn)練集的各類樣本點中,尋找一個超平面對各類樣本進(jìn)行分割,最終轉(zhuǎn)化為一個凸二次規(guī)劃問題進(jìn)行求解.
分類決策函數(shù):
其中,sign(?)為階躍函數(shù):
樸素貝葉斯分類是貝葉斯算法中最簡單的一種分類算法,對于待分類項,只需求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的最大概率.樸素貝葉斯模型預(yù)先假設(shè)各屬性之間互相獨立,但在實際應(yīng)用中,分類屬性之間存在一定的相關(guān)性,影響分類效果.
樸素貝葉斯計算公式:
K近鄰是一種經(jīng)典的數(shù)據(jù)挖掘分類算法,通過測量不同樣本之間的距離,對樣本進(jìn)行分類.大體思想是計算給定樣本與其他樣本之間的距離,選出距離該樣本最近的K個鄰近值,如果這K個樣本大多屬于某個類別,則該樣本同屬于這一類別.根據(jù)K近鄰算法,對給定樣本x找出訓(xùn)練集中與樣本x最近的全部K個樣本,記作Nk(x),K近鄰計算公式:
本文研究數(shù)據(jù)來源于Kaggle網(wǎng)站上的哥斯達(dá)黎加家庭貧困水平預(yù)測數(shù)據(jù)集.根據(jù)模型需要,將數(shù)據(jù)集劃分為訓(xùn)練集和測試集兩個部分.測試集共有7334個樣本數(shù)據(jù),訓(xùn)練集共有2973個樣本數(shù)據(jù),每個樣本數(shù)據(jù)已經(jīng)標(biāo)注好貧困等級.家庭貧困程度分為四個等級,分別用數(shù)字1、2、3、4表示,1表示極度貧困(extreme poverty),2表示中等貧困(moderate poverty),3表示一般貧困(vulnerablehouseholds),4表示不貧困(non vulnerable households).數(shù)據(jù)集中共有142個字段,部分字段和變量的含義如表1所示.
表1 數(shù)據(jù)集中部分屬性列表
該數(shù)據(jù)采用多個指標(biāo)和維度對家庭貧困等級進(jìn)行描述,包括家庭中男性和女性的數(shù)量、勞動力和非勞動力的統(tǒng)計、家庭成員的受教育水平、房屋面積和臥室數(shù)量的統(tǒng)計、房屋貸款情況統(tǒng)計、家庭成員健康情況統(tǒng)計、生活費用(供水、供電等)統(tǒng)計等142個屬性,這些屬性可以全面地對一個家庭的經(jīng)濟(jì)狀況進(jìn)行描述和確定.
哥斯達(dá)黎加家庭貧困水平預(yù)測數(shù)據(jù)集中,訓(xùn)練集包含2973個貧困家庭樣本,如圖1所示.貧困等級為1的家庭數(shù)為222,貧困等級為2的家庭數(shù)為442,貧困等級為3的家庭數(shù)為355,貧困等級為4的家庭數(shù)為1954.
在現(xiàn)階段,每個家庭的貧困程度不同,極度貧困家庭數(shù)量相對較少.圖1顯示,貧困等級是4的樣本數(shù)與等級是1的樣本數(shù)的比例接近9∶1,表明訓(xùn)練集的不同類別樣本數(shù)量是不均衡的.樣本不平衡率越大,數(shù)據(jù)集中類別不均衡程度越嚴(yán)重.傳統(tǒng)的分類方法偏向于多數(shù)的類,對于較少的類,執(zhí)行的效果往往較差,在使用機(jī)器學(xué)習(xí)經(jīng)典模型時,需要對訓(xùn)練集的數(shù)據(jù)進(jìn)行處理,提高模型預(yù)測準(zhǔn)確度.
圖1 訓(xùn)練集貧困等級數(shù)據(jù)分布
對訓(xùn)練集中的數(shù)據(jù)進(jìn)一步探索變量和貧困等級之間的關(guān)系.從圖2和圖3中,可以發(fā)現(xiàn)教育程度與家庭貧困情況存在直接的關(guān)系.家庭成員受教育程度越高,家庭貧困狀況越良好;家庭成員受教育平均程度越高,家庭貧困狀況越良好.
圖2 最高學(xué)歷與貧困等級的關(guān)系
圖3 平均受教育程度與貧困等級的關(guān)系
探索女戶主以及女戶主家庭平均教育水平與貧困等級的關(guān)系,如圖4和圖5所示.從圖中可以發(fā)現(xiàn),戶主是女性的家庭似乎更容易出現(xiàn)嚴(yán)重的貧困.從家庭教育水平的角度來看,女戶主家庭都具有較高的教育水平.
圖4 女戶主家庭與貧困等級的關(guān)系
圖5 女戶主家庭平均教育水平與貧困等級的關(guān)系
受篇幅限制,文章僅對訓(xùn)練集中的部分字段變量進(jìn)行探索性分析,這些變量與貧困等級確定高度相關(guān).這些變量是否真正有用,將通過后續(xù)模型進(jìn)行驗證分析.
實驗采用的環(huán)境為:
軟件環(huán)境:Windows7下的Tensor Flow 1.11.0版本;
硬件環(huán)境:Inteli5?4590 CPU 3.30 GHz;
內(nèi)存:8.0 GB.
為了驗證本文模型的有效性,采用通過精確率(Precision)、召回率(Recall)、F1值和精確率(Accuracy)對模型評價.
其中:Tp表示真正例,F(xiàn)p表示假正例,Tn表示真負(fù)例,F(xiàn)n表示假負(fù)例.
表2中的五種算法分別為,KNN(K近鄰算法)、LR(邏輯回歸算法)、NB(樸素貝葉斯算法)、SVC(支持向量機(jī)算法)、RF(隨機(jī)森林算法).
表2 五種分類算法的檢測結(jié)果
五種分類算法取得檢測結(jié)果不相同.隨機(jī)森林算法和K近鄰算法準(zhǔn)確度較高,分別達(dá)到89%和76%;邏輯回歸和樸素貝葉斯算法準(zhǔn)確度較低,分別為55%和47%.
不同分類算法對不同貧困等級的精確度、召回值和F1值都不相同.其中,隨機(jī)森林算法對extreme poverty等級數(shù)據(jù),精確度最高;支持向量機(jī)算法對non vulnerable households等級數(shù)據(jù),召回值最高,邏輯回歸算法對moder?ate poverty等級數(shù)據(jù),精確度最低,僅為24%.
綜合表2中的數(shù)據(jù),隨機(jī)森林算法綜合效果最好,樸素貝葉斯算法綜合效果最差.
本文利用機(jī)器學(xué)習(xí)的方法,通過對貧困家庭數(shù)據(jù)的分析和學(xué)習(xí),確定學(xué)生的家庭經(jīng)濟(jì)狀況和貧困等級,避免申請學(xué)生當(dāng)眾“比慘”現(xiàn)象的發(fā)生,有效保護(hù)了貧困學(xué)生的隱私.分別使用邏輯回歸、支持向量機(jī)、K近鄰、決策樹、隨機(jī)森林等機(jī)器學(xué)習(xí)算法進(jìn)行貧困家庭識別.實驗結(jié)果表明,集成機(jī)器學(xué)習(xí)算法性能優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法,隨機(jī)森林算法的預(yù)測性能最佳,平均準(zhǔn)確率為89%.本文研究結(jié)果可以作為高校貧困生評定工作中的一種重要參考和支撐.在對學(xué)生家庭經(jīng)濟(jì)狀況數(shù)據(jù)的分析和預(yù)測過程中,本文的研究結(jié)果可以作為貧困生等級認(rèn)定的一種參考,進(jìn)而實現(xiàn)精準(zhǔn)認(rèn)定貧困生,實現(xiàn)以生為本的差異化精準(zhǔn)資助新模式,提高高校資助管理工作的水平和效果.