褚蕾蕾 孟利霞 鄭健 夏光峰 劉年生
摘 要:在高等院校的不斷擴招形勢下,貧困生已經(jīng)成為一類典型的大學生群體。為促進高校教育的公平公正發(fā)展,保證大學生身心發(fā)展的健康,對貧困生的資助已經(jīng)成為國家的一項重要政策,同時,如何進行高校貧困學生的精準資助已經(jīng)成為貧困生資助的熱點問題。本文研究了一種高校虛假貧困生的辨識算法,通過采集貧困生的校園卡消費數(shù)據(jù),提取其中關鍵指標,再采用孤立森林異常點檢測法對其中的異常數(shù)據(jù)進行監(jiān)測,從而辨識出虛假貧困。采用實際算例進行分析,其結果表明了本文提出方法的有效性。
關鍵詞:高校;虛假貧困;精準資助;孤立森林
中圖分類號:TP393.1 文獻標識碼:A 文章編號:1671-2064(2019)06-0044-02
0 引言
隨著中國高等教育普及化,以及高等學校不斷擴招的形勢下,一種典型的大學生群體:貧困生群體已經(jīng)越來越受到人們的關注。為保證高等教育公平公正的原則,國家出臺了一系列政策,建立了完善的貧困生資助體系,保障了貧困生順利的完成學業(yè)和研究。然而,現(xiàn)有的條件下,仍然在少數(shù)場合存在著資助準確性不高的問題,即少數(shù)貧困生未能獲得國家資助,反而少數(shù)非貧困生卻受到了資助。因此,如何實現(xiàn)精準資助一直是貧困生認定和資助領域的重點和難點問題。
近年來,人工智能理論的發(fā)展為貧困生的精準資助提供了一種基于實際消費數(shù)據(jù)的新思路。與傳統(tǒng)的走訪或調(diào)查問卷的方法不同,基于數(shù)據(jù)的方法完全依賴于大學生的實際消費數(shù)據(jù),提高了資助認定的客觀性和可靠性,已成為新的研究熱點。例如,文獻[1]基于校園一卡通數(shù)據(jù),采用支持向量機(SVM)算法,歸納了高校大學生消費的兩種消費模式;文獻[2]基于校園一卡通、宿舍門禁、圖書館借閱信息,結合k-means聚類方法,對大學生的貧困程度進行預測。文獻[3]基于高校學生消費數(shù)據(jù),采用描述性統(tǒng)計和非參數(shù)檢驗的方法,描述了貧困生和非貧困生在消費上的差異性。
本文采用孤立森林算法對高校虛假貧困現(xiàn)象進行檢測與辨識,首先采集高校學生的校園一卡通數(shù)據(jù),再抽取其中關鍵特征,使用孤立森林算法進行異常數(shù)據(jù)檢測。對其異常數(shù)據(jù)進行分析,便可精準監(jiān)測到虛假貧困現(xiàn)象并對其預警。采用實際算例進行算法論證,其結果表明了本文方法的有效性和實用性。
1 背景知識
1.1 虛假貧困
所謂虛假貧困現(xiàn)象是指某些非貧困生通過各種手段獲得國家貧困生資助的現(xiàn)象。雖然這類現(xiàn)象屬于極少數(shù)個例,但是卻嚴重影響了貧困生資助的公平公正性,在高校學生群體之間造成不良的影響。因此,如何對虛假貧困現(xiàn)象進行辨識是精準資助領域的重要子問題。
1.2 高校一卡通數(shù)據(jù)
我國高校內(nèi)的消費大多采用校園卡的方式進行結算。消費種類一般為:(1)食堂消費;(2)超市消費;(3)打水消費;(4)洗浴消費;(5)電費,網(wǎng)費,圖書償還費用等其他消費。其中,食堂和超市消費的差異與學生的貧困水平成正相關,需著重監(jiān)測這兩類消費數(shù)據(jù)。
2 數(shù)據(jù)預處理與特征抽取
采集校園一卡通的食堂消費數(shù)據(jù)和超市消費數(shù)據(jù),進行預處理和特征提取。提取的特征為:(1)30天日消費均值Maverage;(2)30天日消費總額Msum;(3)30天食堂消費總額Mshitang;(4)30天超市消費總額Mchaoshi。將Maverage、Msum、Mshitang、Mchaoshi分別進行歸一化處理作為算法的輸入數(shù)據(jù)。則最后的輸入數(shù)據(jù)X為:X={X∈R4|Maverage、Msum、Mshitang、Mchaoshi}[4]。
3 孤立森林法
本文所用的孤立森林模型是基于隔離思想的異常點檢測算法,其檢測流程如圖1所示,將采集到的數(shù)據(jù)做為總數(shù)據(jù)集X,從X中隨機采樣得到子數(shù)據(jù)集(X1,X2…Xm),進而進行隔離樹和孤立森林的構建,再通過計算路徑的長度得到各個點的異常分值,最后,根據(jù)其分值的大小進行異常數(shù)據(jù)的辨識。
3.1 孤立樹
圖2所示為隔離樹的建立方法。主要步驟為:(1)隨機選取子數(shù)據(jù)集X中的某一列數(shù)據(jù)作為主要維度q,在其取值范圍[qmin,qmax]內(nèi),選取一隨機值p,并基于是否q
p將總數(shù)據(jù)分為左子集Xl和右子集Xr,同時隨機產(chǎn)生一個子結點;(2)需對其結點進行判斷,判斷其是否為內(nèi)部結點還是葉結點,并循環(huán)重復1步驟,除非內(nèi)部結點滿足其葉結點的條件:對于子采樣數(shù)據(jù)X={x1,…,xn},通過選取隨機特性q和分割值p,直到樹高h達到高度限制hlim,或者分割后的子采樣集只剩下唯一數(shù)據(jù)為止。
4 算例分析
以某學校為例,采集該校大一至大四學生的一卡通消費數(shù)據(jù)共十萬條。使用第3章所述的數(shù)據(jù)類別作為算法輸入數(shù)據(jù),并將其數(shù)據(jù)輸入至第四章所述的孤立森林算法中。算法計算完成后,對每個學生的異常分數(shù)進行排序,選擇異常分數(shù)靠前的400名同學進行分析。同時,對這400名同學的家庭進行摸查,以確認真實情況。使用本文方法與異常因子(LOF)以及單類支持向量機(one-class SVM)進行比較,檢測精度如表1所示。正確率為被檢測出的異常點占總數(shù)的比例;誤測率為正常點被檢測為異常的比例。可以看出,孤立森林法較其他方法檢測準確度更高。
5 結語
本文研究了一種高校虛假貧困生的辨識算法,通過采集貧困生的校園卡消費數(shù)據(jù),提取其中關鍵指標,再采用孤立森林異常點檢測法對其中的異常數(shù)據(jù)進行監(jiān)測,從而辨識出虛假貧困。采用實際算例進行分析,其結果表明了本文提出方法的有效性。
參考文獻
[1] 唐穎,李明江.數(shù)據(jù)挖掘在高校貧困生消費信息管理中的應用研究[J].湖南商學院學報,2011,18(6):45-49.
[2] 李明君.基于數(shù)據(jù)挖掘的貧困助學金認定方法研究[D].華中師范大學,2017.
[3] 李珊娜.基于校園一卡通平臺的數(shù)據(jù)挖掘應用研究[J].鐵路計算機應用,2010,19(6):55-58.
[4] 費小丹,董新科,張暉.基于校園一卡通消費數(shù)據(jù)的高校貧困生分析[J].電腦知識與技術,2014(20):4934-4936.