(江蘇科技大學蘇州理工學院 江蘇 215600)
高校在智慧校園與高校大數據平臺建設中,沉淀了大量的學生校園行為數據,尤其是在校園一卡通普及后,每天高校都產生數萬條學生刷卡行為數據。而貧困生資助工作一直以來是高校學生工作的重點之一,實現資助工作科學化的前提是識別對象精準化。但是高校在傳統的貧困生認定工作中,仍然會出現因學生材料可信度考證難度大、偽貧困和學生因心理壓力拒絕申請等情況出現,對此給高校貧困生認定工作帶來了一定困難。
為了提高貧困生認定的準確率,各高校都在研究使用數據挖掘與大數據技術突破貧困生認定工作的瓶頸,如使用Apriori 關聯規(guī)則算法、貝葉斯分類算法、K-Means 聚類算法、SVM(支持向量機)等算法模型提高貧困生認定的精準率。本文采用神經網絡算法模型實現對貧困生身份的精準預測。神經網絡算法有較強的非線性映射能力,適合于求解內部機制復雜的問題,具備自組織自適應、非線性映射、高度并行、高泛化等特點,對基于校園一卡通消費數據的數據挖掘工作有較高的識別預測的能力,可以輔助高校挖掘潛在的貧困生,提高資助工作精準性。
BP 網絡,是一種按誤差逆向傳播算法訓練的多層前饋網絡,是目前應用最廣泛的神經網絡模型之一,用于函數逼近、模型識別分類、數據壓縮和時間序列預測等。它是一種有監(jiān)督的學習算法,具有很強的自適應、自學習、非線性映射能力,能較好地解決數據少、信息貧、不確定性問題,且不受非線性模型的限制。一個典型的BP 網絡應該包括三層:輸入層、隱含層和輸出層。各層之間全連接,同層之間無連接。隱含層可以有很多層,對于一般的神經網絡而言,單層的隱含層已經足夠了。上圖是一個典型的BP 神經網絡結構圖。
本次模型數據依托于學生基本信息和學校一卡通系統中的數據進行分析,挖掘學生消費習慣與貧困生之間的關系。高校數據中,雖然有很多看似有用的數據,例如學生填寫的家庭經濟情況信息,包括家庭人口、工作、收入和其他證明材料(生病證明、受災證明、貧困證明等),但都存在一定主觀性,學校無法準確判斷其真實有效性,所以本次采用數據中,基本信息只是用學生最基本信息,如生源地、民族、考生類別等信息。
在一卡通消費數據中,本文選取2018 年9 月到12 月份18 級某學院的學生消費數據,共計22W 條。數據樣本中,因學校水費電費采取宿舍內部公攤形式收費,容易使貧困生個人消費數據失準,所以從樣本集中刪除該類數據,同樣刪除的有季節(jié)性消費的熱水、淋浴類型數據。此時一卡通數據共計186822 條。
由于挖掘模型是針對學生個體,所以在數據與處理階段,將18.6W 條數據,根據學生個人進行統計,統計維度包括學生每月消費次數,每月消費金額,月早午晚餐次數和金額、食堂消費,超市消費,其他類型消費等。
圖1 為學生個人數據,由于分析軟件對中文不友好,所以將學生的政治面貌、性別、生源等信息,替換為數字標識。
圖1 學生數據
本文使用的是BP神經網絡模型,是從有貧困生身份字段(is_poor)的訓練集中,挖掘學習數據內部規(guī)則的算法,然后對測試數據進行測試預測出貧困生身份。本文實驗基于具有圖形用戶界面的互動原型特點的RapidMiner 平臺,此平臺為開源平臺,除了提供圖形交互外,還提供支持代碼鑲嵌,開放接口等功能。
本次模型神經網絡建立了三層結構,直觀展示了輸入輸出過程,輸入層為學生個人數據的58 個特征,每個特征對應一個神經元,所以輸入層節(jié)點為58 個。此次挖掘是針對學生是否為貧困生身份進行的,所以輸出層神經元個數為2 個。中間層為隱藏層,因為本次挖掘學習使用數據量較大,考慮到效率問題,僅使用了一個隱藏層。根據公式H=(M+N)1/2+α,M 為58,N 為2,α∈[1,10],結合實際訓練結果,隱藏層為16 個神經元時結果最好。AdaBoost 的iterations設置為10,training cycles 設置為200,error epsilon 為10E-4。
模型完成訓練后,將測試數據導入模型中,記錄模型數據層節(jié)點輸出的值,將預測值predict(is_poor)與測試集對應的實際貧困生身份對比分析。測試結果如表1 所示。本次測試共355 條數據,其中正確預測記錄為293 條,正確率為82.54%。本模型采用學校真實數據,對學校學生貧困身份進行識別,并與相關部門提供的學生貧困生數據進行對比。
表1 預測結果
本次數據挖掘,采取校園一卡通22W 條數據,和355 條學生個人信息數據,通過數據清晰和預處理,從22W 條數據中提取近百個特征點,通過傳統和主成分分析等方法,保留了58 個特征點,將數據引入到神經網絡模型中,得到準確率為82.54%的模型,符合對該模型的預期。
將大數據技術和神經網絡挖掘方法應用到高校的貧困生認定工作中,旨在甄別貧困生身份,通過分析學生的基本信息和校園一卡通的業(yè)務數據,保證模型的客觀性。在經過大量數據訓練和驗證后,本模型可以作為貧困生身份認定的參考依據,輔助學校相關部門,在貧困生認定工作時提供數據和決策支持。
在數據預處理和特征選擇時,還可以通過其他嘗試,提高模型的準確率。例如根據一卡通數據消費特點,增加或刪除特征點;根據不同時間節(jié)點,將學生數據分為周末消費和非周末消費;引入學業(yè)成績數據和其他非一卡通數據,提取特征點,加入模型。