齊懷峰
(安徽師范大學(xué) 學(xué)生工作處,安徽 蕪湖 241000)
?
大數(shù)據(jù)背景下高校貧困生類別的判定
——以安徽師范大學(xué)為例
齊懷峰
(安徽師范大學(xué) 學(xué)生工作處,安徽 蕪湖 241000)
目前高校貧困生的精準(zhǔn)認(rèn)定是一個(gè)公開的難題。本文以某高校連續(xù)60天的校園卡消費(fèi)記錄為依據(jù),利用Python語言和K-Means聚類算法,依據(jù)15545名大學(xué)生個(gè)人消費(fèi)金額,而將他們分5個(gè)“最優(yōu)群體”。從最低消費(fèi)群體中挖掘應(yīng)該被認(rèn)定為貧困生而沒有被認(rèn)定為貧困生的群體,從最高消費(fèi)群體中挖掘不應(yīng)該被認(rèn)定為貧困生而被認(rèn)定為貧困生的群體。本文以客觀的消費(fèi)記錄為標(biāo)準(zhǔn),利用大數(shù)據(jù)挖掘技術(shù),為科學(xué)資助和精準(zhǔn)資助提供了決策支持。關(guān)鍵詞: 大學(xué)生;貧困生;K-Means;分類;判定
目前高校貧困生的精準(zhǔn)認(rèn)定是一個(gè)公開的難題,其認(rèn)定難點(diǎn)主要在于界定標(biāo)準(zhǔn)的確定和認(rèn)定成本方面(學(xué)校無法走訪每一位大學(xué)生的家庭情況、貧困生個(gè)人情況也無法公示接受師生監(jiān)督,只能依靠認(rèn)定者的觀察和判定,以致于主觀因素影響較大),再加上假貧困生爭(zhēng)奪濟(jì)困資源的行為客觀上又加大了認(rèn)定難度。本文以某高校連續(xù)60天校園卡消費(fèi)記錄(2016年2月22日-4月21日,共8616889條消費(fèi)記錄)為依據(jù),采用K-Means聚類算法,將15545名(大一至大三本科生,其中貧困生4189人,占總?cè)藬?shù)的26.95%)大學(xué)生個(gè)人消費(fèi)總金額分5個(gè)“最優(yōu)群體”(群體內(nèi)消費(fèi)相似而群體間差異較大)。從最低消費(fèi)群體中挖掘應(yīng)該被認(rèn)定為貧困生而沒有被認(rèn)定為貧困生的群體,從最高消費(fèi)群體中挖掘不應(yīng)該被認(rèn)定為貧困生而被認(rèn)定為貧困生的群體。本文以客觀的消費(fèi)記錄為標(biāo)準(zhǔn),利用大數(shù)據(jù)挖掘技術(shù),為科學(xué)資助和精準(zhǔn)資助提供了決策支持。
(一) 三餐消費(fèi)的定義
為保持?jǐn)?shù)據(jù)的連貫性,早餐時(shí)段定義為:00:00:00 - 09:59:59;午餐時(shí)段定義為:10:00:00-15:59:59;晚餐時(shí)段定義為:16:00:00-23:59:59。凡是在此三個(gè)時(shí)間段內(nèi)發(fā)生的消費(fèi)(含用校園卡購買其它物品,也就是說是廣義的三餐消費(fèi)),均被統(tǒng)計(jì)為早中晚三餐的消費(fèi)金額;每位學(xué)生在某一時(shí)段可能消費(fèi)多次,但都合并為某一餐的消費(fèi)總金額。
(二)單次異常消費(fèi)數(shù)據(jù)的處理
不失一般性,結(jié)合目前的消費(fèi)水平,將三餐消費(fèi)上限定義為:早餐15元、午餐25元、晚餐25元。若某單次消費(fèi)超過限定額度,則被視為異常消費(fèi),并按消費(fèi)上限記錄為此次消費(fèi)金額(例如:若某一次晚餐消費(fèi)100元,則按25元的上限記錄為此次消費(fèi)金額)。
(三)缺失消費(fèi)數(shù)據(jù)的處理
理論上,三餐消費(fèi)總次數(shù)應(yīng)該為2798100次(15545人*3次/人*60天),然而并不是每個(gè)大學(xué)生在60天中,每天都在食堂消費(fèi)3次,實(shí)際上其缺失數(shù)據(jù)相當(dāng)多(詳見圖表2-4)。本文對(duì)缺失數(shù)據(jù)采用兩種處理方法:第一種是忽略缺失數(shù)據(jù)(如果某日某餐未用校園卡消費(fèi),則記錄為0元);第二種是如果某日某餐未用校園卡消費(fèi),則此次消費(fèi)被統(tǒng)計(jì)為該類型消費(fèi)平均值(早餐:3.89元;午餐:8.18元;晚餐7.26元)。
(四) 消費(fèi)群體的基本分析
表1 性別餐飲情況統(tǒng)計(jì)表
表1顯示:男生的三餐金額均超過女生,平均每天消費(fèi)超過女生3.86元,這與實(shí)際情況基本吻合。 表2顯示:目前大學(xué)生早餐就餐率尚不足50%,這是一個(gè)很嚴(yán)重的問題(午餐、晚餐可以選擇校外就餐,而早餐一般只在校內(nèi)就餐或不吃),需要加大此方面的宣傳教育,并采取相應(yīng)措施;中餐和午餐的就餐率也只有70%,這說明因?yàn)閷W(xué)校食堂提供的飯菜不合口味,而導(dǎo)致約30%的學(xué)生選擇外賣或校外就餐,因此食堂飯菜水平應(yīng)考慮提升;從標(biāo)準(zhǔn)偏差來看,早餐2.39,晚餐也只有5.47,這說明學(xué)生在食堂消費(fèi)金額比較穩(wěn)定,也就是說食堂提供的飯菜數(shù)量和款式比較單一。
表2 整體餐飲情況統(tǒng)計(jì)表
表3 非貧困生餐飲情況統(tǒng)計(jì)表
表4 貧困生餐飲情況統(tǒng)計(jì)表
從表2-表4,可以看出非貧困生和貧困生的消費(fèi)狀況是有差異的,具體比較見表5。
表5 非貧困生和貧困生消費(fèi)數(shù)據(jù)比較
表5顯示:(1)非貧困生每天消費(fèi)19.64元,而貧困生每天消費(fèi)17.81元,非貧困生確實(shí)比貧困生在消費(fèi)上有明顯差別;(2)非貧困生在校內(nèi)就餐頻率為61.71%,貧困生在校內(nèi)就餐頻率為67.49%,這說明由于經(jīng)濟(jì)條件的限制,貧困生更多選擇在便宜的校內(nèi)就餐;(3)非貧困生的標(biāo)準(zhǔn)偏差是5.47,貧困生的消費(fèi)偏差是5.05,這說明貧困生的消費(fèi)種類和價(jià)格的變化程度比非貧困生小或者說可選擇消費(fèi)的余地比較小。
對(duì)15545條消費(fèi)記錄(每人60天的消費(fèi)記錄之和為一條記錄)的分類標(biāo)準(zhǔn)是一個(gè)需要研究的問題。本文采用無監(jiān)督學(xué)習(xí)的K-Means聚類算法,將消費(fèi)記錄分為5組,以便研究最低和最高的消費(fèi)群體的消費(fèi)情況。群體分組的標(biāo)準(zhǔn)采用輪廓系數(shù)(Silhouette Coefficient,是聚類效果好壞的一種評(píng)價(jià)方式。它結(jié)合內(nèi)聚度和分離度兩種因素,可以用來在相同原始數(shù)據(jù)的基礎(chǔ)上用來評(píng)價(jià)聚合效果,取值范圍是(0,1))進(jìn)行評(píng)價(jià),該值越高則說明分組效果越好,即群體內(nèi)部數(shù)據(jù)越接近而群體之間數(shù)據(jù)差異越大。
在實(shí)際的聚類中,當(dāng)分為3類時(shí),SC最大為0.57,從聚類算法理論上說是最佳分類,但在實(shí)際應(yīng)用中并不是最佳選擇。但為了研究?jī)蓸O群體,本文選擇5個(gè)分類,以便研究?jī)蓸O群體。因?yàn)樨毨伎側(cè)藬?shù)的26.95%,因此若消費(fèi)最少的A類群體人數(shù)比例小于26.95%,理論上都應(yīng)該被認(rèn)定為貧困生。但實(shí)際情況并非如此,詳見表6-7。
表6 未補(bǔ)充缺失數(shù)據(jù)消費(fèi)統(tǒng)計(jì)表(SC=0.54)
表6顯示:因此A類(消費(fèi)最少群體)有1158人應(yīng)該被認(rèn)定為貧困生,但聚類結(jié)果顯示,其中有934人不在貧困生庫中;E類(消費(fèi)最多群體)有332人,但聚類結(jié)果顯示,其中有67人在貧困生數(shù)據(jù)庫中。
表7 已補(bǔ)充缺失數(shù)據(jù)消費(fèi)統(tǒng)計(jì)表(SC=0.51)
表7顯示:A類(消費(fèi)最少群體)有613人,但聚類結(jié)果顯示,其中有309人不在貧困生庫中;E類(消費(fèi)最多群體)有236人,但聚類結(jié)果顯示,其中有31人在貧困生數(shù)據(jù)庫中。
表8顯示“未補(bǔ)充缺失數(shù)據(jù)”方法和“已補(bǔ)充缺失數(shù)據(jù)”方法中:A類相同人數(shù)有241人(交集)、最大可疑人數(shù)1002人(并集);E類相同人數(shù)有25人(交集)、最大可疑人數(shù)73人(并集)。在A類消費(fèi)群體中,雖然消費(fèi)金額較低,但并不意味著他的真實(shí)消費(fèi)額就低(學(xué)生消費(fèi)是多元化的,比如外賣、校外就餐等);在E類消費(fèi)群體中,消費(fèi)金額是最高的,若沒有特殊情況,一般不應(yīng)再認(rèn)定為貧困生。
表8 兩種缺失數(shù)據(jù)處理方法的對(duì)比分析
在此基礎(chǔ)上,還可繼續(xù)做以下兩個(gè)方面的工作:一是對(duì)可疑的“貧困生”或“非貧困生”依據(jù)其60天的消費(fèi)記錄和平時(shí)的消費(fèi)表現(xiàn)進(jìn)行觀察和分析,以便確定是其真正貧困或是其非貧困,實(shí)事求是的判定某一名大學(xué)生的貧困情況;二是在第一步的基礎(chǔ)上,判定采用哪種缺失數(shù)據(jù)處理方法(或二者結(jié)合)更為接近客觀事實(shí),以便更有效的應(yīng)用在實(shí)際工作中。
采用對(duì)消費(fèi)記錄挖掘的方法,大大縮小了調(diào)查范圍、維護(hù)了貧困生的“忌貧心理”,能有效挖掘出“雖然貧困但不愿意申請(qǐng)”或“不貧困但申請(qǐng)貧困”的群體,節(jié)約了大量的人力資源成本。此外,利用大數(shù)據(jù)技術(shù)還可以為貧困生精準(zhǔn)分類、“學(xué)霸”和“消費(fèi)習(xí)慣”關(guān)聯(lián)等方面提供數(shù)據(jù)支持。
[1] Mastering Machine Learning with scikit-learn[M].UK:Packt Publishing,2014
[2] Python Data Visualization Cookbook[M].UK:Packt Publishing,2013
[3] 司維.Python基礎(chǔ)教程(第二版)[M].北京:人民郵電出版社,2014
[4] 楊知玲.數(shù)據(jù)挖掘在高校貧困生評(píng)價(jià)中的應(yīng)用[J].軟件導(dǎo)刊,2016,(6)
[5] 吳文輝.高校經(jīng)濟(jì)困難學(xué)生識(shí)別認(rèn)定研究[J].辦公自動(dòng)化,2016,(17)
[6] 畢鶴霞.大數(shù)據(jù)下高校貧困生確認(rèn)模型構(gòu)建——基于“模糊綜合評(píng)判法”與“模糊層次分析法”集成的實(shí)證研究[J].高教探索,2016,(8)
(責(zé)任編輯:樂程 )
How to Identify the Needy College Students against the Background of Big Data
Qi Huaifeng
(StudentAffairsDepartment,AnhuiNormalUniversity,Wuhu,Anhui, 241000,China)
This article bases itself on the campus card consumption of 15545 students from a certain university for 35 consecutive days. It uses Python language and K-Means clustering algorithm to categorize these students into 5 optimal groups according to the total amount of their personal consumption, picking out the ones from the group that consumed least who should have been identified as needy and the ones from the group that consumed most who should not have been identified as needy. The paper attempts to provide some decision support for financially aiding students in a scientific and precise way.
college student; needy student; K-Means; classification; identification
齊懷峰(1979-),男,安徽師范大學(xué)學(xué)生工作處講師。
10.13585/j.cnki.gxfdyxk.2016.05.017
G641
A
1674-5337(2016)05-0074-04