余琳 許婷 李超 廖莉莉 許可 解攀科
摘? 要:大數(shù)據(jù)時(shí)代背景下,關(guān)注大學(xué)生心理健康,要借用技術(shù)手段科學(xué)、客觀推進(jìn)大學(xué)生心理健康教育工作。目前研究學(xué)生心理健康大多采用問(wèn)卷調(diào)查的形式,所得結(jié)果取決于被調(diào)查者的填寫(xiě)情況,不一定真實(shí)反映其內(nèi)心的想法,并且調(diào)查個(gè)案有限,不能很好地反映總體情況。本文以華中師范大學(xué)為例,通過(guò)一卡通消費(fèi)明細(xì)、圖書(shū)門(mén)禁明細(xì)得出學(xué)生間的共現(xiàn)頻率,從而得出學(xué)生的朋友關(guān)系表,得到疑似孤獨(dú)者名單,結(jié)合學(xué)生的就業(yè)情況,得出朋友關(guān)系較少的學(xué)生未就業(yè)率高于朋友關(guān)系多的結(jié)論;再運(yùn)用DecisionTreeClassifier模型,挖掘出各個(gè)指標(biāo)對(duì)就業(yè)成功的影響力,并基于訓(xùn)練好的模型預(yù)測(cè)哪些學(xué)生有就業(yè)失敗的可能,可作為重點(diǎn)關(guān)注對(duì)象。分析結(jié)果與日常生活反饋較一致,對(duì)于應(yīng)用大數(shù)據(jù)在高校學(xué)生管理工作有一定的借鑒作用。
關(guān)鍵詞:大數(shù)據(jù);朋友關(guān)系;消費(fèi)關(guān)系;圖書(shū)館關(guān)系;決策樹(shù)算法;各指標(biāo)影響力
中圖分類(lèi)號(hào):TP183? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)23-0001-04
Early Warning Model of Students’Loneliness under the Background of Big Data
——Taking Central China Normal University for Example
YU Lin,XU Ting,LI Chao,LIAO Lili,XU Ke,XIE Panke
(Information Office of Central China Normal University,Wuhan? 430079,China)
Abstract:Under the background of the era of big data,paying attention to the mental health of college students,it is necessary to use scientific means to scientifically and objectively promote the mental health education of college students. At present,the research of students’mental health mostly adopts the form of questionnaire survey,which depends on the filling of the respondents,not necessarily reflect their inner thoughts,and the investigation cases are limited,which can not reflect the general situation well. This paper takes Huazhong Normal University as an example,through the details of the consumption of smartcard and the access details of the library to get the list of students friendship,and get the list of suspected lonely students. Combined with the employment situation of students,it is concluded that the unemployed rate with fewer friends is higher than that of friends;using the DecisionTreeClassifier decision tree model to discover the influence of various indicators of employment success,and predicting which students fail in employment based on the trained model can be the focus of attention. The analysis results are consistent with the daily life feedback,and it has certain reference for the application of big data in the management of college students.
Keywords:big data;friend relationship;consumption relationship;library relationship;decision tree algorithm;influence of various indicators
0? 引? 言
在大數(shù)據(jù)時(shí)代背景下,應(yīng)用數(shù)據(jù)說(shuō)話(huà),應(yīng)有效利用數(shù)據(jù)挖掘和學(xué)習(xí)分析產(chǎn)生迄今看不見(jiàn)、不被注意的數(shù)據(jù)與結(jié)論,為高校管理工作提供新思路。盡可能地收集全面的數(shù)據(jù),再進(jìn)行分析、挖掘,客觀找出疑似孤獨(dú)者名單,幫助就業(yè)處、院系輔導(dǎo)員查找可能存在問(wèn)題的學(xué)生、提前做好心理健康指導(dǎo)、就業(yè)幫扶,物質(zhì)幫扶等工作,幫助這些學(xué)生學(xué)會(huì)與人溝通交流,紓解心理抑郁,引導(dǎo)學(xué)生高質(zhì)量就業(yè)、高幸福感生活,提高學(xué)生心理健康危機(jī)預(yù)警實(shí)效性。
1? 現(xiàn)狀分析
2011年2月23日,教育部印發(fā)了《普通高等學(xué)校學(xué)生心理健康教育工作基本建設(shè)標(biāo)準(zhǔn)(試行)》的通知,推進(jìn)大學(xué)生心理健康教育工作科學(xué)化建設(shè),強(qiáng)調(diào)要加強(qiáng)大學(xué)生心理危機(jī)預(yù)防與干預(yù)體系建設(shè)[1]。目前我國(guó)各高校相繼開(kāi)展了心理健康普查工作,有關(guān)調(diào)查結(jié)果表明:大學(xué)生的心理健康狀況較差,經(jīng)常存在心理問(wèn)題的大學(xué)生約占總數(shù)的1/5,而有時(shí)有心理問(wèn)題者則高達(dá)2/3左右。常有孤獨(dú)感的大學(xué)生約占28.6%,少有孤獨(dú)感的約占31.7%,從未感到孤獨(dú)的學(xué)生幾乎沒(méi)有[2-4]。孤獨(dú)、消極的情緒如抑郁、自卑,會(huì)危害學(xué)生身心健康,影響學(xué)習(xí)、生活和就業(yè)發(fā)展。目前研究學(xué)生心理健康的論文大多采用調(diào)查問(wèn)卷的形式,得到的結(jié)果取決于被調(diào)查者的填寫(xiě)情況,不一定真實(shí)反映了其內(nèi)心的想法;并且問(wèn)卷調(diào)查的個(gè)案較少,較難保證每個(gè)學(xué)生都填寫(xiě)問(wèn)卷,不能很好反映總體。
2? 研究?jī)?nèi)容
各高校主要是通過(guò)新生入學(xué)時(shí)的心理疾病篩查、日常學(xué)生間的反饋和心理輔導(dǎo)站老師的心理訪談發(fā)現(xiàn)與解決學(xué)生心理健康問(wèn)題,出于保護(hù)隱私的考慮,大多高校的學(xué)生心理診斷結(jié)果及問(wèn)題名單并未公布,缺乏基礎(chǔ)數(shù)據(jù)源,心理健康的特征難以量化。
本文以華中師范大學(xué)為例,采集了2011~2015級(jí)共22448名本科生的學(xué)生基本信息(性別、民族、生源地、政治面貌、婚姻狀況、是否獨(dú)生子女等)、學(xué)籍信息(所在年級(jí)、院系、入學(xué)年月)、家庭經(jīng)濟(jì)情況(是否低保、家庭類(lèi)別、家庭人口、家庭收入來(lái)源等)、畢業(yè)生求職信息(是否就業(yè)、就業(yè)年度)、學(xué)習(xí)成績(jī)信息(課程成績(jī)、學(xué)分)、獎(jiǎng)學(xué)金信息(獎(jiǎng)學(xué)金次數(shù)及金額)、榮譽(yù)獎(jiǎng)勵(lì)信息(次數(shù))、圖書(shū)借閱信息(借閱數(shù)量)、一卡通消費(fèi)信息、圖書(shū)館門(mén)禁信息十大數(shù)據(jù),其中2011~2014級(jí)的本科生17828人,1127人未就業(yè)。本文尋找孤獨(dú)的人,孤獨(dú)特征難以定義,直接尋找難度較大,研究思路采用排除法,先找出不孤獨(dú)的人,再用全體減去不孤獨(dú)的人,即是孤獨(dú)的人,再去驗(yàn)證。
不孤獨(dú)即朋友關(guān)系多,有朋友一起吃飯、一起去圖書(shū)館,用數(shù)據(jù)特征表示即是同一食堂刷卡時(shí)間接近且次數(shù)較多、進(jìn)入圖書(shū)館刷卡時(shí)間接近且次數(shù)較多。如果刷卡時(shí)間接近的定義過(guò)大則會(huì)導(dǎo)致朋友關(guān)系網(wǎng)過(guò)大、計(jì)算量太大;如果刷卡時(shí)間接近的定義過(guò)小則會(huì)導(dǎo)致朋友關(guān)系網(wǎng)較小,過(guò)濾了原本是朋友的人;考慮日常的實(shí)際食堂消費(fèi)情況,一起去同一食堂可能不同窗口刷卡,刷卡時(shí)間相差不會(huì)太大,故本文將刷卡時(shí)間接近定義為5分鐘內(nèi)。
2.1? 數(shù)據(jù)處理
一卡通消費(fèi)信息每月約200萬(wàn)條明細(xì)數(shù)據(jù),計(jì)算同一食堂任意兩個(gè)刷卡時(shí)間在5分鐘內(nèi)的學(xué)生人數(shù)的記錄數(shù)較多,因數(shù)據(jù)量較大,選取每個(gè)年級(jí)在大三4、5、6三個(gè)月的消費(fèi)記錄作為樣本數(shù)據(jù),尋找消費(fèi)朋友關(guān)系網(wǎng)。2011級(jí)學(xué)生對(duì)應(yīng)的是2014年4、5、6三個(gè)月消費(fèi)關(guān)系明細(xì),2012級(jí)學(xué)生對(duì)應(yīng)的是2015年4、5、6三個(gè)月消費(fèi)關(guān)系明細(xì),2013級(jí)學(xué)生對(duì)應(yīng)的是2016年4、5、6三個(gè)月消費(fèi)關(guān)系明細(xì),2014級(jí)學(xué)生對(duì)應(yīng)的是2017年4、5、6三個(gè)月消費(fèi)關(guān)系明細(xì),2015級(jí)學(xué)生對(duì)應(yīng)的是2018年4、5、6三個(gè)月消費(fèi)關(guān)系明細(xì)。消費(fèi)關(guān)系明細(xì)表結(jié)構(gòu)如圖1所示,xny代表每月,xh1代表2011級(jí)的某個(gè)學(xué)生,time1代表xh1學(xué)生的消費(fèi)刷卡時(shí)間,xh2代表與xh1消費(fèi)時(shí)間5分鐘內(nèi)的所有學(xué)生,time2代表另一學(xué)生的消費(fèi)刷卡時(shí)間且與time1相隔5分鐘之內(nèi),st代表食堂編號(hào)。
基于此消費(fèi)關(guān)系明細(xì)表統(tǒng)計(jì)每個(gè)食堂的相遇關(guān)系,即統(tǒng)計(jì)兩兩相遇的次數(shù)及在該食堂消費(fèi)的總次數(shù)。再將各食堂的相遇關(guān)系明細(xì)取相遇次數(shù)大于10的,unionall得到總消費(fèi)次數(shù)表,再按xh1、xh2分組求和,形成食堂消費(fèi)的朋友圈關(guān)系,如圖2所示。
基于此方法同樣可以得到圖書(shū)館的朋友圈關(guān)系。
2.2? 數(shù)據(jù)分析
根據(jù)得到的食堂消費(fèi)的朋友關(guān)系表和圖書(shū)館的朋友關(guān)系表,隨意挑選幾組學(xué)生數(shù)據(jù),通過(guò)其基本信息聯(lián)系其輔導(dǎo)員及同年級(jí)學(xué)生,分析并驗(yàn)證是否是真的朋友關(guān)系。
學(xué)生2013****62與學(xué)生2013****56,圖書(shū)館相遇273次,同一食堂相遇次數(shù)149次。通過(guò)學(xué)生基本表找出兩個(gè)人的特征如圖3所示,這兩個(gè)女同學(xué)都來(lái)自經(jīng)濟(jì)與工商管理學(xué)院,平均學(xué)分績(jī)都很高,都得了兩次獎(jiǎng)學(xué)金,一個(gè)7000元,一個(gè)4000元。一個(gè)是群眾,一個(gè)是共產(chǎn)黨員,都是漢族,都來(lái)自于城鎮(zhèn)。一個(gè)是福建人,一個(gè)是湖北人。都順利就業(yè)。
學(xué)生2012****51與學(xué)生2012****94,同一食堂相遇次數(shù)213次,圖書(shū)館相遇22次。通過(guò)學(xué)生基本表找出兩個(gè)人的特征,發(fā)現(xiàn)這兩個(gè)學(xué)生都來(lái)自社會(huì)學(xué)院,都得了兩次獎(jiǎng)學(xué)金,都是2000元。一個(gè)是群眾,一個(gè)是共產(chǎn)黨員,都是漢族,來(lái)自于非貧困縣和城鎮(zhèn)(都不是來(lái)自農(nóng)村或大城市的)。一個(gè)是河北人,一個(gè)是山東人。都順利就業(yè)。
學(xué)號(hào)2014****58與2014****81,同一食堂相遇次數(shù)134次,圖書(shū)館相遇20次。發(fā)現(xiàn)這兩個(gè)學(xué)生都來(lái)自計(jì)算機(jī)學(xué)院,都是漢族,一男一女,平均學(xué)分績(jī)都不高,一個(gè)78.15,一個(gè)75.72,兩個(gè)人都沒(méi)有順利就業(yè)。經(jīng)輔導(dǎo)員驗(yàn)證,確實(shí)為男女朋友。
經(jīng)驗(yàn)證,以上隨機(jī)挑選的三組朋友關(guān)系,均確實(shí)屬于真正的朋友關(guān)系。再回到本項(xiàng)目中,采用排除法,尋找孤獨(dú)的人。以2011~2014級(jí)全體本科生作為樣本數(shù)據(jù),共17828人,有食堂消費(fèi)朋友關(guān)系表的有20585人,有圖書(shū)館的朋友圈關(guān)系表的有43840人(此處兩個(gè)數(shù)字均大于樣本數(shù)據(jù)17828,是因?yàn)榘凑涨拔奶岬降臄?shù)據(jù)處理原則,2011~2014級(jí)的全體本科生作為xh1,xh2可為符合刷卡時(shí)間范圍內(nèi)的全校師生,并不局限于同年級(jí)的學(xué)生),食堂消費(fèi)朋友關(guān)系與圖書(shū)館的朋友圈關(guān)系取交集得到朋友較多的有15312人,既不在食堂消費(fèi)朋友關(guān)系表中,也不在圖書(shū)館的朋友圈關(guān)系表中的有1932人。具體如圖4所示。
關(guān)聯(lián)學(xué)生的就業(yè)信息數(shù)據(jù),將疑似孤獨(dú)的學(xué)生1932人按年級(jí)性別查看學(xué)生分布概況,如表1所示,115人未就業(yè),未就業(yè)率5.95%。其中2011級(jí)疑似孤獨(dú)的學(xué)生就有1194人,占一半以上,但華中師范大學(xué)圖書(shū)館是2015年4月才安裝門(mén)禁的,也就是說(shuō)門(mén)禁數(shù)據(jù)是2015年4月以后才有的,而按照前面的規(guī)則,2011級(jí)大三時(shí)應(yīng)對(duì)應(yīng)2014年的門(mén)禁數(shù)據(jù),故2011級(jí)學(xué)生的圖書(shū)館朋友圈關(guān)系可能不準(zhǔn)確。將2011級(jí)的孤獨(dú)人數(shù)1194人減掉還剩738人,其中76人未順利就業(yè),未就業(yè)率10.30%。而朋友關(guān)系較多的15312人中只有608人未順利就業(yè),未就業(yè)率3.97%??傻玫浇Y(jié)論:朋友關(guān)系較少的學(xué)生未就業(yè)率高于朋友關(guān)系多的學(xué)生。
2.3? 數(shù)據(jù)驗(yàn)證
通過(guò)食堂消費(fèi)朋友關(guān)系與圖書(shū)館的朋友關(guān)系可以得出朋友關(guān)系少的學(xué)生名單,關(guān)聯(lián)學(xué)生就業(yè)數(shù)據(jù)可以得出朋友關(guān)系少的就業(yè)失敗可能性高于朋友關(guān)系多的結(jié)論,但如果能通過(guò)算法正面驗(yàn)證就業(yè)失敗有哪些影響因素,則可能更有利于證明結(jié)論的可信性。
通過(guò)前面的收集的樣本數(shù)據(jù),2011~2014級(jí)四年的本科學(xué)生名單17828人,1127人未就業(yè)。將就業(yè)是否成功作為目標(biāo)變量,將25個(gè)指標(biāo)(性別、民族、生源地、國(guó)籍地區(qū)、政治面貌、婚姻狀況、所在年級(jí)、院系、入學(xué)年月、是否低保、家庭類(lèi)別、家庭人口、家庭人均收入、人均月收入、家庭主要收入來(lái)源、畢業(yè)年度、總成績(jī)、總學(xué)分、獎(jiǎng)學(xué)金次數(shù)及金額、榮譽(yù)獎(jiǎng)勵(lì)次數(shù)、圖書(shū)借閱數(shù)量、一卡通消費(fèi)次數(shù)及金額信息、圖書(shū)館門(mén)禁次數(shù))作為自變量,使用決策樹(shù)模型,找出哪些指標(biāo)是影響就業(yè)成功的因素。
決策樹(shù)是機(jī)器學(xué)習(xí)中常見(jiàn)的一種用于分類(lèi)和回歸的非參數(shù)監(jiān)督學(xué)習(xí)方法,目標(biāo)是創(chuàng)建一個(gè)模型,通過(guò)從數(shù)據(jù)特性中推導(dǎo)出簡(jiǎn)單的決策規(guī)則來(lái)預(yù)測(cè)目標(biāo)變量的值。決策樹(shù)便于說(shuō)明和理解,樹(shù)可以可視化表達(dá);需要的數(shù)據(jù)準(zhǔn)備不太難。故本項(xiàng)目使用python的機(jī)器學(xué)習(xí)算法庫(kù)scikit-learn中的DecisionTreeClassifier算法。
調(diào)用算法之前,我們把數(shù)據(jù)隨機(jī)分為訓(xùn)練集和測(cè)試集,采用train_test_split隨機(jī)劃分函數(shù),訓(xùn)練集的數(shù)據(jù)主要用于構(gòu)造決策樹(shù),測(cè)試集主要用于計(jì)算錯(cuò)誤率,看分析訓(xùn)練后的決策樹(shù)模型能不能使用。
決策樹(shù)數(shù)據(jù)模型中樹(shù)的最大深度是一個(gè)關(guān)鍵參數(shù),深度設(shè)置較小,會(huì)導(dǎo)致欠擬合,訓(xùn)練集的錯(cuò)誤率較高;深度設(shè)置較大,會(huì)導(dǎo)致過(guò)擬合,訓(xùn)練集的正確率很高,但測(cè)試集的錯(cuò)誤率較高。想要較好地調(diào)研決策樹(shù)分類(lèi)算法,首先需要找到一個(gè)合適的max_depth值。
將最大深度設(shè)為1~40,計(jì)算每個(gè)值的預(yù)測(cè)情況并畫(huà)圖,所得結(jié)果如圖5所示。
根據(jù)圖5,選取max_depth=21,再進(jìn)行模型訓(xùn)練,計(jì)算每個(gè)指標(biāo)對(duì)目標(biāo)變量的影響力。得到訓(xùn)練集準(zhǔn)確率0.9859,測(cè)試集準(zhǔn)確率0.8937,以及每一個(gè)指標(biāo)對(duì)目標(biāo)變量的影響力。如圖6所示,發(fā)現(xiàn)deal_cs、deal_money、tsg_cs、tsg_ jybs(消費(fèi)次數(shù)、消費(fèi)金額、進(jìn)入圖書(shū)館次數(shù)、圖書(shū)借閱本數(shù))四個(gè)指標(biāo)對(duì)就業(yè)是否成功的影響力相對(duì)較大,其次是zcj、zxf(總成績(jī)、總學(xué)分)。再次驗(yàn)證了之前的結(jié)論,就業(yè)失敗可能性與消費(fèi)關(guān)系及圖書(shū)館關(guān)系有相關(guān)性。
3? 應(yīng)用與驗(yàn)證研究
預(yù)測(cè)2015級(jí)本科生情況(總4620人),首先找出不在消費(fèi)朋友關(guān)系表和圖書(shū)館朋友關(guān)系表中的名單,有500人,可得到疑似孤獨(dú)者名單。再用這500人名單用之前訓(xùn)練的決策樹(shù)模型去預(yù)測(cè)就業(yè)失敗的人數(shù),發(fā)現(xiàn)基于此模型,有153人會(huì)就業(yè)失敗,可被認(rèn)為是重點(diǎn)關(guān)注孤獨(dú)對(duì)象。為了實(shí)際驗(yàn)證模型的準(zhǔn)確性,將153人按院系進(jìn)行分布,其中計(jì)算機(jī)學(xué)院有11人,經(jīng)輔導(dǎo)員與同學(xué)反饋,其中1人是2014級(jí)降級(jí)下來(lái)的,另10人中有2人確實(shí)存在某些問(wèn)題,其余8人不明顯。
本項(xiàng)目研究主要采用的是校內(nèi)數(shù)據(jù),如果吃飯作息規(guī)律與一般人不同的,比如點(diǎn)外賣(mài),外賣(mài)網(wǎng)絡(luò)數(shù)據(jù)暫時(shí)獲取不到,可能也會(huì)被該模型列為孤獨(dú)者名單。本項(xiàng)目的研究目的是通過(guò)大數(shù)據(jù)客觀找出孤獨(dú)者名單,幫助校方盡可能大范圍地為學(xué)生提供心理及就業(yè)幫扶,供學(xué)院領(lǐng)導(dǎo)決策并做出積極干預(yù)。
4? 結(jié)? 論
大數(shù)據(jù)給高校的學(xué)生管理工作帶來(lái)了機(jī)遇和挑戰(zhàn),完成對(duì)學(xué)生管理數(shù)據(jù)的采集和分析體系的建設(shè),才能科學(xué)地劃分學(xué)生群體。[5]本文通過(guò)數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)分析到數(shù)據(jù)驗(yàn)證等一系列環(huán)節(jié),充分利用一卡通消費(fèi)時(shí)間數(shù)據(jù)與門(mén)禁刷卡時(shí)間數(shù)據(jù),充分挖掘數(shù)據(jù)中的時(shí)間關(guān)系,找出朋友關(guān)系,再結(jié)合決策樹(shù)算法,得出了就業(yè)失敗的預(yù)測(cè)模型,為大數(shù)據(jù)時(shí)代的高校管理工作者提供了一個(gè)預(yù)警的解決思路。
參考文獻(xiàn):
[1] 中華人民共和國(guó)教育部.教育部辦公廳關(guān)于印發(fā)《普通高等學(xué)校學(xué)生心理健康教育工作基本建設(shè)標(biāo)準(zhǔn)(試行)》的通知 [A/OL].(2011-02-23).http://www.moe.gov.cn/srcsite/A12/moe_1407/s3020/201102/t20110223_115721.html.
[2] 郭晉武,佘雙好.大學(xué)生身心健康狀況調(diào)查的初步報(bào)告 [J].青年研究,1992(6):19-24.
[3] 鄭延芳,周慶云.大學(xué)生身心健康狀況及其影響因素研究 [J].現(xiàn)代預(yù)防醫(yī)學(xué),2008,35(24):4825-4827.
[4] 溫展明,張珂.大數(shù)據(jù)分析理念在高校學(xué)生工作中的應(yīng)用 [J].開(kāi)封教育學(xué)院學(xué)報(bào),2018,38(2):138-139.
[5] 單耀軍.大數(shù)據(jù)背景下高校學(xué)生管理信息化研究 [J].教育與職業(yè),2014(23):27-29.
作者簡(jiǎn)介:余琳(1988-),女,漢族,湖北武漢人,中級(jí)工程師,工學(xué)碩士,研究方向:大數(shù)據(jù)分析、數(shù)據(jù)治理、情報(bào)分析。