舒江波,葛 雄,彭利園,胡茜茜,劉三枒,2
(1.華中師范大學(xué)國(guó)家數(shù)字化學(xué)習(xí)工程技術(shù)研究中心,武漢 430079;2.華中師范大學(xué)教育大數(shù)據(jù)應(yīng)用技術(shù)國(guó)家工程實(shí)驗(yàn)室,武漢 430079)
21世紀(jì)以來,以大數(shù)據(jù)、云計(jì)算、人工智能為代表的新技術(shù)對(duì)教育的革新產(chǎn)生了深遠(yuǎn)的影響.大多數(shù)學(xué)者都認(rèn)為,大數(shù)據(jù)具有變革人類的教育方式與學(xué)習(xí)方式的能力[1-2].有學(xué)者將教育數(shù)據(jù)分成五層架構(gòu),由上到下分別是國(guó)家層、區(qū)域?qū)?、學(xué)校層、課程層和個(gè)體層教育數(shù)據(jù)[2].本文主要關(guān)注個(gè)體層教育數(shù)據(jù)中的學(xué)生個(gè)體類數(shù)據(jù),簡(jiǎn)稱學(xué)生個(gè)人大數(shù)據(jù).
學(xué)界在學(xué)生行為分析方面開展了大量研究.針對(duì)MOOCs平臺(tái)上高輟學(xué)率的問題,有研究者專門對(duì)學(xué)生在MOOCs平臺(tái)上形成的學(xué)習(xí)行為數(shù)據(jù)進(jìn)行分析,對(duì)輟學(xué)學(xué)生的類別進(jìn)行聚類,然后根據(jù)不同的類別進(jìn)行針對(duì)性的引導(dǎo)和干預(yù)[3].有學(xué)者對(duì)美國(guó)喬治梅森大學(xué)的學(xué)生成績(jī)進(jìn)行分析,通過對(duì)各學(xué)期已經(jīng)結(jié)束課程的成績(jī)的聚類分析,識(shí)別出有學(xué)業(yè)危機(jī)的學(xué)生,再通過建立模型來預(yù)測(cè)這部分學(xué)生后續(xù)課程的成績(jī),達(dá)到提前預(yù)警的效果[4].張其亮等通過對(duì)翻轉(zhuǎn)課堂教學(xué)模式進(jìn)行研究,指出混合式教學(xué)能夠幫助學(xué)生取得最優(yōu)化的學(xué)習(xí)效果[5].劉智等以華中師范大學(xué)云課堂平臺(tái)的論壇數(shù)據(jù)為分析對(duì)象,研究學(xué)習(xí)過程中互動(dòng)話語行為與學(xué)習(xí)成效的關(guān)系,結(jié)果表明,學(xué)習(xí)者的互動(dòng)話語行為表現(xiàn)與其學(xué)習(xí)成效存在著正相關(guān)性[6],且不同年級(jí)的學(xué)習(xí)者線上學(xué)習(xí)行為存在差異性[7].呂紅胤等通過分析學(xué)生消費(fèi)信息,研究學(xué)生消費(fèi)行為與學(xué)生努力程度、生活規(guī)律性和社交性三個(gè)指標(biāo)的關(guān)聯(lián)關(guān)系,并基于這三個(gè)指標(biāo)預(yù)測(cè)學(xué)生成績(jī)[8].
高校大學(xué)生每天都會(huì)在學(xué)校各個(gè)業(yè)務(wù)系統(tǒng)產(chǎn)生海量的行為記錄數(shù)據(jù).這些學(xué)生行為數(shù)據(jù)中,不僅包括學(xué)生基礎(chǔ)信息類數(shù)據(jù)、在線學(xué)習(xí)數(shù)據(jù),還包括豐富的生活類數(shù)據(jù)和成長(zhǎng)記錄類數(shù)據(jù).從學(xué)生的行為數(shù)據(jù),可以分析出高校學(xué)生的學(xué)習(xí)習(xí)慣、生活規(guī)律和成長(zhǎng)變化軌跡[9-10].
本文以高校學(xué)生日常行為表現(xiàn)為出發(fā)點(diǎn),構(gòu)建學(xué)生個(gè)人大數(shù)據(jù)分析模型,并重點(diǎn)研究飲食習(xí)慣與學(xué)業(yè)成績(jī)兩個(gè)維度的特征表現(xiàn),探究?jī)?yōu)秀學(xué)生在校期間學(xué)習(xí)行為表現(xiàn)特征和生活規(guī)律,以期達(dá)到為學(xué)生自我發(fā)展提供借鑒,以及增強(qiáng)學(xué)校感知學(xué)生群體日常學(xué)習(xí)生活隱性行為表現(xiàn)新特點(diǎn)的能力.
本文主要從學(xué)生基本信息、在校學(xué)習(xí)、校園生活、畢業(yè)與就業(yè)信息四個(gè)層面對(duì)學(xué)生數(shù)據(jù)進(jìn)行歸類、特征提取,如圖1所示.
圖1 學(xué)生個(gè)人大數(shù)據(jù)分析模型Fig.1 Data analysis model of students’ personal big data
通過對(duì)學(xué)生各類數(shù)據(jù)的匯總研究,發(fā)現(xiàn)一卡通消費(fèi)、在線學(xué)習(xí)兩大類數(shù)據(jù)的活性最高,故分別對(duì)以上兩大類數(shù)據(jù)進(jìn)行深入的分析建模.
1) 就餐時(shí)間段劃分和餐別定義
學(xué)校一般以學(xué)生早、中、晚三餐就餐情況的表現(xiàn)來分析其飲食規(guī)律.本文認(rèn)為,常規(guī)的早餐、午餐和晚餐的劃分標(biāo)準(zhǔn)粒度較粗,且與大學(xué)生活作息不完全相符,學(xué)生在這三個(gè)餐次的表現(xiàn)并不能全面刻畫學(xué)生的飲食規(guī)律,故提出就餐時(shí)間段和餐別類型的概念,如表1所示.
表1 餐別劃分表Tab.1 Meal dividing table
2) 就餐時(shí)間穩(wěn)定系數(shù)
就餐時(shí)間穩(wěn)定系數(shù)是對(duì)學(xué)生年度就餐時(shí)間穩(wěn)定性的描述,記為λ,計(jì)算方式如下:
(1)
其中,MTsdi表示第i個(gè)餐別就餐時(shí)間的標(biāo)準(zhǔn)差,其計(jì)算方法如下面公式(2)所示;Nmi表示第i個(gè)餐別就餐總次數(shù);n表示餐別種類,本文取值為6.
(2)
3) 學(xué)生早起系數(shù)
學(xué)生早起系數(shù)是描述學(xué)生早起狀態(tài)的指標(biāo),記為Vbre.計(jì)算方式如下:
(3)
4) 窗口選擇穩(wěn)定度
窗口選擇穩(wěn)定度是對(duì)就餐窗口選擇的多樣化描述,記為MTCL,計(jì)算方式如下:
(4)
5) 年度早餐就餐率&年度正餐就餐率
學(xué)生年度早餐就餐率和學(xué)生年度正餐就餐率是對(duì)學(xué)生飲食習(xí)慣在就餐頻次上的描述,分別記為Rb和R.計(jì)算公式分別如公式(5)和公式(6)所示.
(5)
(6)
其中,Nb表示學(xué)生在不同學(xué)年的早餐就餐數(shù),Nd表示學(xué)年總天數(shù);Ngm表示每人每學(xué)年度在早餐、午餐和晚餐就餐總次數(shù);Nbm表示每人每學(xué)年度在早中飯、下午茶、夜宵三餐就餐總次數(shù);Nmax表示不同年級(jí)每學(xué)年的就餐餐次最大值;Nmin表示不同年級(jí)每學(xué)年的就餐餐次最小值.
6) 就餐消費(fèi)水平和就餐消費(fèi)穩(wěn)定度
就餐消費(fèi)水平指標(biāo)是對(duì)學(xué)生就餐費(fèi)用多少的描述,記為RCL,計(jì)算方式如下:
(7)
就餐消費(fèi)穩(wěn)定度是消費(fèi)金額波動(dòng)程度的描述,記為RCS,計(jì)算方式如下:
(8)
學(xué)生年度學(xué)業(yè)表現(xiàn)優(yōu)秀度G,計(jì)算如下:
(9)
其中,Gi表示某學(xué)生在第i門課程中的學(xué)業(yè)表現(xiàn)優(yōu)秀度,計(jì)算公式如下面公式(10)所示;Fi表示某學(xué)生第i門課程的學(xué)分值;n表示某學(xué)生年度選修的課程總數(shù).
(10)
其中,Ri表示某學(xué)生在第i門課程中的成績(jī)排名;Si表示第i門課程的班級(jí)人數(shù).
本文選擇基于Hadoop處理框架搭建實(shí)驗(yàn)環(huán)境,且實(shí)驗(yàn)平臺(tái)選擇在阿里云ECS服務(wù)器(ubuntu 16.04)上搭建.實(shí)驗(yàn)平臺(tái)架構(gòu)如圖2所示.
圖2 大數(shù)據(jù)分析實(shí)驗(yàn)平臺(tái)架構(gòu)Fig.2 Architecture of large data analysis experimental platform
本次實(shí)驗(yàn)一共采集到了學(xué)生基本信息、成績(jī)信息、一卡通消費(fèi)信息三大類數(shù)據(jù)集,時(shí)間跨度為2014學(xué)年至2016學(xué)年,共計(jì)17 899名學(xué)生.
1) 學(xué)生整體就餐時(shí)間分布
從餐廳連續(xù)三個(gè)學(xué)年度四個(gè)年級(jí)學(xué)生的刷卡數(shù)據(jù)來看,大一學(xué)生就餐人次較高,消費(fèi)人次為220萬左右;大二、大三學(xué)生就餐人次次之,消費(fèi)人次為180萬左右;大四學(xué)生就餐人次最低,消費(fèi)人次為106萬左右.各年級(jí)學(xué)生年度刷卡記錄如圖3所示.
從2013級(jí)學(xué)生和2014級(jí)學(xué)生連續(xù)三年在餐廳不同時(shí)段的刷卡頻次來看,高峰時(shí)間段[8,9]、[12,13]、[18,19],如圖4和圖5所示.
對(duì)2014級(jí)學(xué)生整體在一天之中的就餐時(shí)段分布,以及對(duì)三個(gè)學(xué)年就餐頻次進(jìn)行對(duì)比分析,發(fā)現(xiàn)存在如下特點(diǎn).
①?gòu)脑绮?、午餐、晚餐就餐“高峰期”的前一個(gè)小時(shí)開始,餐廳會(huì)有一個(gè)“小高峰期”.
②中午學(xué)生用餐時(shí)間相對(duì)集中,但早晚餐用餐時(shí)間分布比較分散.此外,午餐和晚餐的“衰減期”比較“陡峻”,而早餐的“衰減期”比較“平緩”.
圖3 不同年級(jí)、學(xué)年餐廳就餐總?cè)舜蜦ig.3 The total number of meals in different grades and school years
圖4 2013級(jí)學(xué)生在各學(xué)年的就餐人次和時(shí)間分布圖Fig.4 Distribution map of dinner number and time of class 2013 students in each school year
圖5 2014級(jí)學(xué)生在各學(xué)年的就餐人次和時(shí)間分布圖Fig.5 Distribution map of dinner number and time of class 2014 students in each school year
從不同時(shí)期學(xué)生就餐頻次來看,大一新生的早餐“高峰期”比其他年級(jí)提前一個(gè)小時(shí),在[7,8]之間出現(xiàn).
2) 學(xué)生整體用餐地點(diǎn)與窗口選擇
從用餐地點(diǎn)來看,用餐頻次最高的餐廳依次為東一食堂、學(xué)子餐廳和桂香園餐廳.而且,上述三個(gè)餐廳,2013級(jí)至2016級(jí)的學(xué)生在每一個(gè)餐廳就餐的頻次隨著年級(jí)的增長(zhǎng)而依次減少,如圖6所示.
通過對(duì)2014級(jí)、2015級(jí)、2016級(jí)這三個(gè)年級(jí)學(xué)生在大一期間整體用餐頻次進(jìn)行對(duì)比,發(fā)現(xiàn)三個(gè)年級(jí)學(xué)生大一期間在餐廳就餐次數(shù)隨著年級(jí)的增長(zhǎng)整體上呈下降的趨勢(shì),尤其是2014級(jí)與2016級(jí)學(xué)生之間在就餐頻次最高的那三個(gè)餐廳上表現(xiàn)比較明顯,如圖7所示.
通過對(duì)2014級(jí)學(xué)生大一期間在各餐廳或食堂窗口的就餐頻次分布進(jìn)行分析,發(fā)現(xiàn)學(xué)生整體就餐過的窗口數(shù)多達(dá)170個(gè),且有4個(gè)窗口的就餐人次超過100 000人次.雖然絕大多數(shù)學(xué)生都會(huì)在多個(gè)窗口用餐,但這些學(xué)生在受歡迎度較高的窗口就餐的頻率也更高一些,如圖8所示.
圖6 2013~2016級(jí)各餐廳就餐頻次分布Fig.6 Distribution of dining frequency in grade 2013-2016 restaurants
圖7 2014~2016級(jí)大一期間各餐廳就餐頻次分布Fig.7 Frequent distribution of meals in restaurants during the 2014-2016 freshman year
圖8 2014級(jí)學(xué)生整體大一期間在各窗口就餐的頻次分布Fig.8 Frequency distribution of freshmen’s dining in all windows during the whole freshman period of grade 2014
3) 學(xué)生飲食規(guī)律分析
為探究大學(xué)生在校飲食規(guī)律特征,本文主要對(duì)學(xué)生就餐行為指標(biāo)中的早餐就餐率和正餐就餐率進(jìn)行聚類分析,按照聚類結(jié)果為學(xué)生添加飲食是否規(guī)律的分類特征指標(biāo).
按照學(xué)生早餐和正餐的就餐率,將學(xué)生飲食規(guī)律等級(jí)聚為兩類,第一類標(biāo)記為“飲食不規(guī)律”,表示早餐和正餐就餐率較低;第二類標(biāo)記為“飲食規(guī)律”,表示早餐和正餐就餐率較高,聚類結(jié)果如圖9所示.
圖9 飲食規(guī)律Fig.9 Dietary pattern
4) 學(xué)生飲食消費(fèi)水平分析
為探究大學(xué)生在校群體餐飲消費(fèi)水平特征,本文對(duì)學(xué)生就餐消費(fèi)水平、就餐消費(fèi)水平穩(wěn)定度進(jìn)行聚類分析,按照聚類結(jié)果為學(xué)生添加消費(fèi)水平高低的分類特征指標(biāo).
按照學(xué)生年度就餐消費(fèi)金額和消費(fèi)波動(dòng)情況,可將學(xué)生飲食消費(fèi)水平劃分為六類,如圖10所示.其中,消費(fèi)水平類別1至6的含義分別為:“偏高且穩(wěn)定性適中”“偏低且穩(wěn)定性較差”“正常且穩(wěn)定性較好”“偏高且穩(wěn)定性較好”“偏低且穩(wěn)定性較好”“偏高且穩(wěn)定性較差”.
圖10 飲食消費(fèi)水平Fig.10 Dining consumption level
3.2.1 連續(xù)型行為指標(biāo)與學(xué)業(yè)表現(xiàn)
1)各行為指標(biāo)與學(xué)業(yè)表現(xiàn)的相關(guān)性分析
通過對(duì)早餐就餐率、正餐就餐率、飲食消費(fèi)水平飲食消費(fèi)穩(wěn)定度等行為指標(biāo)與學(xué)生學(xué)業(yè)成績(jī)進(jìn)行相關(guān)性分析,發(fā)現(xiàn)學(xué)業(yè)成績(jī)與早餐就餐率、正餐就餐率、飲食消費(fèi)水平、就餐時(shí)間穩(wěn)定性等指標(biāo)的相關(guān)性較強(qiáng),如圖11所示.
2)各行為指標(biāo)之間的相關(guān)性分析
通過對(duì)早餐就餐率、正餐就餐率、飲食消費(fèi)水平飲食消費(fèi)穩(wěn)定度等行為指標(biāo)之間的相關(guān)性進(jìn)行分析,發(fā)現(xiàn)兩個(gè)規(guī)律.
①早餐就餐率與正餐就餐率呈正相關(guān),且相關(guān)系數(shù)值較大,說明學(xué)生早餐越規(guī)律,飲食就越規(guī)律,在正餐用餐的概率就越大,并且在非主餐別用餐的概率就越小.
②飲食消費(fèi)水平和飲食消費(fèi)穩(wěn)定度呈正相關(guān),表明學(xué)生在校飲食消費(fèi)水平越高,其用餐的穩(wěn)定性就越強(qiáng);相反,學(xué)生在校飲食消費(fèi)水平越低,其用餐的穩(wěn)定性就越弱,飲食不規(guī)律的概率就大.
圖11 部分變量相關(guān)關(guān)系矩陣圖Fig.11 Partial variable correlation matrix graph
3.2.2 分類型行為指標(biāo)與學(xué)業(yè)表現(xiàn)
1)飲食規(guī)律性與學(xué)業(yè)表現(xiàn)的關(guān)聯(lián)性
通過對(duì)學(xué)生的飲食規(guī)律性進(jìn)行標(biāo)記,并結(jié)合其平均學(xué)分績(jī),構(gòu)造出三元組{<學(xué)生、飲食規(guī)律性特征、平均學(xué)分績(jī)>}的數(shù)據(jù)集.通過對(duì)此數(shù)據(jù)集進(jìn)行關(guān)聯(lián)分析,得出不同飲食規(guī)律等級(jí)對(duì)學(xué)業(yè)表現(xiàn)的影響,結(jié)果如圖12所示.
從圖12可以看出,學(xué)生飲食越規(guī)律,學(xué)生學(xué)業(yè)成績(jī)表現(xiàn)越好,學(xué)業(yè)表現(xiàn)穩(wěn)定度越高.
通過對(duì)飲食規(guī)律性的數(shù)據(jù)分析,發(fā)現(xiàn)高校女生的早餐就餐率比男生高,如圖13所示.
另外,隨著年級(jí)的增長(zhǎng),學(xué)生早餐就餐率逐年降低,圖14反映了大一至大四期間學(xué)生早餐就餐率的變化.
圖12 飲食是否規(guī)律對(duì)學(xué)業(yè)成績(jī)表現(xiàn)的影響Fig.12 The effect of regularity of diet on academic performance
圖13 性別對(duì)早餐就餐率的影響Fig.13 The influence of gender on breakfast rate
圖14 學(xué)段在早餐就餐率的表現(xiàn)Fig.14 The performanceof school period on breakfast rate
2)消費(fèi)行為和學(xué)業(yè)表現(xiàn)的關(guān)聯(lián)性
消費(fèi)行為主要考察學(xué)生飲食消費(fèi)水平和飲食消費(fèi)水平的穩(wěn)定性.
圖15反映了6類消費(fèi)行為特征的學(xué)生與其學(xué)業(yè)表現(xiàn)的對(duì)應(yīng)關(guān)系.從圖15可以看出,學(xué)生消費(fèi)行為與學(xué)業(yè)成績(jī)表現(xiàn)并沒有較大關(guān)聯(lián).
通過學(xué)生個(gè)人大數(shù)據(jù)的行為特征分析,客觀地展示了學(xué)生的群體特征.這些特征可以為學(xué)校管理者優(yōu)化管理服務(wù)或制定管理制度提供決策支持.例如,根據(jù)學(xué)生一卡通消費(fèi)特征,學(xué)校管理者可以合理設(shè)定食堂的窗口設(shè)置和開放時(shí)間,既滿足學(xué)生的用餐需求和飲食喜好,又節(jié)約管理成本和水電資源.根據(jù)圖書館的進(jìn)出特征、圖書借閱特征以及學(xué)生上網(wǎng)搜索學(xué)術(shù)資料的特征,學(xué)校可以加強(qiáng)圖書館在高峰期的管理預(yù)警,優(yōu)化圖書和電子期刊或?qū)W術(shù)數(shù)據(jù)庫(kù)的資金分配.根據(jù)學(xué)生上網(wǎng)地點(diǎn)的流量特征,學(xué)??梢詢?yōu)化網(wǎng)絡(luò)熱點(diǎn)或基站的布局.
圖15 消費(fèi)行為對(duì)學(xué)業(yè)成績(jī)表現(xiàn)的影響Fig.15 The impact of consumption level on academic performance
大數(shù)據(jù)的價(jià)值體現(xiàn)在“用”上.如何在以生為本的指導(dǎo)思想下,充分利用學(xué)生個(gè)人大數(shù)據(jù),進(jìn)一步分析和挖掘?qū)W生各個(gè)維度的行為特征,為學(xué)生的學(xué)習(xí)、生活、就業(yè)提供更優(yōu)的管理和服務(wù),需要高校管理者積極思考和實(shí)踐.