楊杉
摘要:根據(jù)四川省某高校在校學(xué)生的一卡通數(shù)據(jù)、教務(wù)系統(tǒng)數(shù)據(jù)、圖書館數(shù)據(jù),將學(xué)生分為理工科類、文科類、藝術(shù)類三個類別,分別對這三類學(xué)生的消費(fèi)、學(xué)習(xí)、晚歸等情況做出了全面的分析,通過多維數(shù)據(jù)交叉對比,將數(shù)據(jù)進(jìn)行重組并創(chuàng)新性地應(yīng)用于學(xué)生分類培養(yǎng)和教學(xué)管理中,為高校的辦學(xué)質(zhì)量的改進(jìn)和提高提供了有效的數(shù)據(jù)支撐,也為高校進(jìn)行個性化教育提供了借鑒。
關(guān)鍵詞:大數(shù)據(jù);分類培養(yǎng);個性化教育;數(shù)據(jù)分析;教學(xué)管理
中圖分類號:G642 ? ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)34-0148-05
Abstract: Based on card data, teaching system data, and library data of students in a college in Sichuan Province, this paper divides students into three categories: science and engineering, liberal and art. The three types of students are consumed and studied respectively. A comprehensive analysis was made on the situation of consumption, study, and late return. Through multi-dimensional data cross-contrast, the data was reorganized and creatively applied to the classification training and management of students, which provided data support for the improvement of the quality of running colleges and universities. In addition, it provides a personalized education reference for college.
Keywords: big data;classified training;personalized education;data analysis;teaching management
1 引言
隨著教育事業(yè)日新月異的發(fā)展,科學(xué)有效地提高高校的教學(xué)質(zhì)量,有針對性地培養(yǎng)社會需要的各類人才是高校面臨的一大重要問題。利用大數(shù)據(jù)技術(shù)[1],通過全面細(xì)致的數(shù)據(jù)分析和數(shù)據(jù)挖掘,一方面可以幫助高校教師更好地了解學(xué)生的特點(diǎn)及情況,對學(xué)生實(shí)施行之有效的個性化教育和培養(yǎng),完善自己的教學(xué)管理方法,提升自己的工作能力[2],另一方面也有利于學(xué)校清晰地了解到當(dāng)前在校學(xué)生的實(shí)際情況和學(xué)校教育管理中存在的問題,為學(xué)生創(chuàng)造一個更優(yōu)越的學(xué)習(xí)環(huán)境,完善學(xué)校的教學(xué)管理制度和教學(xué)管理環(huán)境[3]。
本文以四川省某高校在校學(xué)生2013.01.01~2019.12.31的一卡通數(shù)據(jù)、教務(wù)系統(tǒng)數(shù)據(jù)、圖書館數(shù)據(jù)為依托,將學(xué)生分為理工科類、文科類、藝術(shù)類三個類別,進(jìn)行了全面的數(shù)據(jù)分析,針對學(xué)生分類培養(yǎng)和管理給出了有價值的結(jié)論和建議。
2 數(shù)據(jù)準(zhǔn)備
2.1數(shù)據(jù)來源
數(shù)據(jù)來源于四川省某高校在校學(xué)生2013.01.01~2019.12.31的一卡通、圖書館、教務(wù)系統(tǒng)數(shù)據(jù),原始數(shù)據(jù)9000余萬條。
2.2數(shù)據(jù)清洗
利用該高校計算機(jī)學(xué)院云計算平臺的HADOOP集群進(jìn)行數(shù)據(jù)清洗,清洗步驟如下:
(1)從學(xué)校教務(wù)處、圖書館、后勤處等部門獲得原始數(shù)據(jù)17G,98061839條;
(2)在云平臺上采用SHELL腳本方案對數(shù)據(jù)進(jìn)行初步清理,去除本次分析暫不涉及的字段、刪除不合法數(shù)據(jù)、完成特殊數(shù)據(jù)轉(zhuǎn)換;
(3)在HADOOP集群平臺上,采用MAP/REDUCE技術(shù)[4-6],完成數(shù)據(jù)的拼接、計數(shù)、邏輯篩選、排序等功能[7-8];
(4)MAP/REDUCE過程中采用“學(xué)號+年份”作為KEY,根據(jù)各個文件的內(nèi)容作為對應(yīng)的VALUE并增加對應(yīng)關(guān)鍵字,在REDUCE根據(jù)VALUE的關(guān)鍵字完成數(shù)據(jù)按格式輸出到分布式文件系統(tǒng)HDFS上;
(5)按照數(shù)據(jù)分析組的格式要求將數(shù)據(jù)從分布式文件系統(tǒng)HDFS從下載到本地,最終完成數(shù)據(jù)交互。
3 數(shù)據(jù)分析
3.1理工科類學(xué)生的數(shù)據(jù)分析
對理工科學(xué)生的圖書館借書量、平均成績、年飯卡消費(fèi)額、22點(diǎn)和23點(diǎn)后的晚歸數(shù)據(jù)進(jìn)行了細(xì)致的分類分析。
理科類學(xué)生年借書總量平均為6.24本,最低借書量為0,最高借書量為22本,超過8000位學(xué)生借書量為0,說明大部分同學(xué)的借書量遠(yuǎn)遠(yuǎn)不夠。
理科類學(xué)生平均成績約為73.82分,最低的為0分,最高的為94.1分,學(xué)生年成績平均分為0的約有250人左右,可能是錯誤數(shù)據(jù),也有可能是缺考、作弊等導(dǎo)致;且大多數(shù)學(xué)生年平均成績主要集中在70~90分之間,77分左右的人數(shù)最多。
理科類學(xué)生年均消費(fèi)為2648.59元,最低消費(fèi)為0,最高消費(fèi)為71542元。年飯卡消費(fèi)金額為0的接近3000人,可能是飯卡丟失或不使用飯卡進(jìn)行消費(fèi)等原因;正常情況下,學(xué)生年均飯卡消費(fèi)金額主要集中在1000~5000之間。
理科類學(xué)生22點(diǎn)之后晚歸次數(shù)平均為4.99次,最少晚歸次數(shù)為0,最多晚歸次數(shù)為317次,22點(diǎn)之后晚歸次數(shù)為0次的接近9800條數(shù)據(jù),占總數(shù)據(jù)的67%以上,說明大部分學(xué)生基本不在22點(diǎn)之后晚歸;其中晚歸的學(xué)生,年晚歸次數(shù)集中在10次以內(nèi)。
理科類學(xué)生23點(diǎn)之后晚歸次數(shù)約為2.93次,最少晚歸次數(shù)為0,最多晚歸次數(shù)為155次,23點(diǎn)之后晚歸次數(shù)為0的數(shù)據(jù)接近8500條,占總數(shù)據(jù)的58%以上,說明大多學(xué)生基本不在23點(diǎn)之后晚歸;23點(diǎn)之后晚歸的學(xué)生也多集中在8次之內(nèi)。
理科類學(xué)生借書總量為22332本,借書類型排列第一的為[T]工業(yè)技術(shù)類,所占比例高達(dá)25% ;第二為[I]文學(xué)類,所占比例高達(dá)21%;第三為[F]經(jīng)濟(jì)類所占比率高達(dá)10%;
借書類型較少的是:[A]馬克思主義、列寧主義、毛澤東思想、鄧小平理論、[X]環(huán)境科學(xué),安全科學(xué)[V]航空、航天[S]農(nóng)業(yè)科學(xué)、[N]自然科學(xué)總論;
以上結(jié)果說明:理科類學(xué)生借書類型較為豐富,不僅喜歡閱讀技術(shù)性較強(qiáng),邏輯性較強(qiáng),探索性較強(qiáng)的圖書,也喜歡閱讀文學(xué)性較強(qiáng)的圖書,這可能與他們的專業(yè),興趣有關(guān),也可能與圖書館的圖書數(shù)量及圖書位置的擺放有關(guān)。
3.2文科類學(xué)生的數(shù)據(jù)分析
對文科學(xué)生的圖書館借書量、平均成績、年飯卡消費(fèi)額、22點(diǎn)和23點(diǎn)后的晚歸數(shù)據(jù)進(jìn)行了細(xì)致的分類分析。
文科類學(xué)生年借書總量約為3.86本,最少的為0本,最多的有117本,接近12000人左右的學(xué)生年借書總量為0本,學(xué)生年借書總量多為0~20本之間。
文科類學(xué)生平均成績約為77.31分,最低的為0分,最高的為95分,學(xué)生年成績平均分為0的約有300人,可能是錯誤數(shù)據(jù),也有可能是缺考、作弊等導(dǎo)致;且大多數(shù)學(xué)生年平均成績主要集中在70~90分之間,80分左右的人數(shù)最多。
文科類學(xué)生年飯卡消費(fèi)金額約為2360.34元,年飯卡消費(fèi)金額為0的接近3000人,可能是飯卡丟失或不使用飯卡進(jìn)行消費(fèi)等原因;正常情況下,學(xué)生年均飯卡消費(fèi)金額主要集中在1000~5000之間。
文科類學(xué)生22點(diǎn)之后晚歸次數(shù)約為4.72次,22點(diǎn)之后晚歸次數(shù)為0次的接近13000條數(shù)據(jù),占總數(shù)據(jù)的50%以上,說明超過一半的學(xué)生基本不在22點(diǎn)之后晚歸;其中晚歸的學(xué)生,年晚歸次數(shù)集中在30次以內(nèi)。
文科類學(xué)生23點(diǎn)之后晚歸次數(shù)約為2.39次,23點(diǎn)之后晚歸次數(shù)為0的數(shù)據(jù)接近20000條,占總數(shù)據(jù)的68%以上,說明大多學(xué)生基本不在23點(diǎn)之后晚歸;23點(diǎn)之后晚歸的學(xué)生也多集中在15次之內(nèi)。
文科類學(xué)生借書總量為29438本,借書類型排列第一的為[I]文學(xué)類,所占比例高達(dá)29% ;第二為[F]經(jīng)濟(jì)類,所占比例高達(dá)16%;第三為[H]語言類所占比率高達(dá)11%;
借書類型較少的是:[A]馬克思主義、列寧主義、毛澤東思想、鄧小平理論;[Z]綜合類圖書;[X]環(huán)境科學(xué),安全科學(xué)[V]航空、航天[U]交通工具;[S]農(nóng)業(yè)科學(xué);[R]醫(yī)學(xué),衛(wèi)生;[Q]生物科學(xué);[P]天文學(xué)、地球科學(xué);[N]自然科學(xué)總論;
以上結(jié)果說明:文科類學(xué)生借書類型較為單一,喜歡閱讀文學(xué)性較強(qiáng),故事性較強(qiáng),情感較為豐富,想象力豐富的圖書。這可能與他們的專業(yè),興趣和一直以來的閱讀習(xí)慣有關(guān)。
3.3 藝術(shù)類學(xué)生的數(shù)據(jù)分析
對藝術(shù)類學(xué)生的圖書館借書量、平均成績、年飯卡消費(fèi)額、22點(diǎn)和23點(diǎn)后的晚歸數(shù)據(jù)進(jìn)行了細(xì)致的分類分析。
藝術(shù)類學(xué)生年借書總量約為2.52本,最少的為0本,最多的有100本,學(xué)生年借書總量多為0~20本之間,有接近2800人左右的學(xué)生年借書總量為0本,占總?cè)藬?shù)的50%以上,說明藝術(shù)類學(xué)生的借書量還不夠。
藝術(shù)類學(xué)生平均成績約為69.24分,最低的為0分,最高的為100分,學(xué)生年成績平均分為0的約有380人左右,可能是錯誤數(shù)據(jù),也有可能是缺考、作弊等導(dǎo)致;且大多數(shù)學(xué)生年平均成績主要集中在70~85分之間,77分左右的人數(shù)最多。
藝術(shù)類學(xué)生年均消費(fèi)為1632.36元,最低消費(fèi)為0,最高消費(fèi)為12620元。年飯卡消費(fèi)金額為0的接近1010人,可能是飯卡丟失或不使用飯卡進(jìn)行消費(fèi)等原因;正常情況下,學(xué)生年均飯卡消費(fèi)金額主要集中在1000~4000之間。
藝術(shù)類學(xué)生22點(diǎn)之后晚歸次數(shù)平均為3.69次,最少晚歸次數(shù)為0,最多晚歸次數(shù)為109次,22點(diǎn)之后晚歸次數(shù)為0次的接近2700條數(shù)據(jù),占總數(shù)據(jù)的60%以上,說明大部分學(xué)生基本不在22點(diǎn)之后晚歸;其中晚歸的學(xué)生,年晚歸次數(shù)集中在8次以內(nèi)。
藝術(shù)類學(xué)生23點(diǎn)之后晚歸次數(shù)平均為4.05次,最少晚歸次數(shù)為0,最多晚歸次數(shù)為151次,23點(diǎn)之后晚歸次數(shù)為0次的接近3100條數(shù)據(jù),占總數(shù)據(jù)的68%以上,說明大部分學(xué)生基本不在23之后晚歸;其中晚歸的學(xué)生,年晚歸次數(shù)集中在15次以內(nèi)。藝術(shù)類學(xué)生借書總量為3492本,借書類型排列第一的為[I]文學(xué)類,所占比例高達(dá)33% ;第二為[I]藝術(shù)類,所占比例高達(dá)19%;第三為[H]語言類和[K]歷史,地理類所占比率高達(dá)8%;
借書類型較少的是:[A]馬克思主義、列寧主義、毛澤東思想、鄧小平理論;[Z]綜合類圖書;[X]環(huán)境科學(xué),安全科學(xué)[V]航空、航天[U]交通工具;[S]農(nóng)業(yè)科學(xué);[O]數(shù)理科學(xué);[R]醫(yī)學(xué),衛(wèi)生;[Q]生物科學(xué);[P]天文學(xué)、地球科學(xué);[N]自然科學(xué)總論;
以上結(jié)果說明:藝術(shù)類借書類型比較單一,借書數(shù)量比較少,喜歡閱讀情感較為豐富,想象力豐富,具有一定創(chuàng)造性的圖書。這可能與他們的專業(yè),興趣,愛好,生活習(xí)慣和學(xué)習(xí)習(xí)慣有關(guān)。
4結(jié)論及建議
通過前面的數(shù)據(jù)分析,得出了以下結(jié)論:
第一,學(xué)習(xí)成績越優(yōu)秀的學(xué)生借書越多,借書類型也更豐富,并且學(xué)習(xí)成績良好的學(xué)生借書更偏好文科類書籍,學(xué)習(xí)成績一般的學(xué)生借書更偏好理工科類書籍。這說明:學(xué)習(xí)成績越好的學(xué)生對不同類型的書籍涉獵越多,不同學(xué)習(xí)成績的學(xué)生對書籍類型的偏好不一樣,這很有可能是因?yàn)楦魅搜a(bǔ)短處不同;