朱梓熙,劉文敏,徐寶焱,黃紅梅,敖新宇
(廣東水利電力職業(yè)技術(shù)學(xué)院,廣東 廣州510635)
隨著信息技術(shù)的不斷發(fā)展,高校越來(lái)越重視數(shù)字校園、智慧校園的建設(shè)[1][2],各高校的校園建設(shè)不斷走向數(shù)字化。本文通過(guò)對(duì)高職院校信息進(jìn)行收集和整理,整合有關(guān)學(xué)生考勤、成績(jī)和圖書(shū)借閱情況等方面的數(shù)據(jù),尋找學(xué)生的行為規(guī)律、研究學(xué)生的行為特點(diǎn),對(duì)學(xué)生分類(lèi)進(jìn)行指標(biāo)判定,最后進(jìn)行聚類(lèi)分析,并將分析結(jié)果進(jìn)行可視化展現(xiàn),為促進(jìn)和提高學(xué)校在教育教學(xué)方面的決策提供了有力支撐。
本文用到的學(xué)生考勤數(shù)據(jù)來(lái)自于教師上課的考勤記錄。本文用到的學(xué)生借閱數(shù)據(jù)來(lái)自于學(xué)校圖書(shū)館的借閱軟件系統(tǒng)。
在數(shù)據(jù)挖掘中,由于數(shù)據(jù)來(lái)源的范圍廣且數(shù)量大,使得數(shù)據(jù)的質(zhì)量不是很高,為此,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理的目標(biāo)是通過(guò)篩除掉有缺失的數(shù)據(jù),從而保證數(shù)據(jù)的質(zhì)量,使數(shù)據(jù)處理能夠順利進(jìn)行,并通過(guò)一些操作來(lái)合并必要的數(shù)據(jù),變換數(shù)據(jù)的某些分量使得對(duì)同種性質(zhì)數(shù)據(jù)標(biāo)準(zhǔn)的統(tǒng)一等。
由于數(shù)據(jù)主要由學(xué)校應(yīng)用系統(tǒng)導(dǎo)出,這些數(shù)據(jù)主要以Excel表文件的方式存在。其余數(shù)據(jù)是來(lái)自于不同的系統(tǒng)與部門(mén),所涉及的范圍較多,采集到的原始數(shù)據(jù)中數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)沒(méi)有統(tǒng)一的格式,同時(shí)有很多無(wú)用屬性和本次研究的主題無(wú)關(guān)。另外,種種原因造成部分?jǐn)?shù)據(jù)缺失,如學(xué)生休學(xué)和缺考等原因,所以需要將這些數(shù)據(jù)內(nèi)容進(jìn)行清除,剔除這部分?jǐn)?shù)據(jù)。在收集的數(shù)據(jù)中,有些數(shù)據(jù)項(xiàng)被發(fā)現(xiàn)出現(xiàn)了重復(fù),需要剔除這些重復(fù)的數(shù)據(jù)。本文采用合并表、學(xué)生信息過(guò)濾、篩選關(guān)鍵信息、統(tǒng)一數(shù)據(jù)類(lèi)型等方法對(duì)數(shù)據(jù)進(jìn)行清洗,并把清洗后的數(shù)據(jù)制成數(shù)據(jù)表的形式保存到數(shù)據(jù)庫(kù)中,以保證數(shù)據(jù)的一致性。
確定數(shù)據(jù)表的數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)分析的首要任務(wù),將所收集到的數(shù)據(jù)經(jīng)過(guò)整合后可分成以下幾類(lèi):學(xué)生考勤數(shù)據(jù)、學(xué)生圖書(shū)館借閱數(shù)據(jù)、學(xué)生歷史成績(jī)數(shù)據(jù)以及學(xué)生部分信息數(shù)據(jù)。結(jié)合學(xué)生畫(huà)像的目標(biāo),構(gòu)建學(xué)生信息結(jié)構(gòu)表、學(xué)生成績(jī)信息結(jié)構(gòu)表、學(xué)生缺勤信息結(jié)構(gòu)表、圖書(shū)借閱信息結(jié)構(gòu)表。如表1-4所示。
表1 學(xué)生信息結(jié)構(gòu)
表2 學(xué)生成績(jī)信息結(jié)構(gòu)
表3 學(xué)生缺勤信息結(jié)構(gòu)
表4 學(xué)生圖書(shū)借閱信息結(jié)構(gòu)
通過(guò)分析現(xiàn)有數(shù)據(jù)特征和學(xué)生的學(xué)習(xí)行為來(lái)構(gòu)建學(xué)生的學(xué)習(xí)行為“畫(huà)像”的數(shù)據(jù)特征,為此,確定哪些行為可以用來(lái)構(gòu)建學(xué)生畫(huà)像是必要的。在本次數(shù)據(jù)中,學(xué)期缺勤次數(shù)、學(xué)期圖書(shū)借閱次數(shù)在很大程度上體現(xiàn)了一個(gè)學(xué)生對(duì)課堂老師授課內(nèi)容的重視和學(xué)習(xí)努力程度,而學(xué)期成績(jī)平均分則能直接客觀地體現(xiàn)出學(xué)生在本學(xué)期對(duì)所學(xué)內(nèi)容的掌握情況。因此,將學(xué)生考勤情況、學(xué)生圖書(shū)借閱情況以及學(xué)生成績(jī)等數(shù)據(jù)用來(lái)對(duì)學(xué)生的學(xué)習(xí)行為進(jìn)行畫(huà)像,并確定相應(yīng)的指標(biāo),指標(biāo)細(xì)分如表5所示。
表5 相關(guān)學(xué)習(xí)行為的數(shù)據(jù)表征和取值范圍
K-means算法[3]是一種應(yīng)用十分廣泛的聚類(lèi)算法,它的目標(biāo)是將n個(gè)數(shù)據(jù)點(diǎn)劃分到m個(gè)類(lèi)簇中,以距離作為數(shù)據(jù)對(duì)象間相似性度量的標(biāo)準(zhǔn)。在K-means算法中,需要預(yù)先設(shè)定k個(gè)初始質(zhì)心,由于K-means算法采取局部最優(yōu),所以初始質(zhì)心的選擇直接關(guān)系到數(shù)據(jù)集中的最終聚類(lèi)效果。
不同屬性往往具有不同的量綱和量綱單位,之間的差別可能很大,如本次處理中的學(xué)生成績(jī)與學(xué)生缺勤次數(shù)。對(duì)這些差別較大的屬性值不進(jìn)行處理可能會(huì)影響數(shù)據(jù)分析的結(jié)果,在以距離為基礎(chǔ)的算法中,取值較大的屬性會(huì)起到主導(dǎo)作用。在進(jìn)行K-means聚類(lèi)前,要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,消除屬性間量綱與大小差距過(guò)大的影響,提高聚類(lèi)效果。
K-means算法計(jì)算高效,但是有一個(gè)缺點(diǎn),就是要事先設(shè)定初始質(zhì)心的數(shù)量k,而k的選取直接關(guān)系到最終的聚類(lèi)效果,所以一般要經(jīng)過(guò)多重分析來(lái)確立k的值,但這在實(shí)際項(xiàng)目中是比較難以確定的,特別是在處理一個(gè)高緯度、難以進(jìn)行可視化數(shù)據(jù)的時(shí)候。本文根據(jù)聚類(lèi)模型內(nèi)部誤差平方和來(lái)確定聚類(lèi)模型的好壞。獲得簇內(nèi)部的誤差平方和?;谶@個(gè)屬性值,采用肘部方法[4],對(duì)給定的任務(wù)估計(jì)出最優(yōu)簇的數(shù)量。算法如圖1所示。在算法中,n_jobs是并行的進(jìn)程數(shù),n_clusters是初始的簇的個(gè)數(shù)。
圖1 “肘”算法
本文實(shí)驗(yàn)數(shù)據(jù)的來(lái)源是某高校校園各部門(mén)所積累的歷史數(shù)據(jù),由于之前的數(shù)據(jù)過(guò)于雜亂,在此收集了該校某系學(xué)生的2017年9月到2018年2月這段時(shí)間內(nèi)的學(xué)習(xí)、考勤數(shù)據(jù)與圖書(shū)借閱數(shù)據(jù),總共35808條數(shù)據(jù),將這些數(shù)據(jù)進(jìn)行整合后存放到數(shù)據(jù)庫(kù)中用以分析實(shí)驗(yàn)。本次實(shí)驗(yàn)選取學(xué)生“畫(huà)像”特征庫(kù)中部分重要指標(biāo)來(lái)建立學(xué)生行為模型,在此使用python等語(yǔ)言來(lái)編寫(xiě)相關(guān)的K-means代碼,進(jìn)行模型的構(gòu)建與分析,并將分析結(jié)果進(jìn)行可視化展示。
使用算法1處理結(jié)果如圖2所示。從圖3中可以知道聚類(lèi)數(shù)為4時(shí)的拐點(diǎn)最為明顯,也就意味著針對(duì)本次數(shù)據(jù)來(lái)說(shuō),最優(yōu)簇的數(shù)量為4,一般而言,肘部方法所得出的結(jié)果并不是絕對(duì)的,還要結(jié)合對(duì)該數(shù)據(jù)的討論與設(shè)想才能得出較好的答案,在本次實(shí)驗(yàn)中,結(jié)合數(shù)據(jù)類(lèi)型等各個(gè)方面情況,最終確立了簇的數(shù)量為4。
圖2 誤差和聚類(lèi)數(shù)的關(guān)系
圖3 三個(gè)指標(biāo)構(gòu)成的聚類(lèi)圖
學(xué)生“畫(huà)像”特征搭建的時(shí)候選取三個(gè)指標(biāo)(借閱、考勤、成績(jī)),這三個(gè)指標(biāo)正好可以用三維的方式來(lái)進(jìn)行展示,并且效果是最好的,圖3是聚類(lèi)完成后的可視化三維視圖,從圖3中可以看出,在本次的聚類(lèi)中,各點(diǎn)分得較為均勻,聚類(lèi)效果較好。
圖4 聚類(lèi)雷達(dá)圖
圖4的聚類(lèi)雷達(dá)圖展現(xiàn)了本次聚類(lèi)后每個(gè)類(lèi)別的具體情況,在圖中可以看到,編號(hào)0的類(lèi)別屬于借閱次數(shù)較低、考勤率高、成績(jī)較為普通的學(xué)生;編號(hào)1的類(lèi)別屬于借閱次數(shù)較低、考勤率高、成績(jī)優(yōu)秀的學(xué)生;編號(hào)2的類(lèi)別屬于借閱次數(shù)高、考勤率高、成績(jī)優(yōu)秀的學(xué)生;編號(hào)3的類(lèi)別屬于借閱次數(shù)低、考勤率低、成績(jī)較差的學(xué)生。并由此得出表6,結(jié)合表6可以看到努力學(xué)習(xí)且學(xué)習(xí)成績(jī)較為優(yōu)異學(xué)生占到學(xué)生總數(shù)的65%,成績(jī)一般的學(xué)生也占到學(xué)生總數(shù)的33%,可以看出該校大部分學(xué)生學(xué)習(xí)還是比較刻苦的,只有極少數(shù)學(xué)生的努力程度不夠,努力程度不夠且成績(jī)較差的學(xué)生占學(xué)生總數(shù)的2%,對(duì)這方面的學(xué)生可以加以督促,以便提高他們的學(xué)習(xí)成績(jī)。
另外一個(gè)有意思的發(fā)現(xiàn)是平均借閱次數(shù)和平均成績(jī)的相關(guān)性不大,而且,第一類(lèi)學(xué)生借閱次數(shù)比第二類(lèi)學(xué)生借閱次數(shù)少很多,但成績(jī)還要高一些。似乎暗示圖書(shū)館的圖書(shū)借閱功能和學(xué)生學(xué)習(xí)成績(jī)沒(méi)有太大的相關(guān)性,而與考勤次數(shù)是息息相關(guān)的,可能需要更加細(xì)節(jié)的數(shù)據(jù)才能更好地分析圖書(shū)館學(xué)習(xí)資源是該如何被利用。
表6 每個(gè)類(lèi)別的具體情況
本文通過(guò)對(duì)校園學(xué)生數(shù)據(jù)的處理和聚類(lèi)分析,對(duì)學(xué)生行為進(jìn)行畫(huà)像,一方面是可以對(duì)學(xué)生進(jìn)行一個(gè)行為描述;另一方面可以通過(guò)模型反饋,了解學(xué)生指標(biāo)間的影響因素,得到學(xué)生的行為特征以及學(xué)生的初步畫(huà)像。目前,由于數(shù)據(jù)類(lèi)型較少,得到的學(xué)生行為特征還不夠詳細(xì),僅在學(xué)生學(xué)習(xí)行為畫(huà)像上做了初步嘗試,如果想要更加全面地對(duì)學(xué)生行為進(jìn)行畫(huà)像,可以對(duì)學(xué)生的學(xué)習(xí)和生活各方面行為數(shù)據(jù)進(jìn)行補(bǔ)充,增加分析維度和分析內(nèi)容,從而能得到更加詳細(xì)的分析結(jié)果,為智慧校園的管理決策提供準(zhǔn)確、詳細(xì)的數(shù)據(jù)支持。