摘要 校園一卡通系統(tǒng)正被廣泛應用于各大高校并產生海量時空數(shù)據(jù),利用數(shù)據(jù)挖掘技術可以從中挖掘出隱藏的大學生在校行為模式。文章首先利用映射時空數(shù)據(jù)得到學生共現(xiàn)數(shù)據(jù);然后采用超幾何分布與多重假設檢驗的方法挖掘大學生社交關系;最后基于交友數(shù)量和親密度得到三種行為模式,發(fā)現(xiàn)封閉型行為模式更易形成脆弱的交往關系。根據(jù)大學生在校行為模式,學??梢詼蚀_掌握學生動態(tài),為其提供更加人性化的管理和精準化的服務。
關鍵詞 時空數(shù)據(jù);超幾何分布;行為模式
中圖分類號:G645文獻標識碼:ADOI:10.16400/j.cnki.kjdk.2023.18.044
隨著高校信息化和數(shù)字化建設向縱深發(fā)展,校園一卡通(CampusSmartCard,CSC)系統(tǒng)迅速得到普及。CSC系統(tǒng)中存儲了海量的學生時空數(shù)據(jù),利用數(shù)據(jù)挖掘技術對這些數(shù)據(jù)進行深度挖掘,可以得到一些學生的隱性行為信息。利用這些信息反哺于教育,對于高校的教育與管理均具有十分重要的現(xiàn)實意義[1]。
數(shù)據(jù)挖掘技術源于國外,基于用戶行為數(shù)據(jù)展開的研究起步較早。加拿大湖首大學的學生行為分析系統(tǒng)利用歷史數(shù)據(jù)分析學生行為。國內也有許多學者利用CSC數(shù)據(jù)進行針對學生群體的研究。姜楠等利用數(shù)據(jù)挖掘技術分析學生消費及學習行為[2]。鄧帥等統(tǒng)計食堂消費高峰并建立可視化系統(tǒng),根據(jù)分析結果改善食堂運營方式[3]。徐晶晶等利用Aproiri算法將CSC數(shù)據(jù)和成績做關聯(lián)分析,研究影響學生成績的因素[4]。田雨等通過門禁、簽到和消費等記錄,對長時間不在校的學生進行預警[5]。由此可見,國內利用CSC數(shù)據(jù)展開的研究已在貧困資助、消費行為和異常行為分析、與成績的關聯(lián)性等方面取得較多成效,但鮮有基于CSC數(shù)據(jù)進行學生在校行為模式挖掘及分析的相關研究。
1數(shù)據(jù)采集與預處理
數(shù)據(jù)集源于國內本科院校的CSC系統(tǒng)。系統(tǒng)由無線射頻識別標簽系統(tǒng)、校園卡以及數(shù)據(jù)庫三部分組成。當學生在校園內的活動場所刷卡時,后臺數(shù)據(jù)庫實現(xiàn)學生校園活動所產生時空數(shù)據(jù)的有效存儲。以這種方式,學生的校園活動被CSC系統(tǒng)記錄下來。本研究所用時空數(shù)據(jù)包括學生在食堂、超市、充值中心以及校醫(yī)院等公共場所發(fā)生的刷卡行為。
CSC系統(tǒng)中的數(shù)據(jù)存在少量內容缺失和格式不規(guī)范的記錄。為了提高分析結果的準確度,在對這些數(shù)據(jù)進行分析之前,需要對原始數(shù)據(jù)進行清洗和標準化處理。對于極少量格式不規(guī)范的數(shù)據(jù)采用人工方式補齊,對于內容缺失數(shù)據(jù)采用熱卡填充法處理[6]。經過處理得到如表1所示的636,304條有效數(shù)據(jù)。
2映射時空數(shù)據(jù)
①共現(xiàn)的定義。美國社會學家戈夫曼認為,相遇是公共場合人們之間持續(xù)性地相互看見對方,這種時空上的相遇被稱為共現(xiàn)。由于學生群體具有獨特性,關于共現(xiàn)做如下定義,在未特別聲明情況下,文中的共現(xiàn)均由定義1解釋。
定義1(共現(xiàn)):兩名學生在時空上的“前后腳”(相同時間出現(xiàn)在相同地點)行為,被認定是一次共現(xiàn)。
一般情況下,一個學生更傾向與好友結伴而行。因此,本文選擇學號、刷卡時間、刷卡地點等屬性組成的時空數(shù)據(jù)來挖掘學生的社交關系。
③映射時空數(shù)據(jù)得到共現(xiàn)數(shù)據(jù)。對636,304條時空數(shù)據(jù)進行遍歷得到204,407個含時地點。然后對刷卡行為二部圖在學生集合上進行映射得到學生共現(xiàn)數(shù)據(jù)。為了最大程度避免偶然性,過濾共現(xiàn)次數(shù)為1的情況,最終得到266,120條共現(xiàn)數(shù)據(jù)。
3挖掘在校行為模式
通過對比兩個網絡,利用復雜網絡的連通子圖[8]指標分析發(fā)現(xiàn),學生在校社交關系網絡更稀疏,其中的微型連通子圖586個,6≤C≤10的小型連通子圖65個,11≤C≤25的中型連通子圖16個,C>25的大型連通子圖4個。這說明學生群體更傾向于形成5以內的微型社交圈,也有極少數(shù)成員多于25人的大型社交圈[9]。
4行為模式分析
行為模式是人們有動機的日常活動以及有規(guī)律的行為系列,是行為內容和方式的定型化。從行為心理學角度講,人際關系的好壞需要交往行為來體現(xiàn)。具有良好人際關系的雙方,能夠相互表現(xiàn)出積極、有意義的行為,如友好等。
根據(jù)社交關系數(shù)量對在校社交關系網絡進行聚類。從社會行為學角度將其分為開放型、謹慎型和封閉型三種行為模式。如圖3所示,僅有3.74%的學生屬于開放型交友模式,18.86%的學生交友較謹慎,絕大部分學生處于較封閉的狀態(tài)。這種情況被解釋為,測試對象為大一新生,學生仍處于適應新環(huán)境的階段。也反映出當今大學生將更多的時間花在獨處,交友意愿有減弱甚至出現(xiàn)交友障礙的風險。
5總結
本文利用數(shù)據(jù)挖掘技術對校園時空數(shù)據(jù)進行研究,挖掘出隱藏的有價值信息。首先將數(shù)據(jù)預處理并映射得出共現(xiàn)數(shù)據(jù);然后采用超幾何分布與多重假設檢驗方法挖掘大學生社交關系;最后基于交友數(shù)量和親密度得到三種交往行為模式。根據(jù)交往行為模式分析結果,給予當前高校教育在人性化管理和精準化服務方面一定的指導建議。
基金項目:江西省教育科學“十三五”規(guī)劃2020年度課題(20YB206)。
參考文獻
[1]郭鵬.基于校園一卡通數(shù)據(jù)的學生消費行為與成績的關聯(lián)性研究[D].咸陽:西北農林科技大學,2019.
[2]姜楠,許維勝.基于校園一卡通數(shù)據(jù)的學生消費及學習行為分析[J].微型電腦應用,2015,31(2):35-38.
[3]鄧帥,屠添翼,紀壽安.基于大數(shù)據(jù)分析的高校食堂運營管理探索[J].大眾標準化,2021(15):198-200.
[4]徐晶晶.基于校園卡數(shù)據(jù)的學生行為分析研究[D].新鄉(xiāng):河南師范大學,2018.
[5]田雨露.基于校園一卡通系統(tǒng)的決策支持和數(shù)據(jù)分析研究[D].北京:北京化工大學,2018.
[6]楊帆,龐新生.處理缺失數(shù)據(jù)的分數(shù)插補法研究[J].統(tǒng)計與決策, 2017(14):15-18.
[7]劉濤.基于校園一卡通數(shù)據(jù)的大學生社交關系挖掘和演化規(guī)律研究[D].武漢:華中師范大學, 2019: 1-46.
[8]Li M X,Palchykov V,Jiang Z Q,et al.Statistically validated mobile communication networks: Evolution of motifs in European and Chinese data[J].New Journal of Physics,2014,16(8):1037-1092.
[9]董瀟瀟,胡延,陳彥萍.基于校園數(shù)據(jù)的大學生行為畫像研究與分析[J].計算機與數(shù)字工程,2018,46(6):1200-1204,1262.