張瓊霞
( 莆田學院 信息化建設與管理中心, 福建 莆田 351100 )
隨著大數(shù)據(jù)技術的流行, 各個高校開始著手運用人工智能和大數(shù)據(jù)等新興技術來優(yōu)化資源管理和教學管理等, 將大數(shù)據(jù)技術運用到校園的信息化建設已經(jīng)成為一種新趨勢[1]。 校園一卡通水平是衡量高校信息化水平的標準之一。 利用大數(shù)據(jù)技術對校園一卡通積累的數(shù)據(jù)資源進行分析和研究, 特別對學生消費行為的分析, 可有效用于貧困認定等工作, 提高高校學生管理水平和管理效率, 促進高校學生管理工作創(chuàng)新。 本文闡述了在大數(shù)據(jù)時代背景下, 基于智慧校園大數(shù)據(jù)分析平臺及聚類算法在高校學生管理中的應用。
大數(shù)據(jù)是21 世紀的一場技術和產(chǎn)業(yè)革命[2],是繼移動互聯(lián)網(wǎng)、 云計算后具有深遠意義的技術變革, 它深刻影響了現(xiàn)代人的生產(chǎn)、 生活和思維。 黨的十八屆五中全會明確提出, “十三五”時期要 “實施國家大數(shù)據(jù)戰(zhàn)略, 推進數(shù)據(jù)資源開放共享”[3]。
高校信息系統(tǒng)一直以來都是數(shù)據(jù)生產(chǎn)大戶。伴隨著大數(shù)據(jù)技術的迅猛發(fā)展以及國家產(chǎn)業(yè)政策的支持, 大數(shù)據(jù)平臺的建設已然成為高校信息化建設的重要組成部分。 運用大數(shù)據(jù)技術對校內(nèi)產(chǎn)生的數(shù)據(jù)進行有機整合與管理, 對有效的信息資源進行挖掘、 整理和分析, 能夠為高校管理工作提供決策支撐, 大幅提升高校管理水平[4]。
當下, 許多高校學生管理方式?jīng)]有與時俱進, 存在管理理念老套、 信息化運用水平不高等問題。 很多高校的學生管理工作沒有利用大數(shù)據(jù)技術, 管理效率低下, 這與教育管理現(xiàn)代化的發(fā)展要求相悖。
高校的管理工作是比較繁雜的, 主要以經(jīng)驗管理為主, 管理模式比較傳統(tǒng), 管理效率相對低下, 管理方式未能與時俱進, 與信息化技術脫軌。 大數(shù)據(jù)技術是高校管理從傳統(tǒng)管理向科學管理演進的關鍵技術力量。 隨著信息化技術在校園內(nèi)的廣泛應用, 大數(shù)據(jù)平臺使高校的決策有了更為可靠的數(shù)據(jù)基礎, 能夠為宏觀決策提供技術支持, 促進高校學生管理工作創(chuàng)新。
大數(shù)據(jù)的核心是預測規(guī)律, 高校大數(shù)據(jù)克服了傳統(tǒng)小數(shù)據(jù)的局限性和不能反映整體狀況的弊端。 通過大數(shù)據(jù)綜合分析, 可以發(fā)現(xiàn)隱藏在師生復雜混亂數(shù)據(jù)背后的行為規(guī)律, 從而提高教育管理的科學性。
教育管理信息化是 “智慧校園” 的前提,大數(shù)據(jù)技術是高校智慧管理的基礎。 高校教育管理大數(shù)據(jù)是具有即時、 預警特性的技術手段, 能夠為教育管理者抓住關鍵期, 及時預防和處理危機事件, 避免或減少危機的損害。
“變” 是高校教育管理永恒不變的主題。 高校教育管理人員要及時關注管理內(nèi)外部環(huán)境和管理對象的變化, 研究各種變化的趨勢和規(guī)律。 大數(shù)據(jù)技術為高校教育管理者及時獲取各種信息提供了技術保障, 大數(shù)據(jù)的海量、 快速、 動態(tài)和便捷等特性有利于高校教育管理權變性的實現(xiàn)。
以莆田學院為例, 校園一卡通大數(shù)據(jù)平臺Hadoop 集群有3 個節(jié)點(其中1 個是管理節(jié)點),2 臺 DataNode, CPU 總核數(shù) 48 個, 存儲容量 3 TB, 目錄數(shù)為 58, 文件數(shù)13 492, HDFS 利用率達69.74%。 校園一卡通大數(shù)據(jù)采用Hadoop 分布式數(shù)據(jù)處理平臺, Hadoop 主要解決海量數(shù)據(jù)的存儲、 分析計算問題。 Hadoop 生態(tài)圈的核心組件是分布式文件系統(tǒng) (HDFS) 和MapReduce。
HDFS 主要負責分布式存儲, 它將文件切割為大小固定的數(shù)據(jù)塊, 以分布式的形式存儲在指定的服務器上, 以便采用 “分而治之” 的方式對海量數(shù)據(jù)進行運算分析。 無論是結(jié)構化數(shù)據(jù)抑或是非結(jié)構化數(shù)據(jù), 要保證后期數(shù)據(jù)挖掘的準確性, 對數(shù)據(jù)進行高效存儲與管理是非常關鍵的。提高存儲效率、 使用數(shù)據(jù)分析模型、 降低數(shù)據(jù)的重讀率、 剔除無用數(shù)據(jù), 這些都需要使用可靠的HDFS。
MapReduce 用于計算海量數(shù)據(jù): 第一步Map(展開), 即將一個任務分解成多個任務; 第二步Reduce, 則是匯總分解后的多任務處理結(jié)果并生成分析結(jié)果。 MapReduce 從校園一卡通、 數(shù)據(jù)中心等相關信息數(shù)據(jù)庫中采集相關數(shù)據(jù)信息,分解到分布式數(shù)據(jù)中心進行存儲、 挖掘、 分析和展示。 分析結(jié)果可為學生消費行為管理、 貧困生識別、 情感分析預警等行為分析提供數(shù)據(jù)服務,使高校真正了解學生, 并提供個性化、 精準化的服務。 借助行為分析結(jié)果, 可以有針對性地優(yōu)化高校管理方式, 提升管理服務水平, 提高服務質(zhì)量, 降低管理成本。
校園大數(shù)據(jù)平臺處理流程見圖1。
圖1 校園大數(shù)據(jù)平臺處理流程
莆田學院校園卡運營中心管理系統(tǒng)和運營交易中心管理系統(tǒng)分別見圖2、 圖3。
圖2 莆田學院校園卡運營中心管理系統(tǒng)
圖3 莆田學院校園卡運營交易中心管理系統(tǒng)
校園一卡通是高校信息化建設不可或缺的組成部分, 是提升高校管理水平的重要措施之一。校園一卡通系統(tǒng)每天都會產(chǎn)生大量的消費數(shù)據(jù),這些數(shù)據(jù)不僅客觀真實且豐富全面。 一卡通系統(tǒng)包含全校師生的個人信息, 如姓名、 所在院部、所學專業(yè)等重要信息, 結(jié)合一卡通中的消費金額、 消費地點、 消費時間等消費信息, 利用大數(shù)據(jù)技術, 可以了解學生的日常消費規(guī)律和行為規(guī)律, 為創(chuàng)新高校學生管理提供依據(jù)。
利用校園一卡通產(chǎn)生的消費數(shù)據(jù), 通過數(shù)據(jù)挖掘等技術對其進行分析研究, 挖掘?qū)W生消費行為背后隱藏的信息。 通過對提取的數(shù)據(jù)進行預處理和特征工程, 分析學生的消費能力水平和消費習慣。 然后對學生的消費行為進行細分并合理歸類, 高??梢葬槍W生的特點為學生提供個性化的管理和服務, 進而實現(xiàn)精準管理的目標[5]。
4.1.1 聚類分析
聚類分析的思路是: 建立某種分類的辦法,將一批數(shù)據(jù)樣本, 依照特定的標準, 自動進行分類。 通過聚類分析, 提取數(shù)據(jù)的統(tǒng)計結(jié)果, 結(jié)合人工定義最終形成標簽數(shù)據(jù)。 在使用校園大數(shù)據(jù)技術前提下, 對已經(jīng)產(chǎn)生的消費數(shù)據(jù)進行預處理。 基于 “月平均消費金額” 和 “月消費頻次”兩個指標, 使用K-medoids 算法中的圍繞中心點劃分(partitioning aroud medoids,PAM)算法, 對學生消費行為進行分類。 PAM 算法實現(xiàn)流程如下:
(1) 從數(shù)量為n 的總體樣本點中, 隨機無規(guī)律地抽取k 個類當作medoids;
(2) 根據(jù)medoids 最近的判斷準則, 將余下的未用的n-k 個樣本點分配給當前階段性能最好的medoids 表示的類里面 (完成了最初聚類);
(3) 對除對應medoids 點之外的第i 個類中的其余剩下的點, 按序依次計算當其為新的medoids時準則函數(shù)的值, 迭代全部有可能的點,并從中選擇出準則函數(shù)最小的點作為下一次迭代的的medoids;
(4) 重復過程(2)、 (3)的操作, 直至全部medoids 點不再更改或者已經(jīng)到了最初設定的迭代次數(shù)的極限值;
(5) 最終確定出k 個類。
4.1.2 算法實例描述
以10 個數(shù)據(jù)為例進行聚類分析, 基于 “月平均消費金額”(M1)和“月消費頻次”(M2)兩個指標。 用 “1” 表示該指標大于平均數(shù), “0” 表示小于平均數(shù)。 表1 為隨機抽取6 個學生消費數(shù)據(jù), 表2 為比較結(jié)果, 表3 為消費行為類別標簽。
表1 隨機抽取6 個學生消費數(shù)據(jù)
表2 比較結(jié)果
表3 消費行為類別標簽
我國相當重視人才的培養(yǎng), 近年來對高校貧困學生的補貼力度也持續(xù)加大。 但貧困生識別與認定是實際操作中的難題, 現(xiàn)在依然延用傳統(tǒng)的貧困生資助流程, 即: 學生本人按照要求提交相關申請材料, 輔導員上報二級學院復核, 對貧困生進行公示, 如在有效期內(nèi)學生無異議, 則正式確認貧困生, 助學資金將定期定額發(fā)放, 資助流程即完成[6]。 傳統(tǒng)方式有明顯漏洞, 學生主動申請, 一些不需要的學生也可能去申請, 真正的貧困學生也許會因為害羞或其他因素不敢申請,這就會造成助學金發(fā)放不精準, 助學金分配不合理, 使得真正貧困的學生沒有辦法獲得助學金。也就是助學金沒有達到精準發(fā)放的目的, 這樣貧困生資助就失去了意義[7]。 從現(xiàn)實情況出發(fā),相比較經(jīng)濟狀況良好的學生, 真正的貧困生日常消費明顯比較低, 因此, 學??梢酝ㄟ^對校園一卡通消費數(shù)據(jù)進行挖掘, 依據(jù)不同學生的消費特性, 同時綜合考量其他相關的影響因素, 開展貧困生認定工作。
由于外賣的普及, 很多學生選擇點外賣, 所以他們的一卡通消費數(shù)據(jù)就無法作為認定依據(jù)。因此, 在分類過程中要引入是否連續(xù)就餐這一指標。 運用支持向量機(Support Vector Machine,SVM)結(jié)合學生消費行為分類, 據(jù)此甄別貧困生和非貧困生, 更好地輔助有關部門做好貧困生認定工作。
SVM 是一種二分類模型, 適合中小型數(shù)據(jù)樣本、 非線性、 高維的分類問題。 使用 SVM 算法判斷貧困生流程如圖4 所示, 貧困生認定流程如圖5 所示。
圖4 SVM 算法判斷貧困生流程
圖5 貧困生認定流程
結(jié)合表3 消費行為類別標簽和SVM 模型,可得:
第0 種類型學生: 月消費水平最高并且消費頻次也高, 判定為非貧困生;
第1、 2、 3 種類型學生: 月消費水平和消費頻次均善可, 判定為非貧困生;
第4 種類型學生: 此類學生月平均消費水平較低, 且消費頻次高, 可判定此類學生每次平均消費金額偏低, 可以從某種程度上反映出此類學生是較為節(jié)儉的一類人, 較大概率屬于貧困生類型;
第5 種類型學生: 低消費群體, 參照是否連續(xù)就餐這一指標, 剔除非連續(xù)就餐學生, 低消費且連續(xù)就餐, 可判定該類學生為貧困生。 貧困生認定結(jié)果如圖6 所示。
圖6 莆田學院貧困生認定結(jié)果
目前多數(shù)高校由于依賴傳統(tǒng)的貧困生認定方式, 信息化發(fā)展水平相對滯后, 無法根據(jù)學生消費行為評定貧困生。 近年來隨著信息技術的發(fā)展, 大數(shù)據(jù)和人工智能技術在高校得到普遍應用。 運用信息化技術可以精準地評估學生的消費行為, 確保貧困生認定結(jié)果更為公允精確。
通過大數(shù)據(jù)技術和聚類分析算法相結(jié)合的嶄新方式, 可以實現(xiàn)對學生消費數(shù)據(jù)的全面收集、分析與共享。 采用大數(shù)據(jù)技術和聚類分析算法計算校園一卡通系統(tǒng)產(chǎn)生的消費數(shù)據(jù), 細分學生消費行為, 精準地獲取學生的分類信息, 以供管理者充分利用這些數(shù)據(jù)資源, 有效挖掘數(shù)據(jù)價值,為校園智能化管理提供有力支撐。 未來的研究應致力于搭建基于人工智能的智慧校園管理平臺,為高校管理者提供更快捷、 高效的決策依據(jù), 推動大數(shù)據(jù)及人工智能在高校的廣泛應用。