文/吳慧韞 王河堂
一卡通挖掘?qū)W生異常行為
文/吳慧韞 王河堂
在一卡通的基礎(chǔ)上建立數(shù)據(jù)倉庫系統(tǒng),對大量數(shù)據(jù)進(jìn)行提取、凈化、存儲、挖掘,使之成為有問題學(xué)生的決策依據(jù)。
當(dāng)前,在高校擴(kuò)招和學(xué)生隊(duì)伍總量不斷增大的背景下,高校學(xué)生異常行為的人數(shù)呈上升趨勢,一些違法、違紀(jì)、違俗、違德等異常行為時有發(fā)生,而學(xué)生管理工作者也往往因?yàn)閷W(xué)生異常行為發(fā)生前的“苗頭”把握不準(zhǔn),常常處于當(dāng)“消防員”的被動局面。如何利用現(xiàn)代化的手段對學(xué)生早期異常行為進(jìn)行檢測與控制,幫助管理者及時發(fā)現(xiàn)有問題的學(xué)生,從而進(jìn)行有針對性的教育與幫助,具有十分重要的意義。
近年來,隨著計(jì)算機(jī)網(wǎng)絡(luò)和數(shù)據(jù)庫技術(shù)的日漸完善,國內(nèi)不少大學(xué)都相繼建立了校園一卡通系統(tǒng)。校園一卡通系統(tǒng)是數(shù)字化校園的重要組成部分,它為數(shù)字化校園的建設(shè)提供了全面的數(shù)據(jù)采集和良好的信息共享環(huán)境。該系統(tǒng)的開發(fā)建設(shè)將進(jìn)一步提高信息化管理水平,實(shí)現(xiàn)由面向計(jì)算機(jī)的管理轉(zhuǎn)變?yōu)槊嫦驍?shù)據(jù)管理。而目前大多數(shù)高校僅僅停留在使用一卡通系統(tǒng)的基礎(chǔ)上,殊不知可在此基礎(chǔ)上建立數(shù)據(jù)倉庫系統(tǒng),實(shí)現(xiàn)對各部門生成的大量數(shù)據(jù)的科學(xué)提取、凈化、存儲,從而使得信息系統(tǒng)滿足從業(yè)務(wù)處理到中層管理的控制,以及通過對各階段各部門的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析、挖掘,最終達(dá)到為領(lǐng)導(dǎo)決策提供支持的目的。
校園一卡通系統(tǒng)一旦建成,它所采用的校園卡可替代現(xiàn)有的多種證件,包括:學(xué)生證、工作證、身份證、借書證、閱覽證、醫(yī)療證、會員證、就餐卡和錢包等。
校園一卡通系統(tǒng)的主要數(shù)據(jù)來源:
1.學(xué)生入校時填寫的各種登記表格、各學(xué)期注冊情況登記等相關(guān)文檔。
2.學(xué)生在食堂就餐時的劃卡記錄。
3.學(xué)生體檢情況、就醫(yī)情況的醫(yī)療記錄。
4.圖書館學(xué)生借書情況登記、進(jìn)出圖書館閘機(jī)記錄等。
5.校內(nèi)各種開放設(shè)施的劃卡消費(fèi)情況記錄,如公共機(jī)房、校體育設(shè)施、校賓館飯店。
6.學(xué)生早鍛煉情況的記錄。
7.學(xué)生通過門禁系統(tǒng)出入各建筑樓宇的記錄。
這些數(shù)據(jù)均可以從數(shù)字化校園中的公共數(shù)據(jù)平臺及相關(guān)職能部門的信息管理系統(tǒng)中導(dǎo)出、匯總進(jìn)入數(shù)據(jù)倉庫。
通過學(xué)生基本信息庫的關(guān)聯(lián)分析,我們可以進(jìn)一步挖掘隱藏信息
一般說來,數(shù)據(jù)的獨(dú)立性包括條件獨(dú)立性、因果獨(dú)立性與上下文獨(dú)立性。這些獨(dú)立性關(guān)系,都對數(shù)據(jù)分析具有重要的作用。條件獨(dú)立性是指在某些變量給定時,其他部分結(jié)點(diǎn)相獨(dú)立,因此只要找出特定的給定變量,即可為決策提供足夠的支持,這稱為條件獨(dú)立性。因果獨(dú)立性是指變量之間的直接影響,但是并沒有對如何依賴作出約束。一些情況下,多個變量相互合作,對某變量共同產(chǎn)生影響。但是,很多情況下,各變量獨(dú)自對其他變量起作用,原因變量之間沒有合作,此時原因變量對結(jié)果變量的影響是因果獨(dú)立的,這稱為因果獨(dú)立性。通常每個變量都帶有條件概率標(biāo),在各原因變量狀態(tài)組合的每種取值情況下給出結(jié)果變量的每種取值的條件概率。條件概率表一方面需要的條件概率數(shù)目是原因變量結(jié)點(diǎn)數(shù)目的指數(shù)冪,另一方面無法捕捉原因變量概率分布的某些規(guī)律。這是第三種獨(dú)立關(guān)系,稱為上下文獨(dú)立性,通??梢圆捎脳l件概率樹的形式對上下文獨(dú)立關(guān)系進(jìn)行表示。本文以條件獨(dú)立性為例,對一卡通的數(shù)據(jù)信息進(jìn)行研究。
一般地,若變量E和F在G給定(p(G)≠0)時,滿足下列條件之一時是條件獨(dú)立的:
1. P(E|F∩G)=P(E|G) 且 P(E|G)≠0,P(F|G)≠0
2.P(E|G)=0 或 P(F|G)=0基于條件獨(dú)立性的數(shù)據(jù)分析
為了提高有問題學(xué)生認(rèn)定的準(zhǔn)確率與有效性,針對一卡通的相關(guān)數(shù)據(jù)流進(jìn)行以下幾個方面的分析:
1.根據(jù)學(xué)生入學(xué)時填寫的各種記錄表初步了解其基本情況。
2.通過分析長期的學(xué)生的金融消費(fèi)數(shù)據(jù)以及樓宇身份認(rèn)證等數(shù)據(jù)計(jì)算月平均開銷、出入教師或圖書館的頻率、早鍛煉的積極性等,給出認(rèn)證偏低區(qū)間的實(shí)證結(jié)果。這可用來發(fā)現(xiàn)性格內(nèi)向但不愿向師長和同學(xué)說明情況的學(xué)生。
3.根據(jù)校內(nèi)各種開放設(shè)施的劃卡消費(fèi)及認(rèn)證情況記錄計(jì)算月平均開銷及各種活動的出勤情況。對于月開銷較大或出勤情況反常的學(xué)生應(yīng)深入了解情況,杜絕個別學(xué)生思想臨時出現(xiàn)緊急波動的情況。
4.根據(jù)體檢情況、就醫(yī)情況的醫(yī)療記錄關(guān)注有問題學(xué)生的健康狀況。對于健康狀況較差的有問題學(xué)生應(yīng)加大援助的力度。
5.根據(jù)上機(jī)情況、圖書館借閱情況及考試成績了解有問題學(xué)生的學(xué)習(xí)努力程度。
本文針對上述的第二條中的數(shù)據(jù)進(jìn)行重點(diǎn)的數(shù)據(jù)挖掘,同時針對初步結(jié)果,再結(jié)合第一、三、四、五條進(jìn)行聚類分析,試圖尋找到消費(fèi)和認(rèn)證行為的某些相關(guān)性及條件獨(dú)立性,從而有助于學(xué)校及早發(fā)現(xiàn)思想有問題的學(xué)生,為教師進(jìn)行思想有問題學(xué)生決策提供更準(zhǔn)確的數(shù)據(jù)支持。
一卡通信息的數(shù)據(jù)挖掘
1.數(shù)據(jù)準(zhǔn)備:由于一卡通的流水?dāng)?shù)據(jù)中有許多龐大的價值較低的數(shù)據(jù),因此,現(xiàn)有的一卡通流水?dāng)?shù)據(jù)必須經(jīng)過數(shù)據(jù)的預(yù)處理后才能變成挖掘的對象。
圖1 學(xué)生正餐消費(fèi)次數(shù)與消費(fèi)金額分布
(1)將卡流水交易數(shù)據(jù)庫分割成小的數(shù)據(jù)表。我們將校園卡流水交易數(shù)據(jù)庫分成若干張細(xì)表,每個表為一個月的數(shù)據(jù),少則幾萬(假期),多則上百萬條記錄。
(2)通過卡號將存在于卡流水交易數(shù)據(jù)庫和用戶資料表的數(shù)據(jù)搜索出來,為數(shù)據(jù)挖掘提供數(shù)據(jù)源。
(3)計(jì)算屬性:由于集成幾個數(shù)據(jù)庫而得到的數(shù)據(jù)依然反映的是每次刷卡交易的記錄,實(shí)際情況是消費(fèi)或認(rèn)證可能在某處的一個或多個POS機(jī)上完成。因此需根據(jù)刷卡的時間進(jìn)行分段求和,我們把一天分成三個時間段(0∶00~10∶00,10∶00~15∶00,15∶00~24∶00),在這三個時間段內(nèi)的刷卡記錄分別歸為早、中、晚三個階段,因此對于每一個卡號用戶必須分別按這三個時段統(tǒng)計(jì)出三個階段的刷卡頻率。
本地學(xué)生周末通常不在學(xué)校,因此需要特殊處理;考試期間由于學(xué)業(yè)繁重,早鍛煉的頻率也將正常下降,此時也需要特殊處理。但為了分析結(jié)果的準(zhǔn)確性,不能清洗任何刷卡記錄。
2.建立數(shù)據(jù)倉庫
采用Microsoft Analysis Services建立數(shù)據(jù)倉庫:首先新建數(shù)據(jù)倉庫DSS,數(shù)據(jù)源自于上述經(jīng)過預(yù)處理的一卡通數(shù)據(jù)庫;然后建立多維數(shù)據(jù)集,將所有數(shù)據(jù)按月劃分為多個數(shù)據(jù)表,每個數(shù)據(jù)表建立一個多維數(shù)據(jù)集,選擇刷卡金額或認(rèn)證次數(shù)為度量值,通過POS機(jī)具信息表、賬戶信息表、認(rèn)證信息表建立維度表。
3.知識分析
根據(jù)一個月的情況,計(jì)算出每個學(xué)生的每月學(xué)習(xí)日的刷卡次數(shù)(X)。
這里我們定義以下幾個指標(biāo):每月學(xué)習(xí)日正餐消費(fèi)次數(shù)(X)、每月學(xué)習(xí)日正餐最低消費(fèi)次數(shù)參考值(M)、學(xué)習(xí)日正餐的一餐消費(fèi)額(Y)、學(xué)習(xí)日正餐的一餐消費(fèi)額參考值(N)。
若滿足X≥M,以及Y 圖1是學(xué)生正餐消費(fèi)次數(shù)與正餐消費(fèi)金額分布圖示例。X軸為某月份(2010年9月份)學(xué)生正餐消費(fèi)次數(shù)(除去每日早餐與周六、周日三餐),Y軸為該月正餐的一餐消費(fèi)均值(單位為分),圖1抽樣數(shù)據(jù)為2010級所有學(xué)生(4150名)。管理者可以粗略地觀察消費(fèi)均值集中分布區(qū)域,與消費(fèi)次數(shù)集中分布區(qū)域。如需要進(jìn)一步挖掘出低消費(fèi)人群,需要在下文中進(jìn)一步分析。 M和N是人為給定的,需要校方管理人員結(jié)合實(shí)情與經(jīng)驗(yàn)給出,比如上例中,我們假定為M=15次,N=5.00元,則通過X≥15次,N<5.00元,可以找到圖1中相應(yīng)的消費(fèi)偏低的群體。 以上僅是一種理想的狀況,在真實(shí)的分析中,有時需要根據(jù)不同的聚類來調(diào)整參數(shù)以得到不同的分析結(jié)果。比如:刷卡消費(fèi)偏低群體中性別比例與實(shí)際在校生的性別比差別很大時,可能是學(xué)習(xí)日男女活動的頻率差異參考值導(dǎo)致,因?yàn)槟信休^大差異,需要調(diào)整。我們抽樣的數(shù)據(jù)可以進(jìn)一步按性別進(jìn)行聚類分樣。 最后,通過學(xué)生基本信息庫的關(guān)聯(lián)分析,我們可以進(jìn)一步得到:刷卡消費(fèi)偏低與家庭情況的相關(guān)性、刷卡次數(shù)偏低與校內(nèi)其他開放設(shè)施的劃卡消費(fèi)相關(guān)性、刷卡消費(fèi)偏低與圖書館自習(xí)次數(shù)的相關(guān)性、刷卡消費(fèi)偏低與就診次數(shù)的相關(guān)性等等,以此讓教師有更全面的判斷。例如對于刷卡消費(fèi)偏低同時圖書館自習(xí)次數(shù)較多成績優(yōu)秀的學(xué)生應(yīng)給予助學(xué)補(bǔ)助及勤工助學(xué)機(jī)會。對于刷卡次數(shù)異常的學(xué)生,說明思想出現(xiàn)了波動,例如經(jīng)常不參加集體活動或經(jīng)常在正常上課時間外出等。學(xué)校根據(jù)分析結(jié)果,找出這些行為異常的學(xué)生名單,便于校方進(jìn)行重點(diǎn)的思想教育活動。 數(shù)字化校園及一卡通系統(tǒng)中所存儲的學(xué)生信息、一卡通數(shù)據(jù),成為有問題學(xué)生的決策依據(jù),這僅是數(shù)據(jù)挖掘在數(shù)字化校園中的一個簡單應(yīng)用,如何把數(shù)據(jù)挖掘技術(shù)和數(shù)字化校園更好地結(jié)合起來,為高校的管理、建設(shè)決策提供更完備的支持是各大高校接下來面臨的一個現(xiàn)實(shí)問題。 (作者單位為上海海事大學(xué)信息化辦公室)