趙丹 趙文廣
近年來信息技術(shù)的高速發(fā)展引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長,國家對此高度重視,教育部在近年來的《教育信息化工作要點》中也屢屢提到大數(shù)據(jù)應(yīng)用?;诖说难芯吭絹碓蕉?。為順應(yīng)時代發(fā)展,本文嘗試采集校園網(wǎng)用戶上網(wǎng)行為大數(shù)據(jù),對其進(jìn)行分析,量化其行為規(guī)律。此類研究主要有:分析校園網(wǎng)用戶行為,用來合理分配帶寬。分析上網(wǎng)時長、上網(wǎng)內(nèi)容與學(xué)習(xí)成績之間的關(guān)系。存在的問題主要有:數(shù)據(jù)量較小,整理篩選后的樣本用戶不足萬人,分析維度單一。本文亮點在于:數(shù)據(jù)量大,采集了十幾萬人的上網(wǎng)行為數(shù)據(jù);采用多維度分類法進(jìn)行了較為細(xì)致的分析,總結(jié)出了校園網(wǎng)用戶行為的某些規(guī)律。
筆者采集了基于校園網(wǎng)的用戶上網(wǎng)行為大數(shù)據(jù),并對其進(jìn)行清洗、篩選,多維度分類統(tǒng)計與分析,總結(jié)出了各類校園網(wǎng)用戶的行為規(guī)律。以便相關(guān)部門依托這些數(shù)據(jù)、規(guī)律整合流程,更好的形成創(chuàng)新性的服務(wù)體驗,同時也能通過數(shù)據(jù)化的管理實現(xiàn)個性化服務(wù)的精準(zhǔn)推送。
系統(tǒng)包括:數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析。采集的數(shù)據(jù)包括:上下線時間、時長、流量、IP等。
(一)系統(tǒng)總體介紹
以某校為例,校園網(wǎng)包括有線網(wǎng)與無線網(wǎng)。其中有線網(wǎng)交換機(jī)近千臺,無線網(wǎng)AP幾千個,基本覆蓋所有教學(xué)、辦公、宿舍等區(qū)域。所有用戶必須登錄計費系統(tǒng)認(rèn)證之后才能訪問外網(wǎng)?;谛@網(wǎng)的用戶上網(wǎng)行為數(shù)據(jù)分析系統(tǒng)拓?fù)浣Y(jié)構(gòu)如圖1所示。認(rèn)證網(wǎng)關(guān)位于防火墻和核心交換機(jī)之間,用于采集上網(wǎng)行為數(shù)據(jù)。
系統(tǒng)結(jié)構(gòu)框圖如圖2所示,包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析三大模塊。數(shù)據(jù)采集模塊負(fù)責(zé)采集用戶上網(wǎng)行為數(shù)據(jù)。通過數(shù)據(jù)定義規(guī)則對數(shù)據(jù)進(jìn)行預(yù)處理后,將非結(jié)構(gòu)化數(shù)據(jù)存入日志服務(wù)器,結(jié)構(gòu)化數(shù)據(jù)存儲于數(shù)據(jù)庫。數(shù)據(jù)存儲模塊負(fù)責(zé)存儲數(shù)據(jù),并對計費數(shù)據(jù)庫數(shù)據(jù)、用戶訪問日志進(jìn)行進(jìn)一步清理、篩選,將結(jié)果存入數(shù)據(jù)庫數(shù)據(jù)分析相關(guān)表中。數(shù)據(jù)分析模塊負(fù)責(zé)對數(shù)據(jù)進(jìn)行各種分析。
(二)數(shù)據(jù)采集
1.數(shù)據(jù)采集原則
高校大數(shù)據(jù)的主要特點有:數(shù)據(jù)分散、數(shù)據(jù)類型多,數(shù)據(jù)量不算特別大,但是數(shù)據(jù)價值非常高。故在數(shù)據(jù)采集時要做到大而全、細(xì)而及時。
大:充分考慮數(shù)據(jù)規(guī)模的增長,做好大數(shù)據(jù)積累。
全:采取多種方法全量采集。
細(xì):多維度、全面采集。
及時:及時采集數(shù)據(jù),提高時效性。
2.數(shù)據(jù)采集方案
高校數(shù)據(jù)主要有兩類:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。針對此,采取不同的數(shù)據(jù)采集方案。
日志服務(wù)器負(fù)責(zé)采集非結(jié)構(gòu)化數(shù)據(jù),例如:用戶IP、目標(biāo)IP、MAC、下行流量、登錄時間、下線時間、使用設(shè)備、NASIP等。通過認(rèn)證網(wǎng)關(guān)的內(nèi)核來采集,并采用了雙認(rèn)證網(wǎng)關(guān)和負(fù)載均衡技術(shù)。
數(shù)據(jù)庫負(fù)責(zé)采集存儲結(jié)構(gòu)化數(shù)據(jù),例如用戶ID、上網(wǎng)開始時間、結(jié)束時間、使用流量等。主要從原始數(shù)據(jù)中抽取出來。例如:日志服務(wù)器采集了用戶每一次認(rèn)證的數(shù)據(jù),數(shù)據(jù)庫抽取部分?jǐn)?shù)據(jù)存儲。然后通過觸發(fā)器、腳本等將其進(jìn)行篩選、整合,形成業(yè)務(wù)數(shù)據(jù)。
(三)數(shù)據(jù)存儲
日志服務(wù)器按照每天一個文件夾來存儲非結(jié)構(gòu)化數(shù)據(jù),每天增量約40G。結(jié)構(gòu)化數(shù)據(jù)由Oracle大型數(shù)據(jù)庫存儲。以表1為例,是在用戶單次消費的基礎(chǔ)上算出的月消費情況。存儲數(shù)據(jù)有:用戶ID、時長、流量、費用等。一條記錄存儲一個用戶在某段時間(一個月)內(nèi)使用的上網(wǎng)流量、時長、網(wǎng)費。數(shù)據(jù)分析時需與用戶表進(jìn)行聯(lián)合查詢。此表每月約10萬條數(shù)據(jù)。
(四)數(shù)據(jù)分析
數(shù)據(jù)分析模塊用于實現(xiàn)對用戶的流量、時長、網(wǎng)費等行為數(shù)據(jù)進(jìn)行多維度的分析。
采用按不同消費月份統(tǒng)計用戶的行為,例如流量、時長、網(wǎng)費等;從類別、性別等不同維度分類統(tǒng)計比較用戶的行為;分時段統(tǒng)計用戶在線人數(shù)。
通過對這些數(shù)據(jù)的分析,生成統(tǒng)計表和統(tǒng)計圖。
本系統(tǒng)依托于校園計費系統(tǒng),注冊用戶數(shù)為十七萬余人,個人允許在線設(shè)備上限為3,系統(tǒng)最大同時在線終端數(shù)為24662。系統(tǒng)采集了歷年來的用戶上網(wǎng)數(shù)據(jù),其中存儲于oracle數(shù)據(jù)庫的數(shù)據(jù)已超20G,存儲于日志服務(wù)器的數(shù)據(jù)以日均40G的速率增長。
(一)用戶樣本集選取
系統(tǒng)用戶分為本科生、研究生、其他學(xué)生、教職工、訪客、專線用戶。用戶離校后帳號保留,其活躍度有時效性。初步選定時間范圍為某學(xué)年,目標(biāo)為該學(xué)年初即9月的活躍用戶(流量>0G),共32125人。
從圖3可看出占比最大的三類用戶為:本科生、研究生和教職工。訪客與其的顯著區(qū)別是每月無贈送流量,也納入樣本集。最終選取本科生、研究生、教職工和訪客四大類用戶共30732人這個樣本集在某學(xué)年度的上網(wǎng)數(shù)據(jù)進(jìn)行分析。
(二)不同類別用戶每月人均使用情況分析
將樣本集用戶在某學(xué)年內(nèi)每月的流量(單位:GB)、網(wǎng)費(單位:元)、時長(單位:小時)進(jìn)行統(tǒng)計與分析,依次得出如圖4、圖5、圖6所示的比對圖。
從圖4可看出每月人均使用流量為:本科生>研究生>教職工>訪客。因本科生、研究生生活學(xué)習(xí)都在校內(nèi),在網(wǎng)時間長。教職工僅在校內(nèi)工作,在網(wǎng)時間較短。訪客在網(wǎng)時間更短,故使用流量最少。
從圖5可看出每月人均網(wǎng)費消費為:本科生>研究生>訪客>教職工。其趨勢與每月人均使用流量大體相同,但不成比例。因每月贈送本科生、研究生10G流量,教職工15G,訪客無。且收費費率呈階梯式。
從圖4、圖5可看出本科生每月人均流量、網(wǎng)費消費最多。因本科生自由時間最多,研究生需上課、科研、外出實習(xí)等。訪客無贈送流量,網(wǎng)費也不容小覷。教職工每月人均網(wǎng)費消費最少。
從圖4、圖5、圖6可看出1、2、7、8月用戶人均使用流量、網(wǎng)費、時長明顯少于其他月份。因寒假一個月跨越了1、2月,暑假為7、8兩個月。進(jìn)一步分析減少比例,減少比例=(正常月份平均值-假期平均值)/正常月份平均值。假設(shè)f(i) 表示第i個月用戶流量,則假期流量減少比例計算如式(1)所示:
以此類推,計算出不同類別用戶假期用量減少比例如表2所示。寒假用量減少很大,其中本科生網(wǎng)費減少了61.4%,非常貼合我國人民春節(jié)歸家的習(xí)性。而暑假教職工網(wǎng)費、訪客流量網(wǎng)費時長均有所增加,可看出暑假仍有不少教職工在校內(nèi)堅守崗位。
統(tǒng)計各類用戶在學(xué)年度內(nèi)平均使用流量與平均使用時長的比率(簡稱:流量時長比)如表3所示??煽闯霰究粕牧髁繒r長比最大。說明本科生更愛訪問消耗校外流量多的網(wǎng)址。其他用戶用網(wǎng)更理性。
(三)不同性別用戶每月人均使用情況分析
按照男、女不同性別統(tǒng)計樣本集中的本科生和研究生在某學(xué)年內(nèi)每月的人均網(wǎng)費流量、時長,如圖7、圖8所示。從圖7可看出,男生每月網(wǎng)費約為女生的2倍,流量約為女生的1.3倍。從圖8可看出,男女生上網(wǎng)時長基本持平。說明男生訪問的網(wǎng)站更耗校外流量。而女生較節(jié)約,使用校外資源明顯少于男生。
(四)不同時段用戶在線人數(shù)
以9月為例,每天不同時段用戶在線人數(shù)分布如圖9所示。1時表示0-1點,2時表示1-2點,以此類推。不同線條表示不同的天,對應(yīng)不同天不同時段的在線人數(shù)??煽闯鲈诰€人數(shù)峰值時段分別為:12-13時,17-18時。在線人數(shù)最少的兩個時段分別為:3-4時,5-6時。據(jù)此可避開上網(wǎng)高峰選擇在線人數(shù)較少的時段調(diào)整網(wǎng)絡(luò)、升級系統(tǒng)等。
(五)分析結(jié)果小結(jié)
用戶對網(wǎng)絡(luò)的使用量受其年級、性別、時間等多方面影響。具體表現(xiàn)為:
1.人均使用流量本科生最多,訪客最少;
2.人均網(wǎng)費消費本科生最多,教職工最少;
3.寒暑假用戶流量、網(wǎng)費、時長比平常少。其中本科生寒假網(wǎng)費減少最多,訪客暑假網(wǎng)費反而增加;
4.不同類別用戶流量時長比有所差異,本科生的流量時長比最大;
5.男生每月人均網(wǎng)費約為女生的2倍,流量約為女生的1.3倍,兩者上網(wǎng)時長基本持平;
6.12-13時,17-18時校園網(wǎng)在線人數(shù)最多,3-4時,5-6時在線人數(shù)最少。
基于校園網(wǎng)對用戶的上網(wǎng)行為數(shù)據(jù)進(jìn)行分析,可總結(jié)出很多有意思的規(guī)律。管理部門可據(jù)此為師生提供便捷、高效、精準(zhǔn)的個性化引導(dǎo)和服務(wù),為學(xué)校開展精細(xì)化、智能化師生服務(wù)提供理論依據(jù)和解決方案,進(jìn)而影響智慧校園決策。
本文是筆者所在高?;谛@網(wǎng)用戶上網(wǎng)行為數(shù)據(jù)分析及應(yīng)用的初步嘗試,后續(xù)將引入專業(yè)大數(shù)據(jù)分析工具找出更深層次的規(guī)律。作者單位:中國人民大學(xué)信息技術(shù)中心