任孟其,宋汝鑫,王 萌,邵子豪,趙國生
(哈爾濱師范大學(xué))
隨著國家對教育事業(yè)的重視以及計(jì)算機(jī)的普及,學(xué)校信息化建設(shè)已成為未來發(fā)展的必然趨勢.全國各大高校也已在“云計(jì)算”[1]、“物聯(lián)網(wǎng)”和“數(shù)據(jù)挖掘”等新技術(shù)的推動下陸續(xù)地提出了“智慧校園”理念.
現(xiàn)有智慧校園研究中,大部分文獻(xiàn)都采用的是以一個宏觀的角度總結(jié)智慧校園的建設(shè),缺乏對單一問題的專項(xiàng)研究.如Zhang等[2]運(yùn)用運(yùn)行期模型對智慧校園中的無線傳感器網(wǎng)絡(luò)設(shè)備進(jìn)行統(tǒng)一化管理提升了校園網(wǎng)系統(tǒng)的通用性和可擴(kuò)展性,使智慧校園管理更加高效;Chen等[3]運(yùn)用協(xié)同過濾推薦算法,通過歷史數(shù)據(jù)的收集與分析,在基于校園學(xué)生日常的學(xué)習(xí)需求和社會娛樂中提供一些更加智能的建議;喬蕊等[4]研究了在物聯(lián)網(wǎng)環(huán)境下智慧校園的建設(shè)與發(fā)展,通過在物聯(lián)網(wǎng)環(huán)境下,對建設(shè)智慧校園的關(guān)鍵技術(shù)進(jìn)行了深入研究,分析了目前建設(shè)中的技術(shù)難點(diǎn)及未來的一些發(fā)展展望,是一篇具有總結(jié)性的文章;熊頻等[5]提出的面向智慧校園的學(xué)習(xí)環(huán)境建設(shè)研究,以美國賓夕法尼亞州州立大學(xué)智慧校園建設(shè)為例,分析了智慧校園環(huán)境建設(shè)的總體情況與關(guān)鍵點(diǎn),最后提出了關(guān)于頂層設(shè)計(jì)、學(xué)習(xí)方式、多元化應(yīng)用服務(wù)等校園環(huán)境建設(shè)的策略;吳旻瑜等[6]結(jié)合了當(dāng)代互聯(lián)網(wǎng)時代的高速發(fā)展,提出了將“互聯(lián)網(wǎng)+”與校園建設(shè)相結(jié)合的新思路,為新時代的校園建設(shè)提供了一條新的發(fā)展道路.
在建設(shè)智慧校園的道路上,校園學(xué)生安全問題顯得尤為重要;但現(xiàn)有文獻(xiàn)中有缺乏對學(xué)生異常行為的檢測.為此,該文針對智慧校園中的校園安全問題,結(jié)合數(shù)據(jù)挖掘中產(chǎn)生的位置信息,提出一種基于消錯決策和離群偏離度計(jì)算的智慧校園學(xué)生行為異常檢測的方法,該方法通過使用消錯決策的錯誤值計(jì)算,實(shí)現(xiàn)快速識別學(xué)生中單一時間點(diǎn)的異常行為,并對部分學(xué)生可能出現(xiàn)異常行為的趨勢進(jìn)行數(shù)值化顯示,使用離群偏離度計(jì)算實(shí)現(xiàn)了對學(xué)生全天候的可能性異常行為檢測,提高了對學(xué)生異常行為檢測的準(zhǔn)確度,降低了單一時間點(diǎn)的偶然因素,便于學(xué)校管理人員采取更加快速、合理的對策,降低學(xué)生發(fā)生危險的可能性,提高學(xué)校的管理水平.
所謂智慧校園是指通過利用云計(jì)算、虛擬化、物聯(lián)網(wǎng)和大數(shù)據(jù)分析等新技術(shù)改善廣大師生的生活方式及學(xué)校資源的使用方式,提高校園資源的總體利用率,由此構(gòu)建一個更加全面的、更加準(zhǔn)確的智能環(huán)境感知和綜合信息服務(wù)的平臺.
相對于常規(guī)的校園,智慧校園有以下特點(diǎn),見表1.
表1 智慧校園特點(diǎn)
近年來,校園安全事故的頻繁發(fā)生,引起了社會各界的高度重視,在智慧校園的建設(shè)中,校園安全中學(xué)生異常行為檢測扮演著十分重要的角色.為此,將消錯決策與離群偏離度計(jì)算引入到對學(xué)生日常行為的檢測當(dāng)中就顯得尤為重要.
消錯決策[7]可以避免由于某些錯誤數(shù)據(jù)所帶來的損失,從損失的角度出發(fā),降低錯誤的損失,達(dá)到更好的數(shù)據(jù)檢測效果.
在異常點(diǎn)檢測問題中,假設(shè)有m個學(xué)生數(shù)據(jù)表示為A={a1,a2,…,am},采集的n個屬性表示為D={d1,d2,…,dn},檢測矩陣為X=[xi,j]m*n, 其中xi,j為數(shù)據(jù)ai基于屬性dj的測量值.當(dāng)所測數(shù)據(jù)中有異常數(shù)據(jù)存在時,可利用以下規(guī)則檢測各個學(xué)生數(shù)據(jù)在不同的屬性上是否會發(fā)生錯誤,并利用錯誤值進(jìn)行描述.具體步驟如下所示:
步驟1:計(jì)算學(xué)生數(shù)據(jù)錯誤值t.
(1)
其中i= {1,2,…,m},j∈N.
根據(jù)公式(1)求得學(xué)生數(shù)據(jù)ai的錯誤值序列為{ti,1,ti,2,…,ti,n},ti,j為數(shù)據(jù)ai在屬性dj上的錯誤值.
(2)
其中i={1,2,…,m},N={1,2,…,n}.
當(dāng)ti*=1時則為異常行為.
步驟3:計(jì)算學(xué)生數(shù)據(jù)ai在屬性dj下的出錯值,據(jù)此推斷數(shù)據(jù)可能的異常情況.
ki,j=ai×dj,i∈M′,j=1,2,…,n
(3)
步驟4:對數(shù)據(jù)進(jìn)行排序,將異常序列{vi,1,vi,2,…,vi,n}看成多維空間上的點(diǎn)Vi,點(diǎn)Vi越接近原點(diǎn)O則學(xué)生數(shù)據(jù)ai越正常.
(4)
消錯決策的使用,可對所采集的學(xué)生數(shù)據(jù)進(jìn)行識別與分類,區(qū)分?jǐn)?shù)據(jù)是否異常;通過對數(shù)據(jù)的分析實(shí)現(xiàn)了學(xué)生單個時間點(diǎn)內(nèi)的異常行為檢測.
通常學(xué)生的異常行為僅通過某個時間段內(nèi)的一個異常點(diǎn)來顯示是遠(yuǎn)遠(yuǎn)不夠的.為此,該文接著從學(xué)生的一天活動記錄出發(fā),通過固定時間段的計(jì)時定位,得到學(xué)生一天的移動數(shù)據(jù),通過計(jì)算離群總體偏離度,檢測學(xué)生是否真的存在異常行為.
偏離度指實(shí)際的數(shù)據(jù)與目標(biāo)數(shù)據(jù)相差的絕對值占目標(biāo)數(shù)據(jù)的比重,在經(jīng)濟(jì)學(xué)中已得到了廣泛的應(yīng)用[8],但在異常檢測中使用相對較少,周帥等[9]證明了偏離度可在安全分析中起到?jīng)Q定作用,因此離群偏離度可以更好地反映學(xué)生的異常行為,離群偏離度的具體算法如下:
第一步:已知學(xué)生b在時間T的經(jīng)緯度坐標(biāo)為bT(Xb,Yb) ,通過歷史數(shù)據(jù)統(tǒng)計(jì)出該時間內(nèi)正常數(shù)據(jù)的中心為NCT(XNC,YNC),通過消錯決策方法識別學(xué)生b的經(jīng)緯度坐標(biāo)是否在正常數(shù)據(jù)集中,若在,則認(rèn)定該學(xué)生在當(dāng)前時刻處于正常范圍,離群偏離度值為0;若不在,則進(jìn)入第二步;
第二步:已知當(dāng)前時間T的合理數(shù)據(jù)點(diǎn)RDP(Reasonable Data Point)是離學(xué)生b最近的歷史合理數(shù)據(jù)點(diǎn),其坐標(biāo)為RDP(XRDP,YRDP),計(jì)算bT的離群點(diǎn)偏離度ρbT,計(jì)算公式如下:
(5)
第三步:計(jì)算該學(xué)生一天內(nèi)的總體離群偏離度ρb*,計(jì)算公式如下:
(6)
其中ωbT為閾值,l為當(dāng)天學(xué)生經(jīng)緯度坐標(biāo)處于正常數(shù)據(jù)集的次數(shù).此種閾值計(jì)算方法不僅保證了對正常數(shù)據(jù)的考慮,還提高了嚴(yán)重離群點(diǎn)的重視度,保證了總體離群偏離度的準(zhǔn)確性.
將識別方法與離群偏離度計(jì)算相結(jié)合,不僅實(shí)現(xiàn)了對學(xué)生單一時間點(diǎn)的異常行為檢測,還可以實(shí)現(xiàn)對學(xué)生全天候的、范圍更廣的、更為合適的綜合異常行為進(jìn)行檢測.
該實(shí)驗(yàn)通過采集“哈爾濱師范大學(xué)智慧校園APP”學(xué)生行為軌跡位置坐標(biāo).采集方式主要是基于射頻識別技術(shù)(RFID)和標(biāo)簽采集.采用RFID的原因主要包括:可同時讀取多個RFID標(biāo)簽、使用壽命長,應(yīng)用范圍廣、具有較高的安全性、數(shù)據(jù)的記憶容量很大等優(yōu)點(diǎn),因此,學(xué)校將RFID閱讀器安裝在每棟建筑物中的教室內(nèi),電子標(biāo)簽粘貼至學(xué)生飯卡背面,學(xué)生每次進(jìn)入教室、寢室和食堂以后即可實(shí)現(xiàn)一次信息的采集.
通過大量數(shù)據(jù)采集與分析,可知大一新生每天早上6點(diǎn)30分需在校體育場晨練,且體育場具體坐標(biāo)如圖1所示,現(xiàn)隨機(jī)采取計(jì)算機(jī)一班10名在校學(xué)生于2016年9月23日早上6點(diǎn)45分的具體坐標(biāo),如圖2所示.
圖1 體育場
圖2 學(xué)生數(shù)據(jù)
圖1中可以看出體育場經(jīng)、緯度范圍分別為126.565500~126.565750和45.8711 00~45.871250,圖2為管理員后臺數(shù)據(jù)庫,經(jīng)觀察大一學(xué)生由于都在學(xué)校經(jīng)緯度前幾位完全一致,為便于計(jì)算先選取最后四位進(jìn)行消錯決策計(jì)算.
根據(jù)公式(1)和環(huán)比評分法求得各數(shù)據(jù)的極限損失值為t1*=0.89、t2*=0.74、t3*=0.31、t4*=0.82、t5*=1、t6*=0.96、t7*=0.77、t8*=0.37、t9*=1、t10*=0.67,經(jīng)公式(2)可知學(xué)號為2016040019和2016040031的同學(xué)存在異常行為,可能沒來上體育課,其余8名同學(xué)目前在體育場上課.根據(jù)公式(3)和(4)求得學(xué)生異常行為出錯值為kd1*=0.74、kd2*=0.26,可能異常序列和離心距見表2.
表2 異常序列與離心距
綜上,該文提出的消錯決策,不僅可以判斷學(xué)生在某一時間點(diǎn)是否存在異常行為,還可以通過離心距的大小判斷部分學(xué)生是否存在有異常行為的可能性;總體離群偏離度的計(jì)算,將消錯決策中產(chǎn)生的單獨(dú)時間點(diǎn)檢測連接成一段時間,最終實(shí)現(xiàn)了對學(xué)生綜合行為的異常檢測,兩者結(jié)合,便于學(xué)校管理人員及時作出決策,避免了校園悲劇的發(fā)生,保證了校園學(xué)生的安全.
單一的檢測某一時刻學(xué)生的異常行為是遠(yuǎn)遠(yuǎn)不夠的,還需從總體出發(fā),觀察學(xué)生的一天生活軌跡,實(shí)現(xiàn)學(xué)生綜合行為的異常檢測.為此,通過智慧校園系統(tǒng)歷史數(shù)據(jù)的采集與分析,學(xué)號為2015040008同學(xué)在周一的正?;顒幼鴺?biāo)范圍記錄如圖3中紅色顯示區(qū)域,然而通過手機(jī)的實(shí)時定位,發(fā)現(xiàn)該同學(xué)在10月10日6:00-18:00的活動曲線如圖3中藍(lán)色圓點(diǎn),與之對應(yīng)的當(dāng)天學(xué)生具體后臺數(shù)據(jù)信息如圖3所示.
圖3 某一同學(xué)行為顯示
圖4中分別顯示的是學(xué)生當(dāng)前時間的經(jīng)緯度坐標(biāo)、正常記錄范圍中心點(diǎn)的經(jīng)緯度坐標(biāo)和離學(xué)生當(dāng)前坐標(biāo)最近的經(jīng)緯度坐標(biāo).通過歷史數(shù)據(jù)的記錄和消錯決策的計(jì)算,可以辨別當(dāng)前時間學(xué)生是否處于合理的記錄范圍內(nèi),若不處于合理記錄范圍內(nèi),計(jì)算機(jī)會自動找出當(dāng)前時間離學(xué)生坐標(biāo)最近的經(jīng)緯度坐標(biāo),加以顯示.經(jīng)觀察,表3中顯示該生只有8個時間處于正常記錄范圍內(nèi),與圖3完全吻合.通過公式(5)和(6),算出學(xué)生在異常時間的離群偏離度和總體偏離度,見表3.
圖4 2015040008學(xué)生具體信息
離群偏離度ρ*越大,說明該學(xué)生的活動軌跡與歷史記錄的活動軌跡差距越大,越有可能是異常行為,這時候,學(xué)校應(yīng)該采取一定的策略保證學(xué)生的生命安全,如及時派輔導(dǎo)員與學(xué)生溝通、校園心理咨詢室進(jìn)行備案等,根據(jù)ρ*的值對學(xué)生的可能偏離程度進(jìn)行分級描述,各等級與ρ*值的對應(yīng)關(guān)系見表4.
表4 學(xué)生偏離程度分級描述
綜上,該文提出的消錯決策,不僅可以判斷學(xué)生在某一時間點(diǎn)是否存在異常行為,還可以通過離心距的大小判斷部分學(xué)生是否存在有異常行為的可能性;總體離群偏離度的計(jì)算,將消錯決策中產(chǎn)生的單獨(dú)時間點(diǎn)檢測連接成一段時間,最終實(shí)現(xiàn)了對學(xué)生綜合行為的異常檢測,兩者結(jié)合,便于學(xué)校管理人員及時作出決策,避免了校園悲劇的發(fā)生,保證了校園學(xué)生的安全.
該文從智慧校園的校園安全問題入手,側(cè)重對學(xué)生異常行為的檢測,做到了防患于未然.在實(shí)驗(yàn)中對大一新生在體育場晨練的檢測,實(shí)驗(yàn)結(jié)果顯示該方法不僅可以判斷學(xué)生是否存在異常行為,還可以通過專家分析,辨別一部分可能存在異常趨勢的同學(xué);其次,通過歷史數(shù)據(jù)的收集、消錯決策方法的計(jì)算和離群偏離度的計(jì)算,實(shí)現(xiàn)了對某一學(xué)生一段時間內(nèi)的異常行為的綜合檢測,評價標(biāo)準(zhǔn)更加合理.但實(shí)驗(yàn)方法中仍存在一定的不足,在閾值選擇中對部分輕微偏離點(diǎn)的考慮不夠充分,離群偏離度計(jì)算方法較為理想化,下一步將考慮如何使用更加科學(xué)的離群偏離度計(jì)算方法并選取更加合理的閾值,使實(shí)驗(yàn)更加合理.