連惠群 唐明杰
(福建警察學(xué)院 福建省福州市 350007)
物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,影響社會(huì)生活的各個(gè)方面,也推動(dòng)了智慧校園的發(fā)展。智慧校園應(yīng)該具備挖掘和分析學(xué)生行為的能力。學(xué)生的日常行為可以反映學(xué)生的思想動(dòng)態(tài)。由于我公安院校的特殊性,學(xué)生們是半軍事化管理,存在一些特殊的數(shù)據(jù)(出入校園登記、紀(jì)檢登記、內(nèi)務(wù)檢查登記等),這些數(shù)據(jù)可以側(cè)面反映學(xué)生們的行為習(xí)慣、思想狀態(tài)等。本文基于我院學(xué)生管理數(shù)據(jù),有出入校園數(shù)據(jù)、操行分?jǐn)?shù)據(jù)、智育分?jǐn)?shù)據(jù)、測(cè)評(píng)分?jǐn)?shù)據(jù)等等,對(duì)這些數(shù)據(jù)進(jìn)行處理和分析,建立思想動(dòng)態(tài)模型和預(yù)警機(jī)制,以期幫助我院各學(xué)生大隊(duì)更好的管理和幫助學(xué)生,并為我校學(xué)生思想政治教育工作服務(wù),這對(duì)于我公安院校有著特別的重要意義。本文通過(guò)四個(gè)方面展開研究。一是對(duì)出入校園數(shù)據(jù)進(jìn)行分析,根據(jù)我院實(shí)際情況,建立一個(gè)異常的判斷模型,確定判斷依據(jù),設(shè)定臨界值。基于這個(gè)模型,通過(guò)K 最近鄰(KNN)分類算法,對(duì)出入校園數(shù)據(jù)實(shí)現(xiàn)自動(dòng)分類,發(fā)現(xiàn)異常點(diǎn)。二是在有關(guān)數(shù)據(jù)處理的基礎(chǔ)上,利用智育分的等級(jí)作為標(biāo)簽,運(yùn)用spark 決策樹多元分類算法對(duì)學(xué)生的行為趨勢(shì)進(jìn)行數(shù)據(jù)挖掘,預(yù)測(cè)智育分;三是對(duì)學(xué)生的個(gè)性簽名進(jìn)行情感分析,得出學(xué)生的情緒狀態(tài);四是根據(jù)以上結(jié)果,設(shè)計(jì)學(xué)生思想動(dòng)態(tài)監(jiān)測(cè)模型,以期更好地幫助學(xué)生,服務(wù)學(xué)生。
早期的學(xué)生行為分析是來(lái)自問(wèn)卷統(tǒng)計(jì)或者案例收集,這樣的分析方式,即消耗大量的時(shí)間,又消耗許多的人力資源。而近年來(lái)人們?cè)絹?lái)越多的利用大數(shù)據(jù)的數(shù)據(jù)挖掘的分析方式,使得部分的教育質(zhì)量有所提升,但是仍有許多學(xué)校沒(méi)有加入這個(gè)行列,因?yàn)椴煌膶W(xué)校的學(xué)生所產(chǎn)生的行為數(shù)據(jù)不同,需要針對(duì)各學(xué)校的特點(diǎn)進(jìn)行分析。學(xué)生行為分析方面近幾年在國(guó)內(nèi)外有大量的研究:電子科技大學(xué)的何鑫[1],提出了隨機(jī)森林的權(quán)重自擬合算法、基于Map Reduce的決策樹參數(shù)自擬合算法和基于Map Reduce 的FP-Growth 算法,最終得到特征重要性、各特征值與行為標(biāo)簽的頻繁二項(xiàng)集以及與標(biāo)簽有關(guān)的高置信度的頻繁多項(xiàng)集;李中原[2]采用信息獲取、數(shù)據(jù)清洗和信息聚類等網(wǎng)絡(luò)輿情分析技術(shù)對(duì)高校學(xué)生網(wǎng)絡(luò)輿情監(jiān)測(cè)流程、監(jiān)測(cè)方法和監(jiān)測(cè)內(nèi)容等予以研究。王姝驕[3]通過(guò)以開發(fā)的WiCloud系統(tǒng)獲取北郵校園內(nèi)學(xué)生的行為數(shù)據(jù),并從三方面展開研究:學(xué)生行為模式聚類、學(xué)習(xí)風(fēng)氣分析、學(xué)習(xí)成績(jī)預(yù)測(cè)等。肖逸楓[4]利用學(xué)生前三學(xué)期在校的相關(guān)行為記錄,結(jié)合多種機(jī)器學(xué)習(xí)方法,建立模型預(yù)測(cè)學(xué)生第四學(xué)期結(jié)束之后是否存在留級(jí)的風(fēng)險(xiǎn)。Hirotaka Itoh[5]通過(guò)數(shù)據(jù)分析等相關(guān)性研究,利用大量的成績(jī)預(yù)測(cè)學(xué)生出勤率和成績(jī)數(shù)據(jù)的相關(guān)趨勢(shì),從而創(chuàng)建貝葉斯網(wǎng)絡(luò)來(lái)預(yù)測(cè)學(xué)生未來(lái)的成績(jī)和GPA 數(shù)據(jù)。S.Shankar[6]使用K-means 聚類算法,根據(jù)哈佛大學(xué)在線注冊(cè)的學(xué)生的成績(jī)、國(guó)籍等影響因素進(jìn)行成績(jī)分析。在思想動(dòng)態(tài)方面,李昱,何文華[7]以廣東女子職業(yè)技術(shù)學(xué)院為例,提出了基于大數(shù)據(jù)的大學(xué)生思想動(dòng)態(tài)研判思路、研究以數(shù)字化校園為基礎(chǔ),通過(guò)信息化管理過(guò)程中產(chǎn)生的海量數(shù)據(jù),對(duì)學(xué)生的思想動(dòng)態(tài)進(jìn)行綜合分析,為教育引導(dǎo)提供有效依據(jù);成方、高大林[8]等研究人員基于員工思想動(dòng)態(tài)預(yù)警的機(jī)制和方法,采取了定量和定性相結(jié)合的分析手段進(jìn)行探索。再經(jīng)過(guò)分類分層處理,形成了“員工思想預(yù)警關(guān)鍵信息指標(biāo)體系”。本文主要根據(jù)我院實(shí)際數(shù)據(jù)特點(diǎn)及我院學(xué)生管理工作實(shí)際,建立出入校園異常判斷模型和智育分預(yù)測(cè)算法,在此基礎(chǔ)上,設(shè)計(jì)學(xué)生思想動(dòng)態(tài)監(jiān)測(cè)模型。
圖1:出入校園數(shù)據(jù)樣例
圖2:德育分?jǐn)?shù)據(jù)樣例
圖3:智育分?jǐn)?shù)據(jù)樣例
圖4:抽取有關(guān)項(xiàng)的數(shù)據(jù)片段
圖5:整合后待處理的數(shù)據(jù)片段
由于我院學(xué)生出入的時(shí)間規(guī)則是周一到周五,集合時(shí)間是P1、N2、N4,周六集合時(shí)間是W1、W2,周日集合時(shí)間是W1、N4,學(xué)院規(guī)定,集合的時(shí)間學(xué)生必須到場(chǎng),公務(wù)或病假等原因需要請(qǐng)假。
給出一個(gè)異常處理模型:異常的兩個(gè)判斷依據(jù):其中一點(diǎn)是正常出入校園的時(shí)間是Fn1≤F ≤Fn2、Fn3≤F ≤Fn4(非周末,中午時(shí)間和傍晚時(shí)間)和Fw1≤F ≤Fw2(周六),F(xiàn)w1≤F ≤Fn4(周日),在這時(shí)間段之外(且未請(qǐng)假的)的即是非正常,另一點(diǎn)是,一般情況下,學(xué)生每個(gè)月請(qǐng)假次數(shù)在某個(gè)范圍浮動(dòng)。判定函數(shù)如下:
圖6:決策樹多元分類算法運(yùn)行及結(jié)果
圖7:情感分析后的結(jié)果
正 常:F(Fn1≤F ≤Fn2;Fn3≤F ≤Fn4)非周末,且F(Fw1≤F ≤Fw2)周末,且T ≤max
黃色預(yù)警:F(Fn1≤F ≤Fn2;Fn3≤F ≤Fn4)非周末,F(xiàn)(Fw1≤F ≤Fw2)周末,T ≤max,這四個(gè)條件違反一次按一次計(jì),一個(gè)月違反1-2 次;
橙色預(yù)警:F(Fn1≤F ≤Fn2;Fn3≤F ≤Fn4)非周末,F(xiàn)(Fw1≤F ≤Fw2)周末,T ≤max,這四個(gè)條件違反一次按一次計(jì),一個(gè)月違反3-4 次;
紅色預(yù)警:F(Fn1≤F ≤Fn2;Fn3≤F ≤Fn4)非周末,F(xiàn)(Fw1≤F ≤Fw2)周末,T≤max,這四個(gè)條件違反一次按一次計(jì),一個(gè)月違反4次以上。
如圖1 是出入校園數(shù)據(jù)樣例。
模型建成后,使用KNN 算法對(duì)數(shù)據(jù)進(jìn)行分類。KNN 算法,也稱K 最近鄰算法,是一種分類算法,是基于距離的離群點(diǎn)檢測(cè)的方法。首先構(gòu)建一個(gè)已經(jīng)分類的數(shù)據(jù)集,然后計(jì)算一個(gè)新樣本與數(shù)據(jù)集中所有數(shù)據(jù)的距離,新樣本的值靠近哪個(gè)分類就屬于哪個(gè)類別,最后輸出結(jié)果。根據(jù)以上的模型,對(duì)該同學(xué)11月測(cè)試的結(jié)果,是2次,黃色預(yù)警。
成績(jī)雖然并不是唯一的評(píng)價(jià)標(biāo)準(zhǔn),但是以我們管理學(xué)生的經(jīng)驗(yàn),成績(jī)卻能側(cè)面反映學(xué)生的整體狀況。如果成績(jī)浮動(dòng)不大,則學(xué)生的狀態(tài)一般趨于平穩(wěn)。反之,如果一位學(xué)生成績(jī)突然下降,則可能學(xué)生狀態(tài)不佳,可能發(fā)生了什么事情,或許遇到了什么困難。但是一般學(xué)生們?cè)趯W(xué)期末才會(huì)考試,半年后才發(fā)現(xiàn)學(xué)生的狀態(tài)欠佳就比較晚了。我院是公安院校,平時(shí)會(huì)記錄學(xué)生的德育分,比如記錄出勤、內(nèi)務(wù)、獎(jiǎng)勵(lì)、測(cè)評(píng)等情況。我們的思路是針對(duì)紀(jì)檢登記、內(nèi)務(wù)檢查登記、獎(jiǎng)勵(lì)登記、測(cè)評(píng)登記等數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行碰撞和挖掘,對(duì)學(xué)生的行為進(jìn)行分析,對(duì)學(xué)生的成績(jī)進(jìn)行預(yù)測(cè)。這樣每時(shí)每刻對(duì)學(xué)生們的狀態(tài)進(jìn)行監(jiān)測(cè),實(shí)時(shí)預(yù)測(cè)學(xué)生們的成績(jī),如果發(fā)現(xiàn)某學(xué)生的預(yù)測(cè)成績(jī)出現(xiàn)異常(與原來(lái)相比差別比較大),則會(huì)預(yù)警,大隊(duì)管理老師則會(huì)重點(diǎn)關(guān)注該學(xué)生的思想動(dòng)態(tài),通過(guò)談心談話等方式疏解,這樣以期幫助我院各學(xué)生大隊(duì)更好的管理和幫助學(xué)生,并為我院學(xué)生思想政治教育工作服務(wù)。
表1:學(xué)生思想動(dòng)態(tài)監(jiān)測(cè)模型框架
德育分和智育分?jǐn)?shù)據(jù)樣例如圖2 和圖3所示。我們抽取大部分同學(xué)都有的項(xiàng)目如測(cè)評(píng)分(上學(xué)期的測(cè)評(píng)分,因?yàn)楸緦W(xué)期的測(cè)評(píng)分在期末才會(huì)進(jìn)行測(cè)評(píng),測(cè)評(píng)分指的是區(qū)隊(duì)內(nèi)其他同學(xué)對(duì)自己評(píng)價(jià)的平均分)、減分、區(qū)隊(duì)干部、無(wú)違紀(jì)、內(nèi)務(wù)未扣、大隊(duì)通報(bào)表?yè)P(yáng)等項(xiàng)目(如圖4所示),預(yù)測(cè)項(xiàng)(標(biāo)簽)是智育成績(jī)(分為優(yōu)秀4,良好3,及格2,不及格1)四項(xiàng)。最后的整合數(shù)據(jù)如圖5所示,最后一項(xiàng)是標(biāo)簽label(即成績(jī)等級(jí))。
我們構(gòu)建了spark 環(huán)境進(jìn)行預(yù)測(cè),使用決策樹多元分類,程序運(yùn)行及結(jié)果如圖6所示。
此分析主要利用貝葉斯分類模型算法,對(duì)個(gè)性簽名進(jìn)行分類。本次分析利用已經(jīng)封裝好的庫(kù)--snownlp,直接對(duì)個(gè)性簽名進(jìn)行分析。最終得到分析結(jié)果,如圖7。
結(jié)合以上研究結(jié)果,設(shè)計(jì)學(xué)生思想動(dòng)態(tài)監(jiān)測(cè)模型框架(表1)。
此框架設(shè)計(jì)學(xué)生思想動(dòng)態(tài)監(jiān)測(cè)模型,包括貢獻(xiàn)狀況、違紀(jì)情況、情緒狀態(tài)、人際交往、請(qǐng)銷假、預(yù)測(cè)成績(jī)等指標(biāo),其中指標(biāo)的數(shù)據(jù)以一個(gè)月為周期。
此模型框架以校園內(nèi)已經(jīng)建立的軟硬件系統(tǒng)為基礎(chǔ),先對(duì)大學(xué)生在日常生活和學(xué)習(xí)中各種行為,如出入校園次數(shù)、加分細(xì)目等,研究確定各類活動(dòng)正常狀態(tài)下的閾值標(biāo)準(zhǔn)。通過(guò)研究與分析,我們?cè)O(shè)定若6 個(gè)指標(biāo)中有3 個(gè)指標(biāo)達(dá)到預(yù)警值,或者每個(gè)指標(biāo)的狀態(tài)有發(fā)生變化,比如違紀(jì)情況突然增多、請(qǐng)銷假數(shù)據(jù)有變化、情緒狀態(tài)突變、成績(jī)預(yù)測(cè)突變等,這些都需要大隊(duì)老師對(duì)預(yù)警信息進(jìn)行綜合研判后,對(duì)學(xué)生進(jìn)行針對(duì)性的正向引導(dǎo)。
本文基于學(xué)生出入校園數(shù)據(jù)、學(xué)生操行分?jǐn)?shù)據(jù)、智育分?jǐn)?shù)據(jù)、微信個(gè)性簽名信息等數(shù)據(jù),首先對(duì)出入校園數(shù)據(jù)進(jìn)行分析,根據(jù)我院實(shí)際情況,建立一個(gè)異常的判斷模型,確定判斷依據(jù),設(shè)定臨界值?;谶@個(gè)模型,通過(guò)K 最近鄰(KNN)分類算法,對(duì)出入校園數(shù)據(jù)實(shí)現(xiàn)自動(dòng)分類,發(fā)現(xiàn)異常點(diǎn)。接著在有關(guān)數(shù)據(jù)處理的基礎(chǔ)上,利用智育分的等級(jí)作為標(biāo)簽,運(yùn)用spark 決策樹多元分類算法對(duì)學(xué)生的行為趨勢(shì)進(jìn)行數(shù)據(jù)挖掘,預(yù)測(cè)智育分;然后對(duì)學(xué)生的個(gè)性簽名進(jìn)行情感分析,得出學(xué)生的情緒狀態(tài);最后,根據(jù)以上結(jié)果,設(shè)計(jì)學(xué)生思想動(dòng)態(tài)監(jiān)測(cè)模型,以期更好地幫助學(xué)生,服務(wù)學(xué)生。本次研究的整個(gè)模型仍存在不足之處,如需要提取更多有效特征來(lái)描述行為并添加新的數(shù)據(jù),如:校園一卡通的學(xué)生消費(fèi)記錄、游泳池的使用記錄,體測(cè)數(shù)據(jù),圖書館使用記錄等。另外數(shù)據(jù)量不夠多,成績(jī)預(yù)測(cè)的結(jié)果準(zhǔn)確率還不夠高,接下來(lái)將調(diào)整參數(shù)和使用更多的數(shù)據(jù)進(jìn)行計(jì)算。