傲起 楊曉
摘要:校園網(wǎng)的發(fā)展對學(xué)生的學(xué)習(xí)與生活帶來了極大的便利,但同時也影響著學(xué)生的思想和行為,給高校學(xué)生管理工作帶來了新的挑戰(zhàn)。該文基于校園網(wǎng)流量分析,設(shè)計了一套學(xué)生網(wǎng)絡(luò)行為監(jiān)測系統(tǒng),可通過分析學(xué)生網(wǎng)絡(luò)行為監(jiān)測學(xué)生的網(wǎng)絡(luò)游戲沉迷情況,通過分析學(xué)生網(wǎng)絡(luò)瀏覽內(nèi)容監(jiān)測學(xué)生的話題關(guān)注情況,為學(xué)生的思想教育和行為引導(dǎo)提供可靠、有效的科學(xué)依據(jù)。
關(guān)鍵詞:網(wǎng)絡(luò)行為分析;流量分析;網(wǎng)絡(luò)游戲沉迷;風(fēng)險管控;大數(shù)據(jù)
中圖分類號:TP391 文獻標(biāo)識碼:A
文章編號:1009-3044(2020)09-0027-02
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 背景
近年來,網(wǎng)絡(luò)極大的便利了學(xué)生的日常學(xué)習(xí)與生活,包括資料查找、聊天、點餐、購物、視頻、游戲等。然而網(wǎng)絡(luò)上的信息良莠不齊,由于學(xué)生群體思想活躍、單純明辨是非能力差、自控力欠缺,在網(wǎng)絡(luò)帶來便利的同時,也帶來了一系列問題和風(fēng)險,嚴(yán)重影響了學(xué)生的健康成長,如網(wǎng)貸、沉迷游戲、傳播不良言論等[1]。傳統(tǒng)的管理措施主要依賴學(xué)校的管理制度和學(xué)生的自我約束,缺乏網(wǎng)絡(luò)控制、網(wǎng)絡(luò)行為分析能力和管控措施。為此,本文提出了一種基于校園網(wǎng)絡(luò)流量數(shù)據(jù)的學(xué)生行為監(jiān)測系統(tǒng)的設(shè)計方案,能夠?qū)崟r掌握學(xué)生的網(wǎng)絡(luò)游戲沉迷情況和學(xué)生關(guān)注黃賭毒情況,為學(xué)校提供有效科學(xué)的網(wǎng)絡(luò)管控措施。
2 網(wǎng)絡(luò)行為監(jiān)測系統(tǒng)
本系統(tǒng)對網(wǎng)絡(luò)言論與行為識別、判定及管控,架構(gòu)設(shè)計如圖1所示,由數(shù)據(jù)采集層、數(shù)據(jù)處理層和分析推理層組成,主要實現(xiàn)學(xué)生網(wǎng)絡(luò)沉迷的管控、涉黃賭毒的風(fēng)險用戶發(fā)現(xiàn)和用戶關(guān)注主題分析。
2.1 數(shù)據(jù)采集
數(shù)據(jù)采集捕獲校園流量數(shù)據(jù)包,對流量數(shù)據(jù)包進行識別,對于網(wǎng)頁瀏覽數(shù)據(jù)包進一步通過爬蟲爬取對應(yīng)頁面。主要設(shè)計思路如下:
1)流量數(shù)據(jù)包捕獲:在校園出口路由器上設(shè)置流量鏡像,基金項目:內(nèi)蒙古自治區(qū)高等學(xué)??茖W(xué)研究項目:智慧校園之學(xué)生上網(wǎng)行為的分析與研究(項目編號:NJZY18315)將數(shù)據(jù)轉(zhuǎn)發(fā)到數(shù)據(jù)采集服務(wù)器,在該服務(wù)器上使用基于DP-DKc2]的數(shù)據(jù)包采集軟件捕獲數(shù)據(jù)并將數(shù)據(jù)按照pcap文件格式進行存儲。
2)流量識別:采用基于深度包檢測技術(shù)對流量進行識別3],獲取以下信息:流量應(yīng)用類型,訪問IP地址、應(yīng)用層協(xié)議、訪問端口、訪問網(wǎng)址、訪問時間、源IP地址、源Mac地址等,將信息存儲到數(shù)據(jù)庫。
3)網(wǎng)頁爬蟲:對于應(yīng)用層協(xié)議為HTTP的數(shù)據(jù)包并且非搜索引擎的網(wǎng)址,使用網(wǎng)頁爬蟲下載對應(yīng)網(wǎng)頁文檔存儲到本地服務(wù)器。
2.2 數(shù)據(jù)處理
數(shù)據(jù)處理對流量數(shù)據(jù)和網(wǎng)頁文檔進行數(shù)據(jù)預(yù)處理和特征提取,為分析推理層提供算法所需數(shù)據(jù)。主要設(shè)計思路如下:
1)流量數(shù)據(jù)包的預(yù)處理和特征提取
流量數(shù)據(jù)預(yù)處理:本系統(tǒng)主要涉及的流量類型為網(wǎng)頁流量和游戲類流量,對于視頻和音頻類數(shù)據(jù)不進行處理,因此在預(yù)處理階段將該類數(shù)據(jù)包過濾掉。
流量數(shù)據(jù)特征提?。簩α髁繑?shù)據(jù)進行統(tǒng)計匯總,獲取每個學(xué)生的周上網(wǎng)總時長、上網(wǎng)頻率、每次上網(wǎng)時間段和平均在線時長等。對搜索引擎類數(shù)據(jù)包,對請求進行解析,獲取請求關(guān)鍵字。
2)網(wǎng)頁文檔的預(yù)處理和特征提取
網(wǎng)頁文檔的預(yù)處理:從網(wǎng)頁中去除HTML標(biāo)簽提取文本內(nèi)容。對處理后的文本進行文本分詞,文本分詞是網(wǎng)頁關(guān)鍵詞提取的基礎(chǔ),可采用Jieba分詞工具或者中科院分詞系統(tǒng)。最后從分詞之后的文本中去除停用詞。
網(wǎng)頁文檔關(guān)鍵詞提?。宏P(guān)鍵詞提取方法有TF-IDF算法、TextRank算法和基于LDA[4.5]主題模型的關(guān)鍵詞提取方法,其中前兩者無法從文本中提取隱含的主題信息,因此本文采用LDA算法。通過對LDA模型的訓(xùn)練可獲取每個網(wǎng)頁文檔的關(guān)鍵詞分布。
2.3 網(wǎng)絡(luò)游戲沉迷管控
隨著互聯(lián)網(wǎng)的發(fā)展,很多大學(xué)生沉浸于游戲,嚴(yán)重影響了正常的學(xué)業(yè)。通過網(wǎng)絡(luò)游戲沉迷分析幫助學(xué)校發(fā)現(xiàn)沉迷游戲的學(xué)生,便于進行有針對性輔導(dǎo)和教育。主要設(shè)計思路如下:
1)特征選取:學(xué)生的網(wǎng)絡(luò)游戲迷主要體現(xiàn)在上網(wǎng)時長方面[6],因此取以下四個特征作為度量標(biāo)準(zhǔn)。
2)網(wǎng)絡(luò)游戲沉迷度量化模型:層次分析法[7]堤:一種定性與定量相結(jié)合的決策分析方法,這里應(yīng)用該方法對網(wǎng)絡(luò)游戲沉迷度進行量化研究,其模型結(jié)構(gòu)如圖2所示。
為了得到學(xué)生的游戲成謎度,需要設(shè)定準(zhǔn)則層的評分規(guī)則,即如何通過學(xué)生的網(wǎng)絡(luò)行為對六個度量指標(biāo)進行數(shù)值評價。這里采用統(tǒng)計方法,由學(xué)生在群體中的排名決定每個指標(biāo)的量化值,各特征指標(biāo)的量化值范圍0 - 100,排名越靠前數(shù)值越高,表示沉迷程度越深,如某一學(xué)生的總上網(wǎng)時長排在第五名,那么他的總時長量化值為95。
準(zhǔn)則層到目標(biāo)層的定量化,即網(wǎng)絡(luò)游戲成謎度,將由所有特征指標(biāo)的量化值加權(quán)求和表示。特征指標(biāo)的權(quán)重使用一致矩陣法,首先對特征指標(biāo)兩兩相比較確定判定矩陣中每個元素值,然后對矩陣進行一致性驗證,若通過則經(jīng)特征向量歸一化獲得每個指標(biāo)的權(quán)重值,若不通過重新調(diào)整判定矩陣。
2.4 風(fēng)險管控
網(wǎng)絡(luò)中存在很多不健康的、有危害性的內(nèi)容,如涉黃、涉賭、涉毒、暴恐等,通過分析學(xué)生上網(wǎng)瀏覽的內(nèi)容,發(fā)現(xiàn)瀏覽此類內(nèi)容的學(xué)生,從而可對學(xué)生有針對性地做思想教育和行為引導(dǎo)。主要設(shè)計思路如下:
1)建立知識庫:針對涉黃、涉賭、涉毒建立相關(guān)關(guān)鍵詞知識庫、違規(guī)網(wǎng)站域名庫和事件關(guān)鍵詞庫(如惡性事件、民族分裂事件等)。
2)判定網(wǎng)頁性質(zhì):如網(wǎng)頁域名在違規(guī)域名庫,則直接判定為風(fēng)險網(wǎng)頁。否則使用關(guān)鍵詞多模式匹配方法[8]檢測網(wǎng)頁中是否包含已預(yù)設(shè)的敏感關(guān)鍵詞,若}H現(xiàn)頻率高于某一閾值標(biāo)記該網(wǎng)頁為風(fēng)險網(wǎng)頁,如涉賭網(wǎng)頁。
3)發(fā)現(xiàn)風(fēng)險用戶:統(tǒng)計每個用戶的風(fēng)險網(wǎng)頁瀏覽次數(shù)和利用搜索引擎搜索敏感詞匯次數(shù),根據(jù)上述兩個指標(biāo)對用戶進行排名,發(fā)現(xiàn)高風(fēng)險學(xué)生,如關(guān)注賭博的學(xué)生。
2.5 用戶關(guān)注分析
學(xué)生管理者能夠與學(xué)生進行有效溝通的前提是對學(xué)生的興趣愛好、所關(guān)注的事與物要有一定的了解。用戶關(guān)注分析通過對學(xué)生的瀏覽內(nèi)容發(fā)現(xiàn)學(xué)生所關(guān)注的主題,具有相似興趣愛好的學(xué)生群體。主要設(shè)計思路如下:
1)熱門主題發(fā)現(xiàn):根據(jù)網(wǎng)頁關(guān)鍵詞分布,統(tǒng)計每個關(guān)鍵詞的關(guān)注熱度。
2)相似興趣學(xué)生群體發(fā)現(xiàn):根據(jù)網(wǎng)頁關(guān)鍵詞分布,計算每個用戶的關(guān)注主題分布,使用余弦相似度[9]衡量用戶興趣相似度,基于K-means聚類[10]算法發(fā)現(xiàn)具有相似主題興趣的用戶群體。
3 結(jié)束語
本文對高校學(xué)生網(wǎng)絡(luò)行為監(jiān)測系統(tǒng)提出了一種設(shè)計思路,主要從網(wǎng)絡(luò)行為和網(wǎng)絡(luò)內(nèi)容兩個角度設(shè)計了三種監(jiān)測與分析模塊,能夠有效幫助高校實時掌握學(xué)生動態(tài),從而對學(xué)生有針對性地進行思想教育和行為引導(dǎo)。
參考文獻:
[1]李立,彭聰留.基于大學(xué)生的網(wǎng)絡(luò)行為態(tài)勢感知和管理方案探討[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2019(9): 80-83.
[2]任吳哲,年梅,基于DPDK的高速數(shù)據(jù)包捕獲方法[J].計算機系統(tǒng)應(yīng)用,2018,27(6): 240-243.
[3]孟博,何旭東,王德軍,等.網(wǎng)絡(luò)協(xié)議流量識別方法研究[Jl.鄭州大學(xué)學(xué)報:理學(xué)版,2019,51(4): 68-74.
[4]楊傳春,張冰雪,李仁德,等.基于LDA模型的網(wǎng)絡(luò)刊物主題發(fā)現(xiàn)與聚類[Jl.上海理工大學(xué)學(xué)報,2019,41(3): 273-280, 306.
[5]李夢杰,劉建國,郭強,等.基于文本挖掘的互聯(lián)網(wǎng)教育課程主題發(fā)現(xiàn)與聚類研究[J].上海理工大學(xué)學(xué)報,2018,40(3):259-266.
(6]劉晨光,王彥英.大學(xué)生上網(wǎng)時長與網(wǎng)絡(luò)成癮的相關(guān)性調(diào)查 [Jl.內(nèi)蒙古科技與經(jīng)濟,2015(4): 16-17.
[7]林海卓,王繼龍,張頤哲,等.高校網(wǎng)絡(luò)沉迷與防沉迷系統(tǒng)的研究與實現(xiàn)[J].通信學(xué)報,2014(z1): 170-177.
[8]夏念,嵩天.短規(guī)則有效的快速多模式匹配算法[J].計算機工程與應(yīng)用,2017,53(7): 1-8.
[9]武永亮,趙書良,李長鏡,等,基于TF-IDF和余弦相似度的文本分類方法[J].中文信息學(xué)報,2017,31(5): 138-145.
[10]楊俊闖,趙超.K-Means聚類算法研究綜述[J].計算機工程與應(yīng)用,2019,55(23): 7-14,63.
【通聯(lián)編輯:謝媛媛】
作者簡介:傲起(1983-),女(蒙古族),內(nèi)蒙古鄂爾多斯人,講師,碩士,主要研究方向為上網(wǎng)行為分析、輿情分析、情感分類、深度學(xué)習(xí);楊曉(1989-),女(蒙古族),內(nèi)蒙古鄂爾多斯人,初級,學(xué)士。