黃 磊
西南民族大學(xué),四川 成都 610041
隨著計算機技術(shù)的日益發(fā)達(dá)和完善,網(wǎng)絡(luò)信息中的信息成倍增加。針對數(shù)量日益龐大的數(shù)據(jù)庫信息,必須找到一個合理的信息搜索與數(shù)據(jù)分析方法,從數(shù)以萬計的數(shù)據(jù)庫信息當(dāng)中實現(xiàn)有效數(shù)據(jù)的獲取,同時也可以在所獲取的數(shù)據(jù)當(dāng)中預(yù)測對應(yīng)的結(jié)果及發(fā)展趨勢。這時,就用到了數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)起源于20世紀(jì)80年代初期,在興起之初雖幾經(jīng)曲折,但由于現(xiàn)代計算機技術(shù)的迅速發(fā)展以及專家學(xué)者的深入研究探索,數(shù)據(jù)挖掘技術(shù)目前已比較完善,被應(yīng)用在人類生產(chǎn)活動的各個方面。以數(shù)據(jù)挖掘技術(shù)中所對應(yīng)的信息分類規(guī)律為基本依據(jù),可以將其分為總結(jié)規(guī)律、時序規(guī)則、趨勢分析、關(guān)聯(lián)規(guī)則、分析規(guī)律和聚類規(guī)律等;以其技術(shù)的不同為基本依據(jù),可以將其分為規(guī)律總結(jié)、決策樹、可視化方法、人工神經(jīng)網(wǎng)絡(luò)等;而以其不同的信息形式為基本依據(jù),又可以將其分為高層次挖掘、原始階段挖掘、更深層次挖掘等。
數(shù)據(jù)挖掘的流程是在巨量、龐雜的數(shù)據(jù)庫系統(tǒng)中完成過濾與信息識別。數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)豐富而復(fù)雜,直接實施數(shù)據(jù)挖掘分析時往往難以達(dá)到預(yù)期效果。在數(shù)據(jù)挖掘的實踐運用流程中,人們常常要求通過下列步驟逐步實施,以獲得最佳效益。
一是做好適當(dāng)?shù)哪繕?biāo)數(shù)據(jù)選擇。根據(jù)企業(yè)在具體業(yè)務(wù)當(dāng)中的各種需要,做出適當(dāng)?shù)哪繕?biāo)數(shù)據(jù)集群選取,以減少篩選范圍。對數(shù)據(jù)進行過濾和處理,并根據(jù)企業(yè)實際需要采取相應(yīng)措施減少無效數(shù)據(jù),以此降低企業(yè)的目標(biāo)數(shù)據(jù)資源所出現(xiàn)的冗余。同時,對數(shù)據(jù)信息做出正確的推理與估計,以確保數(shù)據(jù)的完整度。對信息做出相應(yīng)的轉(zhuǎn)換與壓縮,并根據(jù)具體的信息處理目標(biāo),將數(shù)據(jù)信息進行嚴(yán)格分類,同時實現(xiàn)離散和數(shù)據(jù)與信息間的互相轉(zhuǎn)化,對信息進行適當(dāng)?shù)臐饪s。二是關(guān)于數(shù)據(jù)挖掘的技術(shù)和算法。選擇的主要準(zhǔn)則是技術(shù)和算法能夠與數(shù)據(jù)相互配合,并盡量讓結(jié)果最優(yōu)化。三是對數(shù)據(jù)挖掘的內(nèi)容識別、判斷的表述。當(dāng)利用數(shù)據(jù)挖掘技術(shù)對豐富的數(shù)據(jù)資料進行識別和篩選之后,數(shù)據(jù)結(jié)論應(yīng)當(dāng)可以采用直觀明確的可視化圖表形式加以表述。
隨著經(jīng)濟社會的進一步發(fā)展,智化校園建設(shè)也需要提升,數(shù)據(jù)挖掘技術(shù)的有效利用更能達(dá)到智化校園構(gòu)建的效果[1],這既適應(yīng)新形勢下經(jīng)濟社會發(fā)展需要,又能改善學(xué)校管理水平。數(shù)據(jù)挖掘技術(shù)的運用,主要表現(xiàn)在以下方面。
智化校園的特點包括自動化與便捷化。創(chuàng)建智能教學(xué)環(huán)境時,將資源挖掘信息技術(shù)合理應(yīng)用于構(gòu)建平臺,可實現(xiàn)教師動態(tài)監(jiān)控教學(xué)情況、課程體驗等多種需求,也可實現(xiàn)學(xué)校細(xì)化課程特點和針對課程選用相應(yīng)教學(xué)風(fēng)格的需求。因而數(shù)據(jù)挖掘技術(shù)可以增強學(xué)生用戶的主體地位,充分調(diào)動教師教和學(xué)生學(xué)的激情,進而營造濃厚的課堂氣氛,減輕教師的焦慮心情。此外,數(shù)據(jù)挖掘技術(shù)可以客觀分析教師階段性教學(xué)方法,針對不足以教師容易接受的方法提出改善建議,對智化校園建設(shè)價值體現(xiàn)具有正面影響。
數(shù)據(jù)挖掘技術(shù)具有海量信息存儲的優(yōu)勢,可以支持教育教學(xué)參與者獲得教學(xué)資源,并利用大數(shù)據(jù)為學(xué)校教育教學(xué)工作助力。同時,學(xué)校教師也可通過這一技術(shù)手段制定可行性教育教學(xué)方案,從而使得班級學(xué)生的學(xué)習(xí)需求得以滿足,從而達(dá)到知識傳承、優(yōu)秀人才教育等目的。尤為重要的是,數(shù)據(jù)挖掘技術(shù)的開放式特征,意味著終端用戶可以進行碎片化教學(xué),可極大提升學(xué)生的學(xué)習(xí)效率與質(zhì)量。另外,教師的教學(xué)壓力也可減輕,并且教學(xué)方法向多樣化趨勢發(fā)展,這也對課堂教育改革起到積極的作用[2]。
數(shù)據(jù)挖掘技術(shù)可以進一步優(yōu)化學(xué)生的學(xué)習(xí)模式。首先,可以面向?qū)W習(xí)者個性化定制設(shè)計系統(tǒng)建模,并利用建模數(shù)據(jù)分析掌握個人學(xué)習(xí)狀況,有依據(jù)地指導(dǎo)學(xué)生調(diào)整學(xué)習(xí)方法,從而提高其學(xué)習(xí)效率。其次,可以根據(jù)學(xué)習(xí)評估結(jié)果檢驗學(xué)校教學(xué)成果,間接了解學(xué)校教學(xué)環(huán)節(jié)的不足之處,并通過完善教學(xué)管理細(xì)節(jié)、調(diào)整教學(xué)內(nèi)容來激活學(xué)生學(xué)習(xí)的主觀能動性[3]。最后,還可以提供多樣化的學(xué)習(xí)模式,如自主學(xué)習(xí)模式、組間合作模式、團隊教學(xué)模式等,以全面培養(yǎng)學(xué)生的自主性與協(xié)同意識,對于學(xué)生的全面發(fā)展具有重要促進意義??偠灾?,智化校園在數(shù)據(jù)挖掘技術(shù)的輔助下,能夠充分調(diào)動學(xué)生的學(xué)習(xí)潛能,促進學(xué)生形成較好的學(xué)習(xí)習(xí)慣,這對于優(yōu)秀人才培育、智化校園作用發(fā)揮都有促進作用。
在校園規(guī)模日益擴大、網(wǎng)絡(luò)使用范圍日益廣泛的發(fā)展過程中,校園網(wǎng)的用戶數(shù)據(jù)流量越來越大。與此同時,隨著各類異常網(wǎng)絡(luò)狀況的出現(xiàn),各類數(shù)據(jù)流量的異常情況也時有發(fā)生。在大量數(shù)據(jù)流量信息中,需要采用一定的大數(shù)據(jù)分析技術(shù)手段,對異常的大數(shù)據(jù)流動狀況加以識別,并通過研究分析其異常流量數(shù)量狀況,得出異常大數(shù)據(jù)流動中的隱藏特點,從而根據(jù)特點采取相應(yīng)的保護措施。在此過程中,數(shù)據(jù)挖掘技術(shù)的運用非常關(guān)鍵,利用數(shù)據(jù)挖掘技術(shù)可以對異常數(shù)據(jù)流量進行檢測,同時也可以分析甄別出其中的抽象規(guī)律[4]。數(shù)據(jù)挖掘技術(shù)為異常數(shù)據(jù)流量的分析帶來方便,有助于網(wǎng)絡(luò)管理員從數(shù)量龐大的數(shù)據(jù)分析中迅速發(fā)現(xiàn)其不同特點并進行有效利用。
網(wǎng)絡(luò)流量異常是指對互聯(lián)網(wǎng)正常應(yīng)用產(chǎn)生惡劣干擾的網(wǎng)絡(luò)流量模式,目前常見的網(wǎng)絡(luò)流量異常情況有以下幾種。
一是網(wǎng)絡(luò)掃描。網(wǎng)絡(luò)掃描是一種典型的局域網(wǎng)異常流量,主要特征為在單元時段內(nèi),同一源IP同時接入了截然不同的目標(biāo)IP或者同一個對象IP的多個客戶端,而對象IP也往往是連續(xù)的。
二是DDoS攻擊。拒絕服務(wù)攻擊一般以消耗服務(wù)器端數(shù)據(jù),使得服務(wù)質(zhì)量停止響應(yīng)為前提,通常具體表現(xiàn)為用大批截然不同的來源IP,對同一個目標(biāo)IP傳輸數(shù)據(jù)包,在單位時限內(nèi)數(shù)據(jù)流的容量大,持續(xù)時間長,浪費了巨大的寬帶資源。
三是網(wǎng)絡(luò)蠕蟲病毒。網(wǎng)絡(luò)蠕蟲病毒運行系統(tǒng)的漏洞主動傳播擴散,同時能夠在局域網(wǎng)和廣域網(wǎng)內(nèi)以各種方式相互傳播。網(wǎng)絡(luò)蠕蟲病毒的進攻模式,除了產(chǎn)生巨大的網(wǎng)絡(luò)流量之外,還將耗費大量的網(wǎng)絡(luò)系統(tǒng)資源。而這類異常利用局部線路上的流動測量方法很難檢出,通常需要對全網(wǎng)的流動特性加以研究分析并通過全網(wǎng)的流動統(tǒng)計分析方法加以檢驗。
四是由于網(wǎng)絡(luò)故障和性能等運行問題引起的異常。常見的網(wǎng)絡(luò)性能反常是文件服務(wù)器故障、網(wǎng)絡(luò)內(nèi)存分頁錯誤、廣播風(fēng)暴和瞬間擁塞等因素引起的網(wǎng)絡(luò)流量表現(xiàn)異常。此外,非法下載、對互聯(lián)網(wǎng)的不合理利用等也會引起流量異常,從而引起網(wǎng)絡(luò)帶寬耗費。
目前,基于流數(shù)據(jù)挖掘的網(wǎng)絡(luò)異常檢測的研究工作主要在如下領(lǐng)域中進行:流量信息概要架構(gòu)設(shè)計、流量信息變化數(shù)據(jù)挖掘、流量信息聚類數(shù)據(jù)挖掘、頻繁項數(shù)據(jù)挖掘以及對多維流和多流的數(shù)據(jù)挖掘等[5]。
一是流數(shù)據(jù)處理概要架構(gòu)設(shè)計的基礎(chǔ)研究。流數(shù)據(jù)處理的特點,決定了流數(shù)據(jù)處理研究的基礎(chǔ)就是設(shè)計有效的單遍數(shù)掃描計算,而因為流數(shù)據(jù)量遠(yuǎn)大于可用內(nèi)存,所以用戶就不能從存儲器中保留掃描的所有信息,因此流數(shù)據(jù)處理概要架構(gòu)設(shè)計就成為大規(guī)模流數(shù)據(jù)挖掘的基礎(chǔ)和首要任務(wù)。在網(wǎng)絡(luò)流量的異常檢測研究中,人們通過抽樣、小波變換、哈希函數(shù)等對概要架構(gòu)設(shè)計進行深入研究。
二是流數(shù)據(jù)突發(fā)性檢測技術(shù)。流數(shù)據(jù)變化檢測與變異發(fā)現(xiàn)是流量挖掘技術(shù)應(yīng)用領(lǐng)域中的一個主要分支。流數(shù)據(jù)突發(fā)性檢測技術(shù)是一類結(jié)構(gòu)獨特的流量數(shù)據(jù)異常變化檢測技術(shù),是指發(fā)現(xiàn)流量數(shù)據(jù)中的異常信息聚集。在連接管理中,流數(shù)據(jù)突發(fā)性檢測技術(shù)可廣泛應(yīng)用于對短時間內(nèi)丟包數(shù)量的檢測,通過對流量分布的不同變化確定網(wǎng)絡(luò)異常。另外,它還提供了多路空間技術(shù)(multiway subspace method),可從不同流量數(shù)據(jù)中獲取異常變化;也給出了通過利用流量分布異常在網(wǎng)絡(luò)數(shù)據(jù)流中找到關(guān)鍵差異的方法,其思路是從網(wǎng)絡(luò)數(shù)據(jù)流中找到最關(guān)鍵的網(wǎng)絡(luò)三角肌群,通過網(wǎng)絡(luò)三角肌群的確定找到網(wǎng)絡(luò)數(shù)據(jù)包的端口之間和路由器之間在一段時間內(nèi)的關(guān)鍵差異。
三是基于流數(shù)據(jù)聚類挖掘的方法。基于聚類分析的異常檢測在互聯(lián)網(wǎng)異常檢測方面,已有廣泛的探索研究。按數(shù)據(jù)流中的資源屬性特點對數(shù)據(jù)流進行分類整合,發(fā)現(xiàn)存在一定的異?;蛄鲃宇愋停ㄐ畔⑹褂锰卣鳎┑募狭鳎瑥亩鴻z測及確認(rèn)網(wǎng)絡(luò)流量的異常行為;發(fā)現(xiàn)在特定時間間隔,在某一給定鏈路上的統(tǒng)治集合流,即大流量流( heavy hitter,HH)或出現(xiàn)頻次較多的數(shù)據(jù)流。假設(shè)異常的大流量發(fā)送到了某一指定IP位置,則這個現(xiàn)象常為Flash擁擠或DDoS入侵。提供多維流量聚類模型,既可以從不同角度(源地址、目的地址、協(xié)議、源端口、目的終端等)對流速加以解析,又可以通過對實際流量的解析,定義出在特定時間的統(tǒng)治流、不正常流,降低歷史數(shù)據(jù)對檢測結(jié)果的影響,大大提高侵入檢測準(zhǔn)確度,以聚類離群點技術(shù),判斷實時數(shù)據(jù)和正常數(shù)據(jù)之間的偏差情況。
網(wǎng)絡(luò)信息技術(shù)時代背景下,智化校園建設(shè)工作已勢在必行,通過數(shù)據(jù)挖掘技術(shù)的合理利用,可以在總體上提升學(xué)校管理水平,給教師提供更優(yōu)秀的教學(xué)服務(wù),也有利于加強學(xué)校教育教學(xué)改革。但隨著網(wǎng)絡(luò)的高速發(fā)展和廣泛應(yīng)用,越來越多的教育信息可以利用互聯(lián)網(wǎng)技術(shù)來傳遞和保存,安全問題愈顯關(guān)鍵,網(wǎng)絡(luò)流量的異常檢測以及研究也是互聯(lián)網(wǎng)信息與安全管理領(lǐng)域的重點研究內(nèi)容。通過利用大數(shù)據(jù)處理環(huán)境下數(shù)據(jù)挖掘技術(shù)的新特性,可以有效發(fā)現(xiàn)和檢測互聯(lián)網(wǎng)非正常流量,以維護互聯(lián)網(wǎng)的生態(tài)環(huán)境。