李玲玲 辛 浩
(淮北職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系, 安徽 淮北 235000)
?
基于流數(shù)據(jù)的網(wǎng)絡(luò)監(jiān)控系統(tǒng)設(shè)計(jì)
李玲玲辛 浩
(淮北職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系, 安徽 淮北 235000)
針對各種惡意攻擊及濫用資源的網(wǎng)絡(luò)現(xiàn)象,提出一種新的基于流數(shù)據(jù)的網(wǎng)絡(luò)安全檢測算法。采用可調(diào)節(jié)大小的滑動(dòng)窗口,使用收銀機(jī)模型、十字轉(zhuǎn)門模型與時(shí)間序列模型進(jìn)行流數(shù)據(jù)處理和挖掘,以檢測并預(yù)警不安全的網(wǎng)絡(luò)流。
流數(shù)據(jù); 滑動(dòng)窗口; 安全檢測; 桶
隨著互聯(lián)網(wǎng)的普及、網(wǎng)絡(luò)技術(shù)的不斷更新以及網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,網(wǎng)絡(luò)業(yè)務(wù)不斷深入到各個(gè)領(lǐng)域 。人們的日常生活越來越依賴網(wǎng)絡(luò),因此,網(wǎng)絡(luò)安全尤顯重要,反病毒、黑客的網(wǎng)絡(luò)安全防護(hù)技術(shù)也應(yīng)不斷提高。病毒及黑客入侵等各種網(wǎng)絡(luò)攻擊行為嚴(yán)重影響到網(wǎng)絡(luò)安全,用戶不斷提高的網(wǎng)絡(luò)防護(hù)要求與有限帶寬之間的矛盾也趨尖銳[1-2]。原有的網(wǎng)絡(luò)安全檢測方法需要不斷更新,以適應(yīng)實(shí)時(shí)、快速、海量的流數(shù)據(jù)處理要求。如何對流數(shù)據(jù)進(jìn)行有效的分析檢測,預(yù)警控制不安全的網(wǎng)絡(luò)行為,是時(shí)下數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)之一。本次研究中設(shè)計(jì)了一套基于流數(shù)據(jù)的網(wǎng)絡(luò)安全檢測新系統(tǒng),用于網(wǎng)絡(luò)異常行為分析及預(yù)警。
流數(shù)據(jù)[3]是指連續(xù)到達(dá)的數(shù)據(jù)項(xiàng)序列(d1,d2,…,di),描述為一個(gè)一維函數(shù)D[1,2,3,…,N]→R,即按時(shí)間先后順序快速到達(dá)的海量數(shù)據(jù)流集合。流數(shù)據(jù)到達(dá)的速度無法預(yù)知和控制,其特點(diǎn)是實(shí)時(shí)到達(dá)、次序獨(dú)立、規(guī)模宏大、不可預(yù)知,且數(shù)據(jù)一經(jīng)處理后就不能再次取出,或者取出的代價(jià)高昂。滑動(dòng)窗口和流數(shù)據(jù)模型是流數(shù)據(jù)技術(shù)應(yīng)用的重要內(nèi)容。
1.1滑動(dòng)窗口
滑動(dòng)窗口是流數(shù)據(jù)處理的常用方法[4]?;瑒?dòng)窗口技術(shù),是指在數(shù)據(jù)的實(shí)時(shí)檢測中,用固定的時(shí)間窗口以固定的時(shí)間間隔滑動(dòng)來截取無限長的對象序列,從而獲得定長的待檢測對象序列。
滑動(dòng)窗口一般分為2類[5-6]:一類是基于元組個(gè)數(shù)來定義的固定窗口大小的滑動(dòng)窗口,窗口內(nèi)始終保持著最近到來的N個(gè)元組;另一類是基于時(shí)間定義即固定時(shí)間的窗口,窗口內(nèi)始終存儲(chǔ)固定時(shí)間T內(nèi)的元組。不管是固定窗口大小的滑動(dòng)窗口還是固定時(shí)間的窗口,都要隨著流數(shù)據(jù)的到來而向后進(jìn)行滑動(dòng)。
1.2流數(shù)據(jù)模型
常用的流數(shù)據(jù)模型有3種,分別是時(shí)間序列模型、收銀機(jī)模型和十字轉(zhuǎn)門模型[7]。時(shí)間序列模型(TimeSeriesModel)是指數(shù)據(jù)di按照時(shí)間先后順序到來處理數(shù)據(jù)的模型。十字轉(zhuǎn)門模型(TurnstileModel)是一種“完全動(dòng)態(tài)狀態(tài)”的模型,模仿的是賓館轉(zhuǎn)動(dòng)門工作模式,即在同一時(shí)刻,有“入”的數(shù)據(jù),也有“出”的數(shù)據(jù)。收銀機(jī)模型(CashRegisterModel)模仿的是超市收銀機(jī)的工作模式,可對數(shù)據(jù)進(jìn)行累加,適用于監(jiān)控或訪問Web服務(wù)器的主機(jī)IP地址,以及流過網(wǎng)絡(luò)中某個(gè)鏈路的數(shù)據(jù)包IP地址。
進(jìn)行網(wǎng)絡(luò)安全檢測前,首先要學(xué)習(xí)和建立用戶的正常歷史行為,將實(shí)時(shí)數(shù)據(jù)行為與正常的用戶行為進(jìn)行比較,從中發(fā)現(xiàn)異常行為后提出預(yù)警,從而達(dá)到凈化網(wǎng)絡(luò)環(huán)境、提高網(wǎng)絡(luò)有效利用率的目的。一般情況下,非正常網(wǎng)絡(luò)用戶使用網(wǎng)絡(luò)流量較大,或是在一段時(shí)間內(nèi)發(fā)起的連接請求數(shù)目過多、頻率過高[8-9],有的連接請求具有一定的間隔規(guī)律。
基于流數(shù)據(jù)的網(wǎng)絡(luò)安全檢測系統(tǒng)設(shè)計(jì)了三大功能模塊(見圖1),分別為數(shù)據(jù)準(zhǔn)備模塊、使用挖掘算法進(jìn)行挖掘模塊、規(guī)則發(fā)現(xiàn)及有效性驗(yàn)證模塊。
圖1 功能模塊示意圖
2.1網(wǎng)絡(luò)行為判斷特征設(shè)定
網(wǎng)絡(luò)異常行為的表現(xiàn)有多種特征,在此,以區(qū)分度最大的特征屬性值作為網(wǎng)絡(luò)行為異常的判定依據(jù)。在局域網(wǎng)中,根據(jù)網(wǎng)絡(luò)流的特征值來進(jìn)行安全預(yù)警。網(wǎng)絡(luò)流中包含了很多重要屬性值,如通信協(xié)議類型(Protocol)、源IP地址(SrcIP)、目標(biāo)IP地址(DstIP)、源端口(SrcPort)、目標(biāo)端口(DstPort)、服務(wù)類型(ToS)、路由器的接入口(InInt);如果對網(wǎng)絡(luò)設(shè)備進(jìn)行相應(yīng)設(shè)置,則網(wǎng)絡(luò)流數(shù)據(jù)還可以包括數(shù)據(jù)個(gè)數(shù)(Pkts)和(字節(jié)數(shù))Bytes。在一定時(shí)間內(nèi),如果某一源IP地址的連接數(shù)據(jù)個(gè)數(shù)及流量總和超出了一定標(biāo)準(zhǔn),則認(rèn)定在局域網(wǎng)中此IP地址用戶為網(wǎng)絡(luò)異常行為用戶。因此,不需要關(guān)注每一個(gè)字段,基于流數(shù)據(jù)的局域網(wǎng)絡(luò)安全檢測算法只需要關(guān)注源IP地址(SrcIP)、目標(biāo)IP地址(DstIP)、ConFlow(網(wǎng)絡(luò)連接流量)這3個(gè)字段即可。
2.2流數(shù)據(jù)挖掘模型的建立
我們提出了基于網(wǎng)絡(luò)流數(shù)據(jù)模型的數(shù)據(jù)挖掘新算法,然后根據(jù)設(shè)定的挖掘規(guī)則找出異常用戶。
流數(shù)據(jù)通常是實(shí)時(shí)、順序、大量到達(dá),因而采用時(shí)間序列模型對網(wǎng)絡(luò)整體流量進(jìn)行檢測處理,采用十字轉(zhuǎn)門模型與時(shí)間序列模型相結(jié)合的方式對同一源IP地址發(fā)出的連接進(jìn)行檢測處理,采用收銀機(jī)模型對同一時(shí)刻各個(gè)不同目標(biāo)IP地址的連接情況進(jìn)行檢測處理。
2.3流數(shù)據(jù)挖掘算法思路及描述
2.3.1算法思路