国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于統(tǒng)計學(xué)習(xí)的網(wǎng)絡(luò)異常行為檢測技術(shù)

2015-03-17 03:32
大數(shù)據(jù) 2015年4期
關(guān)鍵詞:定義特征檢測

周 濤

北京啟明星辰信息安全技術(shù)有限公司 北京 100193

基于統(tǒng)計學(xué)習(xí)的網(wǎng)絡(luò)異常行為檢測技術(shù)

周 濤

北京啟明星辰信息安全技術(shù)有限公司 北京 100193

高級持續(xù)性威脅(APT)已經(jīng)成為企業(yè)級安全用戶的首要安全威脅。傳統(tǒng)基于特征檢測、邊界防護的安全防范措施在應(yīng)對APT攻擊時存在不足。為此,介紹了網(wǎng)絡(luò)異常行為檢測方法的現(xiàn)狀;分析了基于統(tǒng)計學(xué)習(xí)的檢測方法的技術(shù)路線和體系架構(gòu),并以命令控制通道、獲取行為等APT攻擊中的典型環(huán)節(jié)為例,介紹了相關(guān)的參數(shù)提取和統(tǒng)計分析建模方法;總結(jié)了基于大數(shù)據(jù)的異常行為檢測的特點,并指出了后續(xù)研究方向。

大數(shù)據(jù);安全分析;異常行為檢測;統(tǒng)計學(xué)習(xí)

1 引言

近年來,由高級持續(xù)性威脅(advanced persistent threat,APT)引發(fā)的信息安全事件層出不窮,使得信息安全成為大眾關(guān)注的焦點。從已曝光的APT攻擊案例可以看出,大量具備高度經(jīng)濟價值或特殊政治地位的機構(gòu)成為APT攻擊的目標,例如伊朗的核電站、互聯(lián)網(wǎng)行業(yè)巨頭谷歌公司、美國最大的武器制造商洛克希德馬丁公司、信息安全行業(yè)的領(lǐng)跑者RSA和卡巴斯基、全美第二大零售商Target公司等。APT攻擊已經(jīng)超越傳統(tǒng)的蠕蟲、病毒、木馬等惡意軟件,成為企業(yè)級用戶面臨的首要安全威脅。

由于APT攻擊具有攻擊方法多樣化、攻擊技術(shù)復(fù)雜先進、攻擊持續(xù)時間長等特點,傳統(tǒng)基于特征匹配、邊界防護的安全防范措施在應(yīng)對時存在不足,新興的針對APT攻擊的檢測都將重點放在了基于異常行為的檢測上。從體現(xiàn)異常行為的主體來看,異常行為檢測可分為終端異常行為檢測和網(wǎng)絡(luò)異常行為檢測兩大類,產(chǎn)業(yè)界和學(xué)術(shù)界在兩個方面都取得了一定進展。

在信息安全產(chǎn)業(yè)界,F(xiàn)ireEye研發(fā)了一種基于終端異常行為的APT檢測系統(tǒng),它將原本應(yīng)用于安全廠商后臺進行樣本分析的沙箱技術(shù),前置到用戶環(huán)境的檢測設(shè)備中1https://www2. fireeye.com/ppcdefinitive-guide. html,開創(chuàng)了APT檢測的新局面,但其檢測過程建立在捕獲惡意代碼的基礎(chǔ)上,存在被繞過的可能。RSA則提出了一種基于網(wǎng)絡(luò)異常行為檢測的原型Beehive[1],通過對企業(yè)網(wǎng)絡(luò)環(huán)境中各類日志的大范圍收集和分析進行異常檢測,但檢測結(jié)果有效性的確認仍然需要大量的人工鑒定工作。當前對于APT攻擊,產(chǎn)業(yè)界還尚未形成完整有效的解決方案。

在學(xué)術(shù)界,基于異常行為識別已知或未知的安全威脅一直都是研究的熱點,相關(guān)研究成果包括:Kim等提出了一種基于Netflow數(shù)據(jù)的異常行為檢測框架[2],能夠?qū)θ湎x、DDoS攻擊、網(wǎng)絡(luò)掃描等行為進行檢測,該技術(shù)側(cè)重對大規(guī)模異常的檢測,對于APT攻擊這類注重自身隱蔽性、不引起網(wǎng)絡(luò)流量顯著異常的攻擊行為檢測能力有限。McCusker等建立了一套用于描述網(wǎng)絡(luò)攻擊的行為基元[3],并基于Netflow數(shù)據(jù)設(shè)計了相應(yīng)的檢測原型,能夠?qū)崿F(xiàn)對APT攻擊中信標等行為的檢測,但在檢測中采用了SVM算法進行分類模型訓(xùn)練,這在實際應(yīng)用中往往會遇到訓(xùn)練樣本難以采集的問題。Bhatt等提出了一種基于攻擊鏈(kill chain)的APT攻擊描述模型[4],能夠?qū)舻倪^程和結(jié)果進行建模,并提出了基于Hadoop平臺的系統(tǒng)框架,但對于如何進行攻擊行為檢測并未給出具體的算法描述。

本文從利用大數(shù)據(jù)檢測APT攻擊的應(yīng)用背景出發(fā),以網(wǎng)絡(luò)異常行為檢測為重點,提出了一種基于統(tǒng)計學(xué)習(xí)的異常檢測技術(shù)。本文的主要貢獻如下。

(1)提出了一種面向APT攻擊的網(wǎng)絡(luò)異常行為檢測技術(shù)框架。本文對比了人工提取特征和深度學(xué)習(xí)兩種方式的優(yōu)缺點,根據(jù)現(xiàn)狀確定了基于特征建模的技術(shù)路線,并建立了大數(shù)據(jù)異常檢測平臺框架。

(2)以APT攻擊過程中的兩個典型環(huán)節(jié)(命令與控制、信息獲取)為例,詳細介紹了特征提取方法,給出了完整的特征定義。

(3)結(jié)合真實網(wǎng)絡(luò)環(huán)境數(shù)據(jù),對算法的有效性進行了驗證,結(jié)果表明:本文所述的檢測算法,對APT攻擊過程中不造成網(wǎng)絡(luò)流量顯著異常的攻擊行為,仍然能夠進行有效檢測。

2 基于統(tǒng)計學(xué)習(xí)的異常檢測技術(shù)框架

2.1 技術(shù)路線選擇

異常行為檢測從本質(zhì)上看是一個分類問題,即從行為數(shù)據(jù)中將正常行為和異常行為區(qū)分開。當前可供選擇的技術(shù)路線包括:基于人工特征提取的傳統(tǒng)統(tǒng)計學(xué)習(xí)方法以及不需要顯式特征提取的深度學(xué)習(xí)方法。

基于人工特征提取的異常檢測技術(shù)的技術(shù)路線是:分析人員首先以某種方式從原始數(shù)據(jù)中提取特征參數(shù),然后基于特征進行建模和異常檢測。人工特征提取的優(yōu)點是:特征提取建立在安全分析人員的認知基礎(chǔ)之上,對異常行為有較強的針對性;對訓(xùn)練樣本數(shù)量的依賴度低,較少的樣本訓(xùn)練即可得到相對準確的模型;模型的可解釋度高,容易確定異常檢測結(jié)果的有效性。但人工特征提取也存在著明顯的缺點:對安全分析人員的依賴度高,特征的選取方法會對異常檢測結(jié)果的有效性產(chǎn)生直接影響。當前已有的異常檢測技術(shù)中,大都是基于人工特征提取的方法實現(xiàn)的。

深度學(xué)習(xí)技術(shù)是當前機器學(xué)習(xí)領(lǐng)域的研究熱點,同傳統(tǒng)的統(tǒng)計分析方法相比,深度學(xué)習(xí)提出了一種讓計算機自動學(xué)習(xí)產(chǎn)生特征的方法,并將特征學(xué)習(xí)融入建立模型的過程中,從而減少了人為設(shè)計特征引發(fā)的不完備。雖然深度學(xué)習(xí)方法有諸多優(yōu)點,但也有其局限性:需要有大量的訓(xùn)練樣本進行訓(xùn)練,才能保證模型的準確度。當訓(xùn)練樣本數(shù)量不足時,深度學(xué)習(xí)算法將不能夠?qū)?shù)據(jù)的規(guī)律進行無偏估計,模型的識別效果可能還不如傳統(tǒng)基于人工特征提取的統(tǒng)計分析方法。當前深度學(xué)習(xí)的成功應(yīng)用大都集中在有大量訓(xùn)練樣本的模式識別領(lǐng)域,如語音識別、圖像識別、機器翻譯等。

采取何種技術(shù)路線能夠?qū)崿F(xiàn)更有效的APT攻擊檢測,取決于應(yīng)用的前提條件。當前與APT攻擊相關(guān)的網(wǎng)絡(luò)行為數(shù)據(jù)樣本極為有限,從已曝光的APT攻擊案例來看,截至2015年8月全球范圍內(nèi)相關(guān)的報告僅有200余篇2https://github. com/kbandla/ APTnotes,而與攻擊相關(guān)的網(wǎng)絡(luò)行為數(shù)據(jù)更是無從獲取。因此,基于當前有限的案例,很難通過深度學(xué)習(xí)的方法產(chǎn)生能有效識別APT攻擊行為的分類器。從另一方面來看,現(xiàn)有的APT分析報告對攻擊的過程和方法大都有詳細的描述,這就有助于安全分析人員從中了解APT攻擊各個階段的特點,并有針對性地提取特征,以提高檢測的準確度。

因此,通過對兩種技術(shù)路線的比較,結(jié)合當前的實際情況,本文認為在現(xiàn)階段通過網(wǎng)絡(luò)異常行為檢測技術(shù)進行APT攻擊檢測時,采用基于人工特征提取的方法,比深度學(xué)習(xí)的方法更符合當前企業(yè)級用戶的應(yīng)用場景?;蛟S隨著對APT攻擊研究的進一步深入、攻擊案例和攻擊行為數(shù)據(jù)的持續(xù)積累,基于深度學(xué)習(xí)的訓(xùn)練方法能夠更有效地識別攻擊,但在當前階段還是基于特征的建模方法更有效?;诖髷?shù)據(jù)平臺進行特征的提取和訓(xùn)練,能夠使模型的準確度顯著提升。

2.2 基于大數(shù)據(jù)的異常檢測技術(shù)特點

異常檢測并非是一項新技術(shù),事實上在入侵檢測概念產(chǎn)生初期,IDES、NIDES等原型系統(tǒng)都采用了異常檢測技術(shù)[5]。但受限于當時的技術(shù)條件,異常檢測的準確度較低,主要原因如下。

(1)模型粒度問題

由于計算能力有限,在當時很難建立對異常行為較為敏感的細粒度模型,從而導(dǎo)致較高的漏報率。以異常流量檢測為例,當時的建模對象往往基于安全域間的流量,這就使得個體間的攻擊流量淹沒在大量背景流量中,很難進行有效檢測。

(2)特征數(shù)量問題

同樣由于計算能力有限,在當時很難建立從不同維度描述網(wǎng)絡(luò)行為的高維模型,從而導(dǎo)致較高的誤報率。特征數(shù)量選取的限制,使得只能基于低維的特征判斷網(wǎng)絡(luò)行為的異常度,很難通過特征間的關(guān)聯(lián)降低誤報。

(3)模型訓(xùn)練問題

由于存儲容量有限,在當時很難基于長期的數(shù)據(jù)對模型進行充分的訓(xùn)練,從而導(dǎo)致模型的準確度不足。模型的準確度與訓(xùn)練是否充分是有直接關(guān)系的,雖然安全分析人員的經(jīng)驗有助于提升特征選取的有效性,但仍然需要足夠的樣本對模型進行訓(xùn)練。

因此,雖然異常檢測具有能夠識別未知威脅的優(yōu)勢,但當時國內(nèi)外商業(yè)化的入侵檢測產(chǎn)品大都選擇了基于攻擊簽名的誤用檢測技術(shù)。隨著攻防博弈的發(fā)展,APT攻擊成為首要的安全威脅,這就使得安全研究人員需要對技術(shù)路線的選擇進行重新思考。

首先,誤用檢測在應(yīng)對未知威脅檢測方面的先天不足,使其無法成為APT攻擊時代的支撐性技術(shù);其次,原本導(dǎo)致異常檢測技術(shù)準確度不足的各種障礙,都隨著IT技術(shù)的發(fā)展、大數(shù)據(jù)時代的到來消失了。這就帶來了檢測技術(shù)的回歸,異常檢測重新成為了安全界研究的焦點。這種回歸不是簡單的反復(fù),而是在一個更高層次上的螺旋式上升。

面向APT攻擊的異常行為檢測原理如圖1所示,安全分析人員首先通過對APT攻擊方法的分析和總結(jié),提取出有針對性的特征;然后基于訓(xùn)練數(shù)據(jù),采用有監(jiān)督或無監(jiān)督的方法,對模型進行訓(xùn)練;基于訓(xùn)練產(chǎn)生的模型,可利用測試數(shù)據(jù)或真實數(shù)據(jù)對模型的有效性進行驗證;對于錯誤的檢測結(jié)果,可通過調(diào)整特征參數(shù)的方式反饋到模型訓(xùn)練環(huán)節(jié),直至產(chǎn)生滿足準確度要求的模型。雖然該原理與傳統(tǒng)異常檢測技術(shù)并無本質(zhì)區(qū)別,但基于大數(shù)據(jù)的異常檢測技術(shù)具有如下特點。

(1)更細的模型粒度:與傳統(tǒng)以安全域為建模對象不同,基于大數(shù)據(jù)的異常檢測技術(shù)可以基于單個的主機,甚至是主機上的單個應(yīng)用建立細粒度的模型,這就使得模型對異常的檢測能力有足夠的靈敏度。這樣做的計算代價是很大的,以一個僅有數(shù)千臺主機的小型企業(yè)為例,基于主機間的連接建模得到的模型數(shù)量將會是百萬量級,這在過去是很難想象的,但目前大數(shù)據(jù)平臺的性能足以支撐類似規(guī)模的計算。

(2)更高維的特征選取:基于大數(shù)據(jù)提取特征參數(shù),可以從建模對象的時空維度、行為維度等方面抽取足夠豐富的特征參數(shù),使得對于任何可描述的攻擊行為,總能體現(xiàn)在一組特征參數(shù)的異常上,真正做到讓攻擊者在大數(shù)據(jù)下無處可遁。

(3)更充分的模型訓(xùn)練:基于大數(shù)據(jù)平臺的海量存儲能力,可存儲足夠多的歷史流量數(shù)據(jù)作為樣本,對提取的參數(shù)和模型進行充分訓(xùn)練,使得模型對于異常行為具有足夠精確的檢測能力。

由此可見,基于大數(shù)據(jù)實現(xiàn)網(wǎng)絡(luò)異常行為檢測,克服了早期異常檢測技術(shù)的不足,給檢測技術(shù)帶來了質(zhì)的飛躍,但同時也對存儲和計算能力提出了新的挑戰(zhàn),需要有一個能提供有效支撐的技術(shù)平臺。

2.3 大數(shù)據(jù)異常檢測平臺框架

本文提出的大數(shù)據(jù)異常檢測平臺可分為4層:數(shù)據(jù)采集層、存儲管理層、入侵行為分析挖掘?qū)雍驼故炯芭渲霉芾韺?,其框架如圖2所示。

一個完整的大數(shù)據(jù)異常檢測平臺,在數(shù)據(jù)源層面上要具備完整的數(shù)據(jù)采集能力,包括與網(wǎng)絡(luò)行為相關(guān)的各類日志、網(wǎng)絡(luò)流量以及情境數(shù)據(jù)和外部支持數(shù)據(jù)的采集。在存儲層面上要能夠支持異構(gòu)數(shù)據(jù)存儲,能夠通過緩存應(yīng)付突發(fā)的數(shù)據(jù),具備彈性擴展能力。在分析層面上要能夠支持靈活的特征提取、基于特征的統(tǒng)計分析和模型訓(xùn)練以及對檢測結(jié)果的事后取證溯源和驗證能力。在展示層面上要能夠支持大數(shù)據(jù)平臺集群配置管理和數(shù)據(jù)的交互式可視化分析。

3 網(wǎng)絡(luò)異常行為檢測算法

在對APT攻擊進行描述時,攻擊鏈是當前被廣泛接受的模型[6],它將APT攻擊過程分為情報收集、惡意代碼組裝、投送、激活、安裝植入、命令與控制、獲取7個階段。其中,除了惡意代碼組裝階段是在攻擊方實施,無法監(jiān)控其行為之外,其他6個階段均有可供檢測的行為特征。本文以網(wǎng)絡(luò)流量為檢測對象,以命令與控制、獲取兩個典型階段為例,詳細介紹相關(guān)的網(wǎng)絡(luò)異常行為建模算法。

3.1 命令與控制通道行為檢測

命令與控制通道的作用是在攻擊者和攻擊目標之間建立網(wǎng)絡(luò)連接,使得攻擊目標處于攻擊者控制下,能夠接收攻擊者的命令并返回執(zhí)行結(jié)果。命令與控制通道的功能決定了其行為與正常的網(wǎng)絡(luò)連接行為有一定差異,本文給出了相關(guān)特征的定義。

圖2 大數(shù)據(jù)異常檢測平臺框架

3.1.1 反向連接特征

定義1 活躍時間點。對于一條從源地址S到目的地址D的TCP流,按照從S到D以及從D到S方向,將數(shù)據(jù)傳輸?shù)臅r間點劃分為兩個序列;對于每個序列L中的某個時間點Tc,如果與其前面的時間點Tc-1之間的間隔大于設(shè)定的閾值δa,即滿足:

則定義Tc為活躍時間點。否則,認為Tc為上次活躍數(shù)據(jù)傳輸?shù)暮罄m(xù),而不是一個新的活躍時間點。

定義2 響應(yīng)率。對于一條從源地址S到目的地址D的TCP流,計算從D到S的活躍時間點序列Latv_D_S以及從S到D的活躍時間點序列Latv_S_D;設(shè)定閾值δresp;如果對于Latv_D_S中的任意時間點TD_S,在Latv_S_D中存在一個對應(yīng)的時間點TS_D,使得滿足:

則稱TD_S被響應(yīng),并稱TS_D為其響應(yīng)點。響應(yīng)率Rresp定義為Latv_D_S中被響應(yīng)的元素數(shù)量,與Latv_D_S中總元素數(shù)量的比值。

定義3 激活率。參照定義2,對于一條從源地址S到目的地址D的TCP流,激活率Ractv定義為從S到D的活躍時間點序列Latv_S_D中,能夠作為響應(yīng)點的元素數(shù)量與Latv_S_D中總元素數(shù)量的比值。

定義4 反向連接特征。對于一條從源地址S到目的地址D的TCP流,如果滿足:

則稱該TCP連接為反向連接,其中δR和δA為設(shè)定的閾值。反向連接是指一條TCP流建立連接的方向與后續(xù)活躍數(shù)據(jù)傳輸?shù)姆较蛳喾吹男袨?,本文通過計算響應(yīng)率與激活率來檢測反向連接。響應(yīng)率高說明建立連接后,活躍的數(shù)據(jù)傳輸大都由連接的目標IP地址發(fā)起;激活率高說明源IP地址在建立IP地址后處于被動狀態(tài),只有等到接收到目標IP地址的數(shù)據(jù)后才進行數(shù)據(jù)傳輸。這種行為與正常的網(wǎng)絡(luò)傳輸有明顯的差異,是反彈端口型命令與控制通道的主要特征。

3.1.2 心跳特征

定義5 心跳行為。心跳行為是指一條從源地址S到目的地址D的反向連接TCP流中,存在的一系列從S發(fā)往D、大小相對固定、發(fā)送時間間隔平穩(wěn)的數(shù)據(jù)傳輸行為。心跳行為通常用于APT攻擊中被控端向控制端報告自身的存活狀態(tài),對該類行為可通過計算數(shù)據(jù)分組發(fā)送的平穩(wěn)度特征來檢測。

定義6 平穩(wěn)度。對于一條從源地址S到目的地址D的TCP流,按照傳輸數(shù)據(jù)分組大小的不同,將從S到D的數(shù)據(jù)傳輸劃分為不同的序列;計算每個序列中相鄰兩次數(shù)據(jù)傳輸?shù)臅r間間隔TΔ,得到若干個時間間隔序列LTΔ;計算每個時間間隔序列LTΔ的均值μ和標準差σ,并定義一個時間間隔序列平穩(wěn)度為:

取一條TCP流中所有時間間隔序列平穩(wěn)度的最高值,作為整個TCP連接的平穩(wěn)度。如果一個TCP連接的平穩(wěn)度超過了設(shè)定的閾值δP,則稱該TCP連接存在心跳行為。

對于命令與控制通道,還存在著諸如可疑加密傳輸行為、上下行流量比異常、可疑惡意DNS域名解析等行為。對于可疑加密傳輸行為,可通過計算TCP流有效載荷部分的信息熵來實現(xiàn)檢測;對于上下行流量比異常,可通過比較TCP流兩個方向的有效載荷的大小來實現(xiàn)檢測;對于可疑惡意DNS域名解析,可通過檢測請求域名的文本特征和解析后的動態(tài)特征來檢測。

3.2 獲取行為檢測

對于已經(jīng)成功滲透到內(nèi)網(wǎng)的APT攻擊行為,攻擊者往往需要在內(nèi)網(wǎng)進行橫向轉(zhuǎn)移,以獲取目標數(shù)據(jù),這就使得其網(wǎng)絡(luò)訪問行為與正常用戶的網(wǎng)絡(luò)訪問行為有差異。本文以主機為對象,設(shè)計了一系列特征來檢測主機的此類異常行為,并給出了如下的指標類型定義。

定義7 會話信息類指標。統(tǒng)計一臺主機單位時間內(nèi)不同協(xié)議類型的會話統(tǒng)計信息。如TCP連接次數(shù)、UDP連接次數(shù)、對應(yīng)的流量、數(shù)據(jù)分組大小的均值和標準差等。

定義8 應(yīng)用分布類指標。統(tǒng)計一臺主機單位時間內(nèi)不同應(yīng)用類型的訪問統(tǒng)計信息。如訪問不同應(yīng)用的流量分布、次數(shù)、目標地址位置、國別分布等。

定義9 指示位標識類指標。統(tǒng)計一臺主機單位時間內(nèi)收發(fā)的含特定協(xié)議標識位的數(shù)據(jù)分組數(shù)量及其比值。如含有TCP_ SYN_send、TCP_SYN_ACK_receive、RST_send等標志位的會話數(shù)目;TCP_ SYN_ACK_receive/TCP_SYN_send的比值;單位時間里的ICMP_T3、ICMP_ Echo_Reply、ICMP_Echo_Request等報文數(shù)目。

定義10 地址分布指標。統(tǒng)計一臺主機單位時間內(nèi)訪問的IP地址網(wǎng)段分布、內(nèi)外網(wǎng)分布等參數(shù)。

通過以上指標的計算和提取,本文為主機的網(wǎng)絡(luò)行為建立起了一個高維特征向量,并總結(jié)了各類攻擊手法對相關(guān)特征的影響,使得對已知的各類獲取行為,總能體現(xiàn)在一個或一組特征的異常上,從而實現(xiàn)了較為準確的APT攻擊獲取行為檢測。

4 實驗結(jié)果及分析

4.1 實驗工作概述

為了驗證本文算法的有效性,在北京啟明星辰信息安全技術(shù)有限公司內(nèi)網(wǎng)搭建了測試環(huán)境,通過真實數(shù)據(jù)進行檢驗。部署的網(wǎng)絡(luò)流量捕獲設(shè)備能夠產(chǎn)生網(wǎng)絡(luò)數(shù)據(jù)流的元數(shù)據(jù)和原始報文兩類數(shù)據(jù)。通過該設(shè)備,獲取了從2014年9月1日至2015年1月31日,與某個子網(wǎng)相關(guān)的約18.3億條網(wǎng)絡(luò)流量元數(shù)據(jù)以及與部分IP地址相關(guān)的總量約為2 TB的原始報文數(shù)據(jù),并作為本文的實驗數(shù)據(jù)。對異常行為的檢測可分為兩步。

· 特征提?。簠⒄盏?節(jié)的內(nèi)容,分別為命令與控制通道行為和獲取行為提取特征參數(shù)。

· 異常行為檢測:基于特征參數(shù)的特點以及樣本數(shù)量,可選取有監(jiān)督或無監(jiān)督的學(xué)習(xí)算法,進行特征值異常檢測,具體算法限于篇幅不再詳述。

通過模擬攻擊的方法,驗證了命令與控制通道檢測算法的有效性;通過檢測到的若干次真實的慢掃描行為,驗證了獲取行為檢測算法的有效性。下面對檢測過程進行詳細描述。

4.2 命令與控制通道檢測實驗結(jié)果

本文對命令與控制通道的檢測采用了有監(jiān)督的學(xué)習(xí)算法。由于樣本數(shù)量有限,本文首先搭建測試環(huán)境,獲取了6種典型的木馬命令與控制通道的數(shù)據(jù)分組作為訓(xùn)練數(shù)據(jù);然后通過密度估計的方法,利用訓(xùn)練數(shù)據(jù)分別計算正常網(wǎng)絡(luò)連接和命令與控制通道的響應(yīng)率、激活率、平穩(wěn)度等特征的概率分布函數(shù)。

在測試中,本文利用“Alusinus”和“njRAT”木馬樣本,模擬了從某個受控主機到另一網(wǎng)段的控制端之間的命令與控制通道連接。通過提取的特征值,根據(jù)訓(xùn)練階段產(chǎn)生的模型成功識別了這兩次連接。兩次連接對應(yīng)的特征如圖3所示。

圖3(a)為“Alusinus”木馬樣本控制端與被控端之間的命令與控制通道間的數(shù)據(jù)傳輸分布情況。從圖3(a)無法直接觀測出是否存在反向連接行為、心跳等行為的特征,但可以看到從被控制端到控制端的數(shù)據(jù)分組要比反向的數(shù)據(jù)分組大1個數(shù)量級以上,存在明顯的上下行流量不對稱問題。按照定義1~定義4的計算方法,找出控制端和被控端之間兩個方向的活躍時間點,并忽略數(shù)據(jù)分組大小的影響,可以得到活躍時間點對應(yīng)的時間序列(如圖3(b)所示)。可以看到,兩個方向的活躍時間點總是成對出現(xiàn)(除了最后一個由控制端到被控端的活躍時間點之外,經(jīng)驗證,該次數(shù)據(jù)傳輸?shù)拿顬閿嚅_連接),響應(yīng)率為91.7%,激活率為100%。圖3(c)為將圖3(b)中的點局部放大的效果,可以看到控制端發(fā)送命令在前,被控端響應(yīng)命令在后。這些都是典型的命令與控制通道的特征。

圖3(d)為“njRAT”木馬樣本心跳行為檢測示意。本文根據(jù)定義5~定義6的計算方法,查找控制端與被控端之間平穩(wěn)度最高的數(shù)據(jù)傳輸序列。從圖3(d)中可以看到,由被控端發(fā)往控制端,大小固定為62 byte的數(shù)據(jù)分組,平均每19 s發(fā)送一次,平穩(wěn)度高達99.8%,從而被本文所述的檢測算法識別為異常行為。

圖3 兩次連接對應(yīng)的特征

4.3 獲取行為檢測結(jié)果

本文對獲取行為的檢測采用了無監(jiān)督的學(xué)習(xí)算法。首先基于定義7~定義10的方法,計算出每個特征的時間序列;然后計算特征參數(shù)的密度函數(shù),并進行異常點檢測。異常點的定義準則為特征值明顯偏離了均值的點。

本文以會話信息類指標中某具體指標,即主機—子網(wǎng)訪問指標為例,說明算法的有效性。該指標定義為:在單位時間內(nèi),某臺主機訪問某個子網(wǎng)內(nèi)不同獨立主機的數(shù)量。以2014年9月10日為例,當天在測試環(huán)境中共產(chǎn)生7 240 086條流記錄,從中可梳理出1 148個獨立的IP和68個獨立的子網(wǎng)以及11 165個存在著主機—子網(wǎng)訪問的連接關(guān)系,從中只發(fā)現(xiàn)了一例異常行為,且該行為的有效性得到了驗證。

圖4(a)為某臺正常主機24 h的特征值序列,從中可以看到192.168.4.0網(wǎng)段內(nèi)的某臺主機對192.168.0.0網(wǎng)段的訪問情況。以5 min為時間窗,將每個時間窗內(nèi)該主機訪問該網(wǎng)段的IP地址數(shù)量相加,總共為263個。由于在不同時間窗內(nèi),一臺主機站問過的IP地址集之間往往存在交集,這就導(dǎo)致按時間窗累加的IP地址數(shù)量,可能會超出該網(wǎng)段能夠容納的IP地址數(shù)量的上限。從圖4(a)可以看到,該主機從上午約9點開始訪問該網(wǎng)段,11點左右達到峰值,18點后迅速減少,這與用戶的作息時間是高度相關(guān)的;每個時間窗內(nèi)訪問的不同主機數(shù)量為1~5個,相對平穩(wěn)。對比圖4(b),192.168.19.0網(wǎng)段的某臺主機,15點起對192.168.56.0網(wǎng)段進行了低頻掃描,每分鐘嘗試連接的主機數(shù)約為5個。通過該主機—子網(wǎng)訪問特征,對此類行為能夠進行準確識別。另外需要說明的是,P2P連接也會存在類似的特征,但P2P連接的地址分布指標與獲取行為的連接有較大的差異。本文正是通過關(guān)聯(lián)地址分布指標,在檢測出異常時進一步判定了異常類型。

圖4 不同情況下主機—子網(wǎng)訪問指標對比

5 結(jié)束語

大數(shù)據(jù)安全分析是當前信息安全領(lǐng)域的研究熱點,利用大數(shù)據(jù)進行異常行為檢測,能夠識別基于攻擊簽名無法檢測的未知攻擊行為。本文提出了一種基于統(tǒng)計學(xué)習(xí)的網(wǎng)絡(luò)異常行為檢測方法,其特點是提取有針對性的、細粒度的特征,并通過大數(shù)據(jù)進行模型訓(xùn)練和異常檢測。這是一種把安全分析人員的經(jīng)驗,與大數(shù)據(jù)平臺的存儲和計算能力相結(jié)合的有效手段。實驗表明,該方法對APT攻擊過程中的命令與控制通道行為、獲取行為有良好的檢測效果。后續(xù)將對APT攻擊過程其他階段的特征進行總結(jié)和特征值提取,最終形成完整的、基于大數(shù)據(jù)安全分析的APT攻擊檢測方案。

[1] Yen T F, Oprea A, Onarlioglu K,et al. Beehive: large-scale log analysis for detecting suspicious activity in enterprise networks. Proceedings of the 29th Annual Computer Security Applications Conference, New Orleans, Louisiana, USA, 2013: 199~208

[2] Kim A S, Kong H J, Hong S C,et al. A flow-based method for abnormal network traffic detection. Network Operations and Management Symposium, 2004(1): 599~612

[3] McCusker O, Brunza S, Dasgupta D. Deriving behavior primitives from aggregate network features using support vector machines. Proceedings of IEEE 5th International Conference on Cyber Conflict (CyCon), Tallinn,Estonia, 2013: 1~18

[4] Bhatt P, Toshiro Y E, Gustavsson P M. Towards a framework to detect multistage advanced persistent threats attacks. Proceedings of the 8th International Symposium on Service-Oriented System Engineering, Oxford, UK, 2014: 390~395

[5] Garcia-Teodoro P, Diaz-Verdejo J, Maciá-Fernández G,et al. Anomalybased network intrusion detection: techniques, systems and challenges. Computers & Security, 2009, 28(1): 18~28

[6] Hutchins E M, Cloppert M J, Amin R M. Intelligence-driven computer network defense informed by analysis of adversary campaigns and intrusion kill chains. Leading Issues in Information Warfare & Security Research, 2011(1): 80~106

Zhou T. Abnormal network behavior detection technology based on statistical learning. Big Data Research, 2015039

Abnormal Network Behavior Detection Technology Based on Statistical Learning

Zhou Tao
Beijing Venus Information Security Technology Incorporated Company, Beijing 100193, China

In recent years, advanced persistent threat (APT) has become the chief threat to enterprise users. The traditional security protection methods, such as signature-based detection and perimeter protection, are insufficient in dealing with APT. Therefore, the status of network anomaly behavior detection method was described. The technology roadmap and system architecture of abnormal behavior detection based on statistical learning were introduced. The feature extract method and statistical modeling methods were proposed. The characteristic of abnormal behavior detection based on big data was concluded and the direction of future research was proposed.

big data, security analysis, abnormal behavior detection, statistical learning

10.11959/j.issn.2096-0271.2015039

2015-10-15

周濤. 基于統(tǒng)計學(xué)習(xí)的網(wǎng)絡(luò)異常行為檢測技術(shù). 大數(shù)據(jù), 2015039

周濤,男,博士,教授級高工,就職于北京啟明星辰信息安全技術(shù)有限公司,主要研究方向為大數(shù)據(jù)安全分析、事件關(guān)聯(lián)分析、入侵檢測等。

猜你喜歡
定義特征檢測
根據(jù)方程特征選解法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
不忠誠的四個特征
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應(yīng)用
成功的定義
修辭學(xué)的重大定義
山的定義
韶山市| 黄梅县| 海丰县| 渭源县| 河间市| 高唐县| 神农架林区| 兴文县| 巴塘县| 常州市| 玛沁县| 日照市| 句容市| 合川市| 新巴尔虎右旗| 长顺县| 科技| 宁德市| 南溪县| 弥渡县| 南宫市| 湖州市| 五寨县| 秦安县| 弥勒县| 平邑县| 张家口市| 偏关县| 固阳县| 祁东县| 平谷区| 甘肃省| 荥经县| 历史| 临安市| 双柏县| 新平| 嘉兴市| 湖口县| 巴塘县| 盐池县|