袁曉平
(鄭州工業(yè)應(yīng)用技術(shù)學(xué)院,河南 新鄭 451100)
網(wǎng)絡(luò)技術(shù)不斷發(fā)展,對應(yīng)的網(wǎng)絡(luò)攻擊技術(shù)也發(fā)展迅速,網(wǎng)絡(luò)黑客會采用越來越隱蔽的攻擊手段繞過檢測,通過越來越復(fù)雜的攻擊行為達(dá)到既定的攻擊目的,并且黑客的潛伏周期越來越長。普通的網(wǎng)絡(luò)入侵檢測技術(shù)主要基于入侵行為模式特征進(jìn)行檢測,這就意味著其只能檢測出已有的入侵行為模式,但是卻無法準(zhǔn)確檢測出新的入侵方式,一旦有了新的入侵行為,就需要安全專家重新分析、提取新的入侵方式模型特征,再在系統(tǒng)中生成新的檢測規(guī)則。這種方法在復(fù)雜多變的網(wǎng)絡(luò)攻擊環(huán)境中很顯然已經(jīng)不適用。
基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng)的關(guān)鍵技術(shù)包括以下3個方面。
網(wǎng)絡(luò)異常行為分析主要以數(shù)據(jù)的監(jiān)控、收集、分析為基礎(chǔ),數(shù)據(jù)監(jiān)控、收集、分析的規(guī)模越大,網(wǎng)絡(luò)異常行為監(jiān)測的準(zhǔn)確性就越高,因此大規(guī)模監(jiān)控采集技術(shù)非常重要。實際應(yīng)用過程中,監(jiān)控采集技術(shù)要先進(jìn)行主動上報工作,收集、監(jiān)控各項信息數(shù)據(jù)時,以本地代理Agent上報為主要形式,輔助形式采用遠(yuǎn)程探針Probe采集形式,主動上報為信息收集與監(jiān)控的優(yōu)先級內(nèi)容,不斷深入發(fā)展采集顆粒度,實時采集本地數(shù)據(jù),以此為基礎(chǔ)進(jìn)行數(shù)據(jù)分析,將一些復(fù)雜的安全認(rèn)證環(huán)節(jié)減少至最少。工作過程中網(wǎng)絡(luò)異常行為監(jiān)測系統(tǒng)設(shè)置為開機自啟動模式,無需人工監(jiān)測。大規(guī)模監(jiān)控采集技術(shù)還能夠?qū)崿F(xiàn)匯聚壓力分?jǐn)傂ЧO(jiān)控系統(tǒng)服務(wù)端的數(shù)據(jù)處理壓力很大,分布式匯聚技術(shù)可以按照需求在服務(wù)端與Agent,Probe之間適當(dāng)增加匯聚代理,以提高數(shù)據(jù)預(yù)處理的效率,尤其是在一些復(fù)雜的網(wǎng)絡(luò)安全環(huán)境中,分布式采集匯聚技術(shù)的優(yōu)勢能夠更充分地發(fā)揮出來[1]。
在海量數(shù)據(jù)檢索及分析過程中,可應(yīng)用Elasticsearch技術(shù)開展檢索工作,在頁面交互查詢過程中會形成告警結(jié)果數(shù)據(jù),應(yīng)用Elasticsearch分析這些數(shù)據(jù)十分高效。Hadoop分布式文件系統(tǒng)可有效存儲大規(guī)模數(shù)據(jù)集,因此在網(wǎng)絡(luò)異常行為監(jiān)測系統(tǒng)中會將全面收集到的原始數(shù)據(jù)、預(yù)處理結(jié)果數(shù)據(jù)放入分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)中,并將Spark技術(shù)的作用充分發(fā)揮出來。Spark是一種專門針對大規(guī)模數(shù)據(jù)分析的快速通用計算引擎,能夠深入地挖掘歷史數(shù)據(jù)。此外,大數(shù)據(jù)技術(shù)中的My SQL為關(guān)系數(shù)據(jù)庫,可以存儲海量的報告數(shù)據(jù)、統(tǒng)計結(jié)果數(shù)據(jù)、系統(tǒng)管理類數(shù)據(jù)等;Redis也是重要的存儲系統(tǒng),多應(yīng)用于關(guān)聯(lián)性較強的信息分析處理,其能夠?qū)崟r分析數(shù)據(jù),找到互相關(guān)聯(lián)的信息[2]。
網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng)中,實時流事件處理技術(shù)具有重要的地位,其主要收集、分析實時數(shù)據(jù)以及信息流,這些都是后續(xù)數(shù)據(jù)分析的信息基礎(chǔ)。將實時流事件處理技術(shù)與既定的檢測規(guī)則、信息數(shù)據(jù)進(jìn)行細(xì)致對比,可以準(zhǔn)確地發(fā)現(xiàn)某些信息、數(shù)據(jù)的不合常理之處,為后續(xù)的網(wǎng)絡(luò)異常行為判斷提供依據(jù)。Spark Steaming是一種重要的流式處理系統(tǒng),其具備較高的容錯率及高通量,能夠合理對接多種數(shù)據(jù)源,因此在實時數(shù)據(jù)處理方面有著明顯的優(yōu)勢。
隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)中數(shù)據(jù)的體量越來越大,網(wǎng)絡(luò)信息數(shù)據(jù)的經(jīng)濟價值、社會價值、研究價值也越來越高,越來越多的不法分子通過非法途徑獲取網(wǎng)絡(luò)信息,以達(dá)到自己的非法目的。針對網(wǎng)絡(luò)信息的異常行為也越來越多,因此需要網(wǎng)絡(luò)管理人員精確地追溯攻擊路徑,通過構(gòu)建強大的異常行為監(jiān)測系統(tǒng)保障網(wǎng)絡(luò)信息的安全性。本研究提出的網(wǎng)絡(luò)異常行為監(jiān)測系統(tǒng)架構(gòu)包括數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)存儲層、分析計算層等,其中數(shù)據(jù)采集層的主要作用是采集網(wǎng)絡(luò)中的數(shù)據(jù)源,再將記錄的網(wǎng)絡(luò)行為日志發(fā)送至kafka;數(shù)據(jù)處理層的主要作用是分析、處理采集到的網(wǎng)絡(luò)行為日志,通過kafka消息服務(wù)信息對采集層、處理層及存儲層之間的數(shù)據(jù)進(jìn)行解耦合;存儲于kafka上的數(shù)據(jù)日志、解析日志在被數(shù)據(jù)存儲層讀取后存儲于分布式數(shù)據(jù)庫中;分析計算層的主要作用是通過分析數(shù)據(jù)來源得出相關(guān)分析報告,完成數(shù)據(jù)實現(xiàn)[3]。數(shù)據(jù)采集層、處理層、存儲層、分析計算層各層之間均通過標(biāo)準(zhǔn)接口及數(shù)據(jù)連接,減少了各層之間數(shù)據(jù)組件的問題及對其他結(jié)構(gòu)的影響。
本系統(tǒng)中所有網(wǎng)絡(luò)異常行為感知采用的是分布式結(jié)構(gòu)來完成,在分布式系統(tǒng)上集成HBase提高數(shù)據(jù)傳輸?shù)男?。?yīng)用專業(yè)的采集服務(wù)引擎采集數(shù)據(jù),將大量的歷史數(shù)據(jù)、實時數(shù)據(jù)存儲于系統(tǒng)后臺,可以采用列模式存儲來提高數(shù)據(jù)的存儲效率。由于系統(tǒng)所采集到的數(shù)據(jù)具有較高的冗余性,數(shù)據(jù)之間缺乏必要的關(guān)聯(lián)性,因此本系統(tǒng)應(yīng)用聚類算法對數(shù)據(jù)之間的內(nèi)在聯(lián)系進(jìn)行分析,系統(tǒng)接收到海量數(shù)據(jù)后先通過數(shù)據(jù)維數(shù)約減算法將這些數(shù)據(jù)預(yù)處理為標(biāo)準(zhǔn)數(shù)據(jù),分析得出數(shù)據(jù)之間的相關(guān)性,然后提取數(shù)據(jù)之間的顯性特征,分析出數(shù)據(jù)中的隱性特征和數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián),不斷提高海量數(shù)據(jù)的應(yīng)用價值。Hive技術(shù)采用數(shù)據(jù)挖掘算法實現(xiàn)價值數(shù)據(jù)的離線關(guān)聯(lián)分析,并將數(shù)據(jù)可視化地呈現(xiàn)給用戶,完成對價值數(shù)據(jù)的深入挖掘。在數(shù)據(jù)實時關(guān)聯(lián)分析階段應(yīng)用數(shù)據(jù)的規(guī)則關(guān)聯(lián)與日志聚合技術(shù)可以大大提高數(shù)據(jù)的安全性。異常行為采集模塊又包括安全風(fēng)險及指標(biāo)、風(fēng)險評估與處置、告警管理3個子模塊。其中安全風(fēng)險及指標(biāo)主要對數(shù)據(jù)信息整個生命周期中的異常行為進(jìn)行識別、鑒定,是識別各種風(fēng)險行為的基礎(chǔ)。風(fēng)險評估則是根據(jù)風(fēng)險量化模型對采集到的數(shù)據(jù)進(jìn)行風(fēng)險評估,根據(jù)評估結(jié)果等級對風(fēng)險行為進(jìn)行排序,優(yōu)化處理風(fēng)險評估等級最高的異常行為。風(fēng)險控制主要是對網(wǎng)絡(luò)攻擊行為進(jìn)行具體分析,根據(jù)異常行為的發(fā)生原理采取應(yīng)對措施,以提高網(wǎng)絡(luò)異常行為風(fēng)險處理的效率。
網(wǎng)絡(luò)異常行為精確感知模塊設(shè)計會應(yīng)用到大數(shù)據(jù)框架技術(shù)、智能感知技術(shù)、交互式可視化技術(shù)、異常行為量化評估模型等。網(wǎng)絡(luò)異常行為的主要風(fēng)險因素包括威脅、設(shè)備、安全防護措施等,分析網(wǎng)絡(luò)異常行為時需準(zhǔn)確識別此類要素,并分析各要素之間的關(guān)系。具體的網(wǎng)絡(luò)異常行為及其影響包括:蓄意破壞設(shè)備或信息,會導(dǎo)致信息數(shù)據(jù)不完整或數(shù)據(jù)泄漏;非法人員在未授權(quán)的情況下非法讀取數(shù)據(jù)信息,甚至出現(xiàn)篡改數(shù)據(jù)信息、傳播病毒代碼、留下木馬后門等嚴(yán)重非法行為;工作人員自身的失誤也會造成數(shù)據(jù)信息有誤,影響到網(wǎng)絡(luò)信息的安全。網(wǎng)絡(luò)系統(tǒng)運行過程中任一階段都可能會出現(xiàn)異常行為,分析異常行為發(fā)生的概率,確定網(wǎng)絡(luò)攻擊行為的權(quán)重,再根據(jù)攻擊行為的危害后果定義風(fēng)險指標(biāo),結(jié)合風(fēng)險庫、數(shù)據(jù)屬性、風(fēng)險評估對象對風(fēng)險行為進(jìn)行定義、識別、分析,采用風(fēng)險量化模型計算網(wǎng)絡(luò)異常行為的風(fēng)險值,根據(jù)網(wǎng)絡(luò)異常行為的風(fēng)險等級、行為特點計算模擬安全控制措施的有效性。制定并執(zhí)行風(fēng)險動態(tài)管理機制,提高網(wǎng)絡(luò)安全管理執(zhí)行效率[4]。
網(wǎng)絡(luò)非法攻擊行為已經(jīng)由傳統(tǒng)簡單粗暴的非目標(biāo)值變換為精準(zhǔn)攻擊、精細(xì)化的分布式拒絕服務(wù)(Distributed Denial of Service,DDoS)攻擊,特別是危害巨大的高級持續(xù)性威脅(Advanced Persistent Threat,APT)攻擊。因此網(wǎng)絡(luò)異常行為監(jiān)測系統(tǒng)在識別網(wǎng)絡(luò)異常行為后,要完成網(wǎng)絡(luò)異常行為的精確感知并進(jìn)行異常行為分析。網(wǎng)絡(luò)異常行為分析模塊可以獲取各種復(fù)雜環(huán)境下的告警信息、異常行為安全分析、控制行為等,分析數(shù)據(jù)前要先了解數(shù)據(jù)結(jié)構(gòu)的組成及功能作用,并提高數(shù)據(jù)信息的標(biāo)準(zhǔn)化、多樣化,以提高數(shù)據(jù)挖掘的效率及異常行為建模的精確性,獲得更加精確的內(nèi)在價值數(shù)據(jù)。系統(tǒng)的數(shù)據(jù)可視化功能可以將數(shù)據(jù)信息價值多樣化地呈現(xiàn)出來[5]。本系統(tǒng)中網(wǎng)絡(luò)異常行為防護規(guī)則包括:首先,系統(tǒng)已經(jīng)判定為惡意IP地址的要絕對禁止其訪問系統(tǒng),從根源上隔離非法用戶,保證信息數(shù)據(jù)的安全性;其次,系統(tǒng)識別到惡意域名后直接拒絕其訪問請求,一般情況下一些惡意IP地址會被防火墻阻擋在外,但是也會有些IP地址是防火墻無法識別的,系統(tǒng)在識別到這些惡意IP地址的訪問請求時會直接拒絕,并將其訪問記錄存儲于數(shù)據(jù)庫中,將其域名定義為“不可解析”;再次,網(wǎng)絡(luò)異常行為中的惡意文件主要是釣魚代碼、病毒,其主要目的是非法用戶實現(xiàn)對系統(tǒng)的遠(yuǎn)程控制或啟動木馬程序,異常行為監(jiān)測系統(tǒng)可以識別這類惡意文件,直接拒絕讀取文件,以起到保護系統(tǒng)數(shù)據(jù)安全的作用;最后,控制郵件發(fā)布者的訪問控制權(quán)限[6]。一直以來惡意郵件都是使系統(tǒng)受到攻擊的重要途徑,一般情況下,系統(tǒng)會通過檢查郵件后綴識別其合法性,直接控制郵件發(fā)布者的訪問控制權(quán)限,保護數(shù)據(jù)安全。而影響防護規(guī)則有效性的因素也比較復(fù)雜,比如攻擊行為發(fā)生的位置、防護系統(tǒng)的具體部署方案等,通常情況下防護規(guī)則可遵循就近處理的原則部署于最靠近攻擊行為的部位,以更好地阻止攻擊行為。
系統(tǒng)運行過程中,首先會建立異常行為監(jiān)測門戶,該門戶中包括各種異常行為的搜索、信息展示設(shè)計等,通過交互界面將所有的異常行為展示出來,尤其是重點展示攻擊行為、攻擊手段、攻擊對象等,還可以重點搜索漏洞、郵箱、已知黑客代碼、IP地址等外部行為,攻取攻擊行為的相關(guān)信息后向系統(tǒng)發(fā)送告警信息。然后,系統(tǒng)會采集網(wǎng)絡(luò)異常行為信息,主要是獲取原始網(wǎng)絡(luò)日志,比如網(wǎng)絡(luò)攻擊異常行為、安全通告漏洞、各類補丁信息、采集接口信息等,除此之外還包括攻擊目標(biāo)本身的信息數(shù)據(jù)[7]。完成網(wǎng)絡(luò)異常行為信息采集后,系統(tǒng)會對異常行為進(jìn)行分析,禁止網(wǎng)絡(luò)內(nèi)部設(shè)備與危險IP地址進(jìn)行數(shù)據(jù)交換。最后,將監(jiān)測到的異常行為信息存儲于安全異常行為庫中,信息包括已造成威脅的異常IP、網(wǎng)址、鏈接等,一旦這些信息試圖訪問系統(tǒng),系統(tǒng)就會啟動防火墻隔斷、禁止運行、刪除危險文件、清除注冊表等防護措施,保證系統(tǒng)數(shù)據(jù)的安全性。
大數(shù)據(jù)技術(shù)的發(fā)展提高了對于海量數(shù)據(jù)處理的能力,應(yīng)用大數(shù)據(jù)技術(shù)挖掘分析歷史數(shù)據(jù)、檢測實時數(shù)據(jù)流,通過非基于特征的異常行為檢測能夠更準(zhǔn)確識別隱蔽、復(fù)雜的攻擊行為。