◆吳佳龍
(西安郵電大學(xué) 陜西 710121)
隨著大數(shù)據(jù)技術(shù)在政府、銀行等日愈增多領(lǐng)域的應(yīng)用及深入,網(wǎng)絡(luò)空間安全的重要性不言而喻,如何認(rèn)識(shí)、理解大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)安全分析中的意義并采取有效行動(dòng)來(lái)保護(hù)網(wǎng)絡(luò)安全是當(dāng)前應(yīng)解決的關(guān)鍵問(wèn)題。
數(shù)據(jù)爆炸式增長(zhǎng),這使得在數(shù)據(jù)增多的情況下, 若還是采用之前的速度對(duì)數(shù)據(jù)信息進(jìn)行傳遞,則工作效率會(huì)較低。而采用大數(shù)據(jù)技術(shù),提高數(shù)據(jù)存儲(chǔ)量,確保數(shù)據(jù)有效性,通過(guò)IP 骨干網(wǎng)傳輸和數(shù)據(jù)中心傳輸,可以極大地提高信息數(shù)據(jù)傳輸速率。
大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)的曲線增長(zhǎng)對(duì)傳統(tǒng)的安全工具造成了猛烈的沖擊,數(shù)據(jù)的泄露使得網(wǎng)絡(luò)用戶的安全無(wú)法得到保障,而且通過(guò)大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析處理時(shí),可以從多個(gè)角度不同方面進(jìn)行,以此來(lái)提高網(wǎng)絡(luò)安全系統(tǒng)處理數(shù)據(jù)的準(zhǔn)確度,完善網(wǎng)絡(luò)安全分析系統(tǒng)。
傳統(tǒng)的網(wǎng)絡(luò)安全分析系統(tǒng)在面對(duì)大量流動(dòng)數(shù)據(jù)時(shí)難免捉襟見(jiàn)肘,而大數(shù)據(jù)技術(shù)以較低的成本在大規(guī)模、多樣化、低價(jià)值密度的大數(shù)據(jù)中深度挖掘出有效數(shù)據(jù),規(guī)避傳統(tǒng)技術(shù)遺留的風(fēng)險(xiǎn)并更加全面、更加深入的分析處理數(shù)據(jù),因而提高網(wǎng)絡(luò)安全分析的深度。
基于 ETL(Extract-Transform-Load)對(duì)數(shù)據(jù)進(jìn)行離線采集,包括對(duì)數(shù)據(jù)的提取、轉(zhuǎn)換和加載;也可利用Flume、Kafka和Storm實(shí)現(xiàn)對(duì)實(shí)時(shí)數(shù)據(jù)的采集:Flume是一個(gè)分布式的數(shù)據(jù)采集系統(tǒng),且具有高可靠和高可用性,將Kafka作為消息緩沖區(qū),Storm則是給與在線實(shí)時(shí)處理以便利;當(dāng)然還可以通過(guò)Crawler等進(jìn)行互聯(lián)網(wǎng)采集。
在網(wǎng)絡(luò)安全分析中,應(yīng)先根據(jù)數(shù)據(jù)的規(guī)模及種類選擇不同的存儲(chǔ)形式。對(duì)于原始數(shù)據(jù)中如日志數(shù)據(jù)等信息等,應(yīng)該采用GBase、HBase等方式進(jìn)行存儲(chǔ);對(duì)于需要進(jìn)行實(shí)時(shí)分析的信息數(shù)據(jù),應(yīng)該采用Storm、Spark的計(jì)算方法將數(shù)據(jù)最終以流式方式存儲(chǔ)到數(shù)據(jù)庫(kù)中。
大數(shù)據(jù)技術(shù)除了實(shí)現(xiàn)對(duì)多元數(shù)據(jù)準(zhǔn)確快速挖掘并進(jìn)行分析,還能夠?qū)Π踩[患及漏洞等有效復(fù)查,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)的安全保護(hù)。如基于DNS流量特征對(duì)僵尸網(wǎng)絡(luò)進(jìn)行檢測(cè),對(duì)數(shù)據(jù)進(jìn)行深入拓展,找到源頭,擴(kuò)大數(shù)據(jù)檢索范圍,集合數(shù)據(jù)的全部分組、莫管數(shù)據(jù)等,查找主機(jī)被侵入的痕跡或者漏洞等問(wèn)題,以便我們實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)的安全保護(hù)。
人工管理逐漸增加的訪問(wèn)控制策略和運(yùn)行狀態(tài),會(huì)產(chǎn)生諸如低效率,低實(shí)時(shí)性,非全面等問(wèn)題,這使得人工管理陷入窘境。為了解決人工手動(dòng)管理導(dǎo)致的一系列問(wèn)題,需要建立網(wǎng)絡(luò)安全分析的平臺(tái),實(shí)現(xiàn)對(duì)訪問(wèn)控制策略的管理與分析,提高設(shè)備運(yùn)行狀態(tài)管理的實(shí)時(shí)性,以此來(lái)完善網(wǎng)絡(luò)設(shè)備的安全,為網(wǎng)絡(luò)安全管理提供更好的服務(wù)。而網(wǎng)絡(luò)安全平臺(tái)可以通過(guò)對(duì)防火墻、網(wǎng)閘等網(wǎng)絡(luò)設(shè)備的安全日志和事件等信息的收集,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)的分析,更加凸顯了網(wǎng)絡(luò)安全平臺(tái)的重要性。
基于大數(shù)據(jù)的網(wǎng)絡(luò)平臺(tái)基本包括以下幾層:
(1)數(shù)據(jù)采集層:全面地采集大量有效數(shù)據(jù)。這一層包含離線與實(shí)時(shí)采集等。
(2)數(shù)據(jù)處理層:通過(guò)分布式文件系統(tǒng)存儲(chǔ)大量信息,并且可以存放到列式存儲(chǔ)中。根據(jù)不同的要求,可以采用Hadoop、流處理等技術(shù)。
(3)數(shù)據(jù)分析層:該層通過(guò)數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等方法,利用不同技術(shù)實(shí)現(xiàn)對(duì)實(shí)時(shí)數(shù)據(jù)的分析和處理,找到能威脅到網(wǎng)絡(luò)安全的數(shù)據(jù)并追溯根源。
(4)數(shù)據(jù)訪問(wèn)層:讀取和傳送數(shù)據(jù),主要實(shí)現(xiàn)讀寫(xiě)分離,包括常規(guī)查詢、實(shí)時(shí)查詢等。
(5)數(shù)據(jù)應(yīng)用層:不同的人或企業(yè),所需求的數(shù)據(jù)有較大差異,針對(duì)不同的身份,劃分不同類別的應(yīng)用,提供相應(yīng)所需的數(shù)據(jù)。
(1)數(shù)據(jù)采集:如利用 ETL的方法對(duì)離線數(shù)據(jù)進(jìn)行采集;也如利用Flume、Kafka和Storm為一體的方法對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)采集,穩(wěn)定可靠的收集、整合大規(guī)模有效數(shù)據(jù)。
(2)數(shù)據(jù)存儲(chǔ):利用HDFS分布式文件系統(tǒng)進(jìn)行存儲(chǔ),用元數(shù)據(jù)管理節(jié)點(diǎn)系統(tǒng),每個(gè)節(jié)點(diǎn)存放關(guān)聯(lián)數(shù)據(jù),而最基本的存儲(chǔ)單元是64兆字節(jié)的數(shù)據(jù)塊。
(3)數(shù)據(jù)分析:利用Hive這種工具對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與分析,一般而言,可以采用 HiveQL語(yǔ)言對(duì)非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行檢索,應(yīng)用 Hive封裝 API,通過(guò)需求定制的各種分析插件實(shí)現(xiàn)對(duì)數(shù)據(jù)的分析。
數(shù)據(jù)采集是大數(shù)據(jù)技術(shù)的第一條件,其次只有當(dāng)我們收集到具備可靠性、可用性,并且可以用于數(shù)據(jù)分析的數(shù)據(jù)才是我們需要的結(jié)果,單純的數(shù)據(jù)采集并不是我們想要的。因此,提高數(shù)據(jù)采集技術(shù)是大數(shù)據(jù)技術(shù)的重中之重。如在日志采集系統(tǒng)中采用Flume采集安全數(shù)據(jù)相較于其他的方式更具高效性、可靠性,并且具有強(qiáng)大的容錯(cuò)能力;在網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)中,使用Crawler4j等框架可以極大地提高開(kāi)發(fā)員的速率。大體而言,可以先提高對(duì)數(shù)據(jù)的提取技術(shù):增加提取的速率、準(zhǔn)確性、安全性及對(duì)錯(cuò)誤數(shù)據(jù)的過(guò)濾速率,再提升數(shù)據(jù)轉(zhuǎn)換成不同格式的速率。
多樣化且海量的數(shù)據(jù)一直在沖擊著數(shù)據(jù)存儲(chǔ)技術(shù)的底線,對(duì)于如何提高數(shù)據(jù)存儲(chǔ)技術(shù),最初我們可以對(duì)數(shù)據(jù)進(jìn)行不斷加密,以抵擋黑客的攻擊及防止安全漏洞,保護(hù)數(shù)據(jù)存儲(chǔ)的安全性;其次我們可以使用更大的數(shù)據(jù)倉(cāng)庫(kù)來(lái)存儲(chǔ)數(shù)據(jù),這個(gè)倉(cāng)庫(kù)為我們無(wú)法完全存儲(chǔ)的數(shù)據(jù)提供了一個(gè)臨時(shí)駐點(diǎn);最后云存儲(chǔ)服務(wù)為大量數(shù)據(jù)提供了一個(gè)完美的存儲(chǔ)場(chǎng)所,可以規(guī)避網(wǎng)絡(luò)風(fēng)險(xiǎn),極大地提高了存儲(chǔ)的規(guī)模及安全。除此之外,我們需要加速對(duì)數(shù)據(jù)存儲(chǔ)技術(shù)的創(chuàng)新,緊跟數(shù)字化存儲(chǔ)技術(shù)的發(fā)展,提供更優(yōu)良的存儲(chǔ)服務(wù)。
由于網(wǎng)絡(luò)的惡意攻擊或自身的操作失誤等可能會(huì)致使數(shù)據(jù)發(fā)生損失,因此,對(duì)于保證數(shù)據(jù)的完整性,首先可以從提升防火墻的安全等級(jí),并且加入入侵檢測(cè)技術(shù)著手;其次應(yīng)針對(duì)性、有策略地對(duì)數(shù)據(jù)進(jìn)行不同種類的加密,如鏈路加密技術(shù)、加密壓縮包、身份認(rèn)證等;最后,優(yōu)化完整性驗(yàn)證算法可以為數(shù)據(jù)提供更加安全的保障。
總而言之,日益復(fù)雜的網(wǎng)絡(luò)環(huán)境使得大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)安全分析中的地位愈發(fā)提高。大數(shù)據(jù)技術(shù)通過(guò)對(duì)數(shù)據(jù)的采集、存儲(chǔ)及分析等應(yīng)用,提高了數(shù)據(jù)傳輸?shù)乃俾剩鰪?qiáng)了數(shù)據(jù)處理的準(zhǔn)確性,極大地提高了網(wǎng)絡(luò)安全分析的廣度與深度,為新時(shí)代的網(wǎng)絡(luò)安全平臺(tái)提供了強(qiáng)有力的支撐。
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2019年8期