陶然 張?zhí)K炯
目前,傳統(tǒng)技術(shù)的安全審計(jì)系統(tǒng)已經(jīng)不能符合時(shí)代發(fā)展的要求。在經(jīng)濟(jì)水平不斷提高的背景下,大數(shù)據(jù)技術(shù)得到了應(yīng)用,可以為安全審計(jì)系統(tǒng)的改造和開發(fā)提供技術(shù)保障。與傳統(tǒng)安全審計(jì)系統(tǒng)進(jìn)行比較,應(yīng)用大數(shù)據(jù)技術(shù)的安全審計(jì)系統(tǒng)可以提高應(yīng)對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的能力,同時(shí)可以在大量數(shù)據(jù)中挖掘?qū)τ脩艟哂袃r(jià)值的信息數(shù)據(jù),從而保證審計(jì)信息的有效性。
隨著新時(shí)代的到來(lái),信息化程度不斷提高,信息系統(tǒng)得到了迅速發(fā)展,信息系統(tǒng)安全審計(jì)內(nèi)容和對(duì)象越來(lái)越復(fù)雜,一定程度上增加了審計(jì)信息的工作量。在企業(yè)中,對(duì)于大型信息系統(tǒng)而言,管理節(jié)點(diǎn)個(gè)數(shù)動(dòng)輒將超過(guò)幾十萬(wàn)。在需要審計(jì)的重要節(jié)點(diǎn)中,一般會(huì)超過(guò)1000個(gè)。此外,它的節(jié)點(diǎn)類型存在不同,主要包括應(yīng)用系統(tǒng)、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(kù)、服務(wù)器和安全設(shè)備等。在每天的操作日志和訪問(wèn)中,已經(jīng)超過(guò)了數(shù)億條,甚至達(dá)到了幾百億條。在數(shù)據(jù)量到達(dá)TB數(shù)量級(jí)后,會(huì)對(duì)傳統(tǒng)安全審計(jì)系統(tǒng)造成嚴(yán)重威脅。在進(jìn)行審計(jì)工作的過(guò)程中,審計(jì)對(duì)象類型各種各樣,日志格式也會(huì)存在不同。運(yùn)用傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的過(guò)程中,儲(chǔ)存這些大量的異構(gòu)數(shù)據(jù)存在一定的難度。
在運(yùn)用大數(shù)據(jù)技術(shù)構(gòu)建安全審計(jì)系統(tǒng)的過(guò)程中,需要分析和采集大量的數(shù)據(jù),保證大量異構(gòu)數(shù)據(jù)處理的質(zhì)量。在大數(shù)據(jù)技術(shù)不斷成熟的背景下,可以為網(wǎng)絡(luò)技術(shù)的發(fā)展提供技術(shù)保障。運(yùn)用大數(shù)據(jù)技術(shù)構(gòu)建安全審計(jì)系統(tǒng)的過(guò)程中,以下幾點(diǎn)得到了優(yōu)化:
安全審計(jì)系統(tǒng)處理數(shù)據(jù)的過(guò)程中,提升了存儲(chǔ)、采集和分析能;
不僅提升了應(yīng)對(duì)結(jié)構(gòu)化數(shù)據(jù)的能力,還提高了處理非結(jié)構(gòu)化數(shù)據(jù)的能力;
運(yùn)用大數(shù)據(jù)技術(shù)可以建立相關(guān)的模型和算法,更加深入地分析歷史信息數(shù)據(jù),從大量數(shù)據(jù)中挖掘出對(duì)用戶有價(jià)值的信息。
(一) 大數(shù)據(jù)量的審計(jì)數(shù)據(jù)采集與存儲(chǔ)
在采集大量審計(jì)數(shù)據(jù)的過(guò)程中,審計(jì)系統(tǒng)的采集能力受到了很大威脅,導(dǎo)致出現(xiàn)系統(tǒng)響應(yīng)慢和數(shù)據(jù)丟失的現(xiàn)象,甚至可能存在進(jìn)程擁塞和停止響應(yīng)的情況。大數(shù)據(jù)時(shí)代背景下,可以運(yùn)用采集探針的部署方法,按照實(shí)際采集數(shù)據(jù)量的需求部署一個(gè)或者多個(gè)數(shù)據(jù)采集探針。探針得到數(shù)據(jù)后,需要運(yùn)用TCP協(xié)議與分析平臺(tái)進(jìn)行連接,壓縮并加密需要傳輸?shù)男畔?shù)據(jù),以提高采集數(shù)據(jù)的能力。對(duì)于數(shù)據(jù)冗余模塊而言,這并不必需。但是,在日志數(shù)據(jù)中并沒(méi)有充足的維度信息,或者需要提高增加維度的次數(shù),需要設(shè)置定義數(shù)據(jù)冗余模塊。通過(guò)運(yùn)用冗余維度定義器,可以定義冗余的維度信息和來(lái)源,如內(nèi)存、數(shù)據(jù)庫(kù)和文件等,并且需要指定擴(kuò)展方式,在數(shù)據(jù)日志中納入信息數(shù)據(jù)。在存儲(chǔ)數(shù)據(jù)的過(guò)程中,需要運(yùn)用較快的內(nèi)存NoSQL對(duì)原始數(shù)據(jù)進(jìn)行冗余,并且采取一定的節(jié)點(diǎn)實(shí)施并行冗余;或者可以在Hadoop中完全執(zhí)行批量Map,從而可以轉(zhuǎn)化數(shù)據(jù)的格式。
(二)數(shù)據(jù)歸一化和關(guān)聯(lián)分析
在采集審計(jì)數(shù)據(jù)后,需要對(duì)這些大量的數(shù)據(jù)進(jìn)行劃分,然后根據(jù)標(biāo)準(zhǔn)要求對(duì)這些數(shù)據(jù)進(jìn)行歸一化,同時(shí)可以對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理。與傳統(tǒng)審計(jì)產(chǎn)品進(jìn)行對(duì)比,它處理事件的流程一樣,但是也存在不同,需要處理大量的數(shù)據(jù)。在對(duì)傳統(tǒng)產(chǎn)品進(jìn)行實(shí)時(shí)關(guān)聯(lián)分析的過(guò)程中,通常使用內(nèi)存數(shù)據(jù)庫(kù)的方式,但是存在板內(nèi)存資源或者SQL語(yǔ)句效率問(wèn)題的情況下,會(huì)對(duì)規(guī)則引擎的處理能力造成影響,造成規(guī)則引擎出現(xiàn)檢測(cè)不出異常的現(xiàn)象。在實(shí)時(shí)規(guī)則分析引擎中,以大數(shù)據(jù)集群的復(fù)雜事件處理流程作為引擎,保證并行運(yùn)行多種規(guī)則的有效性,從而保證檢測(cè)異常事件的實(shí)時(shí)性。實(shí)際中,需要運(yùn)用Storm+Esper的方式。對(duì)于Storm而言,在統(tǒng)計(jì)計(jì)算大量數(shù)據(jù)方面得到了應(yīng)用,可以提高反饋統(tǒng)計(jì)效果的速度。在Storm框架中,需要運(yùn)用事件處理流程,保證運(yùn)算數(shù)據(jù)的準(zhǔn)確性。在運(yùn)用Storm的內(nèi)存數(shù)據(jù)過(guò)程中,可以進(jìn)行關(guān)聯(lián)分析運(yùn)算。在運(yùn)用Esper的情況下,它的實(shí)時(shí)關(guān)聯(lián)分析的引擎為復(fù)雜事件處理功能,可以提高系統(tǒng)關(guān)聯(lián)分析的有效性。
(三) 歷史數(shù)據(jù)統(tǒng)計(jì)分析
在安全審計(jì)系統(tǒng)中,對(duì)統(tǒng)計(jì)分析提出了一定的要求,需要在離線狀態(tài)下對(duì)存儲(chǔ)在集群中的海量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。在面對(duì)大量數(shù)據(jù)的情況下,對(duì)于傳統(tǒng)的審計(jì)產(chǎn)品,它的ETL工具并不能起到什么作用。究其原因,主要在于轉(zhuǎn)化數(shù)據(jù)格式時(shí)需要的成本較大,能力方面不能滿足大量數(shù)據(jù)的處理需求。在傳統(tǒng)的審計(jì)產(chǎn)品中,關(guān)系型數(shù)據(jù)庫(kù)不能滿足大量數(shù)據(jù)的運(yùn)算,并且已經(jīng)超出了檢索數(shù)據(jù)的范圍。在大數(shù)據(jù)技術(shù)的審計(jì)系統(tǒng)中,主要包括離線統(tǒng)計(jì)和分析功能。在對(duì)存儲(chǔ)大量數(shù)據(jù)進(jìn)行分類總結(jié)和分析的過(guò)程中,運(yùn)用分布式計(jì)算集群的方式可以滿足常見(jiàn)分析的多種需求。在Hadoop上層中,對(duì)Hive+Hbase框架進(jìn)行部署,其對(duì)于Hive和Hbase來(lái)說(shuō)含有的特征不同。Hbase的特征為面向編程、低延遲、非結(jié)構(gòu)化等,而Hive的特征為面向分析、高延遲、結(jié)構(gòu)化等。在Hive數(shù)據(jù)倉(cāng)庫(kù)中,對(duì)于Hadoop屬于高延遲,而Hive集成Hbase,目的為使用Hbase含有的特性,通過(guò)Hive提供的Hive SQL簡(jiǎn)化對(duì)Map/Reduce任務(wù)的編寫,利用Hive與Hbase之間的互補(bǔ)提高事件分析結(jié)果運(yùn)算的效率,然后通過(guò)核心模塊將該命令轉(zhuǎn)變?yōu)镸ap-Reduce,交給Hadoop集群后生產(chǎn)報(bào)表,方便報(bào)表中心進(jìn)行查看,從而可以離線統(tǒng)計(jì)分析存儲(chǔ)在HDFS上的數(shù)據(jù)。
(四)數(shù)據(jù)挖掘
挖掘數(shù)據(jù)的過(guò)程中也運(yùn)用大量歷史數(shù)據(jù)進(jìn)行分析,但是與前面統(tǒng)計(jì)及分析過(guò)程存在不同。在運(yùn)用大數(shù)據(jù)技術(shù)的情況下,挖掘數(shù)據(jù)不會(huì)存在預(yù)先設(shè)定的主題,主要是在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上運(yùn)用各種算法進(jìn)行計(jì)算,從而保證預(yù)測(cè)效果的有效性,滿足分析高級(jí)數(shù)據(jù)的各種需求。同時(shí),運(yùn)用各種挖掘算法可以運(yùn)算已經(jīng)成型的審計(jì)分析模型。這些挖掘數(shù)據(jù)方式是傳統(tǒng)審計(jì)產(chǎn)品中不存在的。通過(guò)挖掘數(shù)據(jù)技術(shù)的運(yùn)用,可以發(fā)現(xiàn)存在的系統(tǒng)配置誤配現(xiàn)象,還可以發(fā)現(xiàn)較為隱藏的違規(guī)訪問(wèn)和網(wǎng)絡(luò)攻擊?,F(xiàn)階段,已經(jīng)有很多挖掘數(shù)據(jù)法得到了應(yīng)用,現(xiàn)有技術(shù)中不存在難度,但是有效結(jié)合算法與信息安全行業(yè)模式還需要很長(zhǎng)時(shí)間進(jìn)行調(diào)試和訓(xùn)練。
(五)高效便捷的海量事件追溯
在安全審計(jì)系統(tǒng)中,追溯系統(tǒng)有著重要地位。實(shí)際運(yùn)用時(shí),在分析大量數(shù)據(jù)的基礎(chǔ)上,對(duì)用戶使用中存在的問(wèn)題進(jìn)行解決,通過(guò)追溯系統(tǒng)的運(yùn)用,分析平臺(tái)中含有的各種結(jié)果,然后定位事件源。因此,運(yùn)用追溯系統(tǒng)可以保證處理大量事件的高效便捷。
隨著新時(shí)代的到來(lái),信息化程度得到了迅速發(fā)展,信息系統(tǒng)的復(fù)雜程度也在不斷提高,說(shuō)明安全審計(jì)的內(nèi)容會(huì)更加繁瑣,增加了單位審計(jì)信息的工作量。在我國(guó)社會(huì)經(jīng)濟(jì)不斷發(fā)展進(jìn)步的背景下,各種數(shù)據(jù)不斷涌現(xiàn),形成了大數(shù)據(jù)技術(shù)系統(tǒng),并得到了廣泛應(yīng)用。與傳統(tǒng)信息系統(tǒng)進(jìn)行比較,應(yīng)用大數(shù)據(jù)技術(shù)的安全審計(jì)系統(tǒng)不僅可以提高計(jì)算的工作效率,還可以提高系統(tǒng)的存儲(chǔ)能力。
作者單位:陶然 四川省公安廳科技信息化處
張?zhí)K炯 北京北信源軟件股份有限公司