王靜,高昆侖,卞超軼,梁瀟
(1.國家電力投資集團有限公司,北京 100033;2.全球能源互聯(lián)網(wǎng)研究院有限公司,北京 102209;3.北京郵電大學,北京 100876)
能源集團實施網(wǎng)絡(luò)安全隔離[1]是在當今嚴峻的網(wǎng)絡(luò)安全形勢下,加強全集團信息安全保護慎重決策的一項重大工程。在網(wǎng)絡(luò)隔離建設(shè)過程中,全集團分別建設(shè)信息內(nèi)網(wǎng)、信息外網(wǎng),并配套建設(shè)統(tǒng)一防病毒、實現(xiàn)內(nèi)網(wǎng)入侵檢測、完善統(tǒng)一終端安全管理等信息安全綜合防護措施。尤為重要的是,為了實現(xiàn)信息內(nèi)網(wǎng)信息安全統(tǒng)一監(jiān)測,逐步實現(xiàn)安全預(yù)警與集中審計,需要建設(shè)能源集團統(tǒng)一運行監(jiān)測與安全預(yù)警平臺。
能源集團整體網(wǎng)絡(luò)分為3個層次:集團總部、二級單位、三級單位,采用樹形結(jié)構(gòu)廣域網(wǎng)系統(tǒng)實現(xiàn)互聯(lián)。信息內(nèi)網(wǎng)在各級單位統(tǒng)一部署防病毒系統(tǒng)、終端安全管理、網(wǎng)絡(luò)隔離與數(shù)據(jù)安全交換、內(nèi)網(wǎng)入侵檢測系統(tǒng)(intrusion detection system,IDS)等,總部集中部署綜合辦公、人力資源和采購管理等系統(tǒng)。隨著建設(shè)范圍的不斷擴大,業(yè)務(wù)支撐設(shè)備和安全防范技術(shù)越來越復雜,面臨如下問題。
· 難以實現(xiàn)各個業(yè)務(wù)平臺統(tǒng)一的網(wǎng)絡(luò)設(shè)備、服務(wù)器設(shè)備、安全設(shè)備、業(yè)務(wù)系統(tǒng)運行狀態(tài)綜合監(jiān)控、預(yù)警和應(yīng)急響應(yīng)處理。
· 大量部署的安全產(chǎn)品的配置、管理方法都不相同,安全管理人員很難對每個安全產(chǎn)品都精通。
· 不同安全產(chǎn)品相對獨立的部署方式使各個設(shè)備獨立配置、各個引擎產(chǎn)生獨立的事件報警,難以形成全局的安全風險監(jiān)控,安全策略和配置難以統(tǒng)一協(xié)調(diào)。
· 與安全相關(guān)的數(shù)據(jù)量越來越大,難以對海量數(shù)據(jù)集中存儲和分析處理,從大量、孤立的單條事件中無法準確發(fā)現(xiàn)全局、整體的安全威脅行為。
因此,迫切需要建設(shè)統(tǒng)一運行監(jiān)測與安全預(yù)警平臺,將業(yè)務(wù)系統(tǒng)運行的各項指標監(jiān)控起來,將各自為戰(zhàn)的安全產(chǎn)品集中監(jiān)控起來,實現(xiàn)對安全事件和安全狀態(tài)的全局管理。
面對日益復雜的網(wǎng)絡(luò)安全形勢,傳統(tǒng)的安全信息和事件管理(SIEM)分析難以應(yīng)對高級持續(xù)性威脅(advanced persistent threat,APT)攻擊[2]等未知特征的威脅形式。統(tǒng)一運行監(jiān)測與安全預(yù)警平臺基于全網(wǎng)海量多源異構(gòu)數(shù)據(jù)(例如告警數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)管與運維數(shù)據(jù)和內(nèi)控數(shù)據(jù)),通過對數(shù)據(jù)的集中分析,構(gòu)建安全場景分析,實現(xiàn)安全風險與態(tài)勢的實時感知。
平臺將風險可視化技術(shù)應(yīng)用到信息安全風險管理全生命周期,對事前風險合規(guī)性管理運維流程的成果進行量化,對事中發(fā)生的各類安全告警和異常行為及時感知,并將事后監(jiān)測到的業(yè)務(wù)異動和事件處置運維流程情況全部匯總統(tǒng)一成態(tài)勢感知的業(yè)務(wù)數(shù)據(jù)鏈,從多層面、多視角研究信息安全風險量化評估模型、態(tài)勢評價模型、可視化展現(xiàn)框架和可視化交互技術(shù),并加以應(yīng)用。
統(tǒng)一運行監(jiān)測與安全預(yù)警平臺與傳統(tǒng)的安全操作中心(security operations center,SOC)[3]相比,在數(shù)據(jù)采集、大數(shù)據(jù)分析、安全態(tài)勢感知、預(yù)警監(jiān)控和可視化等諸多方面有重要突破和創(chuàng)新,主要對比見表1。
平臺以大數(shù)據(jù)采集和關(guān)聯(lián)分析模塊作為技術(shù)支撐,以風險管理、態(tài)勢感知、安全預(yù)警和工單管理作為應(yīng)用重點,通過公共數(shù)據(jù)服務(wù)接口集成第三方產(chǎn)品,最終通過可視化子系統(tǒng)綜合呈現(xiàn)全網(wǎng)安全態(tài)勢。平臺總體架構(gòu)如圖1所示。
表1 功能對比
圖1 平臺總體架構(gòu)
根據(jù)平臺總體架構(gòu),設(shè)計基于大數(shù)據(jù)技術(shù)的統(tǒng)一運行監(jiān)測與安全預(yù)警平臺功能架構(gòu),如圖 2所示,分為日志采集層、大數(shù)據(jù)處理層、管控層、綜合展現(xiàn)層和系統(tǒng)管理層。
(1)日志采集層
日志采集層負責從網(wǎng)絡(luò)設(shè)備、安全設(shè)備、業(yè)務(wù)系統(tǒng)和服務(wù)器等采集各種安全信息、日志信息、流量信息及其他業(yè)務(wù)信息,經(jīng)過數(shù)據(jù)格式標準化、數(shù)據(jù)歸并、數(shù)據(jù)壓縮等處理后,提交給上層數(shù)據(jù)處理平臺,數(shù)據(jù)采集層提供了多種采集協(xié)議去采集各種異構(gòu)數(shù)據(jù)源信息。
通過 Flume[7]在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,同時對數(shù)據(jù)進行簡單處理,然后將數(shù)據(jù)上傳到大數(shù)據(jù)處理層。來源于關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)通過Sqoop[8]上傳到大數(shù)據(jù)處理層。
圖2 平臺功能架構(gòu)
(2)大數(shù)據(jù)處理層
大數(shù)據(jù)處理層的作用是對采集的數(shù)據(jù)進行預(yù)處理和存儲。將需要的數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)和對非結(jié)構(gòu)化數(shù)據(jù)進行索引和存儲。日志采集層傳上來的數(shù)據(jù)分別被存儲在分布式內(nèi)存數(shù)據(jù)庫Redis[9]和離線存儲數(shù)據(jù)庫Hadoop中。
實時分析包括對數(shù)據(jù)進行關(guān)聯(lián)分析、統(tǒng)計分析、漏洞分析、可信度分析和溯源分析,結(jié)果會在綜合展現(xiàn)層進行展示,同時會作為預(yù)警分析和風險計算的輸入進行后續(xù)計算分析。
離線分析主要有歷史數(shù)據(jù)統(tǒng)計分析、數(shù)據(jù)查詢和數(shù)據(jù)建模分析,結(jié)果同樣可以作為預(yù)警分析和風險計算的輸入進行后續(xù)的計算分析。
(3)管控層
管控層定制實現(xiàn)平臺整體風險管理、預(yù)警管理和態(tài)勢感知[10]等核心預(yù)警分析功能。
風險管理是對風險進行識別和分類,對每一個風險類型進行分析,確定風險產(chǎn)生的因素和風險來源,并確定風險是否可以控制,對風險進行定性和定量分析,及時對風險進行預(yù)警,提高對風險的監(jiān)控效率。
預(yù)警管理利用大數(shù)據(jù)分析技術(shù)針對海量網(wǎng)絡(luò)安全日志數(shù)據(jù)進行深層次的分析,發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢,發(fā)現(xiàn)潛在的安全威脅和攻擊。
態(tài)勢感知需根據(jù)用戶實際的業(yè)務(wù)場景進行新規(guī)則的制定,根據(jù)宏觀態(tài)勢分析模型計算某一時間段內(nèi)安全事件所屬安全域或者業(yè)務(wù)系統(tǒng)的整體安全狀態(tài),并預(yù)測下一步整體安全走勢。
(4)綜合展現(xiàn)層
綜合展現(xiàn)層一方面通過豐富的圖形化展示方式呈現(xiàn)業(yè)務(wù)網(wǎng)絡(luò)整體安全狀況,另一方面實現(xiàn)整個平臺的靈活展示和配置管理。綜合展現(xiàn)層提供以下7個概念視圖,代表特定的關(guān)注領(lǐng)域。
· 風險視圖:主要對風險管理產(chǎn)生的風險和預(yù)警進行統(tǒng)一展示和分析,通過資產(chǎn)、安全域、全網(wǎng)多個維度進行分析和展示。
· 事件視圖:主要對實時分析產(chǎn)生的告警事件進行統(tǒng)一展示和分析,同樣通過資產(chǎn)、安全域、全網(wǎng)多個維度進行分析和展示。
· 問題視圖:結(jié)合IT基礎(chǔ)架構(gòu)庫運維中產(chǎn)生的問題,提供統(tǒng)一的展示和分析。
· 威脅視圖:結(jié)合威脅情報信息和威脅預(yù)警,進行統(tǒng)一的威脅展示。
· 應(yīng)用系統(tǒng)安全視圖:從業(yè)務(wù)系統(tǒng)監(jiān)控維度,針對重點業(yè)務(wù)系統(tǒng)進行全面的安全監(jiān)控展示。
· 綜合安全狀態(tài)檢測視圖:從總體安全態(tài)勢上進行全面分析,分析整個網(wǎng)絡(luò)環(huán)境的安全狀態(tài)信息。
· 漏洞視圖:從漏洞角度對整體的漏洞信息進行綜合分析和展示。
(5)系統(tǒng)管理層
系統(tǒng)管理層主要完成系統(tǒng)自身監(jiān)控和系統(tǒng)配置以及系統(tǒng)運維。
統(tǒng)一運行監(jiān)測與安全預(yù)警平臺在能源集團分二期進行建設(shè)。
(1)一期建設(shè)內(nèi)容
一期建設(shè)內(nèi)容主要為實現(xiàn)對安全設(shè)備進行統(tǒng)一安全日志集中管理、統(tǒng)一事件關(guān)聯(lián)分析和統(tǒng)一安全事件處理流程。
對海量網(wǎng)絡(luò)安全日志數(shù)據(jù)、外部通報和漏洞等,匹配用戶資產(chǎn)數(shù)據(jù),進行深層次的分析,從中發(fā)現(xiàn)有價值的信息,幫助用戶進行安全預(yù)警。預(yù)警分析主要通過接收來自實時分析層的告警事件、風險計算層的風險預(yù)警、漏洞掃描產(chǎn)生的漏洞信息以及威脅情報信息,通過分析形成有效的預(yù)警功能,從而事前通知安全運維人員。
實現(xiàn)綜合安全審計,需采集用戶業(yè)務(wù)系統(tǒng)的操作日志信息,并配合堡壘機等行為審計產(chǎn)品,進行綜合關(guān)聯(lián)分析,實現(xiàn)業(yè)務(wù)操作全過程分析、回放和展現(xiàn)[11]。
(2)二期建設(shè)內(nèi)容
平臺綜合各方面的安全因素,從整體上動態(tài)反映網(wǎng)絡(luò)安全狀況,并對網(wǎng)絡(luò)安全的發(fā)展趨勢進行預(yù)測。
實現(xiàn)攻擊溯源過程分析,針對安全事件進行IP地址回溯分析[12]。通過源IP地址和目的IP地址的不斷迭代,將調(diào)查的軌跡逐步定位到邊界。這個邊界可以是網(wǎng)絡(luò)的邊界,代表攻擊者來自互聯(lián)網(wǎng);也可以是內(nèi)網(wǎng),代表攻擊者來自內(nèi)網(wǎng)。通過有層次的分析,同時輔助動態(tài)的圖形化展示,可以清晰地將IP地址移動軌跡分析出來。
借助機器學習等算法進行自動分析處理與深度挖掘,對網(wǎng)絡(luò)的安全狀態(tài)進行分析評價,建立網(wǎng)絡(luò)攻擊模型,感知網(wǎng)絡(luò)中的異常事件與整體安全態(tài)勢。
系統(tǒng)集中部署在集團總部,二、三級單位部署數(shù)據(jù)采集引擎。平臺在能源集團運行以來取得了良好的應(yīng)用效果,為不同視角人員(如決策者、安全運維人員、業(yè)務(wù)部門人員和系統(tǒng)管理等)提供不同的安全業(yè)務(wù)數(shù)據(jù)和統(tǒng)計分析。通過平臺的管理界面將內(nèi)網(wǎng)資產(chǎn)的各類信息安全事件與資產(chǎn)弱點進行直觀展示,加強各級人員對相關(guān)事件的重視,并對安全事件快速響應(yīng)處置,降低安全事件誤報;將被動式信息安全管理轉(zhuǎn)為主動式信息安全管理,逐步提升對信息安全風險的精確管控、動態(tài)決策和持續(xù)改進能力。
平臺的風險分析將JDL(joint director of laboratory)模型[13]作為參考,JDL模型將數(shù)據(jù)融合分成5個級別:0級(子對象評估)、1級(對象評估)、2級(態(tài)勢評估)、3級(影響評估)、4級(過程改善)。平臺的風險評估模塊利用該模型進行更進一步分析,每個功能模塊在實現(xiàn)的同時已經(jīng)為最終的風險評估提供了必要的數(shù)據(jù)或者接口。風險分析流程如圖3所示。
圖3 處理流程
多源告警數(shù)據(jù)交叉確認機制主要研究模糊推理理論及算法,提高多源告警數(shù)據(jù)的可靠性。該機制的數(shù)據(jù)基礎(chǔ)是平臺全面收集的與審計相關(guān)的各種系統(tǒng)信息和業(yè)務(wù)信息。當多源審計結(jié)果匯總后該機制對其進行交叉驗證,輸出其中得到確認的審計告警信息。多源告警數(shù)據(jù)交叉確認機制如圖4所示。
圖4 多源告警數(shù)據(jù)交叉確認機制流程
以真實可靠告警數(shù)據(jù)作為安全審計模型的輸入,對平臺監(jiān)控環(huán)境的安全狀態(tài)進行量化評估。技術(shù)路線如圖5所示。
圖5 技術(shù)路線
安全審計模型的計算評估過程分為以下3個過程。
· 利用系統(tǒng)靜態(tài)漏洞評估的結(jié)果和確認后的警告信息得到綜合評估矩陣,利用系統(tǒng)靜態(tài)評估結(jié)果和前次得到的可能入侵方式排序得到評估因素的權(quán)重向量。
· 利用綜合評估矩陣和評估因素權(quán)重向量計算系統(tǒng)當前的安全狀態(tài)指標,同時可以得到系統(tǒng)當前可能遭受的入侵方式排序列表。
· 對前次計算所得的可能入侵方式列表進行驗證。當本次的警告信息仍然被該列表包括時,則認為安全狀態(tài)的評估正常,否則認為評估的結(jié)果無法對提交的警告信息進行解釋。此時有可能發(fā)生新類型的入侵,應(yīng)該提高安全警告的等級以引起安全管理人員的注意。
本平臺通過從各種網(wǎng)絡(luò)設(shè)備及服務(wù)器中采集數(shù)據(jù),經(jīng)過加工預(yù)處理后存入 Hadoop大數(shù)據(jù)系統(tǒng),再使用多種分析算法對數(shù)據(jù)進行計算處理,進而得出相關(guān)結(jié)論并提交至上層,以發(fā)出預(yù)警并進行可視化展示。為了避免或盡可能降低安全威脅造成的經(jīng)濟損失,識別風險、發(fā)出報警并快速響應(yīng)非常重要,而平臺的性能就直接影響到是否能夠及時發(fā)現(xiàn)潛在的安全威脅。平臺的性能主要受到兩方面因素的影響,一是數(shù)據(jù)的采集及加工預(yù)處理過程,二是使用Hadoop集群對大數(shù)據(jù)的分析處理過程。將前者導致的時延記為T1,后者導致的時延記為T2,則從安全威脅產(chǎn)生到被發(fā)現(xiàn)的總時延為T1+T2。下面對這兩部分時延分別進行簡單分析與計算。
相對而言,T1的計算較為簡單,可以由如下計算式給出:T1=max(n/B,n/v)。其中,n表示數(shù)據(jù)量,B表示網(wǎng)絡(luò)傳輸帶寬,v表示數(shù)據(jù)預(yù)處理及導入Hadoop平臺的速率。一般來說,數(shù)據(jù)預(yù)處理及Hadoop平臺導入的速率在數(shù)據(jù)樣式及平臺導入工具(如Flume、Sqoop)確定的情況下,主要受到平臺的硬件配置影響,其中主要是預(yù)處理需要的運算資源和與存儲相關(guān)的磁盤 I/O性能。所以對于給定的數(shù)據(jù),T1的大小通過對網(wǎng)絡(luò)帶寬和預(yù)處理及導入涉及的硬件資源之間的平衡來調(diào)節(jié)。
T2可具體分為兩個部分,一部分是使用Hadoop集群完成對輸入數(shù)據(jù)的特定分析得出結(jié)論所需時間;另一部分則是由于計算資源有限而導致的排隊等待時間。對于某種特定的分析,假定平臺為其分配預(yù)定的計算資源,這些計算資源可供N個分析任務(wù)同時執(zhí)行,若預(yù)定的資源已全部在使用中,那么后續(xù)的分析任務(wù)只能排隊等待,直到前面任務(wù)完成、計算資源被釋放出來后,再按先來后到的順序繼續(xù)執(zhí)行。這一問題可以使用排隊論模型進行分析。特別地,若分析任務(wù)的到達時間間隔服從指數(shù)分布,完成分析任務(wù)所需的時間也服從指數(shù)分布,那么該問題可看作準M/M/N(或稱M/M/c)隊列問題[14],從而能夠計算出平均的響應(yīng)時間(分析時間與等待時間之和),即T2的平均值。具體的計算式本文略去,但其中可用的 Hadoop集群計算資源將直接影響完成分析任務(wù)所需的平均時間以及可并行的分析任務(wù)個數(shù),從而可以通過對計算資源的控制調(diào)節(jié)T2的大小。
綜上所述,對于平臺上的特定分析任務(wù),可以通過理論分析計算其完成時延,并能明確網(wǎng)絡(luò)帶寬及Hadoop集群計算能力與其的關(guān)系,從而可以根據(jù)識別安全威脅的時延與安全威脅可能帶來的經(jīng)濟損失之間的關(guān)系部署相關(guān)的硬件(網(wǎng)絡(luò)、磁盤及計算節(jié)點)支持,實現(xiàn)經(jīng)濟效能的最優(yōu)。
為了驗證上述理論分析是否有效,開展實驗記錄集群的運行狀況,再將統(tǒng)計與理論計算結(jié)果進行比對。實驗采用了簡單的場景設(shè)置,只關(guān)注核心的數(shù)據(jù)采集及運算處理部分,也就是理論分析涉及的內(nèi)容。具體地,使用Flume收集日志,由6臺服務(wù)器組成的Hadoop集群負責存儲,其中4臺服務(wù)器構(gòu)成Spark集群承擔計算處理任務(wù)。實驗中固定了硬件資源和網(wǎng)絡(luò)傳輸帶寬,通過調(diào)節(jié)日志產(chǎn)生的速度以及變更Spark計算任務(wù)計劃(包括數(shù)據(jù)量大小及計算復雜度、計算任務(wù)個數(shù)等)模擬不同場景,從而比較理論分析與實際測試結(jié)果的偏差。實驗結(jié)果顯示,理論分析計算能夠很好地估算出計算時延,并指出其中的性能瓶頸所在,從而可以為硬件資源的合理配置給出相應(yīng)的建議,具有非常重要的實際指導價值。
能源集團從信息安全風險管理視角,采用大數(shù)據(jù)技術(shù),在物理、網(wǎng)絡(luò)、主機、應(yīng)用、數(shù)據(jù)以及進一步細化的層次上,建立起統(tǒng)一運行監(jiān)測與安全預(yù)警平臺,實現(xiàn)可交互的安全事件監(jiān)控、綜合安全審計和實時的安全態(tài)勢感知,并形成一系列知識庫、場景庫、指標庫等最佳實踐成果。把關(guān)注技術(shù)細節(jié)的信息安全產(chǎn)品、關(guān)注事件處置流程的運維、關(guān)注整體安全態(tài)勢的管理層面有機地融合在一起。因此該平臺的建設(shè)不僅是安全技術(shù)手段的快速提升,同時也是管理體系上的高效改進,對能源集團網(wǎng)絡(luò)和信息安全水平的提高起到了重要作用。
參考文獻:
[1]王靜, 高昆侖, 張波.基于網(wǎng)絡(luò)隔離與安全數(shù)據(jù)交換的發(fā)電集團雙網(wǎng)體系研究與設(shè)計[J].電信科學, 2017, 33(2):163-172.WANG J, GAO K L, ZHANG B.Research and design in dual network scheme of power corporation based on network isolation and secure data exchange[J].Telecommunications Science,2017, 33(2): 163-172.
[2]林龍成, 陳波, 郭向民.傳統(tǒng)網(wǎng)絡(luò)安全防御面臨的新威脅:APT攻擊[J].信息安全與技術(shù), 2013, 4(3): 20-25.LIN L C, CHEN B, GUO X M.The new threat to traditional network security defense: APT attack[J].Information Security and Technology, 2013, 4(3): 20-25.
[3]BIDOU R.Security operation center concepts & implementation[Z].2014.
[4]Apache Software Foundation.Apache Hadoop[EB].2011.
[5]李敏, 李煒, 于仕, 等.基于大數(shù)據(jù)分析和未知威脅感知的電網(wǎng)企業(yè)信息安全主動防御體系研究[J].科技廣場, 2016(8):82-85.LI M, LI W, YU S, et al.Research on information security active protection system for power grid enterprises based on big data analysis and unknown threat perception[J].Science Mosaic,2016(8): 82-85.
[6]ECharts[EB].2013.
[7]Apache Software Foundation.Apache Flume[EB].2012.
[8]Apache Software Foundation.Apache Sqoop[EB].2012.
[9]Redis Labs.Redis[EB].2009.
[10]席榮榮, 云曉春, 金舒原, 等.網(wǎng)絡(luò)安全態(tài)勢感知研究綜述[J].計算機應(yīng)用, 2012, 32(1): 1-4.XI R R, YUN X C, JIN S Y, et al.Research survey of network security situation awareness[J].Journal of Computer Applications, 2012, 32(1): 1-4.
[11]王興念, 李宏偉, 施振華, 等.基于大數(shù)據(jù)的智能配電網(wǎng)運行監(jiān)控平臺關(guān)鍵技術(shù)研究與應(yīng)用[J].電工技術(shù), 2017, 2(A): 9-12.WANG X N, LI H W, SHI Z H, et al.Research and application of key technology of intelligent distribution network operation monitoring platform based on big data[J]. Electric Engineering, 2017, 2(A):9 -12.
[12]MURUGESAN V, SHALINIE M, NEETHIMANI N.A brief survey of IP traceback methodologies[J].Acta Polytechnica Hungarica, 2014, 11(9): 197-216.
[13]BLASCH E, STEINBERG A, DAS S, et al.Revisiting the JDL model for information Exploitation[C]//The 16th International Conference on Information Fusion (FUSION), July 9-12, 2013,Istanbul, Turkey.Piscataway: IEEE Press, 2013: 129-136.
[14]林闖.計算機網(wǎng)絡(luò)和計算機系統(tǒng)的性能評價[M].北京: 清華大學出版社, 2001.LIN C.Performance evaluation of computer network and computer system[M].Beijing: Tsinghua University Press, 2001.