(德國國家科學(xué)工程院)
網(wǎng)絡(luò)安全是社會(huì)數(shù)字轉(zhuǎn)型的基礎(chǔ)。人工智能、物聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)的普及,帶來了海量的數(shù)據(jù)。在網(wǎng)絡(luò)安全領(lǐng)域,大數(shù)據(jù)可以幫助信息系統(tǒng)實(shí)現(xiàn)安全運(yùn)行。大數(shù)據(jù)分析的目的是要發(fā)現(xiàn)隱藏的知識(shí),理解和評(píng)估系統(tǒng)的網(wǎng)絡(luò)安全狀況。
大數(shù)據(jù)能夠通過數(shù)據(jù)驅(qū)動(dòng)預(yù)測網(wǎng)絡(luò)安全的發(fā)展動(dòng)向。在過去,一般的研究方法是先作出假設(shè),之后再通過實(shí)驗(yàn)來判斷這個(gè)假設(shè)的真?zhèn)?。在未來,這種假設(shè)將由計(jì)算機(jī)作出,研究人員檢查假設(shè)的真?zhèn)?。?jì)算機(jī)比人類更加善于分析和找尋大數(shù)據(jù)中的規(guī)律。人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)使IT研究得以進(jìn)一步發(fā)展,幫助我們更加深入地理解這個(gè)新世界。這個(gè)新世界是由數(shù)據(jù)驅(qū)動(dòng)的,通過匯聚和分析這些海量的數(shù)據(jù),人們可以預(yù)測網(wǎng)絡(luò)安全的發(fā)展趨勢。
大數(shù)據(jù)可以有效監(jiān)測事件的安全性。每個(gè)事件都會(huì)產(chǎn)生相應(yīng)的數(shù)據(jù),通過分析這些數(shù)據(jù)來決定事件是否安全。我們每天都需要處理20億起事件,以及4TB的數(shù)據(jù),它們都可能與安全相關(guān)聯(lián)。因此,大數(shù)據(jù)分析需要大系統(tǒng)、大平臺(tái)、大流水線為分析者服務(wù)。這里的安全數(shù)據(jù)源叫做事件日志,所有的系統(tǒng)、軟件和應(yīng)用的每一步行動(dòng)都會(huì)產(chǎn)生事件數(shù)據(jù),這些事件數(shù)據(jù)都需要分析。通過分析運(yùn)行系統(tǒng)、網(wǎng)絡(luò)、應(yīng)用的數(shù)據(jù),了解系統(tǒng)的運(yùn)行狀況,提取不安全的事件,并決定是否要對(duì)這些事件給予關(guān)注。
與此同時(shí),網(wǎng)絡(luò)安全大數(shù)據(jù)分析也面臨挑戰(zhàn)。以如何選擇高質(zhì)量的學(xué)習(xí)數(shù)據(jù)為例,這是一個(gè)極度變化的領(lǐng)域,比如機(jī)器可以區(qū)分貓和狗,但在網(wǎng)絡(luò)安全數(shù)據(jù)中,有時(shí)某些數(shù)據(jù)看起來像貓,行動(dòng)起來卻像狗。得到一個(gè)可使用的模型很難,首先需要找到最相關(guān)的特征,即管理機(jī)器學(xué)習(xí),管理機(jī)器學(xué)習(xí)的工作方式為行為分析和異常檢測。圖片分析——關(guān)聯(lián)推定的方式對(duì)于管理機(jī)器學(xué)習(xí)有參考意義。此外,目前的數(shù)據(jù)處理能力無法應(yīng)對(duì)海量的數(shù)據(jù)處理需求。最重要的是,大數(shù)據(jù)分析不僅需要諸如大內(nèi)存、多核CPU、快速讀取和高速的網(wǎng)絡(luò),高性能數(shù)據(jù)庫、大數(shù)據(jù)工具、架構(gòu)和框架也必不可少。