国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理

2021-07-30 08:58:48楊隆志諾伊莉莎湯姆皮克特
信息安全與通信保密 2021年7期
關(guān)鍵詞:結(jié)構(gòu)化框架網(wǎng)絡(luò)安全

楊隆志,李 潔,諾伊莉莎,湯姆·皮克特

(諾森比亞大學(xué) 工程與環(huán)境學(xué)院 計算機與信息科學(xué)系,英國)

0 引 言

互聯(lián)網(wǎng)絡(luò)和設(shè)備數(shù)量的增長導(dǎo)致了組織中數(shù)據(jù)的爆炸性增長。這些數(shù)據(jù)越來越多地被用來通過分析提供見解,從而為關(guān)鍵業(yè)務(wù)決策提供信息。商業(yè)和非商業(yè)組織正在進行的數(shù)字化促進了這一增長,物聯(lián)網(wǎng)(IoT)的日益廣泛使用也是如此。物聯(lián)網(wǎng)設(shè)備收集來自各個領(lǐng)域的信息,如健康、能源、天氣、商業(yè)、交通、教育和制造業(yè),并打算對社會和環(huán)境產(chǎn)生積極的影響。大量的信息通常被稱為“大數(shù)據(jù)”,即收集、挖掘、分析和可視化,以發(fā)現(xiàn)行為趨勢和模式,為決策提供信息。

與大數(shù)據(jù)相關(guān)的常見挑戰(zhàn)是存儲和分析收集的數(shù)據(jù)集,及時提供見解,從而加快和改進決策過程,支持實現(xiàn)組織目標(biāo)。作為一種常見的副作用,安全性和隱私性已經(jīng)成為組織內(nèi)部與數(shù)據(jù)存儲和使用相關(guān)的關(guān)鍵問題之一。這是由于道德背景、法律背景的變化、網(wǎng)絡(luò)犯罪的擴散、惡意內(nèi)部人員的增加以及近年來導(dǎo)致大規(guī)模安全漏洞傳播的新攻擊技術(shù)。由于意外信息泄露和對電網(wǎng)、衛(wèi)生、教育等各種自動化系統(tǒng)的有組織黑客攻擊,這種機器和互聯(lián)的增加將導(dǎo)致銀行、政府和其他私人及公共系統(tǒng)的網(wǎng)絡(luò)安全問題大幅增加。

當(dāng)在利用大數(shù)據(jù)集進行決策的組織中不應(yīng)用數(shù)據(jù)治理時,上述挑戰(zhàn)就變得至關(guān)重要。這些挑戰(zhàn)共同推動了開發(fā)大數(shù)據(jù)治理框架的需求,以指導(dǎo)大數(shù)據(jù)在當(dāng)前決策中的使用,并確保大數(shù)據(jù)的質(zhì)量和可用性可供未來使用。大數(shù)據(jù)治理涉及人員、政策、流程、戰(zhàn)略、標(biāo)準(zhǔn)和技術(shù)的協(xié)調(diào),使組織能夠利用數(shù)據(jù)作為其關(guān)鍵業(yè)務(wù)資產(chǎn)之一,同時確保一致性、可用性、完整性、可靠性和安全性,以及大數(shù)據(jù)整個生命周期的可審計性。

本文提出了一個大數(shù)據(jù)治理的框架,以便對大數(shù)據(jù)進行適當(dāng)?shù)氖占?、管理、存儲、傳輸和利用。簡單地說,該框架以治理目標(biāo)為指導(dǎo),并使用Evaluate Direct Monitor(EDM)循環(huán)模型作為治理原則來增強和支持數(shù)據(jù)體系結(jié)構(gòu)。因此,該框架不僅可以指導(dǎo)組織做出更好的數(shù)據(jù)驅(qū)動決策,而且可以支持組織在大數(shù)據(jù)的指導(dǎo)下有效地實現(xiàn)其組織成果。該框架使組織能夠正確管理數(shù)據(jù)資產(chǎn),并最大限度地實現(xiàn)大數(shù)據(jù)的價值,從而支持和鼓勵有關(guān)數(shù)據(jù)的良好實踐。

本文還提出了一個在網(wǎng)絡(luò)安全領(lǐng)域?qū)嵤┐髷?shù)據(jù)治理框架的實例。采用大數(shù)據(jù)和相應(yīng)技術(shù)的數(shù)據(jù)分析工具越來越多地被用于支持網(wǎng)絡(luò)安全。鑒于這類數(shù)據(jù)在網(wǎng)絡(luò)空間的廣泛可用性,開發(fā)和使用這類工具的機會很多。網(wǎng)絡(luò)安全涉及數(shù)據(jù)和網(wǎng)絡(luò)的方方面面,網(wǎng)絡(luò)入侵檢測是確保網(wǎng)絡(luò)安全的常用方法之一。因此,本文探討了如何將所提出的大數(shù)據(jù)治理框架集成到保護數(shù)據(jù)存儲、流和處理的網(wǎng)絡(luò)入侵檢測系統(tǒng)中。

論文的其余部分組織如下?!把芯勘尘啊辈糠趾喴仡櫫舜髷?shù)據(jù)、網(wǎng)絡(luò)安全和數(shù)據(jù)治理作為這項工作的基礎(chǔ)?!按髷?shù)據(jù)治理”部分介紹并討論了提出的大數(shù)據(jù)治理框架。“網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理”部分以網(wǎng)絡(luò)入侵檢測的一個特殊案例為例,介紹了所提出的網(wǎng)絡(luò)安全領(lǐng)域大數(shù)據(jù)治理框架的實現(xiàn)?!敖Y(jié)語”部分總結(jié)了這項研究,并探討了未來可能的研究方向。

1 研究背景

該部分回顧了大數(shù)據(jù)的特點、現(xiàn)有的相關(guān)網(wǎng)絡(luò)安全方法、通用數(shù)據(jù)治理框架、原則,并為提出的大數(shù)據(jù)治理框架奠定了基礎(chǔ)。

1.1 大數(shù)據(jù)

大數(shù)據(jù)是一個與大數(shù)據(jù)集相關(guān)的術(shù)語,大數(shù)據(jù)集具有更大、更多樣和更復(fù)雜的結(jié)構(gòu),難以使用傳統(tǒng)的數(shù)據(jù)處理技術(shù)進行存儲、分析和可視化。大數(shù)據(jù)不僅是指數(shù)據(jù)量,還包括與大數(shù)據(jù)量的收集和利用相關(guān)的其他方面。大數(shù)據(jù)通常用3V來描述,如圖1所示。

圖1 大數(shù)據(jù)的3V:海量、多樣性和速度

(1)海量:大數(shù)據(jù)最明顯的特點是生成和存儲的數(shù)據(jù)量大,這通常被稱為數(shù)據(jù)的縱向可伸縮性。目前,估計全世界每天會產(chǎn)生25億字節(jié)的數(shù)據(jù),這一數(shù)據(jù)量比2005年增加了300倍,通常遠遠超過傳統(tǒng)列和行合理數(shù)據(jù)庫的限制,因此需要新的存儲技術(shù)來適應(yīng)大數(shù)據(jù)。

(2)多樣性:多樣性表示數(shù)據(jù)可以來自多個領(lǐng)域,有三種典型類型:結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化。這種多樣性增加了數(shù)據(jù)的橫向可伸縮性。與結(jié)構(gòu)化數(shù)據(jù)相比,非結(jié)構(gòu)化數(shù)據(jù)通常已經(jīng)被標(biāo)記,并且可以很容易地映射到預(yù)先設(shè)計的字段(例如電子表格或數(shù)據(jù)庫中的表),它顯得更隨機,更難排序和分析。非結(jié)構(gòu)化數(shù)據(jù)的典型示例包括電子郵件、視頻、照片和音頻文件。半結(jié)構(gòu)化數(shù)據(jù)集通常不駐留在關(guān)系數(shù)據(jù)庫或表中,但它們確實包含用于分隔數(shù)據(jù)元素的標(biāo)記。JSON和XML文檔通常屬于這種數(shù)據(jù)類型。

(3)速度:表示數(shù)據(jù)生成和需要處理以滿足應(yīng)用需求的速度。速度本質(zhì)上是衡量數(shù)據(jù)創(chuàng)建、存儲、分析和可視化的速度。人們期望大數(shù)據(jù)技術(shù)能夠?qū)崟r或近似實時地生成和處理數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)處理方法只能使用數(shù)據(jù)快照批量處理數(shù)據(jù)。因此,大數(shù)據(jù)需要更強大的數(shù)據(jù)處理機制來實時處理數(shù)據(jù)流。

3V被廣泛用于描述大數(shù)據(jù),即大數(shù)據(jù)集具有高容量、高變化、高速度的特點。此外,最近還提出了大數(shù)據(jù)的第四個V,即真實性。真實性是指數(shù)據(jù)的可信程度,表明數(shù)據(jù)在多大程度上可以被組織確信地用于做出關(guān)鍵決策。大數(shù)據(jù)仍然是一個快速發(fā)展的領(lǐng)域,涉及非?;钴S的研究和越來越多的應(yīng)用。因此,毫不奇怪,大數(shù)據(jù)的定義也在不斷演變。盡管如此,大多數(shù)定義都類似于“大數(shù)據(jù)代表的信息資產(chǎn)具有如此高的數(shù)量、速度、多樣性和真實性,需要特定的技術(shù)和分析方法才能將其轉(zhuǎn)化為價值”。在此基礎(chǔ)上,大數(shù)據(jù)的廣義定義被擴展到包括實現(xiàn)或提取大數(shù)據(jù)價值的大數(shù)據(jù)處理技術(shù)。

1.2 網(wǎng)絡(luò)安全

隨著互聯(lián)網(wǎng)的迅速發(fā)展,越來越多的設(shè)備被網(wǎng)絡(luò)化,形成物聯(lián)網(wǎng)。從本質(zhì)上講,大量用于捕獲廣泛數(shù)據(jù)的設(shè)備利用各種網(wǎng)絡(luò)和云提供的無處不在的連接性在互聯(lián)網(wǎng)上共享數(shù)據(jù)。如果適當(dāng)?shù)丶右岳?,這種共享數(shù)據(jù)可能對組織很有價值。為了保護網(wǎng)絡(luò)空間中的數(shù)據(jù)共享,網(wǎng)絡(luò)安全已成為影響企業(yè)、政府、其他組織和個人家庭設(shè)備的最緊迫問題之一。

數(shù)據(jù)治理在這些解決方案中扮演著重要的角色,它不僅幫助組織了解需要保護哪些數(shù)據(jù),而且引導(dǎo)組織實現(xiàn)目標(biāo),具體表現(xiàn)在以下兩個方面:

(1)識別數(shù)據(jù)風(fēng)險:個人識別信息和個人健康信息構(gòu)成敏感數(shù)據(jù),可能給組織帶來聲譽和財務(wù)風(fēng)險。數(shù)據(jù)治理工具支持識別敏感數(shù)據(jù)。

(2)控制更安全的訪問:數(shù)據(jù)用戶并不總是需要查看或訪問日常使用的敏感數(shù)據(jù)。重要的是要控制這些敏感數(shù)據(jù)只有在需要和必要時才能訪問。通過正確應(yīng)用數(shù)據(jù)治理工具,可以有效控制權(quán)限數(shù)據(jù)訪問。

傳統(tǒng)上,數(shù)據(jù)驅(qū)動的網(wǎng)絡(luò)安全解決方案,如網(wǎng)絡(luò)入侵檢測系統(tǒng)(IDS)和安全信息與事件管理(SIEM),通過分析事務(wù)日志和網(wǎng)絡(luò)流量數(shù)據(jù)來識別異常和可疑活動,從而保護組織免受網(wǎng)絡(luò)威脅。然而,基于以下兩個原因,此類工具越來越難以處理與使用物聯(lián)網(wǎng)進行大數(shù)據(jù)收集相關(guān)的越來越大的流量數(shù)據(jù)集:

(1)傳統(tǒng)技術(shù)并不是用來處理和管理任何半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)的,但這在大數(shù)據(jù)中非常常見。將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化表示是可能的,以滿足傳統(tǒng)工具的需求。但是,這是一個額外且耗時的過程,成本非常高昂。

(2)傳統(tǒng)技術(shù)在存儲、保留、檢索、訪問和處理大數(shù)據(jù)隱含的大量信息方面效率相對較低。這些工具沒有與大數(shù)據(jù)技術(shù)集成。

應(yīng)用大數(shù)據(jù)技術(shù)可以很容易地解決傳統(tǒng)工具的問題。例如,大數(shù)據(jù)工具(如Piglatin腳本和正則表達式)可以以靈活的格式查詢數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。此外,大數(shù)據(jù)及其分布式系統(tǒng)提供了高性能的計算模型,使得存儲和分析大型異構(gòu)數(shù)據(jù)集的規(guī)模和速度前所未有。因此,與大數(shù)據(jù)相關(guān)的網(wǎng)絡(luò)安全問題可以通過以下方法解決:①收集大規(guī)模的流量數(shù)據(jù);②對數(shù)據(jù)進行更深入的分析;③生成并提供網(wǎng)絡(luò)安全相關(guān)模型;④基于該模型實現(xiàn)大規(guī)模流媒體流量數(shù)據(jù)的實時數(shù)據(jù)分析。

1.3 數(shù)據(jù)治理

數(shù)字時代為公共和私營部門以及組織提供了前所未有的機會來收集、存儲、處理和交換大量數(shù)據(jù);因此,它們在數(shù)據(jù)安全、數(shù)據(jù)結(jié)構(gòu)管理、數(shù)據(jù)隱私保護和數(shù)據(jù)質(zhì)量管理等方面面臨著越來越大的挑戰(zhàn)。數(shù)據(jù)治理是一個概念或框架,組織可以使用它來解決管理數(shù)字資產(chǎn)處理過程中的此類挑戰(zhàn)。

數(shù)據(jù)治理包括使組織能夠?qū)?shù)據(jù)作為數(shù)字資產(chǎn)加以利用的人員、流程、過程和技術(shù)。它提供了管理和維護數(shù)據(jù)質(zhì)量、安全性、可用性、相關(guān)性和完整性的通用框架。它還確保真實的數(shù)據(jù)被適當(dāng)?shù)赜糜谠O(shè)定業(yè)務(wù)目標(biāo)、維護業(yè)務(wù)流程和做出關(guān)鍵決策。數(shù)據(jù)治理通常需要一個連續(xù)的過程來強制清理和存儲由組織生成或來自第三方的大量數(shù)據(jù)。應(yīng)用數(shù)據(jù)治理的動機是確保有一種可持續(xù)的方法利用數(shù)據(jù)來實現(xiàn)組織的業(yè)務(wù)目標(biāo)和目的。信息技術(shù)(IT)和其他業(yè)務(wù)部門必須共同定義管理數(shù)據(jù)的規(guī)則和策略,并定義從獲取、管理和存儲到利用和可視化的數(shù)據(jù)元素。

數(shù)據(jù)治理策略確定了數(shù)據(jù)使用的角色和職責(zé),建立了數(shù)據(jù)保護計劃的最佳實踐,并確保數(shù)據(jù)在組織內(nèi)得到適當(dāng)?shù)挠涗?。與組織的任何其他資產(chǎn)一樣,數(shù)據(jù)需要一個適當(dāng)?shù)墓芾聿呗?。?shù)據(jù)治理定義了數(shù)據(jù)的訪問、數(shù)據(jù)的安全級別、數(shù)據(jù)的質(zhì)量以及組織對數(shù)據(jù)使用的目標(biāo)。數(shù)據(jù)治理策略可以由組織內(nèi)的團隊或組織外的專家編寫。

數(shù)據(jù)治理策略是另一個關(guān)鍵因素,它定義了如何共享從數(shù)據(jù)中提取的信息,加強了使用數(shù)據(jù)的文化,并揭示了數(shù)據(jù)治理可能面臨的缺點和所需的預(yù)算。更具體地說,它闡明了誰對數(shù)據(jù)負責(zé)和知情,以及如何從數(shù)據(jù)中做出決策。它為整個組織遵循的數(shù)據(jù)管理過程提供了基礎(chǔ)。它也是克服數(shù)據(jù)治理限制的一個組成部分,有助于實現(xiàn)預(yù)期的業(yè)務(wù)目標(biāo)和價值。

數(shù)據(jù)治理實踐通常由用于數(shù)據(jù)收集、管理、存儲和利用的框架指導(dǎo)。該框架旨在確保數(shù)據(jù)的機密性、可用性、可訪問性、質(zhì)量和完整性。它必須支持組織內(nèi)的數(shù)據(jù)流和業(yè)務(wù)流程以及組織的文化和結(jié)構(gòu)。它有助于指導(dǎo)員工在數(shù)據(jù)管理中發(fā)揮作用。一個完善的數(shù)據(jù)治理框架通常包括數(shù)據(jù)管理策略、公司驅(qū)動因素、數(shù)據(jù)管理結(jié)構(gòu)、技術(shù)和方法。

2 大數(shù)據(jù)治理

本部分討論數(shù)據(jù)治理挑戰(zhàn),以及為應(yīng)對這些挑戰(zhàn)而提出的大數(shù)據(jù)治理框架。

2.1 挑戰(zhàn)

傳統(tǒng)的數(shù)據(jù)治理框架在“數(shù)據(jù)治理”部分中通常只考慮數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)質(zhì)量和元數(shù)據(jù)管理,而不是高容量、高變化、高速度的實時數(shù)據(jù)。在大數(shù)據(jù)環(huán)境中,組織內(nèi)部或外部處理的大量數(shù)據(jù)需要對數(shù)據(jù)質(zhì)量、安全性和道德規(guī)范進行額外的管理。此外,大數(shù)據(jù)和業(yè)務(wù)任務(wù)的結(jié)合可能會導(dǎo)致數(shù)據(jù)泄露的風(fēng)險更加頻繁和更高。此外,大數(shù)據(jù)與業(yè)務(wù)任務(wù)的結(jié)合可能會導(dǎo)致數(shù)據(jù)泄露的頻率更高、風(fēng)險級別更高。表1總結(jié)了現(xiàn)有數(shù)據(jù)治理框架在大數(shù)據(jù)方面面臨的主要挑戰(zhàn)。

表1 現(xiàn)有數(shù)據(jù)治理的挑戰(zhàn)

大數(shù)據(jù)環(huán)境下的數(shù)據(jù)治理主要集中在以下三個方面:

(1)數(shù)據(jù)體系結(jié)構(gòu):大數(shù)據(jù)是從各種各樣的數(shù)據(jù)源中獲取的,這些數(shù)據(jù)源可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的或非結(jié)構(gòu)化的。非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)通常是隨機的,難以處理。這種數(shù)據(jù)結(jié)構(gòu)的多樣性增加了數(shù)據(jù)管理的難度。另外,不同的組織保持著各自的數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化,阻礙了不同組織之間跨系統(tǒng)的信息共享,從而大大降低了信息開發(fā)利用的效率。

(2)數(shù)據(jù)質(zhì)量:數(shù)據(jù)質(zhì)量可能是大數(shù)據(jù)管理的一個問題,因為大多數(shù)現(xiàn)有措施不能直接應(yīng)用于大數(shù)據(jù)。例如,大數(shù)據(jù)的實時性要求組織提高數(shù)據(jù)訪問效率,從而減少數(shù)據(jù)傳輸?shù)难舆t。此外,有時可能需要組織將相同或具有沖突的數(shù)據(jù)存儲在不同的系統(tǒng)中,這往往會導(dǎo)致同步或沖突解決問題,從而相應(yīng)地降低數(shù)據(jù)質(zhì)量。

(3)數(shù)據(jù)安全、隱私和道德考慮:數(shù)據(jù)共享和分析過程可以有效地提高數(shù)據(jù)的價值,使組織具有更好的數(shù)據(jù)透明度,但同時也可能不適當(dāng)?shù)乇┞睹舾袛?shù)據(jù),或讓黑客進行未經(jīng)授權(quán)的數(shù)據(jù)操縱。實際上,大數(shù)據(jù)安全和隱私是大數(shù)據(jù)時代數(shù)據(jù)治理面臨的最大挑戰(zhàn)之一。除此之外,隨著數(shù)據(jù)提供者的日益關(guān)注和數(shù)據(jù)捐贈的更廣泛參與,數(shù)據(jù)處理的道德方面已成為一個越來越重要的問題。

2.2 擬議的框架

在數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全和隱私方面存在的問題是設(shè)計和開發(fā)有效的大數(shù)據(jù)治理框架的主要挑戰(zhàn)。本文從大數(shù)據(jù)應(yīng)用和創(chuàng)新的角度,通過考慮目標(biāo)、數(shù)據(jù)保護賦能因素、治理領(lǐng)域和原則,提出了一個大數(shù)據(jù)治理框架,如圖2所示。該框架以治理目標(biāo)為指導(dǎo),根據(jù)組織的戰(zhàn)略數(shù)據(jù)相關(guān)目標(biāo),采用實體數(shù)據(jù)模型(EDM)循環(huán)模型作為治理原則,有效地增強數(shù)據(jù)架構(gòu)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全和隱私。

圖2 大數(shù)據(jù)治理框架

2.2.1 目標(biāo)

擬議的大數(shù)據(jù)治理框架允許組織保護大數(shù)據(jù),同時從大數(shù)據(jù)中獲取最大價值,從而支持和鼓勵有關(guān)數(shù)據(jù)利用的良好做法。換言之,該框架的目標(biāo)不僅是指導(dǎo)組織根據(jù)其關(guān)鍵績效指標(biāo)圍繞數(shù)據(jù)使用做出更好的決策,而且還幫助組織有效地實現(xiàn)數(shù)據(jù)創(chuàng)新利用的成果,這往往導(dǎo)致組織的文化變革,以實現(xiàn)深層次的數(shù)據(jù)驅(qū)動過程。這些目標(biāo)通常是組織戰(zhàn)略目標(biāo)的核心,可以通過利用現(xiàn)代信息和通信技術(shù)開發(fā)大數(shù)據(jù)來實現(xiàn)。

2.2.2 促成因素

賦能者通過管理來定義程序、規(guī)則以及這些程序和規(guī)則的相關(guān)實施,共同建立基礎(chǔ)實踐標(biāo)準(zhǔn),以限制風(fēng)險并最大化大數(shù)據(jù)及其利用的價值。這些程序和規(guī)則涵蓋了數(shù)據(jù)處理的所有關(guān)鍵方面和領(lǐng)域,從數(shù)據(jù)收集到存儲和傳輸、利用和最終歸檔。例如,數(shù)據(jù)可能會泄漏或通過各種方式被非正式訪問和操縱,從意外丟失的設(shè)備或釋放的密碼到專門的有組織的網(wǎng)絡(luò)攻擊。在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)源的多樣性和數(shù)據(jù)的存儲位置使得這種情況更具挑戰(zhàn)性。在這個例子中,需要根據(jù)此類潛在風(fēng)險制定風(fēng)險預(yù)防和緩解程序及規(guī)則,以盡量減少風(fēng)險。

為了確保所定義的規(guī)則和程序適用于組織的數(shù)據(jù)處理實踐,通常由數(shù)據(jù)管理員在執(zhí)行框架內(nèi)進行管理。數(shù)據(jù)管理員是對數(shù)據(jù)處理有顧慮的其他人的組織代表。數(shù)據(jù)管理者可以是數(shù)據(jù)管理委員會或獨立個人的形式,具體取決于組織。管理委員會還與程序和規(guī)則制定者密切合作,就程序和規(guī)則的有效性和效率提供反饋和見解。這些輸入,除了來自數(shù)據(jù)提供者、保管者和操縱者的輸入,在對數(shù)據(jù)處理程序和規(guī)則進行定期審查和修訂時,都要加以考慮。

2.2.3 指導(dǎo)原則

大數(shù)據(jù)治理原則支持組織管理和處理大數(shù)據(jù),為上一小節(jié)中討論的數(shù)據(jù)處理程序和規(guī)則中未提及的任何方面提供補充指導(dǎo),這些程序和規(guī)則定義了數(shù)據(jù)處理關(guān)鍵方面的實用標(biāo)準(zhǔn)。這些程序和規(guī)則是強制性的,由管理工作組監(jiān)督。本小節(jié)中討論的原則僅提出了良好做法,根據(jù)情況可能不會在實踐中采用。這項工作的指導(dǎo)原則集中在圖2所示的數(shù)據(jù)責(zé)任、完整性、可審計性和透明度上。為了使其有效,指導(dǎo)原則應(yīng)保持簡單易懂。

組織應(yīng)持續(xù)評估數(shù)據(jù)在一段時間內(nèi)可能發(fā)生的任何更改,以確保數(shù)據(jù)完整性,這對于有效使用數(shù)據(jù)來說至關(guān)重要。數(shù)據(jù)完整性將通過確保數(shù)據(jù)在組織內(nèi)得到明確定義、適當(dāng)控制和適當(dāng)訪問來實現(xiàn)。由于遵循了這些原則,數(shù)據(jù)可以更好地與組織策略以及跨業(yè)務(wù)需求保持一致。數(shù)據(jù)處理程序需要透明,以保護組織免受潛在的數(shù)據(jù)泄露事件的影響,同時允許戰(zhàn)略性地使用數(shù)據(jù)。透明度有助于揭示評估過程中如何處理敏感數(shù)據(jù),以便內(nèi)部或第三方審計師或任何其他數(shù)據(jù)利益相關(guān)者能夠理解與數(shù)據(jù)相關(guān)的程序。

此外,與數(shù)據(jù)相關(guān)的決策、流程和行動應(yīng)是可審計的,這些決策、流程和行動應(yīng)得到基于合規(guī)性和運營審計要求的適當(dāng)文檔的支持。問責(zé)通常定義了數(shù)據(jù)的可訪問性和數(shù)據(jù)操作員的可信性。為了促進對數(shù)據(jù)的訪問控制,一個組織的所有部門需要合作來增強數(shù)據(jù)所有權(quán)和問責(zé)制。如果所有部門都對數(shù)據(jù)負責(zé),那么在一個組織內(nèi),數(shù)據(jù)泄露就不那么令人擔(dān)心了。

2.2.4 治理域

治理域描述了組織在進行數(shù)據(jù)治理活動時應(yīng)關(guān)注的數(shù)據(jù)治理目標(biāo),主要包括五個組成部分,如圖2所示。在這五個組成部分中,數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全和隱私貫穿于所有治理域,保證了大數(shù)據(jù)的有用性和有效性,以及大數(shù)據(jù)在使用過程中的適當(dāng)保護和隱私保護。

(1)數(shù)據(jù)質(zhì)量管理:大數(shù)據(jù)的使用會產(chǎn)生與動態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù)相關(guān)的數(shù)據(jù)質(zhì)量問題,因為通常不可避免地會生成和收集質(zhì)量較差的數(shù)據(jù),這可能會增加對組織運營和決策的負面影響。數(shù)據(jù)質(zhì)量管理旨在測量、改進和認證生產(chǎn)、測試和存檔數(shù)據(jù)的質(zhì)量和完整性??梢允褂酶鞣N方法進行大數(shù)據(jù)質(zhì)量管理,以解決沖突的數(shù)據(jù)實例、處理不平衡的大數(shù)據(jù)集以及消除噪聲等。

(2)數(shù)據(jù)安全、隱私和道德:在收集、傳輸、存儲和利用大數(shù)據(jù)時,數(shù)據(jù)安全、隱私和其他道德含義是首要考慮的問題。大數(shù)據(jù)通常從各種來源收集,并且通常包含敏感信息。例如,推斷出的行為數(shù)據(jù),如工作地點、好友列表等,可能被歸類為私有數(shù)據(jù);在一些更敏感的人口統(tǒng)計數(shù)據(jù)分析過程中,用戶名、電話號碼和信用卡信息是非常典型的。最近出臺的《歐盟通用數(shù)據(jù)保護條例》(GDPR)是近20年來數(shù)據(jù)隱私保護條例中最重要的變化,它為數(shù)據(jù)處理的組織提供了詳細的指導(dǎo)方針。在這個重要的領(lǐng)域中,所有的數(shù)據(jù)處理機制都是基于GDPR和其他政策、程序、規(guī)則和原則來設(shè)計的,以減輕風(fēng)險和保護數(shù)據(jù)資產(chǎn)。

(3)集成和元數(shù)據(jù)管理:這個域位于治理域的底部,可以被認為是一個數(shù)據(jù)登錄區(qū),鏈接數(shù)據(jù)連接器和治理域。在這個域中,經(jīng)常集成多種方法和工具來幫助理解數(shù)據(jù)上下文和內(nèi)容。一旦確定了數(shù)據(jù)的上下文和內(nèi)容,它們就被傳遞到上層進行存儲。因此,大數(shù)據(jù)治理使用集成和元數(shù)據(jù)管理來對數(shù)據(jù)的收集和控制施加管理規(guī)則。

(4)分布式數(shù)據(jù)存儲管理:在傳統(tǒng)方法中,高性能計算組件(如專用服務(wù)器)用于數(shù)據(jù)存儲和數(shù)據(jù)復(fù)制。由于大數(shù)據(jù)環(huán)境中通常會產(chǎn)生和收集大量的數(shù)據(jù),這些高性能的專用服務(wù)器往往無法滿足大數(shù)據(jù)帶來的性能要求。因此,該域旨在提供允許通過通常分布式架構(gòu)(例如動態(tài)可伸縮存儲管理DSSM)來存儲和傳輸大量數(shù)據(jù)的方法。

(5)分布式數(shù)據(jù)處理管理:隨著社交媒體和基于傳感器的網(wǎng)絡(luò)應(yīng)用等新興應(yīng)用的快速增長,需要對各種數(shù)據(jù)進行持續(xù)處理。顯然,傳統(tǒng)的獨立解決方案不再適用于這些有時間限制的實時流程。分布式數(shù)據(jù)處理管理域則為大數(shù)據(jù)處理提供了一個高效的框架,允許以合理且通??山邮艿臅r間線分析大量數(shù)據(jù)。此類任務(wù)的典型平臺包括Spark、MapReduce和Hadoop等。

2.2.5 應(yīng)對新挑戰(zhàn)

由于各種支持數(shù)字技術(shù)的格局發(fā)生了快速變化,大數(shù)據(jù)的定義也在不斷發(fā)展。越來越多的大數(shù)據(jù)模型被引入,例如數(shù)量、多樣性、速度、真實性、有效性、價值、可變性、地點、詞匯和模糊性。大數(shù)據(jù)的這些新挑戰(zhàn)通常要求提議的框架具有可擴展性以應(yīng)對這些挑戰(zhàn)。一般來說,新的挑戰(zhàn)通??梢苑譃槿齻€方面,即數(shù)據(jù)挑戰(zhàn)、流程挑戰(zhàn)和管理挑戰(zhàn)。尤其是數(shù)據(jù)挑戰(zhàn)與數(shù)據(jù)本身的特性有關(guān);流程挑戰(zhàn)通常與一組大數(shù)據(jù)處理技術(shù)相關(guān);管理挑戰(zhàn)涵蓋所有隱私和安全問題。這三個組件相互關(guān)聯(lián),形成一個數(shù)據(jù)生命周期,如圖3所示。

圖3 面臨新挑戰(zhàn)

3 網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理

大數(shù)據(jù)通常是通過不同的數(shù)據(jù)捕獲設(shè)備從多個來源收集,如物聯(lián)網(wǎng)和其他專業(yè)設(shè)備。其結(jié)果是圍繞數(shù)據(jù)安全和隱私的關(guān)鍵問題,因為此類設(shè)備的設(shè)計通常沒有充分考慮數(shù)據(jù)安全。因此,隨著大數(shù)據(jù)應(yīng)用的日益廣泛,網(wǎng)絡(luò)安全已成為填補此類安全空白的一個越來越重要和不可忽視的研究領(lǐng)域。本節(jié)討論上一節(jié)介紹的大數(shù)據(jù)治理框架的實施,以支持在該領(lǐng)域安全和合乎道德地使用大數(shù)據(jù)。

網(wǎng)絡(luò)安全是指保護計算機和網(wǎng)絡(luò)基礎(chǔ)設(shè)施、運行在基礎(chǔ)設(shè)施上的操作系統(tǒng)、軟件程序以及通過基礎(chǔ)設(shè)施存儲或傳輸?shù)乃袛?shù)據(jù)免受數(shù)字攻擊和任何其他濫用的做法,如“網(wǎng)絡(luò)安全”一節(jié)所述。因此,網(wǎng)絡(luò)安全涉及數(shù)字信息處理的硬件和軟件系統(tǒng)的范圍非常廣泛,其中網(wǎng)絡(luò)安全是最常見的方面。此外,網(wǎng)絡(luò)入侵檢測是實現(xiàn)網(wǎng)絡(luò)安全最常用的手段。因此,在不失一般性的前提下,本文以網(wǎng)絡(luò)安全為例,討論了所提出的大數(shù)據(jù)治理框架的實現(xiàn),如圖4所示。

圖4 網(wǎng)絡(luò)安全大數(shù)據(jù)治理框架

3.1 規(guī)劃

網(wǎng)絡(luò)安全數(shù)據(jù)治理框架的實施需要仔細規(guī)劃,以滿足組織中與數(shù)據(jù)相關(guān)的戰(zhàn)略目標(biāo)。在這種情況下,系統(tǒng)需要通過實施大數(shù)據(jù)網(wǎng)絡(luò)安全項目來實現(xiàn),以實現(xiàn)項目和治理目標(biāo),這是通過評估系統(tǒng)的當(dāng)前環(huán)境和組織的關(guān)鍵績效指標(biāo)來確定的。如前所述,本文使用入侵檢測系統(tǒng)作為運行實例來討論所提出的方法?;谶@個確定的目標(biāo),可以確定數(shù)據(jù)治理過程中可能存在的數(shù)據(jù)風(fēng)險;因此,可以制定相應(yīng)的程序、規(guī)則和原則,例如數(shù)據(jù)存儲程序、數(shù)據(jù)使用原則、健康和安全規(guī)則等,以應(yīng)對已識別的風(fēng)險。同時,還確定和制定了實施網(wǎng)絡(luò)安全項目的策略、工具和機制。

所有的程序、規(guī)則和原則都應(yīng)該在這個階段執(zhí)行。對于提議的框架,來自所有部門的代表將建立一個數(shù)據(jù)治理委員會,負責(zé)程序、規(guī)則和原則的制定以及監(jiān)控。本小節(jié)以數(shù)據(jù)訪問規(guī)則為例。數(shù)據(jù)訪問規(guī)則定義了授予內(nèi)部和外部用戶訪問權(quán)限的標(biāo)準(zhǔn)和機制。數(shù)據(jù)治理委員會有責(zé)任根據(jù)不同用戶的需求創(chuàng)建和授予數(shù)據(jù)的各種訪問級別。數(shù)據(jù)委員會團隊還必須與業(yè)務(wù)合作伙伴和數(shù)據(jù)提供商合作,以確保相關(guān)數(shù)據(jù)的處理符合合作伙伴預(yù)定義的規(guī)則和規(guī)定。一旦制定了規(guī)則和原則,組織內(nèi)的每一位工作人員都必須了解數(shù)據(jù)的價值,并遵守有關(guān)適當(dāng)使用數(shù)據(jù)的條例。

3.2 治理實施

數(shù)據(jù)治理框架的實現(xiàn)與網(wǎng)絡(luò)入侵檢測本身的實現(xiàn)同時進行。以下各小節(jié)將共同討論這些問題。

(1)數(shù)據(jù)收集:數(shù)據(jù)收集是實現(xiàn)網(wǎng)絡(luò)入侵檢測目標(biāo)的第一步。采集數(shù)據(jù)的質(zhì)量直接影響整個系統(tǒng)的性能。網(wǎng)絡(luò)入侵檢測可以采集的數(shù)據(jù)主要有三種:①網(wǎng)絡(luò)數(shù)據(jù)包,可以通過應(yīng)用網(wǎng)絡(luò)數(shù)據(jù)包捕獲工具以完整數(shù)據(jù)包捕獲(FPC)、數(shù)據(jù)包捕獲(PCAP)格式收集,如Wireshark、TCPdump、TShark;②網(wǎng)絡(luò)設(shè)備的日志,如防火墻日志、VPN日志、服務(wù)器日志等;③事件警報信息,是防火墻和防病毒系統(tǒng)生成的數(shù)據(jù),用于在檢測到潛在威脅時向網(wǎng)絡(luò)管理員發(fā)出警報。

(2)元數(shù)據(jù)管理:一旦離線或及時收集了原始數(shù)據(jù),它將被傳遞到元數(shù)據(jù)管理塊進行預(yù)處理、解釋和標(biāo)記。這通常需要巨大的存儲空間。例如,使用PCAP格式捕獲1GB數(shù)據(jù)流24小時需要10TB的存儲空間。這相當(dāng)于900TB的存儲空間,用于90天的數(shù)據(jù)收集。事實上,對網(wǎng)絡(luò)安全分析最感興趣和最有用的信息是在包協(xié)議頭中分配的,它只占PCAP包總大小的4%。與PCAP相比,日志通常需要較少的存儲空間,但它需要結(jié)構(gòu)化以進行數(shù)據(jù)分析。因此,元數(shù)據(jù)管理需要集成現(xiàn)有的技術(shù),如數(shù)據(jù)清理和特征提取工具,提取捕獲數(shù)據(jù)的上下文和內(nèi)容含義,以便進行進一步的數(shù)據(jù)分析。為了處理大數(shù)據(jù),需要分布式數(shù)據(jù)存儲和處理。

(3)分布式數(shù)據(jù)存儲和處理:Hadoop是一個軟件框架,通過分布式數(shù)據(jù)存儲和處理來最小化大數(shù)據(jù)處理時間。Hadoop提供了兩個主要組件:Hadoop分布式文件系統(tǒng)(HDFS)和MapReduce。這些組件的工作機制如圖5所示。特別是,Hadoop將數(shù)據(jù)拆分并分發(fā)到所有節(jié)點,使用MapReduce算法運行應(yīng)用程序,其中數(shù)據(jù)是并行處理的,從而能夠處理傳統(tǒng)上不可能處理的海量數(shù)據(jù)。通過應(yīng)用Hadoop,可以有效地提取采集到的原始數(shù)據(jù)。重新組裝的數(shù)據(jù)集再次保存在Hadoop HDFS中,以供分布式數(shù)據(jù)利用。

圖5 Hadoop框架

(4)數(shù)據(jù)質(zhì)量管理:應(yīng)用數(shù)據(jù)質(zhì)量管理,確保大數(shù)據(jù)具有適當(dāng)?shù)膬r值。例如,來自不同資源的數(shù)據(jù)可能相互沖突,因此,在將數(shù)據(jù)用于決策之前解決沖突非常重要。文獻中提供了各種數(shù)據(jù)管理方法。本文采用實用的數(shù)據(jù)采集框架,從表示線程、確定線程權(quán)重、分配數(shù)據(jù)源、過濾不必要的數(shù)據(jù)四個步驟對大數(shù)據(jù)的質(zhì)量和價值進行監(jiān)控。

(5)數(shù)據(jù)安全和隱私:本案例中的所有數(shù)據(jù),包括原始數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),都需要得到適當(dāng)?shù)谋Wo,以防止任何數(shù)據(jù)泄露。由于本研究中數(shù)據(jù)捕獲的主要設(shè)備是網(wǎng)絡(luò)本身,因此在訪問級別控制的支持下,捕獲的數(shù)據(jù)可以保存在單獨的安全內(nèi)網(wǎng)中。由于個人和組織敏感數(shù)據(jù)的存在,網(wǎng)絡(luò)數(shù)據(jù)也可能暗示隱私問題。例如,IP地址可用于識別個人用戶或組織,這些用戶或組織可以共同提供有關(guān)敏感用戶消費習(xí)慣和組織商業(yè)信息的見解。因此,除了基于GDPR的數(shù)據(jù)保護的任何其他方面,還必須應(yīng)用隱私保護機制。

3.3 評價與優(yōu)化

采集的數(shù)據(jù)經(jīng)過預(yù)處理后,可以輸入人工智能或機器學(xué)習(xí)方法進行入侵檢測。為了減少噪聲和提高精度,可以首先應(yīng)用特征選擇方法,例如報告中的工作,具體取決于數(shù)據(jù)集的性質(zhì)。已經(jīng)提出了大量的機器學(xué)習(xí)方法用于網(wǎng)絡(luò)入侵檢測,例如,其中一種方法可以應(yīng)用于給定的問題。大數(shù)據(jù)的速度和容量往往導(dǎo)致數(shù)據(jù)集的不平衡性、稀疏性和演化性。可以應(yīng)用各種自適應(yīng)方法(例如自適應(yīng)模糊插值)來處理這種情況。由此,可以對結(jié)果進行評估,并在需要時對方法本身進行優(yōu)化,從而最大限度地實現(xiàn)目標(biāo)。

4 結(jié) 語

本文提出了一個大數(shù)據(jù)治理框架,以支持組織適當(dāng)?shù)夭僮鹘Y(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù),從大數(shù)據(jù)中獲取最大價值,并支持和鼓勵有關(guān)大數(shù)據(jù)的良好實踐。該框架旨在支持組織做出更好的業(yè)務(wù)決策,同時幫助組織有效地實現(xiàn)數(shù)據(jù)安全性和可用性。結(jié)合一個網(wǎng)絡(luò)安全案例,給出了該框架的實現(xiàn)。本案例研究說明了在實施網(wǎng)絡(luò)安全時如何保護數(shù)據(jù)。

雖然前景看好,但這項工作還可以在多個方面加以改進。首先,通過在現(xiàn)實網(wǎng)絡(luò)環(huán)境中的實現(xiàn),對所提出的框架進行有效的驗證和評估是有價值的。此外,擬議的工作只是基于一個特定的案例,因此,將這項工作擴展到其他基于大數(shù)據(jù)的網(wǎng)絡(luò)安全案例將是非常有吸引力的。此外,系統(tǒng)地將所提出的框架與傳統(tǒng)數(shù)據(jù)集的現(xiàn)有數(shù)據(jù)治理框架進行比較也很有趣。最后,值得考慮的是如何將傳統(tǒng)的模型治理方法(例如報告中的方法)擴展到支持基于大數(shù)據(jù)的模型。

猜你喜歡
結(jié)構(gòu)化框架網(wǎng)絡(luò)安全
框架
促進知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
廣義框架的不相交性
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
計算機教育(2020年5期)2020-07-24 08:53:00
網(wǎng)絡(luò)安全
網(wǎng)絡(luò)安全人才培養(yǎng)應(yīng)“實戰(zhàn)化”
上網(wǎng)時如何注意網(wǎng)絡(luò)安全?
WTO框架下
法大研究生(2017年1期)2017-04-10 08:55:06
一種基于OpenStack的云應(yīng)用開發(fā)框架
一種基于OpenStack的云應(yīng)用開發(fā)框架
保定市| 淳化县| 盐池县| 伽师县| 特克斯县| 城固县| 新宁县| 南宫市| 商丘市| 轮台县| 东辽县| 贵州省| 新河县| 黎川县| 志丹县| 广平县| 义马市| 巩义市| 清远市| 阳西县| 水城县| 建始县| 含山县| 阿克苏市| 东兴市| 同江市| 汾阳市| 鲁甸县| 永丰县| 阿拉善左旗| 鄂尔多斯市| 广河县| 徐闻县| 江都市| 广南县| 尚志市| 南华县| 清水河县| 大田县| 青阳县| 包头市|