關(guān)鍵詞:數(shù)據(jù)安全;數(shù)據(jù)防泄露;網(wǎng)絡(luò)安全;數(shù)據(jù)識別;元數(shù)據(jù)
0 引言
鉆井?dāng)?shù)據(jù)是指鉆井企業(yè)在石油勘探和開采過程中收集的有用數(shù)據(jù),這些數(shù)據(jù)對于評估石油儲藏量、設(shè)計鉆井方案和優(yōu)化工藝都有極高的利用價值。鉆井?dāng)?shù)據(jù)包含的內(nèi)容主要有以下幾類[1]:
1) 地質(zhì)數(shù)據(jù):包括鉆井的地理位置坐標(biāo)、所屬地塊,以及鉆井區(qū)域的巖石類型、各類巖層厚度、組成、孔隙率、滲透性和巖心取樣數(shù)據(jù),以及聲波測井、伽馬射線測井等數(shù)據(jù)。這些數(shù)據(jù)有助于設(shè)計適合的鉆井方案,調(diào)配適當(dāng)?shù)你@具,采用適合的技術(shù)。
2) 生產(chǎn)測試數(shù)據(jù):包括產(chǎn)量測試、壓力測試和樣本分析等,這些數(shù)據(jù)對于評估油井的生產(chǎn)潛力和產(chǎn)出價值有很高的參考價值。
3) 鉆井參數(shù):包括鉆具選擇,以及設(shè)定并記錄的鉆井速度、鉆壓、泵速等操作參數(shù)。這些數(shù)據(jù)對于監(jiān)測鉆井過程、保障安全生產(chǎn),改進(jìn)鉆井效率及為優(yōu)化同區(qū)域后繼鉆井作業(yè)非常重要。
4) 井身軌跡:包括鉆進(jìn)的方向、深度和井眼軌跡。這對于準(zhǔn)確地定位油藏位置是必不可少的。
這些鉆井?dāng)?shù)據(jù)的收集貫穿在勘探和開發(fā)的各個階段,對于提高鉆井效率、降低生產(chǎn)成本、保障安全生產(chǎn)、優(yōu)化鉆井方案具有極高的利用價值,是鉆井企業(yè)的核心數(shù)據(jù)資產(chǎn)。鉆井?dāng)?shù)據(jù)發(fā)生泄露,尤其是地理位置、生產(chǎn)成本和產(chǎn)量預(yù)測等數(shù)據(jù)如果被競爭對手掌握,就會極大地影響企業(yè)的競爭力和盈利能力[2]。
長慶油田于2022年成為我國第一大油田。其勘探范圍達(dá)到37萬平方公里,覆蓋了5個省、16個地級市和61個縣(旗)。鉆井隊遍布這片廣袤的區(qū)域。長慶鉆井總公司的信息中心每天收到來自各個井隊產(chǎn)生的各類鉆井?dāng)?shù)據(jù)。其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)高度分散,層級多。2023年,長慶鉆井公司加強了對鉆井?dāng)?shù)據(jù)的治理,部分開展了分類分級工作,制訂了鉆井?dāng)?shù)據(jù)分類分級的模板,并進(jìn)行了小范圍試用[3]。
1 企業(yè)數(shù)據(jù)防泄露EDLP 系統(tǒng)的設(shè)計
在完成鉆井?dāng)?shù)據(jù)的分類分級后,非常重要的一項工作是根據(jù)數(shù)據(jù)分類分級的結(jié)果確定數(shù)據(jù)的合規(guī)操作,而企業(yè)數(shù)據(jù)防泄露是其中不可或缺的一環(huán)。
2022年5月31日,在中國計算機學(xué)會抗惡劣環(huán)境計算機專業(yè)委員會的指導(dǎo)下,由中國電子科技集團(tuán)公司第十五研究所(信息產(chǎn)業(yè)信息安全測評中心)、安全牛和谷安研究院聯(lián)合發(fā)起編制了《數(shù)據(jù)防泄露(DLP) 選型指南》報告[4]。報告中指出,企業(yè)數(shù)據(jù)防泄露(EDLP)系統(tǒng)的設(shè)計目標(biāo)是對企業(yè)重要數(shù)據(jù)進(jìn)行監(jiān)控,杜絕非法訪問和不合規(guī)使用,協(xié)助安全管理人員降低企業(yè)數(shù)據(jù)泄露和丟失的風(fēng)險。同時,EDLP系統(tǒng)具有功能復(fù)雜多樣、對處理性能要求較高的特點,既要保證數(shù)據(jù)的安全,又不能讓過于煩瑣的監(jiān)控影響數(shù)據(jù)使用的便捷性。
本文以指南為參考,開展了企業(yè)數(shù)據(jù)防泄露(En?terprise Data Loss Prevention,EDLP) 系統(tǒng)的設(shè)計與開發(fā)工作。EDLP系統(tǒng)不僅涉及技術(shù),還需要有配套的操作流程。解決方案包括監(jiān)控用戶行為,檢測和阻止來自內(nèi)部或外部網(wǎng)絡(luò)及智能終端設(shè)備對數(shù)據(jù)存儲系統(tǒng)中敏感信息的不合規(guī)行為,保護(hù)數(shù)據(jù)資產(chǎn)的安全和完整。
1) 數(shù)據(jù)識別:首先需要從每天存儲和生成的數(shù)據(jù)中識別出敏感數(shù)據(jù)。識別的手段可以采用關(guān)鍵詞匹配、數(shù)據(jù)格式匹配、正則表達(dá)式、決策樹等機器學(xué)習(xí)方法。
2) 數(shù)據(jù)分類分級:依據(jù)數(shù)據(jù)分類分級的模板,找出敏感數(shù)據(jù)所在的安全等級,按照數(shù)據(jù)合規(guī)操作規(guī)范確認(rèn)哪些行為是受限制的,哪些行為是被允許的。
3) 數(shù)據(jù)監(jiān)控:在企業(yè)網(wǎng)絡(luò)中的各個出口安插DLP 工具,例如存儲設(shè)備的外部接口、網(wǎng)絡(luò)訪問、電子郵件、智能設(shè)備的App訪問等,對內(nèi)部和外部的通信進(jìn)行實時監(jiān)控,保障數(shù)據(jù)安全。
4) 系統(tǒng)響應(yīng):當(dāng)EDLP系統(tǒng)發(fā)現(xiàn)違規(guī)操作時,可自動采取預(yù)定義的措施進(jìn)行響應(yīng),阻止違規(guī)行為,包括自動斷網(wǎng)阻止數(shù)據(jù)流動、提示用戶越界、通知管理員等。
5) 報告和審計:系統(tǒng)提供所有發(fā)生事件的詳細(xì)的報告和日志,幫助安全管理人員復(fù)查系統(tǒng)漏洞,改進(jìn)安全措施,并為追究肇事者的法律責(zé)任提供呈堂證供。
如圖1所示,EDLP系統(tǒng)主要包含以下3個功能模塊:
1) 網(wǎng)絡(luò)DLP(Network DLP) 模塊:主要針對在企業(yè)網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)進(jìn)行監(jiān)控,包括幾乎所有常見類型的網(wǎng)絡(luò)通信,例如網(wǎng)頁瀏覽、FTP、電子郵件、微信及QQ等即時通信軟件、社交媒體等。網(wǎng)絡(luò)DLP能夠識別保密數(shù)據(jù),并自動阻斷其發(fā)送或接收,從網(wǎng)絡(luò)層面防止數(shù)據(jù)泄露。在企業(yè)網(wǎng)絡(luò)中,在出入口處設(shè)置了一個DLP,用于解析和監(jiān)控流經(jīng)的網(wǎng)絡(luò)數(shù)據(jù)包。本文采用的是MYDLP,該軟件可以解析常見的文件格式,如Excel、PPT、Word、PDF等。本文設(shè)計了專用于識別鉆井?dāng)?shù)據(jù)的算法,例如基于決策樹、隨機森林的鉆井液數(shù)據(jù)識別算法等,還梳理出一些基于正則表達(dá)式的規(guī)則用于檢測數(shù)據(jù)內(nèi)容。
2) 服務(wù)器DLP(Server DLP) 模塊:主要針對存儲在數(shù)據(jù)庫、文獻(xiàn)庫、檔案庫的服務(wù)器或云平臺中的數(shù)據(jù),通過掃描并識別存儲在這些設(shè)備中的保密數(shù)據(jù)的存儲位置,顆粒度可以精確到數(shù)據(jù)庫中的某些表,甚至某些字段,以實施精準(zhǔn)的讀寫控制或數(shù)據(jù)掩碼,從服務(wù)器、云平臺的層面保證數(shù)據(jù)安全。在服務(wù)器上安裝了OpenDLP,并將鉆井?dāng)?shù)據(jù)識別算法安裝到OpenDLP中,通過掃描本地存儲,找出敏感數(shù)據(jù)的精確位置進(jìn)行保護(hù)。
3) 終端DLP(Endpoint DLP) 模塊:主要是面向用戶終端設(shè)備的數(shù)據(jù)防泄露,例如用戶工作站主機、筆記本電腦、云終端、智能移動設(shè)備、打印機等。阻止用戶將保密數(shù)據(jù)復(fù)制或打印到外部設(shè)備,或?qū)ν鈴?fù)制打印的數(shù)據(jù)進(jìn)行數(shù)據(jù)掩碼,屏蔽真實數(shù)據(jù)的外漏。此部分可以使用成熟的商業(yè)軟件,例如綠盟或啟明星辰等,并根據(jù)廠家提供的API或規(guī)則庫接口寫入自定義的鉆井?dāng)?shù)據(jù)識別算法。
2 面向鉆井?dāng)?shù)據(jù)的識別方法
在網(wǎng)絡(luò)DLP,服務(wù)器DLP和終端DLP模塊中都需要數(shù)據(jù)識別,判定是否為敏感數(shù)據(jù)。對于數(shù)據(jù)識別可以采用多種方法:
1) 在數(shù)據(jù)庫系統(tǒng)中可以采用讀取元數(shù)據(jù)的方法來了解數(shù)據(jù)庫表,字段的信息。通過檢索訪問控制表(ACL)來判定是否用戶有權(quán)限訪問數(shù)據(jù)。
2) 通過分析與特定用戶或設(shè)備關(guān)聯(lián)的數(shù)據(jù),可以識別由特定用戶創(chuàng)建或經(jīng)常訪問的敏感數(shù)據(jù)。
3) 有的企業(yè)會在文檔和電子郵件中使用數(shù)據(jù)標(biāo)簽來標(biāo)識信息的敏感級別。DLP系統(tǒng)可以根據(jù)這些標(biāo)簽來識別敏感數(shù)據(jù)。
4) 內(nèi)容檢測方法,常見的包括:正則表達(dá)式、關(guān)鍵詞匹配、機器學(xué)習(xí)算法等[5]。
由于在不同企業(yè)中的數(shù)據(jù)類型和形57f4f6adc7c68a318fbbab27b543b228d0d108d8a94f7669ddcc20a4f8121e12式都千差萬別,除了像身份證、電子郵件、門牌地址等數(shù)據(jù)具有統(tǒng)一格式,各個企業(yè)都有自己獨有的數(shù)據(jù)類型,所以在目前各種商業(yè)或開源的企業(yè)數(shù)據(jù)防泄露EDLP系統(tǒng)的實現(xiàn)方案中,都會預(yù)留內(nèi)容檢測的接口,用于適配每個企業(yè)的個性化需求。鉆井企業(yè)中的數(shù)據(jù)也很有特點,例如,一組鉆井液數(shù)據(jù)如表1所示。
對于不同的字段就要采取不同的方式來識別。對于井號、其中帶有漢字、數(shù)字及“-”,就可以按照其形式直接定義一個正則表達(dá)式進(jìn)行判斷,給出的正則表達(dá)式如下:
這個正則表達(dá)式應(yīng)該能有效地匹配跟隨漢字后面的數(shù)字、短橫線以及另一個數(shù)字的字符串,這對于某些命名習(xí)慣或標(biāo)識符是典型的。
工況和地層的類型很像,它們的取值都是有限的幾個專業(yè)詞匯,例如工況的取值常見的就是“鉆進(jìn)”“電測”“二開鉆進(jìn)”“起下鉆”等。地層的取值常見的就是“山西組”“本溪組”“塔里木盆地”“鄂爾多斯盆地”等,這些都可以通過簡單的有限集合元素的匹配進(jìn)行識別。如密度、酸堿值等數(shù)據(jù)類型同樣具有一些直觀的數(shù)據(jù)特征,像密度的值在1左右浮動,酸堿值為7左右的整數(shù)值,通過這樣的數(shù)據(jù)特征也可以通過設(shè)定置信區(qū)間的方法來制訂識別該類數(shù)據(jù)的規(guī)則。比較復(fù)雜的是像鈣離子濃度和井深的數(shù)據(jù),它們的取值范圍重合度很高,井深可以是從0到7 000米,鈣離子濃度取值范圍可以是從幾十到幾千,大多數(shù)情況都在1 000以下。對于這些比較相似的數(shù)據(jù),可以通過數(shù)據(jù)變化趨勢來判斷。井深數(shù)據(jù)是遞增的,而鈣離子濃度則沒有這種變化趨勢。對于表1所示數(shù)據(jù),根據(jù)這些特點構(gòu)建出的用于識別鉆井液數(shù)據(jù)的分類決策樹如圖2所示。
這些個性化定制的數(shù)據(jù)識別算法可以嵌入網(wǎng)絡(luò)DLP、主機DLP和服務(wù)器DLP模塊中,用于識別敏感數(shù)據(jù)。
3 結(jié)論
近年來,國家越來越重視信息安全。2021年,《中華人民共和國數(shù)據(jù)安全法》提出,將數(shù)據(jù)安全提升到影響國家安全的高度。長慶鉆井總公司作為一家大型國有企業(yè),長期以來收集了大量的鉆井?dāng)?shù)據(jù)。這些數(shù)據(jù)不僅關(guān)系到企業(yè)的利益,同時也對國家安全有著重要的影響。因此,企業(yè)數(shù)據(jù)防泄露(EDLP) 系統(tǒng)成為數(shù)據(jù)安全中的重要一環(huán)。只有正確開發(fā)和部署EDLP 系統(tǒng),根據(jù)數(shù)據(jù)特點設(shè)計識別算法,才能最大限度地發(fā)揮EDLP系統(tǒng)的作用,為企業(yè)的順利發(fā)展保駕護(hù)航。