国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

開放共享環(huán)境下城建檔案數(shù)據(jù)脫敏系統(tǒng)研究與設(shè)計

2021-07-28 15:07袁紹晚
檔案與建設(shè) 2021年6期
關(guān)鍵詞:城建檔案

袁紹晚

摘 要:數(shù)據(jù)脫敏是數(shù)據(jù)治理的重要內(nèi)容。文章在數(shù)據(jù)脫敏概述與文獻研究的基礎(chǔ)上,指出城建檔案數(shù)據(jù)脫敏系統(tǒng)建設(shè)路徑包括5個步驟:數(shù)據(jù)脫敏戰(zhàn)略化、分類分級標簽化、脫敏策略標準化、脫敏目標元數(shù)據(jù)化和脫敏流程智能化,并總結(jié)了6個脫敏關(guān)鍵技術(shù):傳統(tǒng)脫敏技術(shù)、文本分類技術(shù)、CAD二次開發(fā)技術(shù)、GIS二次開發(fā)技術(shù)、內(nèi)容識別技術(shù)和數(shù)據(jù)可視化技術(shù),最后對脫敏系統(tǒng)進行功能設(shè)計。

關(guān)鍵詞:城建檔案;數(shù)據(jù)脫敏;脫敏技術(shù)

數(shù)據(jù)開放共享已成為國家治理戰(zhàn)略的重要組成部分。近年來,國家層面印發(fā)一系列政策文件,對數(shù)據(jù)開放共享進行宏觀部署和頂層設(shè)計。在數(shù)據(jù)開放共享過程中,城建檔案數(shù)據(jù)作為政務(wù)數(shù)據(jù)的重要組成部分,在釋放數(shù)據(jù)紅利的同時,也面臨著數(shù)據(jù)泄露或遭黑客攻擊等安全風(fēng)險,其中的敏感數(shù)據(jù)一旦發(fā)生泄露,將會給政府、社會和個人帶來較大負面影響,甚至造成經(jīng)濟損失。因此,在數(shù)據(jù)開放共享環(huán)境下,如何在保障數(shù)據(jù)供給質(zhì)量的同時,防止敏感數(shù)據(jù)泄露,已經(jīng)成為檔案管理部門亟待解決的問題。

數(shù)據(jù)脫敏是數(shù)據(jù)治理的重要內(nèi)容,是一項保障數(shù)據(jù)安全的基本技術(shù)。大量實踐案例和文獻研究已經(jīng)證明,數(shù)據(jù)脫敏技術(shù)在保護個人隱私數(shù)據(jù)、防止數(shù)據(jù)泄露方面具有獨特的技術(shù)優(yōu)勢。

一、 數(shù)據(jù)脫敏概述

數(shù)據(jù)脫敏又稱數(shù)據(jù)去隱私化或數(shù)據(jù)變形,是在給定的規(guī)則、策略下對敏感數(shù)據(jù)進行變換、修改的技術(shù)機制,能夠在很大程度上解決敏感數(shù)據(jù)在非可信環(huán)境中使用的問題[1]。數(shù)據(jù)脫敏流程分為敏感數(shù)據(jù)分類分級、脫敏策略制訂、脫敏目標確認、數(shù)據(jù)脫敏與分發(fā)、脫敏數(shù)據(jù)審計與監(jiān)管等環(huán)節(jié)。在脫敏實現(xiàn)方式上,可分為靜態(tài)數(shù)據(jù)脫敏和動態(tài)數(shù)據(jù)脫敏。

以“數(shù)據(jù)脫敏”為主題在中國知網(wǎng)進行檢索,發(fā)現(xiàn)目前研究成果主要集中在以下方面:脫敏數(shù)據(jù)類型方面,已由結(jié)構(gòu)化數(shù)據(jù)脫敏拓展至非結(jié)構(gòu)化數(shù)據(jù)脫敏,如文本內(nèi)容[2]、圖像內(nèi)容[3]、矢量地理數(shù)據(jù)[4]等;脫敏技術(shù)發(fā)展方面,諸如機器學(xué)習(xí)[5]、數(shù)據(jù)智能分類技術(shù)[6]、人工智能技術(shù)[7]等智能化數(shù)據(jù)脫敏技術(shù)日趨成熟;行業(yè)應(yīng)用方面,脫敏技術(shù)已在政府數(shù)據(jù)[8]、證券期貨[9]、電信運營[10]等行業(yè)領(lǐng)域得到廣泛應(yīng)用。

二、城建檔案數(shù)據(jù)脫敏中存在的問題

城建檔案數(shù)據(jù)不僅包括了政府部門在工程建設(shè)項目審批過程中形成的政務(wù)數(shù)據(jù),還包括了建設(shè)單位在生產(chǎn)施工過程中產(chǎn)生的建設(shè)項目數(shù)據(jù)。因此,城建檔案數(shù)據(jù)積累、沉淀和匯聚了大量隱私、敏感數(shù)據(jù)。目前,城建檔案數(shù)據(jù)脫敏主要存在以下問題:數(shù)據(jù)脫敏無序,沒有納入數(shù)據(jù)治理的全生命周期管理;數(shù)據(jù)資產(chǎn)模糊,沒有脈絡(luò)清晰的分類體系;脫敏策略歧義,沒有定義明確的執(zhí)行標準;脫敏目標隨機,沒有全面完整的數(shù)據(jù)模型;脫敏操作傳統(tǒng)沒有自動智能的工具手段。

三、城建檔案數(shù)據(jù)脫敏系統(tǒng)建設(shè)路徑

城建檔案數(shù)據(jù)脫敏系統(tǒng)建設(shè)應(yīng)當堅持總體國家安全觀,以《中華人民共和國檔案法》《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國數(shù)據(jù)安全法》等為法律依據(jù),在國家數(shù)據(jù)治理的頂層設(shè)計下有序推進。同時,結(jié)合城建檔案數(shù)據(jù)的特點,有針對性地引入大數(shù)據(jù)等信息技術(shù),開展數(shù)據(jù)脫敏工作。

1. 數(shù)據(jù)脫敏戰(zhàn)略化

國家數(shù)據(jù)治理的頂層設(shè)計是城建檔案數(shù)據(jù)脫敏工作的遵循原則和戰(zhàn)略目標。在實踐中,要充分認識到城建檔案數(shù)據(jù)具有政務(wù)數(shù)據(jù)和檔案數(shù)據(jù)雙重屬性,一是要融入國家大數(shù)據(jù)資源統(tǒng)籌發(fā)展工程和政府治理大數(shù)據(jù)工程[11],二是要融入新時代新成就國家記憶工程和檔案信息化強基工程[12]。

2. 分類分級標簽化

數(shù)據(jù)分類分級是數(shù)據(jù)治理工作的核心任務(wù)?!吨腥A人民共和國數(shù)據(jù)安全法》明確規(guī)定,國家建立數(shù)據(jù)分類分級保護制度。城建檔案的分類分級體系有項目性質(zhì)分類法、文件密級分級法和著錄數(shù)據(jù)分級法。大數(shù)據(jù)的核心價值通過標簽數(shù)據(jù)的多樣應(yīng)用得到充分體現(xiàn)[13],在城建檔案分類分級工作中,引入數(shù)據(jù)標簽類目體系,能滿足不同業(yè)務(wù)場景下數(shù)據(jù)脫敏需求,多維度體現(xiàn)數(shù)據(jù)業(yè)務(wù)價值。

3. 脫敏策略標準化

數(shù)據(jù)脫敏策略標準是脫敏系統(tǒng)建設(shè)的基礎(chǔ)。依據(jù)《信息安全技術(shù)個人信息安全規(guī)范》(GB/T 35273-2020)等數(shù)據(jù)安全類標準,脫敏策略標準制訂應(yīng)以滿足落地執(zhí)行為出發(fā)點,覆蓋城建檔案數(shù)據(jù)生命周期,包括策略發(fā)布流程、策略術(shù)語定義、脫敏通用原則、脫敏操作方法、數(shù)據(jù)訪問規(guī)則等內(nèi)容,用于指導(dǎo)敏感數(shù)據(jù)的管理和保護。

4. 脫敏目標元數(shù)據(jù)化

元數(shù)據(jù)是數(shù)據(jù)脫敏系統(tǒng)建設(shè)的中心內(nèi)容。廣泛采集城建檔案的業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù),建立動態(tài)、開放、集成的脫敏目標元數(shù)據(jù)存儲庫,不僅能夠精準繪制敏感數(shù)據(jù)的全景視圖,建立統(tǒng)一的數(shù)據(jù)表達形式,還能方便敏感數(shù)據(jù)的靈活交互和縱橫擴展,實現(xiàn)從業(yè)務(wù)層到技術(shù)層的互聯(lián)互通。

5. 脫敏流程智能化

智能化是脫敏系統(tǒng)建設(shè)的關(guān)鍵績效指標。大數(shù)據(jù)時代將數(shù)據(jù)脫敏流程與人工智能的自主學(xué)習(xí)和強大的數(shù)據(jù)分析能力相結(jié)合,實現(xiàn)易學(xué)習(xí)、免配置、自動脫敏和自適應(yīng)脫敏算法等功能[14],可以滿足優(yōu)化營商環(huán)境對城建檔案敏感數(shù)據(jù)供給提出的時效、質(zhì)量、能力等政策要求和考核評估。

四、城建檔案數(shù)據(jù)脫敏關(guān)鍵技術(shù)

城建檔案業(yè)務(wù)主題數(shù)據(jù)的文件格式包括結(jié)構(gòu)化文件、文本文件、圖像文件、CAD文件、GIS文件等。針對不同的文件格式,要采用不同的數(shù)據(jù)脫敏技術(shù)。

1. 傳統(tǒng)脫敏技術(shù)

結(jié)構(gòu)化文件表現(xiàn)形式為關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)表,字段類型可分為字符型、數(shù)值型、日期型等。這些字段的內(nèi)容可以使用傳統(tǒng)脫敏技術(shù)如替換、無效化、置亂、均值化、偏移、加密等脫敏算法進行數(shù)據(jù)脫敏。例如,在瀏覽特定區(qū)域內(nèi)某個建設(shè)項目的用地面積時,可以將詳細地址置亂為特定區(qū)域,將建設(shè)單位加密為消息摘要值,用地年限替換為長期等。

2. 文本分類技術(shù)

城建檔案中存在大量的電子文本文件,如政府批文、地質(zhì)勘察報告、監(jiān)理文件等,利用文本分類技術(shù),通過多次對適度規(guī)模敏感詞訓(xùn)練集的測試、優(yōu)化,建立敏感詞特征庫,并以此為基礎(chǔ),通過自適應(yīng)學(xué)習(xí)算法完成文本文件內(nèi)容脫敏工作。

3. CAD二次開發(fā)技術(shù)

城建檔案中有大量由計算機輔助設(shè)計(Computer Aided Design,CAD)技術(shù)生成的DWG格式電子文件,如建筑安裝工程竣工圖、市政基礎(chǔ)設(shè)施工程竣工圖等。通過AutoCAD進行二次開發(fā),使脫敏系統(tǒng)具有CAD數(shù)據(jù)脫敏功能,可以對敏感圖層、敏感實體、敏感圖形和敏感屬性等進行自動脫敏,脫敏操作通常是不可逆、去關(guān)聯(lián)的,如刪除、隱藏、變形等。

4. GIS二次開發(fā)技術(shù)

GIS二次開發(fā)技術(shù)主要用于地理數(shù)據(jù)脫敏。地理數(shù)據(jù)屬于高敏感級數(shù)據(jù)。地理空間數(shù)據(jù)的脫敏較復(fù)雜,需要通過GIS的二次開發(fā),在已有的GIS平臺中開發(fā)專門的地理數(shù)據(jù)脫敏功能,涉密屬性信息或高敏感級數(shù)據(jù)多通過地理要素及屬性刪除法脫密[15]。

5. 內(nèi)容識別技術(shù)

隨著數(shù)字化設(shè)備的廣泛應(yīng)用,城建檔案包含了大量的紙質(zhì)檔案數(shù)字化副本影像文件、照片文件和視頻文件。人工手動脫敏方法已遠遠不能滿足檔案利用現(xiàn)實需求。利用圖像內(nèi)容識別技術(shù)進行圖像數(shù)據(jù)內(nèi)容識別、數(shù)據(jù)加密并進行敏感信息模糊化等手段[16],不僅能快速完成對圖像文件中敏感數(shù)據(jù)的自動脫敏,還能全面滿足各種利用工作場景的業(yè)務(wù)需求,為高效、準確地開展數(shù)據(jù)保護工作提供有力支撐。

6. 數(shù)據(jù)可視化技術(shù)

數(shù)據(jù)可視化旨在借助圖形化手段,清晰有效地傳達與溝通信息。在“公開為常態(tài)、不公開為例外”的信息公開政策要求下,將結(jié)構(gòu)化數(shù)據(jù)如建筑面積、用地面積、車位數(shù)、綠地率、容積率等,以柱狀圖、折線圖、餅圖等圖形方式進行直觀表達,不僅達到了政策要求,還實現(xiàn)了數(shù)據(jù)泛化脫敏處理。

五、城建檔案數(shù)據(jù)脫敏系統(tǒng)功能設(shè)計

城建檔案數(shù)據(jù)脫敏系統(tǒng)功能包括數(shù)據(jù)請求、數(shù)據(jù)審計、目標識別、策略匹配、數(shù)據(jù)訪問、數(shù)據(jù)脫敏、脫敏驗證和數(shù)據(jù)封裝等(見圖1)。

1. 數(shù)據(jù)請求

用戶根據(jù)自身數(shù)據(jù)需求,通過網(wǎng)頁瀏覽器、移動設(shè)備、數(shù)據(jù)接口等方式向脫敏系統(tǒng)發(fā)出數(shù)據(jù)請求。

2. 數(shù)據(jù)審計

數(shù)據(jù)審計是在接受到數(shù)據(jù)請求后和作出數(shù)據(jù)響應(yīng)前對相關(guān)內(nèi)容進行審計。在接受到數(shù)據(jù)請求后,審計內(nèi)容包括:用戶權(quán)限、身份角色、請求設(shè)備和訪問協(xié)議等。在作出數(shù)據(jù)響應(yīng)前,審計內(nèi)容包括:脫敏數(shù)據(jù)的合規(guī)性、安全性,問題回溯等。

3. 目標識別

目標識別用于敏感數(shù)據(jù)識別。數(shù)據(jù)識別是在元數(shù)據(jù)庫、敏感信息庫的相互協(xié)作下完成。其中,敏感信息庫來源于機器學(xué)習(xí)對不同文件格式的敏感數(shù)據(jù)訓(xùn)練集的特征值。機器學(xué)習(xí)過程并不是一次性完成,而是要不斷地進行人工標注和調(diào)整。

4. 策略匹配

策略匹配用于數(shù)據(jù)脫敏策略標準的匹配和管理。脫敏策略標準是在脫敏過程中貫徹的規(guī)則、規(guī)范、方法和限制的統(tǒng)稱,主要內(nèi)容來源于業(yè)務(wù)領(lǐng)域的知識庫、工程建設(shè)的規(guī)則庫、機器學(xué)習(xí)的算法決策庫及人工配置的規(guī)范文本等(見圖2)。

5. 數(shù)據(jù)訪問

數(shù)據(jù)訪問分為結(jié)構(gòu)化數(shù)據(jù)訪問和非結(jié)構(gòu)化數(shù)據(jù)訪問。結(jié)構(gòu)化數(shù)據(jù)訪問步驟包括數(shù)據(jù)源連接、數(shù)據(jù)表打開、字段記錄提取等。非結(jié)構(gòu)化數(shù)據(jù)視不同的文件格式執(zhí)行不同的操作:文本文件、CAD文件和圖像文件等直接從文件服務(wù)器中加載解析;地理數(shù)據(jù)在GIS平臺中提取圖層數(shù)據(jù)和要素數(shù)據(jù)。

6. 數(shù)據(jù)脫敏

數(shù)據(jù)脫敏是在數(shù)據(jù)分級、脫敏策略的共同約束下,對目標數(shù)據(jù)集采用適當?shù)拿撁羲惴ê兔撁艏夹g(shù)進行脫敏操作。數(shù)據(jù)脫敏是脫敏全生命周期中的關(guān)鍵環(huán)節(jié),脫敏算法的復(fù)雜度、脫敏技術(shù)的匹配度會直接影響數(shù)據(jù)脫敏質(zhì)量和效果。

7. 脫敏驗證

脫敏驗證是對脫敏后的數(shù)據(jù)從完整性、一致性和關(guān)聯(lián)性三個方面驗證脫敏數(shù)據(jù)的利用價值是否得到延續(xù)。以脫敏后的地理數(shù)據(jù)集為例,包括地物編碼的組成要素是否齊全完整,空間坐標精度是否與坐標元數(shù)據(jù)描述一致,各地物間的拓撲關(guān)系是否相互關(guān)聯(lián)。

8. 數(shù)據(jù)封裝

數(shù)據(jù)封裝是指采用數(shù)字簽名等安全技術(shù)防止脫敏數(shù)據(jù)被偽造或篡改,保證數(shù)據(jù)在整個生命周期中有效傳遞和安全傳輸。通過數(shù)據(jù)封裝,數(shù)據(jù)請求者在接收到脫敏系統(tǒng)的響應(yīng)數(shù)據(jù)后,能及時確認脫敏數(shù)據(jù)來源合法性和完整性,防止傳輸中的抵賴和欺詐。

城建檔案數(shù)據(jù)脫敏在具有通用數(shù)據(jù)脫敏特點的同時,又具有較強的專業(yè)性。

隨著建筑信息模型數(shù)據(jù)加入,勢必對城建檔案數(shù)據(jù)脫敏提出更高要求。僅從技術(shù)層面對城建檔案數(shù)據(jù)脫敏進行研究,并不能實現(xiàn)真正意義上的數(shù)據(jù)脫敏,還要更多地從法律層面、文化層面進行研究,為城建檔案數(shù)據(jù)脫敏創(chuàng)造更好的數(shù)據(jù)治理環(huán)境和氛圍。

*本文系2020年度國家檔案局科技項目“‘互聯(lián)網(wǎng)+政務(wù)服務(wù)背景下廣州建設(shè)項目檔案數(shù)據(jù)治理研究”(項目編號:2020-X-77)階段性研究成果。

注釋與參考文獻

[1]陳天瑩,陳劍鋒.大數(shù)據(jù)環(huán)境下的智能數(shù)據(jù)脫敏系統(tǒng)[J].通信技術(shù),2016(7):915-922.

[2]李偉偉,張濤,林為民等.基于文本內(nèi)容的敏感數(shù)據(jù)識別方法研究與實現(xiàn)[J].計算機工程與設(shè)計,2013(4):1202-1206.

[3][16]田菁菁,葉紫光,許慧云.基于圖像內(nèi)容識別技術(shù)敏感數(shù)據(jù)分析[J].通訊世界,2020(1):133-134.

[4][15]李安波,吳雪榮,解憲麗等.精度可控的矢量地理數(shù)據(jù)脫密方法[J].中國礦業(yè)大學(xué)學(xué)報,2016(5):1050-1057.

[5]王鑫,王電鋼,母繼元等. 基于機器學(xué)習(xí)的數(shù)據(jù)脫敏系統(tǒng)研究與設(shè)計[J].電力信息與通信技術(shù), 2018(1):33-38.

[6]徐建忠,張亮,李嬌嬌.數(shù)據(jù)智能分類技術(shù)在數(shù)據(jù)治理中的應(yīng)用研究[J].信息安全與通信保密,2016(6):88-90.

[7]駱京.基于人工智能技術(shù)的內(nèi)容識別系統(tǒng)設(shè)計[J].現(xiàn)代電視技術(shù),2018(7):112-115.

[8]王毛路,華躍.數(shù)據(jù)脫敏在政府數(shù)據(jù)治理及開放服務(wù)中的應(yīng)用[J].電子政務(wù),2019(5):94-103.

[9]王浩宇,劉超,蔣東興.證券期貨監(jiān)管數(shù)據(jù)脫敏方案研究與實踐[J].金融電子化,2019(3):36-38.

[10]姜日敏.電信運營商數(shù)據(jù)脫敏系統(tǒng)建設(shè)方案探討[J].中國科技信息,2014(8):132-133.

[11]中國政府網(wǎng).國務(wù)院關(guān)于印發(fā)促進大數(shù)據(jù)發(fā)展行動綱要的通知[EB/ OL].[2015-09-05].http://www. gov.cn/zhengce/content/2015-09/05/ content_10137.htm.

[12]國家檔案局.中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].[2021-06-08].https:// www.saac.gov.cn/daj/yaow/202106/89965 0c1b1ec4c0e9ad3c2ca7310eca4.shtml.

[13]付登坡,任寅姿,孫少憶等.數(shù)據(jù)中臺[M].機械工業(yè)出版社,2020:158-158.

[14]王紅凱,龔小剛,葉衛(wèi)等.大數(shù)據(jù)智能下數(shù)據(jù)脫敏的思考[J].科技導(dǎo)報,2020(3):115-122.

猜你喜歡
城建檔案
淺談城建檔案管理現(xiàn)狀與問題分析
對城建檔案的社會文化價值的探析
基于Web Service的城建檔案信息共享平臺
基于知識管理視閾的城建檔案管理問題研究
如何做好城建檔案的保密與利用
大數(shù)據(jù)時代的城建檔案信息系統(tǒng)構(gòu)建問題研究
淺析城建檔案管理工作的重要性
關(guān)于創(chuàng)新城建檔案行政監(jiān)管的思考