Mary Branscombe
如果把數(shù)據(jù)比喻成新油田,那么想要避免相當于有毒泄漏的數(shù)據(jù)泄露,必須做好安全工作。這一切都始于強大的數(shù)據(jù)刪除策略。
在65萬多個客戶的個人信息被泄露后,連鎖酒吧Wetherspoon決定刪除其存儲的幾乎所有客戶信息,為的是降低風險。畢竟,如果你沒有數(shù)據(jù),就不需要檢查是否合規(guī),也不用針對GDPR的“主題訪問請求”進行披露,不會因為出現(xiàn)數(shù)據(jù)泄露而道歉。
事實上,數(shù)據(jù)是如此有毒,以至于加州律師協(xié)會互聯(lián)網(wǎng)與隱私法委員會主席Joshua de Larios-Heiman建議將其視為鈾礦而非油田。他說:“廢鈾棒怎么辦?它們變成了有毒資產(chǎn),很難處理掉它們。如果處理不當,人們會起訴你。”
如果你開始從這些方面考慮風險,那么你的企業(yè)丟掉存儲的哪些數(shù)據(jù)會變得更好?
不收集不需要的數(shù)據(jù)
有很多數(shù)據(jù)是由人們自己產(chǎn)生的,你無法從中獲得任何價值,而保留這些數(shù)據(jù)可能又會增加風險。微軟負責Azure和企業(yè)安全的副總裁Julia White評論說:“令我非常震驚的是,人們似乎并沒有發(fā)現(xiàn)他們不想要的數(shù)據(jù),或者出于GDPR的原因應(yīng)該清除掉的數(shù)據(jù)?!?/p>
ACLU高級技術(shù)研究員Jon Callas指出,不要被存儲成本下降所迷惑,以為保存數(shù)據(jù)很便宜。
他說:“保存數(shù)據(jù)的成本比想象得要高,而且收益也很低。它有可能是有用的,對分析有所貢獻。但更有可能是有害的——會讓你輸?shù)暨`約案,或者被法庭傳喚。隨著時間的推移,其可用價值越來越少,但危害價值保持不變。如果你丟失了某個人五年前的住址,歐盟并不關(guān)心這是你不想要的不準確的數(shù)據(jù),也不關(guān)心這對你的業(yè)務(wù)有什么幫助,丟了你就得負責。在某一時點上,數(shù)據(jù)和業(yè)務(wù)會出現(xiàn)交叉。你應(yīng)該在這些數(shù)據(jù)交叉之前把它們?nèi)拥簟!?/p>
Callas指出,“被傳訊和主題訪問請求的成本高于存儲媒介的成本。有些糟心事可能會發(fā)生,有些數(shù)據(jù)可能會令你陷入更多的糟心事中,結(jié)果所導(dǎo)致的成本要遠高于這些數(shù)據(jù)的價值。當你說‘我只保留有理由保留的數(shù)據(jù)時,你必須采取的程序會讓你陷入截然不同的境地中?!?/p>
高風險數(shù)據(jù)
Veritas公司的高級主管Jasmit Sagoo在接受CIO.com采訪時表示,數(shù)據(jù)中心存儲的數(shù)據(jù)有1/3是可有可無的、過時的甚至是多余的。
他說:“這些數(shù)據(jù)幾乎沒有什么業(yè)務(wù)價值,應(yīng)該主動刪除,尤其是考慮到數(shù)據(jù)泄露和風險等級時。例如,前員工和前客戶數(shù)據(jù)的風險非常高。這包含個人身份信息,因此只有出于法律原因才值得保存這些數(shù)據(jù)。財務(wù)記錄特別容易受到黑客的攻擊,這也是需要謹慎管理的敏感數(shù)據(jù)的具體實例?!?/p>
怎樣找到不需要并且應(yīng)該刪除的數(shù)據(jù)呢?Sagoo說:“作為一個起點,企業(yè)應(yīng)能夠識別數(shù)據(jù)中的具體細節(jié),準確指出風險范圍及其潛在價值。了解存儲了什么、誰在訪問它以及訪問頻率也很重要。只有這樣,才能知道有哪些數(shù)據(jù),根據(jù)定制的數(shù)據(jù)保留策略對其進行分類。然后,至少每季度刪除一次這些文件?!?/p>
ISG首席分析師Blair Hanley Frank認為,“有些數(shù)據(jù)永遠不應(yīng)該存儲起來進行分析。在2019年仍以純文本形式存儲用戶密碼的任何企業(yè)都是在自找麻煩?!?/p>
刪除與不再使用的生產(chǎn)系統(tǒng)相關(guān)聯(lián)的數(shù)據(jù)。例如,WeatherSpoon公司泄露的用戶數(shù)據(jù)來自一個老網(wǎng)站,而這些數(shù)據(jù)本不應(yīng)該還在那里。而Adobe公司泄露的密碼數(shù)據(jù)也來自一個老的非生產(chǎn)系統(tǒng)。Frank指出:“企業(yè)不能僅僅因為這些系統(tǒng)是老的IT基礎(chǔ)設(shè)施的一部分就忽略這些過時或者很少使用的系統(tǒng)?!?/p>
特別要注意跟蹤已經(jīng)提?。ㄍǔJ荴LS或者CSV文件)并移交給開發(fā)人員用作示例數(shù)據(jù)的客戶數(shù)據(jù)庫副本。
對此,你應(yīng)該屏蔽數(shù)據(jù)。通過屏蔽數(shù)據(jù),可以保留相關(guān)的數(shù)據(jù)統(tǒng)計分布,以便在測試中使用,而不存在泄露的風險。
Delphix公司董事Benjamin Ross指出:“非生產(chǎn)開發(fā)和測試環(huán)境雖然非常重要,但卻帶來了很大的風險,而且往往是GDPR合規(guī)的軟肋?!?/p>
不要“去身份標識”,直接刪除就好
只有出于當前業(yè)務(wù)的原因才保存數(shù)據(jù),而不是模糊地希望機器學習系統(tǒng)能從中發(fā)現(xiàn)一些有用的東西。Callas指出,即便是人工智能初創(chuàng)企業(yè)投資人的Andreessen Horowitz,也在質(zhì)疑收集大量數(shù)據(jù)是否有價值。Callas說:“有一種神秘的信念,即擁有這種‘數(shù)據(jù)護城河便具備了可持續(xù)的競爭優(yōu)勢,而作為投資者,經(jīng)驗告訴他們,并非如此。你可能認為這會使你的企業(yè)變得更好,但現(xiàn)實卻是不太可能?!?/p>
微軟研究院(Microsoft Research)高級研究員Mary L.Gray說,這尤其適用于你正在考慮用于訓練機器學習模型的數(shù)據(jù)集的個人識別信息(PII)。她說:“既然有了GDPR,就應(yīng)該非常嚴格地限制PII可以收集什么,誰能訪問它,采用什么審計措施來說明PII在哪里、何時以及怎樣被重新調(diào)整用途,出售給收集它的公司之外的某個實體,說清楚這些實體能保留多長時間?!?/p>
而且“去身份標識”的數(shù)據(jù)并不能保證安全保存,因為只要有足夠的數(shù)據(jù),仍然可以識別個人身份——即使你不想這樣做。她警告說:“認為能夠永久地把收集到的數(shù)據(jù)‘去身份標識,這實在是無稽之談?!?/p>
她繼續(xù)道,“以數(shù)據(jù)為中心的技術(shù)行業(yè)還沒有找到怎樣徹底刪除數(shù)據(jù)的方法,更不用說能確定完全停止收集哪些數(shù)據(jù)。該行業(yè)最終同意了對PII進行散列處理:這相當于在其上運行一個黑色標記。但他們可以收集我們所做的一切。如果你能預(yù)測自己在做什么和在哪里做什么,那么你仍然留下了數(shù)字足跡,這與圖片中的PII沒有什么不同。”
她補充說,雖然刪除明顯的身份標示(例如,姓名和出生日期)很簡單,但“去身份標識”的數(shù)據(jù)中仍然會包含PII,例如,當用戶把全名添加到?jīng)]有標記為姓名的字段中時,等等。
Gray解釋說:“這就是為什么很難堵住數(shù)據(jù)泄露的原因?!蹦憧梢垣@取一組電子郵件地址數(shù)據(jù)、另一組地理位置元數(shù)據(jù)和第三組搜索查詢數(shù)據(jù),并運行足夠的這些數(shù)據(jù)組合,產(chǎn)生能生成姓名、出生日期和位置的搜索字符串,重新識別出與某一電子郵件地址相關(guān)的人員?!?/p>
Frank警告說,這些潛在的有害數(shù)據(jù)甚至會延緩企業(yè)的數(shù)據(jù)策略。他說:“擁有大量基本上無用的信息會增加人們花在構(gòu)建和測試模型上的時間,從而使分析有用數(shù)據(jù)變得更加困難。為了解決這個問題,企業(yè)應(yīng)該主動判斷信息帶來的價值,并測試這些數(shù)據(jù),看看它是否具有預(yù)測價值?!?/p>
微軟云與人工智能部執(zhí)行副總裁Scott Guthrie建議減少存儲的數(shù)據(jù),并盡可能匿名。他說:“如果能夠遠程監(jiān)測網(wǎng)絡(luò)搜索,你會存儲進行網(wǎng)絡(luò)搜索的人的確切位置嗎?或者,你在街道或者其他級別上進行匿名處理,這樣無論你是否有數(shù)據(jù)泄露,都不會侵犯隱私了?”
如果你沒有數(shù)據(jù),就不會有人濫用數(shù)據(jù)。
Callas說:“不要問,‘我為什么要丟掉這些數(shù)據(jù)?而是要問,‘我為什么要保留它?除非你知道為什么要保留數(shù)據(jù),否則就應(yīng)該丟掉數(shù)據(jù),因為在現(xiàn)在的環(huán)境中,我們能以更低的成本收集更多、更新的數(shù)據(jù)?!边@可以是在自己的網(wǎng)站上提供某種選項,填寫調(diào)查問卷進行獎勵,或者對測試軟件程序進行遠程監(jiān)測。
他指出,扔掉PII后,可以認為,“不管怎樣,這才是你想要的?!?/p>
Callas說:“如果公交管理部門因為想知道人們在做什么而進行調(diào)查,那么就真得需要準確的數(shù)據(jù),并且為這些數(shù)據(jù)付費是有意義的,但是你應(yīng)該通過數(shù)據(jù)過濾機(data grinder)來運行這些數(shù)據(jù),丟掉原始數(shù)據(jù),然后在一年內(nèi)徹底處理掉這些數(shù)據(jù)。比如,如果你想弄清楚要修哪條道路,就不需要那些剛剛修過的道路的數(shù)據(jù),特別是數(shù)據(jù)顯示你已經(jīng)修過這些道路了。剛剛修好的道路的每一條數(shù)據(jù)都是有毒的:沒有好處,只有壞處?!?/p>
對數(shù)據(jù)的保存時間也要有明確的政策,比如日志文件的保存時間不超過一周(調(diào)試除外)。Callas建議建立一些“強制職能”,以確保做出這些決定?!叭绻艺f,‘你放進我的數(shù)據(jù)倉庫的所有東西,十年后我都會刪除,除非你告訴我你為什么要保留它,那么你就得想清楚為什么要把數(shù)據(jù)放進數(shù)據(jù)倉庫?!?/p>
Mary Branscombe是一位自由撰稿人,他二十多年來一直致力于技術(shù)寫作,其寫作主題涵蓋了從編程語言、Windows和Office的早期版本,到最早的網(wǎng)絡(luò)以及消費類小工具和家庭娛樂的各個方面。
原文網(wǎng)址
https://www.cio.com/article/3405129/data-deletion-your-data-strategys-greatest-defense.html