袁鳳霞
摘要:在大數(shù)據(jù)時代,企業(yè)實現(xiàn)數(shù)據(jù)共享,可以減少數(shù)據(jù)采集、資料收集等重復勞動和相應費用。但在共享并使用數(shù)據(jù)的道路上,我們必須面對的一個問題是數(shù)據(jù)隱私,它已成為制約大數(shù)據(jù)共享進一步發(fā)展的最大障礙。在銀行系統(tǒng)中,由于各銀行考慮到客戶及企業(yè)隱私,各銀行間并不進行數(shù)據(jù)共享,這導致一些通過數(shù)據(jù)共享可以非常簡單的業(yè)務操作也要消耗大量的人力物力來解決。文章提出的隱私保護實體匹配技術在保證個人和企業(yè)隱私的前提下,解決了上述問題,闡述了隱私保護實體匹配技術的概念,并提出了兩個針對銀行系統(tǒng)具體問題的解決框架。
關鍵詞:實體匹配;隱私;密碼學;金融
隨著計算機應用越來越廣泛,各行業(yè)各部門對信息的需求也越來越廣泛,要求越來越高。但由于數(shù)據(jù)由不同用戶以不同方式建模,導致了各數(shù)據(jù)源之間不同程度的異構,使得相關信息無法方便地統(tǒng)一起來。數(shù)據(jù)集成技術就是為實現(xiàn)各種數(shù)據(jù)源間信息的交流和共享而發(fā)展起來的。大數(shù)據(jù)共享在金融、醫(yī)療、政府等領域都具有廣泛而深遠的意義,然而,在大數(shù)據(jù)共享的同時,不得不考慮到隱私問題。例如,在金融行業(yè),各銀行在為個人提供外匯業(yè)務時,并不知情該客戶是否己在其他銀行辦理過此項業(yè)務,各銀行間的數(shù)據(jù)不共享可能導致一些違規(guī)操作。又例如,客戶在申請信用卡前,各銀行會調取該客戶的個人信用記錄,該行為無疑侵犯了客戶的個人隱私。
隱私保護技術[1-2]的出現(xiàn)就是為了解決上述問題。具體地說,實施數(shù)據(jù)隱私保護主要考慮以下兩個方面:(1)如何保證數(shù)據(jù)應用過程中不泄露隱私;(2)如何更有利于數(shù)據(jù)的應用。當前,隱私保護領域的研究工作主要集中于如何設計隱私保護原則和算法更好地達到這兩方面的平衡。
1 隱私下的實體匹配概述
隱私保護下的實體匹配是將描述現(xiàn)實世界中同一實體的不同表現(xiàn)形式的信息進行匹配的過程[2-3],該過程中除了最終匹配結果被數(shù)據(jù)源間共享,其他信息均未泄露。隱私保護下的實體匹配的輸入為結構己知的記錄集合,即關系數(shù)據(jù)庫中的表,其輸出是兩個數(shù)據(jù)庫中匹配上的實體的ID對。匹配的流程如圖1所示。
隱私保護下記錄匹配的流程主要分為分塊、比較、決策3個核心過程。
(1)分塊過程:在實體匹配中,Blocking占有非常重要的地位。Blocking算法可以將記錄進行分塊,從而減少比較次數(shù),進而提高實體匹配的效率。應用隱私保護技術在安全的環(huán)境下對數(shù)據(jù)源進行分塊處理。
(2)比較過程:根據(jù)模式匹配信息,在隱私保護技術的保護下分別對候選匹配對中各屬性進行相似度計算,得到屬性間的相似度。
(3)決策過程:采取特定策略將各屬性的相似度結合成為兩條記錄的相似度,例如將各屬性的相似度進行加權求和。最后通過判斷兩條記錄的相似度是否大于閾值,來確定兩條記錄是否描述同一實體。
2 銀行系統(tǒng)存在的隱私保護問題及解決框架
2.1各銀行間數(shù)據(jù)不共享導致的外匯違規(guī)操作問題
在銀行系統(tǒng)中的外匯業(yè)務規(guī)定,每位客戶每天外幣轉賬不得超過5 000美元。但如果某位客戶己在銀行B轉出外幣5 000美元,又到銀行A繼續(xù)辦理外幣轉賬業(yè)務則可以正常辦理。該現(xiàn)象說明由于銀行間的數(shù)據(jù)不共享,導致一些違規(guī)操作的存在。但將各銀行的客戶信息進行共享又會導致企業(yè)內部隱私信息的泄露。因此匹配出同一客戶在不同銀行辦理的所有外匯業(yè)務,并且不泄露除了該項信息以外的其他客戶信息是亟待解決的問題。
應用框架如圖2所示,可以保旺在各銀行的客戶信息均未被泄露的前提下,匹配出該位客戶己在銀行B轉出過5 000美元。該技術即為隱私保護實體匹配技術,因此,實體匹配中隱私保護問題的研究成為當今熱點。該技術在接下來的部分會具體提到。
2.2在客戶辦理信用卡時,個人信用記錄泄露問題
在某位客戶在辦理信用卡時,地方銀行會從中國人民銀行調取該位客戶的個人信用記錄信息,該行為侵犯了客戶的個人隱私。
個人信用記錄保護框架(見圖3)可以解決以上問題。通過在中國人民銀行設立信用評測系統(tǒng),各地方銀行只需向中國人民銀行傳入客戶信息,信用評測系統(tǒng)會自動評測該客戶信用,判斷其是否符合開卡標準并返回給各銀行。這樣避免了該客戶個人信用記錄的泄露。
3 結語
本文討論了實體匹配中隱私保護的有關問題并提出了兩個解決銀行系統(tǒng)內具體問題的解決框架。通過本文介紹的隱私保護的實體匹配技術,可以在不暴露隱私信息的情況下得到實體匹配的結果。隱私保護的實體匹配技術的研究,對于大數(shù)據(jù)共享具有深遠的意義。