摘要:在現(xiàn)代信息社會,數(shù)據(jù)隱私保護成為公眾關(guān)注的焦點。隨著互聯(lián)網(wǎng)用戶對個人信息安全的日益重視,信息檢索領(lǐng)域的隱私保護研究變得至關(guān)重要。隱私保護關(guān)鍵詞檢索技術(shù)旨在在不泄露用戶查詢意圖的情況下,提供安全、保護隱私的檢索服務(wù)。盡管現(xiàn)有技術(shù)在滿足基本需求方面取得了進展,但如何在保持效率的同時減少隱私泄露風(fēng)險,仍是一個挑戰(zhàn)。為此,本文對隱私保護關(guān)鍵詞檢索技術(shù)進行了詳細回顧,系統(tǒng)地分析了當前主流技術(shù)的原理、優(yōu)勢與不足。研究發(fā)現(xiàn),盡管已有技術(shù)能夠?qū)τ脩舨樵冞M行加密處理,防止敏感信息直接泄露,但在查詢模式、訪問模式與返回結(jié)果之間,仍存在著潛在的隱私泄露風(fēng)險。針對這一問題,本文提出了一系列改進方向,以增強隱私保護的效果。此外,當前的隱私保護技術(shù)在實際應(yīng)用中面臨諸多挑戰(zhàn),這些挑戰(zhàn)涉及技術(shù)增強、隱私合規(guī)等多個方面。通過對隱私保護關(guān)鍵詞檢索相關(guān)前沿技術(shù)的融合與創(chuàng)新,有望為解決這些技術(shù)問題提供新的思路和方案,推動隱私保護技術(shù)向更高水平發(fā)展。本文最后對隱私保護關(guān)鍵詞檢索技術(shù)的未來發(fā)展方向和創(chuàng)新應(yīng)用模式進行了展望。
關(guān)鍵詞:可搜索加密;隱匿查詢;關(guān)鍵詞查詢
1 "引言
隨著數(shù)字經(jīng)濟時代的到來,數(shù)據(jù)被賦予了前所未有的價值和意義,已成為國家戰(zhàn)略層面的核心生產(chǎn)要素。這種認識上的轉(zhuǎn)變不僅深刻影響著人們的社會生活和經(jīng)濟活動,而且對國家治理模式和整體競爭力產(chǎn)生了根本性的影響。如今,國家間的競爭焦點從傳統(tǒng)的土地、人口、資本和資源,轉(zhuǎn)向了對數(shù)據(jù)資產(chǎn)的掌控與利用。未來,一個國家的數(shù)據(jù)規(guī)模、數(shù)據(jù)的開發(fā)與應(yīng)用能力,以及對數(shù)據(jù)的控制權(quán),都將成為衡量其實力的關(guān)鍵指標,而“數(shù)據(jù)主權(quán)”則將成為繼邊防、海防、空防之后大國之間的新競技場。
隨著數(shù)據(jù)應(yīng)用的逐漸豐富,人們面臨的數(shù)據(jù)泄露風(fēng)險也越來越嚴重。針對數(shù)據(jù)隱私泄露問題,以歐美為代表的世界上各個國家都頒布了嚴格的數(shù)據(jù)保護法案。比如1974年12月,美國國會通過了保護公民隱私權(quán)和知情權(quán)的《隱私法案》;1981年歐洲委員會發(fā)布了第一部關(guān)于數(shù)據(jù)保護的國際公約《個人數(shù)據(jù)自動化處理中的個人保護公約》;2016年4月14日歐洲議會和歐盟理事會通過了史上最嚴的隱私法案《通用數(shù)據(jù)保護條例》(簡稱“GDPR”)等。從2015年開始,我國也陸續(xù)出臺了《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》《個人信息保護法》等數(shù)據(jù)安全相關(guān)法律法規(guī),為數(shù)據(jù)安全建設(shè)提供了制度支撐和法律保障。這些法律法規(guī)一方面保護公民的個人信息免受組織、機構(gòu)、企業(yè)等非法收集;另一方面是為數(shù)據(jù)共享、數(shù)據(jù)流通等提供法律依據(jù)和標準,避免數(shù)據(jù)的濫用和數(shù)據(jù)孤島的形成。
在此背景下,隱私保護關(guān)鍵詞檢索(Privacy- preserving Keyword Search,PKS)技術(shù)成了一個關(guān)鍵領(lǐng)域。其主要價值和貢獻體現(xiàn)在以下幾個方面:首先,PKS技術(shù)通過加密和訪問控制等手段,能夠在保護個人隱私和敏感信息的同時,確保只有授權(quán)人員能夠訪問和使用這些信息,有效降低非法獲取和濫用個人隱私信息的風(fēng)險。其次,它支持在保護隱私的前提下進行大數(shù)據(jù)分析和共享,使用戶在進行關(guān)鍵詞搜索時無需暴露隱私細節(jié),從而在個人隱私保護和數(shù)據(jù)利用之間找到平衡點。此外,通過提供加密和訪問控制等機制,PKS技術(shù)對于幫助組織遵守包括《通用數(shù)據(jù)保護條例》(GDPR)在內(nèi)的多種國內(nèi)外數(shù)據(jù)保護法規(guī)中的隱私保護和數(shù)據(jù)安全要求扮演著關(guān)鍵角色,從而支持組織實施合規(guī)的數(shù)據(jù)處理和管理策略。綜上所述,PKS技術(shù)不僅繼承了傳統(tǒng)數(shù)據(jù)庫的檢索功能,還提供了安全、高效且保護隱私的查詢服務(wù),使得在隱私保護的前提下數(shù)據(jù)的交互共享成為可能。
本文探討了基于關(guān)鍵詞的隱私信息檢索技術(shù)的研究背景及其深遠的研究意義。為了充分了解PKS技術(shù)的發(fā)展過程,本文對已有的相關(guān)研究進行了細致的梳理和分析評估,具體涉及該檢索技術(shù)的技術(shù)原理、算法、模型以及數(shù)據(jù)集等方面的內(nèi)容,并從隱私性、安全性和效率三個角度進行了細致的對比分析,從而勾勒出該技術(shù)領(lǐng)域的研究現(xiàn)狀、存在的問題以及所面臨的挑戰(zhàn)。本文從應(yīng)用場景、實際應(yīng)用及案例分析三個方面展示了PKS技術(shù)的實用性和可行性,并探討了目前研究中的關(guān)鍵問題和潛在技術(shù)風(fēng)險。最后,本文展望了PKS技術(shù)的未來趨勢,并針對PKS技術(shù)應(yīng)用提出了建議。
2 "PKS技術(shù)概述
2.1 "PKS技術(shù)分類
PKS技術(shù),即隱私保護關(guān)鍵詞檢索技術(shù),根據(jù)查詢對象的可見性,分為兩大類:明文PKS(也稱為公開數(shù)據(jù)庫查詢)和密文PKS(也稱為私有數(shù)據(jù)庫查詢)。其中,PIR技術(shù)(Private Information Retrieval,隱私信息檢索或匿蹤查詢)[1-5]是面向明文檢索的PKS技術(shù)的典型代表。PIR主要應(yīng)用于多方數(shù)據(jù)合作場景,如安全多方計算(Secure Multi-party Computation,簡稱MPC)和數(shù)據(jù)聯(lián)合分析,旨在保護搜索模式下的數(shù)據(jù)隱私。具體來說,PIR技術(shù)允許用戶在不暴露自己的查詢內(nèi)容的情況下,從多個數(shù)據(jù)提供方中檢索信息。另一方面,代表面向密文檢索的PKS技術(shù)是可搜索加密技術(shù)(Searchable Encryption,簡稱SE)[6-17],通常用于私有外包數(shù)據(jù)查詢等場景,以保護訪問模式下的數(shù)據(jù)隱私。這種技術(shù)允許在加密數(shù)據(jù)上執(zhí)行搜索操作,而無需先對數(shù)據(jù)解密,從而保護數(shù)據(jù)內(nèi)容不被查詢者或第三方窺探。Boneh等人[15]首次嘗試將SE與PIR結(jié)合起來,其方案旨在同時保護訪問模式和搜索模式的隱私。關(guān)于訪問模式、搜索模式等其他隱私模
型的詳細說明,可參見論文的第2.3.2節(jié)。
根據(jù)服務(wù)器的數(shù)量,可以將PKS方案分為單服務(wù)器PKS方案和多服務(wù)器PKS方案。單服務(wù)器PKS方案[2,18]使用單臺服務(wù)器處理所有查詢請求,容易出現(xiàn)性能問題。同時,這類方案的安全性依賴于嚴格的安全假設(shè),因此可能具有一定的安全風(fēng)險。多服務(wù)器PKS方案[1,19]可以將查詢請求分散到多個服務(wù)器,從而提高查詢效率和安全性,但是與單服務(wù)器PKS方案相比,這類方案占用的服務(wù)器資源較多,且其查詢算法也更為復(fù)雜。此外,多服務(wù)器PKS方案中需要考慮多服務(wù)器串通的問題。所以,單服務(wù)器PKS方案適用于數(shù)據(jù)量小、查詢頻率較低的使用場景,而多服務(wù)PKS方案適用于數(shù)據(jù)量較大、查詢頻率較高的場景。目前,對多服務(wù)器PKS方案的研究比較少,當前的相關(guān)技術(shù)研究多集中在使用單臺服務(wù)器進行多關(guān)鍵詞、多用戶、多查詢模式等場景上。對多服務(wù)器PKS方案的魯棒性進行探索[20-22]是當前的研究熱點之一。
按照所支持的用戶角色,可以將PKS方案分為單用戶PKS方案和多用戶PKS方案。這種分類方法主要是針對使用SE技術(shù)實現(xiàn)的PKS方案(以下簡稱“SE PKS方案”)。在單用戶SE PKS方案[6-15]中,數(shù)據(jù)擁有方和查詢方為同一方。而多用戶SE PKS方案[16-17,23]中包括數(shù)據(jù)擁有方、數(shù)據(jù)存儲方和數(shù)據(jù)查詢方,有的方案中還包括授權(quán)中心[24]。比如,文獻[23]中的方案中只有一個數(shù)據(jù)所有方,有多個數(shù)據(jù)查詢方;文獻[16]中的方案允許多個用戶進行讀、寫操作,這相當于有多個數(shù)據(jù)所有方。其中,寫操作包括刪除和更新操作,對安全性要求高,需要在加密環(huán)境下解決索引更新、版本控制、安全訪問、數(shù)據(jù)存儲等問題。另外,在多用戶SE PKS方案中,一般通過共享密鑰的方式允許其他數(shù)據(jù)查詢方進行數(shù)據(jù)查詢。在使用PIR實現(xiàn)的PKS方案(以下簡稱“PIR PKS方案”)中,在多用戶場景下,除了要保證用戶的查詢隱私,還要保證每個用戶的查詢行為的私密性,也就是說,服務(wù)器既不能獲知發(fā)起查詢請求的是哪一個用戶,也不能獲知用戶請求查詢了哪些數(shù)據(jù)。
按照查詢關(guān)鍵詞的數(shù)量,可以將PKS方案分為單關(guān)鍵詞PKS方案和多關(guān)鍵詞PKS方案。多關(guān)鍵詞PKS方案[5,9,25-27]包括多關(guān)鍵詞聯(lián)合查詢、布爾查詢、非查詢、子集查詢、范圍查詢等技術(shù)方案。多關(guān)鍵詞查詢的最大困難是如何拆解多個關(guān)鍵詞信息,然后對每個關(guān)鍵詞的查詢結(jié)果進行隱私計算,從而返回最終的查詢結(jié)果。目前,大多數(shù)多關(guān)鍵詞PKS方案都不具有實用性。
早期的PKS(隱私保護關(guān)鍵詞檢索)方案主要聚焦于保護檢索過程中的隱私,并未對查詢結(jié)果進行優(yōu)化處理。隨著技術(shù)的發(fā)展,后續(xù)研究[17,26,28]開始關(guān)注個性化檢索的問題。具體來說,文獻[17]中引入了一種機制,其允許通過狀態(tài)匹配文件來確認查詢結(jié)果與檢索要求的相關(guān)性;文獻[26]中則提出了一種用戶興趣模型,為了抵御矩陣攻擊,該模型融入了隨機變量,這導(dǎo)致返回結(jié)果會出現(xiàn)小幅誤差;文獻[28]中的方案則更進一步,依據(jù)查詢關(guān)鍵詞的相關(guān)性來返回數(shù)據(jù),能夠?qū)崿F(xiàn)100%的準確匹配。這些技術(shù)研究進展表明,PKS技術(shù)不僅在隱私保護方面取得了重大進步,在提高檢索效率和準確性方面也取得了顯著成果。
2.2 "PKS技術(shù)發(fā)展過程
PKS技術(shù)的發(fā)展經(jīng)歷了較復(fù)雜的技術(shù)演進過程,具體如圖1所示。本文按照時間順序,深入探討PIR PKS技術(shù)、SE PKS技術(shù)的技術(shù)原理、算法、模型以及應(yīng)用的數(shù)據(jù)集,以及融合了多種技術(shù)的PKS系統(tǒng)。
圖1 "PKS技術(shù)發(fā)展演進過程
Fig. 1 "The Evolutionary Process of PKS Technology Developmen
2.2.1 "PIR PKS技術(shù)
Chor等人[29]在1995年首次提出了信息論安全(Information-theoretic Security)的PIR技術(shù)。在信息論安全這一安全性設(shè)定中,效率以更為精確的方式來衡量,因此,基于信息論安全性的PIR更具挑戰(zhàn)性。在文獻[30]中,作者對文獻[29]中的原始方案進行了改進,給出了更詳細的安全性證明,并提出了基于塊(Block)的PIR查詢方法,此后提出的PIR PKS方案中的大多數(shù)都基于該方案的思想,實用性也與該技術(shù)方案相當。文獻[29]和[30]中的PIR方案都是基于索引構(gòu)建的,要求在查詢之前就已經(jīng)知道要查詢的數(shù)據(jù)的索引信息,在實踐中可能無法完全滿足該要求,因此其應(yīng)用場景有限。此外,這兩個方案要求備份數(shù)據(jù)庫的數(shù)量≥2,且彼此之間不得進行任何形式的作弊或協(xié)作。
1997年,Kushilevitz和Ostrovsky[2]首次提出了單服務(wù)器PIR PKS方案,該方案摒棄了此前的PIR方案對數(shù)據(jù)庫副本的依賴,是基于計算的隱私保護技術(shù)的重要進展。該方案的主要思想是:首先將查詢分解為多個部分,每個部分都是一個二次剩余(Quadratic Residue,QR)或二次非剩余(Quadratic Nonresidue,QNR)的乘積;然后,將每個部分分別發(fā)送到服務(wù)器,服務(wù)器針對每個部分計算其QR或QNR,然后將查詢結(jié)果發(fā)送給用戶;最后,用戶利用這些結(jié)果重建原始查詢,進而檢索所需信息,而數(shù)據(jù)庫無法準確知曉用戶的查詢內(nèi)容。該方案的通信復(fù)雜度為O(nc),其中c是常數(shù),n是數(shù)據(jù)庫中的條目數(shù)。由于該方案的通信復(fù)雜度較高,其在實際場景中的應(yīng)用受到限制。針對PIR的安全性,文獻[2]中提出了三個核心問題:一是如何確保數(shù)據(jù)庫返回結(jié)果正確且數(shù)據(jù)未被篡改。文中提出的解決策略是增強數(shù)據(jù)庫的數(shù)據(jù)驗證能力,比如通過在公共媒體(例如《紐約時報》)或區(qū)塊鏈上公布數(shù)據(jù)庫的哈希值來保證數(shù)據(jù)的完整性。二是如何阻止用戶惡意訪問數(shù)據(jù)庫中的數(shù)據(jù)。對此,文獻[2]中并未給出具體解決方案。為解決該問題,可使用文獻[31]中提出的對稱PIR(Symmetric PIR,SPIR)方案,該方案通過輔助數(shù)據(jù)庫來最小化數(shù)據(jù)庫間的交互,實現(xiàn)了信息論意義下的亞線性通信復(fù)雜度。文獻[10]則提出了一種基于不經(jīng)意多項式評估(Oblivious Polynomial Evaluation,OPE)和同態(tài)加密技術(shù)的解決方案,該方案支持惡意安全模型下的隱私保護查詢。三是如何防止數(shù)據(jù)庫向用戶泄露過多數(shù)據(jù)。針對該問題,文獻[2]中同樣未給出具體解決方案。為解決該問題,文獻[32]中的方案使用了不經(jīng)意傳輸(Oblivious Transfer,OT)方法,但該方案無法在單輪OT中實現(xiàn)隱私保護查詢。值得注意的是,上述問題一和問題三是現(xiàn)有PKS方案面臨的普遍問題,而問題二主要存在于支持寫操作的PIR方案。此后的研究主要是圍繞這些關(guān)鍵問題來展開的。
1998年,Chor等人[1]首次提出了基于關(guān)鍵詞的PIR(Keyword PIR)方案。文獻[1]中提出了一種計算安全的PIR方案,即該PIR方案中假定敵手的計算資源受限。該方案中,算法的基本思想是將字符串 插入到數(shù)據(jù)結(jié)構(gòu)中,用戶對數(shù)據(jù)結(jié)構(gòu)進行不經(jīng)
意遍歷,直到找到所需的關(guān)鍵詞,如果成功則返回對應(yīng)的數(shù)據(jù)地址?;诖怂枷耄墨I[1]中提出了如下三種查找方案:
(1)基于二分查找的PIR方案,其通信復(fù)雜度為:
(1)
其中, 是索引的數(shù)量,n是字符串數(shù)量,k是數(shù)據(jù)庫備份數(shù), 是文獻[30]中的PIR方案的通信復(fù)雜度。
(2)基于Trie樹的PIR方案,其通信復(fù)雜度為:
(2)
(3)基于完美哈希技術(shù)的PIR方案,其通信復(fù)雜度為:
(3)
由此可見,文獻[1]中所述三種方案的通信復(fù)雜度
均隨著數(shù)據(jù)庫中字符串數(shù)量和字符串長度的增加而呈指數(shù)級增長,通信開銷較大,這導(dǎo)致了該方案在實際應(yīng)用場景中具有局限性。
2004年,Ogata和Kurosawa[3]提出了一種不經(jīng)意關(guān)鍵詞搜索(Oblivious Keyword Search,OKS)方案,該方案能夠兼顧用戶和數(shù)據(jù)庫的安全性,特別適用于明文環(huán)境下的安全檢索。該方案中包含兩種不同的PIR方法:
(1)基于多次RSA求逆問題的RSA盲簽名k-out- of-n OKS( )協(xié)議,這種協(xié)議可應(yīng)用于諸如電子
現(xiàn)金系統(tǒng)等領(lǐng)域,通過利用RSA盲簽名的特性,增強
交易的安全性和匿名性?;?,文獻[3]提出了
一種改進的自適應(yīng)k-out-of-n oblivious transfer( )
協(xié)議。
(2)基于多項式重構(gòu)問題和OPE的 協(xié)議,
通過多項式重構(gòu)和OPE技術(shù)來保證檢索過程的隱私性和結(jié)果的準確性。
文獻[3]中的協(xié)議在數(shù)據(jù)供應(yīng)商是惡意的情況下也能保證安全性。此外,文獻[3]中還深入研究了單關(guān)鍵詞多匹配的場景,通過特定的設(shè)置對協(xié)議進行優(yōu)化。文獻[3]中兩個方案的承諾大小為O(nB),其中nB是數(shù)據(jù)庫大小,與關(guān)鍵詞集合大小無關(guān)。在大數(shù)據(jù)庫應(yīng)用場景,其效率較低。同時,文獻[3]不支持多關(guān)鍵詞檢索。
2005年,F(xiàn)reedman等人[10]基于文獻[1]和文獻[2]中的研究成果,開發(fā)了一種新的PIR實例。該實例利用OPE和同態(tài)加密技術(shù)為雙方提供隱私保護。Freedman等人構(gòu)建了兩種PKS協(xié)議:一種是基于OPE的非自適應(yīng)PKS協(xié)議,另一種是結(jié)合半私有關(guān)鍵詞搜索和r-OPRF(Relaxed Oblivious Pseudorandom Functions,松弛型不經(jīng)意偽隨機函數(shù))的PKS協(xié)議。在OPE基礎(chǔ)上的非自適應(yīng)PKS協(xié)議的核心思想是將
數(shù)據(jù)庫條目 編碼為多項式的
值,即定義多項式Q使得 (xi和分別表示
數(shù)據(jù)條目的關(guān)鍵詞或?qū)傩裕籶i表示與xi關(guān)聯(lián)的值)。
與文獻[3]中的OPE應(yīng)用不同,F(xiàn)reedman等人的設(shè)計允許k次多項式生成(k+1)個獨立方向(或系數(shù)),從而在單輪通信中就能實現(xiàn)線性通信開銷。在通信復(fù)雜性方面,文獻[10]中提出的協(xié)議只與關(guān)鍵字域的大小呈對數(shù)關(guān)系,并且與記錄數(shù)量呈多對數(shù)關(guān)系,這表示即便面對惡意客戶端,這些協(xié)議也僅需一輪交互即可完成。對于基于r-OPRF的任意數(shù)量關(guān)鍵詞檢索協(xié)議,F(xiàn)reedman等人采用了一種理論上的、基于決策Diffie-Hellman假設(shè)(DDH)的、通過OT構(gòu)建的寬松概念OPRF。根據(jù)Freedman等人的設(shè)想,未來的研究可以探索高效的、完全自適應(yīng)的OPRF和支持任意數(shù)量關(guān)鍵詞檢索的協(xié)議,并且基于OT的黑盒結(jié)構(gòu)可能成為一個新的研究方向。
2005年,Ostrovsk和Skeith[8]基于公鑰加密提出了擴展查詢語義的PIR方案。該方案不僅采用了流模型以支持任意大小的數(shù)據(jù)源并允許用戶在不知道流大小的情況下進行查詢,而且優(yōu)化了文獻[10]中基于關(guān)鍵詞的PIR方案,實現(xiàn)了對一組關(guān)鍵詞及其否定進行“OR”查詢的效率提升,以及對兩組關(guān)鍵詞執(zhí)行“AND”查詢的能力,同時還支持“非”操作查詢。Ostrovsk和Skeith在文獻[8]中提出了三種PIR方案:
(1)基于Paillier密碼的過濾系統(tǒng),該系統(tǒng)設(shè)計了一個依賴于 -隱藏假設(shè)的模型,能夠?qū)⒊绦虼笮p小到小于字典大小。
(2)基于任意同態(tài)加密的抽象構(gòu)造方案,該方法中采用抽象方法來構(gòu)建加密算法,增強了安全性和靈活性。
(3)基于語義擴展的PIR方案,該方案擴展了搜索語義,提供了更復(fù)雜的查詢能力。
文獻[8]中的算法均基于公鑰程序混淆器,有效隱藏了過濾和搜索的內(nèi)部邏輯與算法,從而提高了查詢過程的安全性。然而,由于緩沖區(qū)的限制,這些方案可能面臨數(shù)據(jù)泄露的風(fēng)險,并且由于緩沖區(qū)大小有限,字典空間也受到限制。此外,Ostrovsky和Skeith采用的析取搜索方法使過濾時間與文檔大小成線性關(guān)系,導(dǎo)致效率較低,不適用于處理大型文件。
為改進文獻[8]中的方案,2012年,Liu等人[17]引入了聚合和分布層(Aggregation and Distribution Layer,ADL),實現(xiàn)了可排名的高效信息檢索查詢(Efficient Information Retrieval for Ranked Query,EIRQ)方案,降低了在云服務(wù)中的查詢成本。EIRQ的核心策略是在將文件映射到緩沖區(qū)之前,利用隱私保護掩碼矩陣來過濾掉特定比例的文件。EIQR首先為每個用戶設(shè)置1~r個等級,然后通過(1-i/r)得到Rank-i的文件。EIRQ的計算成本與關(guān)鍵詞規(guī)模成冪次關(guān)系。文獻[17]的少量關(guān)鍵詞檢索實驗結(jié)果表明ADL的計算成本介于14.8664秒至14.9270秒之間。此外,EIRQ和ADL中會使用通信緩沖區(qū)來進行輔助查詢,在每個等級有五個用戶查詢四個常用關(guān)鍵字的場景中,EIRQ生成的緩沖區(qū)大小僅為439KB,而ADL的緩沖區(qū)則達到了834KB。因此,盡管Liu等人的EIRQ方案實現(xiàn)了可排序的多用戶查詢功能,但其計算復(fù)雜度、存儲需求和通信復(fù)雜度仍然難以滿足實際應(yīng)用的需求。
2016年,Melchor等人[18]基于文獻[4,10]等的研究提出了一種單服務(wù)器計算PIR(computational PIR,cPIR)協(xié)議XPIR。該協(xié)議有效地整合了數(shù)論變換-中國剩余定理(Number Theoretic Transform - Chinese Remainder Theorem,NTT-CRT)技術(shù)和Newton商的預(yù)計算,以提升查詢生成、回復(fù)生成和回復(fù)提取的計算效率。XPIR協(xié)議采用基于環(huán)學(xué)習(xí)帶誤差(Ring Learning with Errors,Ring-LWE)的公鑰加密算法,增強了對明文攻擊的抵抗力。此外,該協(xié)議內(nèi)嵌了一個優(yōu)化器,用于在基于Paillier的cPIR方案和基于Ring-LWE的cPIR方案之間作出選擇。通常情況下,優(yōu)化器偏向于選用基于Ring-LWE加密的cPIR方案,但在帶寬較低的情形下,則轉(zhuǎn)向選擇基于Paillier的方案。文獻[18]中的實驗表明,XPIR在普通CPU上就可以實現(xiàn)對多個千兆比特的處理,說明其在計算效率方面具有顯著優(yōu)勢。
2022年,Henzinger等人[33]基于文獻[2]中的單服務(wù)器PIR方案提出了SimplePIR和DoublePIR的方案,其吞吐量超越了現(xiàn)有單服務(wù)器PIR協(xié)議,并接近于多服務(wù)器協(xié)議的水平。SimplePIR允許客戶端一次性檢索數(shù)據(jù)庫的整個列。盡管Henzinger等人在文獻[33]中未直接提出PIR PKS方案,但結(jié)合文獻[1]中的短關(guān)鍵詞填充技術(shù),SimplePIR可以用于實現(xiàn)固定關(guān)鍵詞長度的PIR PKS方案。SimplePIR的在線通信量約為數(shù)百KB。DoublePIR,作為一種雙服務(wù)器PIR方案,支持通過遞歸調(diào)用SimplePIR來獲取兩臺服務(wù)器的數(shù)據(jù)。SimplePIR和DoublePIR分別達到了10.0GB/s/core(或81%的內(nèi)存帶寬)和7.4GB/s/core的吞吐量。雖然DoublePIR吞吐量較低,但是對于一字節(jié)記錄的數(shù)據(jù)庫,DoublePIR將提示縮小到大約16MB,并且這一大小與數(shù)據(jù)庫中記錄的數(shù)量無關(guān)。然而,值得注意的是,SimplePIR和DoublePIR的實施需要客戶端下載一個相對較大的“提示”,對于千兆字節(jié)級別的數(shù)據(jù)庫而言,提示的大小可能達到數(shù)十兆字節(jié)。因此,Henzinger等人提出的方案更適用于
小型數(shù)據(jù)庫和計算資源受限的PIR PKS應(yīng)用場景。
綜上所述,盡管PIR PKS技術(shù)在性能、安全性和通信復(fù)雜度等方面仍有較大的研究空間,但其在實際工程應(yīng)用中的應(yīng)用途徑已開始顯現(xiàn)。在這些應(yīng)用中,隱私集合求交(Private Set Intersection,PSI)技術(shù)經(jīng)常與基于索引的PIR技術(shù)相結(jié)合來執(zhí)行查詢。一個典型的例子是在隱語(SealPIR)框架[34-35]中的應(yīng)用,這種框架展示了PSI和PIR技術(shù)的有效結(jié)合。需要指出的是,雖然基于關(guān)鍵詞的PIR算法在其核心流程上與基于索引的PIR有一定相似性,但兩者在搜索過程上有所不同。基于關(guān)鍵詞的PIR專注于實現(xiàn)對關(guān)鍵詞信息的隱私保護檢索,而基于索引的PIR則更側(cè)重于索引本身的隱私性。這種差異意味著,盡管兩者在算法設(shè)計上有共通之處,但在實際的查詢處理和隱私保護機制上則需要根據(jù)具體的應(yīng)用場景進行適當?shù)恼{(diào)整和優(yōu)化。算法1描述了基于關(guān)鍵詞檢索的單數(shù)據(jù)庫PIR通用流程。
2.2.2 "SE PKS技術(shù)
Song等人[36]在2000年首次探討了對數(shù)據(jù)庫中加密存儲數(shù)據(jù)進行隱私查詢的問題,并提出了四種方案:基礎(chǔ)查詢方案、可控查詢方案、隱匿查詢方案及最終查詢方案。這些方案主要旨在解決隱私查詢過程中的安全性和效率問題。特別地,最終查詢方案針對用戶固定關(guān)鍵詞長度的隱匿查詢進行了優(yōu)化。Song等人同時探索了可變長查詢和基于索引的查詢方案。雖然這些方案在理論上是健全的,但它們?nèi)悦媾R著諸如統(tǒng)計攻擊和惡意服務(wù)器的潛在威脅。為了克服這些限制,后續(xù)研究如文獻[23],通過創(chuàng)建一個特殊的雙層加密結(jié)構(gòu)來實現(xiàn)可搜索加密。這種結(jié)構(gòu)允許服務(wù)器在給定一個特定陷門的情況下,僅剝離外層加密并檢驗內(nèi)層加密是否正確,而不泄露底層明文的任何信息。然而,該構(gòu)造已經(jīng)在加密安全性方面得到驗證,意味著它能有效地保護數(shù)據(jù)不被未授權(quán)訪問。然而,當考慮到其作為一個可搜索加密方案的特定要求時,其在保護搜索模式和查詢內(nèi)容方面的安全性尚未得到同等程度的證明。此外,該構(gòu)造的一個顯著局限在于底層明文分布易受統(tǒng)計攻擊,并且其搜索效率與文檔集合的長度呈線性關(guān)系。后續(xù)研究如文獻[6]和文獻[9],則通過將索引與集合中每個文檔相關(guān)聯(lián)來解決這一問題。
2003年,Goh[6]在其研究中定義了一個新的安全模型,稱為IND-CKA,旨在抵御自適應(yīng)選擇關(guān)鍵字攻擊的語義安全性?;诖四P?,他開發(fā)了一個名為Z-IDX的高效安全索引,使用偽隨機函數(shù)和布隆過濾器實現(xiàn)。這種索引支持對加密文檔中關(guān)鍵詞的高效搜索,同時保護數(shù)據(jù)的安全性和隱私性。Z-IDX由四個主要算法組成:密鑰生成、陷門生成、索引構(gòu)建和索引搜索,支持基于布爾和有限正則表達式的查詢。布隆過濾器的使用有效降低了存儲空間需求,允許對文檔進行壓縮和加密,同時保持索引的獨立性。盡管Z-IDX提高了搜索效率和匿名性,但它也存在一些局限性。特別是由于布隆過濾器的概率性質(zhì),它可能產(chǎn)生誤報,盡管這一風(fēng)險可以通過增加過濾器大小來降低。此外,信息泄露的風(fēng)險仍然存在。Goh的研究不僅為加密數(shù)據(jù)搜索提供了有價值的解決方案,還為構(gòu)建加密且可搜索的審計日志和數(shù)據(jù)庫隱私查詢提供了可能性。
Boneh等人[37]在2004年首次定義了帶有關(guān)鍵字搜索的公鑰加密(Public-key Encryption with keyword Search,PEKS)的概念,并在此基礎(chǔ)上,利用基于身份的加密算法(Identity-based Encryption,IBE)[38-39]構(gòu)建了PEKS方案。Boneh等人提出了兩種公鑰可搜索加密的構(gòu)造方法:一種是基于決策Diffie-Hellman假設(shè)的有效系統(tǒng),它假設(shè)了隨機預(yù)言機(Random Oracle,RO)的存在;另一種則基于一般陷門排列,是一個有限的系統(tǒng),不必假設(shè)存在RO,但效率較低,滿足IND-ID-CCA安全標準。以傳統(tǒng)郵件服務(wù)器為例,基于PEKS方案的查詢過程為:第三方(比如Bob)使用Alice的公鑰加密發(fā)送給Alice的郵件,并將發(fā)件人地址及郵件中的關(guān)鍵詞設(shè)為可搜索的關(guān)鍵詞。利用PEKS方案,Alice可以向郵件服務(wù)器發(fā)送一個短密鑰,從而使服務(wù)器能夠識別包含特定關(guān)鍵詞 的所有消息,卻無法獲取其他信息。判斷關(guān)鍵詞是否存在的方法是: (其中Tw是陷門, );如果返回“yes”,表示關(guān)鍵詞 存在。Alice使用她的私鑰生成陷門Tw,服務(wù)器隨后將相關(guān)電子郵件發(fā)送給Alice。盡管PEKS方案提供了較強的安全性,但相比于IBE SE方案構(gòu)建起來更為復(fù)雜。此外,Boneh等人的PEKS方案主要針對少量關(guān)鍵詞信息的檢索,不適用于全文檢索。
Waters等人[7]基于文獻[6]、文獻[36]和文獻[37]中的研究結(jié)果提出了一種加密可搜索的審計日志方案,有效解決了文獻[36]和文獻[37]中關(guān)鍵詞無法隱藏的問題。Waters等人的方案包括四個步驟:設(shè)置、加密、搜索和解密。特別地,加密算法基于Boneh和Franklin在文獻[39]中提出的IBE加密算法,采用超奇異橢圓曲線上的塔特配對來實現(xiàn)。在這個方案中,任意字符串都可以作為公鑰的一部分。在文獻[7]中,Waters等人采用非對稱加密方案來克服對稱加密方案的多個缺陷。由于每個服務(wù)器僅存儲公共參數(shù),文獻[7]中的方案避免了密鑰泄露給攻擊者的風(fēng)險。然而,與可搜索對稱加密(Symmetric Searchable Encryption,SSE)方案[7,23]相比,該方案的運行成本顯著增加,主要的性能瓶頸在于每個關(guān)鍵詞的配對和模冪計算。Waters等人的方案的另一個優(yōu)點是加解密和查詢過程是解耦的,可以根據(jù)需要將它們分開計算。盡管Waters等人在文獻[7]中進一步提出了基于混合加密、索引和隨機性重用的改進方案,但這些方案仍有待完善。
Golle等人[25]首次提出了兩種允許在加密數(shù)據(jù)上進行聯(lián)合關(guān)鍵詞查詢的協(xié)議。這些協(xié)議的安全性分別建立在雙線性決策Diffie-Hellman(BDDH)困難性假設(shè)和自定義的Game HA困難性假設(shè)上。這樣設(shè)計可確保對包含關(guān)鍵詞 和 的文檔的搜索能力與單獨搜索 或 的能力不同,從而避免了生成單一關(guān)鍵詞搜索能力的可能性。在文獻[36]和文獻[37]的方案中,服務(wù)器只能識別與特定關(guān)鍵字匹配的文檔子集,不支持這些查詢的布爾組合。雖然文獻[6]中提出了布爾查詢和正則表達式的想法,但并未提供具體實現(xiàn)方法。為解決該問題,文獻[25]中提供了恒定通信量的聯(lián)合查詢功能,適合在低帶寬的手持設(shè)備上進行加密搜索。然而,這些方案主要適用于少量關(guān)鍵詞的檢索,并且只部分解決了對加密數(shù)據(jù)進行安全布爾搜索的問題。此外,這些協(xié)議在隱私保護方面存在弱點,服務(wù)器可能通過關(guān)鍵詞信息學(xué)習(xí)到文檔的非預(yù)期信息。
2005年,Chang和Mitzenmacher[9]提出了一種基于文獻[6]的隱私保護關(guān)鍵字搜索方案,該方案特別引入了索引致盲技術(shù),增強了在強大的IND2-CKA模型下的安全性。與依賴公鑰密碼系統(tǒng)的方案不同,此方案僅基于偽隨機函數(shù),使其適用于多種文件格式的搜索加密。此外,它還支持對多關(guān)鍵詞的布爾查詢,并包括安全的更新和刪除機制。方案在本地和遠程存儲字典之間做出權(quán)衡,以提高效率同時犧牲一定程度的隱私保護:處理查詢后,服務(wù)器可能識別出返回文件的共享關(guān)鍵詞。在文獻[9]的方案中,安全更新通過廢棄舊文件索引并提交新文件和索引來實現(xiàn),但這可能暴露先前查詢的信息,特別是當使用相同隨機種子時。盡管使用新的隨機種子可以減少信息泄露風(fēng)險,但偽隨機種子生成算法的不足可能引入新的安全隱患。刪除機制采用的是邏輯刪除,即在索引字典中標記索引為失效。盡管采用了索引致盲技術(shù)增加了額外的安全性,但這導(dǎo)致方案的算法效率較Goh的方案顯著降低,反映了安全性與效率之間的常見折中。
Abdalla等人在2005年提出了一種基于對稱密鑰的可搜索加密方案[40],并在2008年改進了此方案,提出了一種帶有臨時關(guān)鍵詞搜索功能的公鑰加密方案PETKS[41],該方案在加密一致性上做出了重要的提升。PETKS方案不僅將計算一致性提升至統(tǒng)計一致性,還引入了一種有效降低計算復(fù)雜度的新機制,并允許在特定時間段內(nèi)搜索特定關(guān)鍵詞的密文。此外,Abdalla等人還提供了從基于IBE方案到安全PEKS方案的轉(zhuǎn)換機制,進一步增強了方案的實用性。然而,這些方案存在一定的局限性。首先,在PETKS方案中,盡管可以在特定時間段內(nèi)測試關(guān)鍵詞的存在,但由于基于統(tǒng)計安全性,它存在一定的誤報率問題。其次,限制陷門使用時間的方法雖然可以降低隱私泄露風(fēng)險,但在IBEKS方案中,若攻擊者知曉接收者身份,仍然可以利用公共主密鑰解密接收者的所有消息。這一點暴露了關(guān)鍵詞隱私保護的不足,存在關(guān)鍵詞泄露的風(fēng)險。
2006年,Curtmola等人[23]基于早期關(guān)于SSE外包數(shù)據(jù)查詢的研究[6,9,36],提出了一個更安全且復(fù)雜度只與匹配文檔數(shù)量呈線性關(guān)系的單關(guān)鍵詞可搜索加密方案,這是第一個亞線性單關(guān)鍵詞搜索SSE方案。為證明其安全性,他們引入了兩個新的對抗模型。第一個是非自適應(yīng)安全模型,該模型專注于搜索查詢的對手,但不考慮之前的搜索陷門和搜索結(jié)果,優(yōu)于現(xiàn)有SSE構(gòu)建方法,并解決了Goh[6]的方案中存在的誤報問題。第二個是自適應(yīng)安全模型,該安全模型在選擇查詢時考慮到了對手已獲得的陷門和搜索結(jié)果。在這種安全模型下的構(gòu)建方法稱為SSE-2。為保障安全性,在SSE-2中,每個查詢需要發(fā)送更多信息,并在服務(wù)器上存儲額外的信息以防御自適應(yīng)攻擊(根據(jù)收集到的信息調(diào)整其攻擊策略)。Curtmola等人的方案不僅解決了文獻[9]中方案的文檔集合更新問題,還將更新操作的通信復(fù)雜度從線性降至對數(shù)級別。此外,他們提出的基于多用戶的SSE方案可以看作是安全多方計算的一個實例。他們的SSE構(gòu)建方法基于服務(wù)器是誠實但好奇的假設(shè)。非自適應(yīng)定義為一次性生成關(guān)鍵字的客戶提供安全性,而自適應(yīng)定義甚至對于將關(guān)鍵字生成為之前搜索結(jié)果函數(shù)的客戶也提供隱私保護。
Boneh和Waters[14]基于文獻[6]、文獻[8]、文獻[11]及文獻[12]中的研究成果,提出了一種新型公鑰系統(tǒng),支持加密數(shù)據(jù)上的聯(lián)合查詢、子集查詢和范圍查詢。他們的系統(tǒng)不僅支持常規(guī)的聯(lián)合(AND)和布爾(Boolean)查詢,還能處理更復(fù)雜的查詢類型,如比較查詢(如 )和子集查詢(如 )以及它們的任意組合(如
或 等)。
為了加密這些查詢,Boneh和Waters的方案采用了隱藏向量加密(Hidden Vector Encryption,HVE)系統(tǒng),并在復(fù)合階雙線性群中實施。關(guān)鍵的加密假設(shè)是雙線性Diffie-Hellman假設(shè)和復(fù)合三方Diffie-Hellman假設(shè),這些假設(shè)在加密的有效負載上提供了加密保護。盡管如此,由于整個系統(tǒng)的安全性依賴于Diffie- Hellman假設(shè),這可能限制了其在關(guān)鍵詞隱私保護方面的強度,存在一定的關(guān)鍵詞泄露風(fēng)險。
Bellare、Boldyreva和O’Neill[42]在2007年提出了三種加密搜索方案:Encrypt-with-Hash、RSA-DOAEP和Encrypt-and-Hash ESE。Encrypt-with-Hash方案通過將明文通過哈希函數(shù)映射到固定長度的哈希值,然后將該哈希值用作加密的“密鑰”,進而實現(xiàn)確定性加密。這一方案允許通過比較哈希值來進行快速搜索,但它并不保持加密數(shù)據(jù)的原始長度。而RSA-DOAEP方案是一個長度保持的確定性加密方案,它基于RSA加密算法,并采用了優(yōu)化的非對稱加密填充(Optimal Asymmetric Encryption Padding,OAEP)技術(shù),使得密文長度與明文長度保持一致。Encrypt-and-Hash ESE方案則結(jié)合了加密和哈希技術(shù),以支持高效的搜索,這些方案允許對加密數(shù)據(jù)進行對數(shù)時間內(nèi)的快速搜索。Bellare等人自定義了一種名為PRIV的安全模型,該模型基于RO模型和在選擇明文攻擊(Indistinguishability under Chosen-Plaintext Attack,IND-CPA)環(huán)境下的不可區(qū)分性安全標準,用以證明其方案在數(shù)據(jù)隱私保護和密文不可區(qū)分性方面的優(yōu)越性。
Bao等人[16]在2008年提出了一種多用戶環(huán)境下的加密數(shù)據(jù)私密查詢方案。這一方案與直接擴展單用戶方案[23]不同,后者通過在所有用戶間共享數(shù)據(jù)庫搜索密鑰來實現(xiàn)多用戶查詢。相反,Bao等人的方案支持在不同密鑰下進行多用戶查詢,允許多用戶進行寫和檢索操作,從而解決了文獻[23]中所述方案的限制,即僅允許單個用戶進行寫操作的實用性問題。為了增強用戶查詢的隱私性,Bao等人還引入了致盲因子r,發(fā)送盲化后的查詢Qr給服務(wù)器,這種方法使得服務(wù)器無法獲得關(guān)于查詢關(guān)鍵詞的信息,實現(xiàn)了類似PIR的功能。由于在查詢過程中引入了致盲因子和加密索引,服務(wù)器需執(zhí)行配對操作和 個對稱密鑰解密操作,因此其計算復(fù)雜度約為O(n)。與此相比,文獻[23]中的方案通過對所有文檔進行預(yù)處理并將關(guān)鍵詞與所有文檔關(guān)聯(lián),達到了更高的計算效率,計算開銷可達到O(1)。
Katz等人[43]在2008年提出了一種新的公鑰加密范式,稱為謂詞加密。該范式自提出以來,已經(jīng)在密碼學(xué)和數(shù)據(jù)安全領(lǐng)域取得顯著進展。經(jīng)過數(shù)年的發(fā)展,謂詞加密技術(shù)不僅實現(xiàn)了更細粒度的訪問控制,而且其應(yīng)用范圍和效率也有所提升[49,64]。最初,謂詞加密與文獻[11]中的PEKS不同,它通過將密鑰與謂詞相關(guān)聯(lián)、密文與屬性相關(guān),實現(xiàn)了對數(shù)據(jù)的精確控制。與PEKS的關(guān)鍵字加密搜索相比,謂詞加密更注重基于謂詞的數(shù)據(jù)解密。經(jīng)過持續(xù)的研究和改進,現(xiàn)代的謂詞加密技術(shù)不僅提高了數(shù)據(jù)訪問控制的靈活性,而且在安全性和可擴展性方面也表現(xiàn)出色。近年來,隨著加密技術(shù)的不斷進步和實際應(yīng)用需求的增加,謂詞加密在密碼學(xué)領(lǐng)域的重要性日益凸顯。它已被廣泛應(yīng)用于多種場景,包括云計算、大數(shù)據(jù)分析和物聯(lián)網(wǎng)安全等。盡管如此,這一領(lǐng)域仍有待進一步探索,以更好地滿足日益復(fù)雜的應(yīng)用需求。未來的研究將不僅關(guān)注加密技術(shù)本身的優(yōu)化,還將涵蓋其在實際應(yīng)用中的性能和適用性。
2013年,Cash等人[44]在實施IARPA的SPAR項目[46]過程中提出了OXT協(xié)議,并基于此進一步發(fā)展了多種可搜索加密方案[45]。這些方案雖然在實現(xiàn)和部署上較為簡單,但都存在一定的信息泄露風(fēng)險。這種風(fēng)險主要源于方案設(shè)計中的折中考慮,例如為了提高搜索效率和減少存儲空間的需求,可能不得不犧牲一定程度的隱私保護。例如,一些方案可能僅泄漏數(shù)據(jù)中記錄-關(guān)鍵字對的數(shù)量,而不暴露具體內(nèi)容。然而,這些統(tǒng)計信息本身可能就足以暴露敏感數(shù)據(jù)的模式或趨勢。此外,為了支持動態(tài)數(shù)據(jù)庫操作如添加、刪除和更新,所采用的數(shù)據(jù)結(jié)構(gòu)和算法可能在處理大型數(shù)據(jù)庫時面臨性能和安全性的平衡問題。例如,使用緊湊的數(shù)據(jù)結(jié)構(gòu)可以減少存儲空間,但可能影響查詢性能;而使用指針存儲加密的記錄則可能增加存儲空間。這些設(shè)計選擇不僅影響了系統(tǒng)的操作效率,還可能增加信息泄露的風(fēng)險。特別是在更新操作方面,由于需要維護數(shù)據(jù)的一致性和完整性,可能會暴露額外的信息。因此,這些方案在設(shè)計時必須仔細權(quán)衡性能、存儲需求和隱私保護之間的關(guān)系,確保在提高效率的同時將信息泄露的風(fēng)險降到最低。雖然SPAR項目在2020年已經(jīng)終止,但OXT協(xié)議及其衍生變體因其高效性而繼續(xù)受到研究關(guān)注。2023年,Yang等人[65]提出了一種基于標記PSI協(xié)議的高效SE方案IXT,增強了訪問和搜索模式隱藏功能。
2014年,Kolesnikov等人[47]提出了一種名為Blind Seer的隱私保護數(shù)據(jù)庫管理系統(tǒng)(DBMS),旨在解決私有數(shù)據(jù)庫查詢中的隱私泄露問題。Blind Seer系統(tǒng)在保護服務(wù)器和客戶端數(shù)據(jù)隱私的同時,能夠在遠低于數(shù)據(jù)集大小比例的時間內(nèi)高效執(zhí)行各種搜索操作,如基于布爾公式、范圍查詢、詞干查詢和否定條件查詢的搜索。在性能方面,Blind Seer與傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)如MySQL在響應(yīng)時間上具有相似性能,尤其在處理小規(guī)模結(jié)果集時表現(xiàn)出較快的響應(yīng)速度。但是,系統(tǒng)在執(zhí)行特定類型查詢時存在一些局限。特別是在進行布爾查詢時,由于需要分解查詢并對每個關(guān)鍵詞單獨搜索,可能會導(dǎo)致關(guān)鍵詞的公式結(jié)構(gòu)和加密結(jié)果的泄露,這嚴重影響了查詢和數(shù)據(jù)的隱私性。因此,Blind Seer在一般情況下不支持布爾查詢。這一限制突顯了在隱私保護DBMS領(lǐng)域中保障查詢隱私性和維持系統(tǒng)效率之間的平衡挑戰(zhàn)。
2015年,Xia等人[28]提出了兩種基于已知密文模型的搜索方案:BDMRS和EDMRS。BDMRS方案結(jié)合了向量空間模型、可搜索加密技術(shù)和kNN算法,有效保護了索引機密性和查詢機密性。然而,該方案可能面臨詞頻統(tǒng)計攻擊的問題。為解決此問題,EDMRS方案引入了隨機噪聲和混淆技術(shù),增強了查詢向量的隱私性和不可鏈接性。這兩個概念雖有相關(guān)性,但有所區(qū)別。隱私性主要關(guān)注保護用戶查詢內(nèi)容的機密性,而不可鏈接性則著重于防止攻擊者將不同的查詢關(guān)聯(lián)到同一用戶。EDMRS通過這些技術(shù)的融合,提高了統(tǒng)計攻擊的抵抗能力,并利用基于樹的索引結(jié)構(gòu)和貪心深度優(yōu)先搜索算法實現(xiàn)了高效搜索。Xia等人的安全性分析顯示,EDMRS能夠在保護索引和查詢機密性的同時,也確保查詢不可鏈接性和關(guān)鍵字隱私性。BDMRS和EDMRS均展現(xiàn)出高效的搜索性能,并且在準確率上表現(xiàn)良好。然而,兩個方案都沒有提供訪問模式保護,即無法確保返回文檔的順序安全。此外,未加密索引樹的存儲設(shè)計增加了用戶的存儲需求,可能限制了這些方案在移動設(shè)備上的應(yīng)用。
在加密數(shù)據(jù)的多關(guān)鍵詞排序搜索領(lǐng)域,F(xiàn)u等人[26]于2015年提出了兩種個性化搜索方案,PRSE_1和PRSE_2,以應(yīng)對傳統(tǒng)排序方法的個性化不足。這些方案特別注重建立用戶興趣模型,通過分析用戶搜索歷史并結(jié)合語義本體WordNet,使用個人關(guān)鍵詞訪問頻率進行智能評分。這一機制有效地反映了用戶興趣,使得搜索結(jié)果更貼近個人需求。PRSE方案使用MMDB樹構(gòu)造可搜索索引,并引入矩陣加密算法提高安全性,特別是針對二級攻擊。為了進一步增強安全性,方案中還引入了隨機性和隨機分裂方法,這有助于抵御更復(fù)雜的三級攻擊。然而,PRSE方案仍有局限性,尤其是在排序結(jié)果的隱私保護上。此外,由于PRSE_1方案中的隨機變量,用戶需要在準確性和安全性之間做出抉擇,增加了方案的復(fù)雜性和使用限制。
Cao等人[27]于2018年提出了一種基于坐標匹配(Coordinate Matching)的隱私保護多關(guān)鍵字排名搜索方案(Multi-keyword Ranked Search over Encrypted data, MRSE)。該方案旨在通過內(nèi)積相似度(Inner Product Similarity)作為有效相似度的量化評估方法,捕獲數(shù)據(jù)文檔與搜索查詢之間的相關(guān)性,其相關(guān)性捕獲能力比文獻[26]中的PRSE方案更好。MRSE方案的一個顯著優(yōu)勢在于其通過引入隨機擾動來減少對索引信息的泄露,從而增強了安全性。與PRSE方案相比,MRSE在查詢過程中更為高效,因為它直接對加密文檔和查詢向量進行比較,無需搜索用戶興趣模型,從而降低了計算開銷。此外,MRSE采用了加密和混淆技術(shù)來保護排序結(jié)果的隱私,解決了PRSE方案中存在的排序結(jié)果信息泄露問題。在實際應(yīng)用場景中,由于用戶通常更關(guān)注輸出的相關(guān)性和完整性,因此,MRSE方案顯示出較高的實用價值。然而,MRSE方案引入的隨機擾動可能會影響查詢結(jié)果的準確性。此外,MRSE方案需要為每個文檔生成多個子索引,這可能導(dǎo)致索引體積增大,進而增加存儲和傳輸開銷。因此,在應(yīng)用MRSE方案時,需在安全性、效率和準確性之間進行綜合權(quán)衡。
Patranabis和Mukhopadhyay[48]在2020年提出了一種不經(jīng)意動態(tài)交叉標簽(Oblivious Dynamic Cross- Tags,ODXT)方案,這是一種支持聯(lián)合查詢的后向隱私動態(tài)SSE方案,旨在解決先前動態(tài)SSE方案[45]僅滿足前向隱私要求的局限性。ODXT方案特別關(guān)注于解決兩大挑戰(zhàn):一是在保持前向和后向隱私的同時降低額外計算需求,二是防止在聯(lián)合查詢過程中向服務(wù)器泄露子查詢信息。該方案通過動態(tài)交叉標簽進行消息預(yù)計算來實現(xiàn)快速更新和搜索,同時在服務(wù)器上產(chǎn)生的訪問模式泄露相對較少。ODXT方案特別適用于多客戶環(huán)境,它只需單輪通信,能有效抵御惡意用戶與服務(wù)器的合謀攻擊。盡管ODXT在性能和安全性之間達成了平衡,但通過選用高效的橢圓曲線和固定基數(shù)的指數(shù)運算,其性能可以進一步提升。這些特點使得ODXT方案在動態(tài)SSE領(lǐng)域具有重要的應(yīng)用價值和研究意義。
Shang等人[49]于2021年提出了一種基于自適應(yīng)語義安全的混淆可搜索加密(Obfuscated SSE,OSSE)方案,旨在同時保護訪問模式和搜索模式。該方案在傳統(tǒng)對稱搜索加密(SSE)的索引構(gòu)建過程中融入了多項式系數(shù)計算,確保對同一關(guān)鍵詞的查詢只返回一個文檔或不返回任何文檔。此外,方案還能夠輸出假陽性結(jié)果以提供差分隱私保護。Shang等人采用了內(nèi)積謂詞加密技術(shù)來混淆訪問模式和搜索模式,使得其安全性與基于可觀測隨機訪問機制(Oblivious RAM,ORAM)的可搜索加密方案[66]相當,但計算復(fù)雜度更低,為O(nlgn/lg lgn)。OSSE方案特別適用于數(shù)據(jù)所有者更重視隱私而非運行時間,以及系統(tǒng)帶寬受限且不能在多輪查詢中使用帶寬的場景。然而,OSSE方案也存在一些局限性。比如,在構(gòu)建索引時,該方案限制了關(guān)鍵詞的上限數(shù)量,因此不支持全文檢索。此外,OSSE并未針對基于查詢結(jié)果的攻擊(如統(tǒng)計攻擊)進行詳細分析并給出防御措施,因此不能直接抵御針對查詢結(jié)果的攻擊。這些限制在實際應(yīng)用中需充分考慮,以平衡安全性和實用性。
綜上,可搜索對稱加密(SSE)和帶有關(guān)鍵字搜索的公鑰加密(PEKS)這兩種技術(shù)雖在執(zhí)行流程上有所差異,但共同目標是增強數(shù)據(jù)檢索的安全性。根據(jù)前述的算法原理,可以概括出這兩種技術(shù)的通用流程。具體而言,SSE的標準流程涉及數(shù)據(jù)加密、索引生成和查詢處理。而PEKS的流程則包括關(guān)鍵字加密、陷門生成和匹配查詢。算法2和算法3更清晰地展示了這兩種技術(shù)的操作步驟。通過對這些算法的深入分析,可以理解SSE和PEKS在處理安全關(guān)鍵字搜索方面的共同之處以及各自的優(yōu)勢。顯然,這種對比分析有助于深化對這兩種技術(shù)在安全數(shù)據(jù)檢索領(lǐng)域應(yīng)用的認識。
2.2.3 "綜合PKS技術(shù)
Boneh等人[15]在Goh的方案[6]的基礎(chǔ)上提出了一種支持PIR查詢的公鑰可搜索加密方案。該方案將公鑰加密技術(shù)應(yīng)用于文獻[6]中所述的布隆過濾器中,構(gòu)建了一種布隆過濾器變體。這種過濾器不僅存儲特定元素,還存儲與集合中元素相關(guān)聯(lián)的加密值,從而擴大了可搜索范圍。此方案結(jié)合密文搜索與PIR查詢,形成了一個綜合的PKS方案。此外,Boneh等人的方案[15]還支持用戶的刪除操作,這一操作是交互式的,要求服務(wù)器返回新的內(nèi)部地址給用戶。在該方案中,所使用的具有存儲功能的布隆過濾器具有對數(shù)級別的增長速度。安全性方面,該協(xié)議在假定用戶為誠實但好奇的情況下被證明是選擇明文攻擊(Chosen-Plaintext Attack,CPA)安全的。這種設(shè)計在擴展公鑰加密可搜索技術(shù)的應(yīng)用范圍和功能性方面具有重要意義。
Jarecki等人[5]在2013年提出了一種多用戶場景下的大型數(shù)據(jù)庫任意多關(guān)鍵詞的PIR方案,基于對稱搜索令牌來實現(xiàn)。該方案面向自適應(yīng)對抗性、半誠實外包存儲服務(wù)器、任意惡意數(shù)據(jù)所有者以及任意惡意客戶端,具有可證明安全性。Jarecki等人將文獻[44]中實現(xiàn)的OXT協(xié)議擴展為同時支持多客戶端可搜索對稱加密(Multi-Client SSE,MC-SSE)和PIR的OSPIR-OXT方案。在OSPIR-OXT方案中,數(shù)據(jù)所有者通過簽名方式授權(quán)客戶端查詢其數(shù)據(jù)。方案中采用了OPRF和同態(tài)加密技術(shù),向數(shù)據(jù)所有者和存儲服務(wù)器隱藏查詢值,同時使用屬性特定的密鑰來確保策略遵從性,并借助同態(tài)簽名技術(shù)由存儲服務(wù)器進行查詢驗證。盡管OSPIR-OXT方案中增加了冪次計算,導(dǎo)致其計算性能相較OXT協(xié)議有所下降,但相對于I/O開銷,此計算代價仍然是可接受的。實際應(yīng)用測試表明,該方案可支持對含有數(shù)百億記錄關(guān)鍵字對的數(shù)據(jù)庫進行復(fù)雜的加密搜索。例如,在普通服務(wù)器上進行如“SELECT id WHERE fname='CHARLIE' AND sex='Female' AND NOT (state='NY' OR state='MA' OR state='PA' OR state='NJ')”這樣的查詢,返回時間約為4秒。應(yīng)用測試中使用的大型數(shù)據(jù)庫包括英語維基百科數(shù)據(jù)庫(約13億條記錄)和一個美國人口綜合普查數(shù)據(jù)庫(約1億條記錄),所使用的加密數(shù)據(jù)庫具有1.7TB的TSet(比如關(guān)鍵詞的加密倒排索引)和0.4 TB的Xset(與特定查詢相關(guān)的加密標簽)。OSPIR-OXT方案的上述特性表明,其可突破現(xiàn)有PKS方案在實際應(yīng)用場景上的限制,為PKS技術(shù)在商業(yè)領(lǐng)域的應(yīng)用奠定了基礎(chǔ)。
綜合現(xiàn)有研究可見,PKS技術(shù)領(lǐng)域正不斷取得顯著進展。這些研究成果不僅拓寬了可檢索技術(shù)的應(yīng)用范圍,還在多用戶場景中實現(xiàn)了可證明安全性。雖然仍面臨計算性能方面的挑戰(zhàn),但PKS技術(shù)確實為實際應(yīng)用提供了切實可行的解決方案,其在大規(guī)模數(shù)據(jù)處理和隱私保護領(lǐng)域?qū)⒕哂懈鼜V泛的應(yīng)用,且在商業(yè)應(yīng)用中也將具有巨大潛力。
2.3 "安全與效用對比分析
2.3.1 "PKS方案的隱私性
本文討論的SE PKS技術(shù)和PIR PKS技術(shù)是保護訪問模式和查詢模式隱私的主要手段。訪問模式隱私涉及保護用戶或數(shù)據(jù)訪問者的查詢行為和訪問模式的隱私。具體來說,它關(guān)注的是不讓外部實體(如數(shù)據(jù)擁有者、云服務(wù)器或第三方攻擊者)了解用戶執(zhí)行的查詢、訪問的哪些數(shù)據(jù)或哪些操作,即查詢的模式和頻率。訪問模式隱私的破壞可能會導(dǎo)致敏感信息泄露、
用戶行為分析或隱私侵犯。
SE PKS方案盡管具有很多優(yōu)點,例如將數(shù)據(jù)安全地外包至云服務(wù)器,但其現(xiàn)有方案存在著訪問模式泄露的問題,這可能會導(dǎo)致數(shù)據(jù)庫恢復(fù)或查詢關(guān)鍵字的潛在攻擊。為了進一步保護訪問模式隱私,研究者們也一直在探索如何完全隱藏訪問模式,常用的方法如本文中所述的PIR[1-5]方案;及本文未詳細描述的,但是通信和計算成本更高的ORAM[50,66]技術(shù)。
除此之外,對搜索模式和查詢結(jié)果隱私的保護同樣重要。搜索模式隱私涉及保護用戶的搜索查詢和查詢關(guān)鍵詞的隱私,防止泄露用戶的興趣、偏好或其他敏感信息。而查詢結(jié)果隱私則關(guān)注于保護查詢所得結(jié)果的隱私性,確保查詢結(jié)果不會暴露任何敏感數(shù)據(jù)或用戶的隱私偏好。研究人員結(jié)合同態(tài)加密和差分隱私等技術(shù)[8,10,28,18,27,49],對這些隱私保護需求進行了深入研究。
在設(shè)計高效的PKS方案時,不僅需要保護用戶的數(shù)據(jù)和查詢隱私,還應(yīng)涵蓋查詢機密性、查詢不可鏈接性和關(guān)鍵字隱私性等多個方面。這些組成了一個全面的隱私保護框架。在PKS方案的設(shè)計和實施中,數(shù)據(jù)安全、關(guān)鍵詞安全以及查詢過程的安全性都是至關(guān)重要的。此外,為了在PKS方案中實現(xiàn)高效且安全的搜索功能,需要進行更多的研究,以確保在設(shè)計過程中充分考慮到這些需求,實現(xiàn)隱私性和安全性的綜合平衡。
2.3.2 "PKS方案的安全性和效率
在分析PKS技術(shù)時,安全性和效率的評估顯得尤為關(guān)鍵。首先分析PIR PKS技術(shù)的安全性和效率。PIR PKS技術(shù)的實用性在很大程度上取決于其在數(shù)據(jù)安全和用戶隱私保護方面的性能。為深入了解PIR PKS技術(shù)的優(yōu)勢和所面臨的挑戰(zhàn),本文將詳細討論PIR PKS在不同安全環(huán)境下的表現(xiàn),包括單服務(wù)器環(huán)境、多服務(wù)器環(huán)境、信息論安全模型、計算安全模型以及選擇模型。這些安全分別展示了PIR PKS技術(shù)在應(yīng)對各種安全需求和計算條件下的適應(yīng)性和效率。
(1)單服務(wù)器[4,10,33,51]和多服務(wù)器[4,19,20,30,53]環(huán)境:這些環(huán)境指的是數(shù)據(jù)的存儲和處理方式。在單服務(wù)器環(huán)境下,PIR PKS方案需在一個服務(wù)器中保護用戶的搜索隱私,挑戰(zhàn)在于防止服務(wù)器獲取用戶的搜索關(guān)鍵字。而在多服務(wù)器環(huán)境下,數(shù)據(jù)分散在多個服務(wù)器中,挑戰(zhàn)在于如何在服務(wù)器之間分配和管理數(shù)據(jù),同時確保用戶的查詢跨多臺服務(wù)器進行時不泄露任何信息。
(2)信息論安全模型[3,19-21,29,53-54]:在此模型下,
PIR PKS方案需基于信息論原則抵御各種攻擊,確保用戶的搜索關(guān)鍵字不被泄漏。在信息論安全模型中,效率評估尤為重要。
(3)計算安全模型:此模型強調(diào)在有限計算資源下的查詢安全性。目標是證明方案在計算層面上的安全性,以確保服務(wù)器無法通過查詢響應(yīng)推斷查詢信息。此模型通常涉及使用密碼學(xué)的安全性定義評估方案的強度,例如隨機預(yù)言機(RO)模型[1,31]和在選擇明文攻擊(IND-CPA)[40-42]環(huán)境下的不可區(qū)分性。
(4)選擇模型:在此模型下,此模型涉及用戶在單服務(wù)器和多服務(wù)器環(huán)境之間的選擇。盡管當前對此模型的研究不多,但它可能成為未來研究的一個重要方向。
同樣,SE PKS技術(shù)也涉及多個安全模型,包括IND-CKA模型、SS-CKA2模型、IND-ID-CCA和ID-CCA模型、基于困難性假設(shè)的安全模型,以及其他可證明安全的模型。這些模型分別針對不同類型的威脅提供防護,從防止攻擊者區(qū)分不同明文產(chǎn)生的密文到保護查詢過程中的隱私信息。
(1)IND-CKA模型:此模型要求密碼系統(tǒng)在面臨攻擊者選擇密鑰并執(zhí)行加密或解密操作時,防止攻擊者能夠區(qū)分由不同明文產(chǎn)生的密文。盡管攻擊者可以實施選擇密鑰攻擊,但無法判別密文是否源自不同的明文。IND-CKA模型專注于關(guān)鍵字攻擊,分為IND-CKA1和IND-CKA2兩個級別。符合IND-CKA安全標準的方案詳見文獻[6,9]。
(2)SS-CKA2模型:這一模型可以視為傳統(tǒng)的選擇密文攻擊(Chosen Ciphertext Attack,CCA2)安全概念的擴展,其中“Server-Side”指攻擊發(fā)生在服務(wù)器層面。在CCA2安全模型中,攻擊者可在解密階段前后選擇密文提交給解密算法(除了挑戰(zhàn)密文),并嘗試根據(jù)解密輸出推斷挑戰(zhàn)密文的信息。CCA2是加密方案的強安全標準,保護密文免受強大攻擊模型的破解。符合SS-CKA2安全的方案參見文獻[44]。
(3)IND-ID-CCA(Indistinguishability under Identity-Based Chosen Ciphertext Attack)和ID-CCA(Identity-Based Chosen-Ciphertext Attack)模型:這些模型要求密碼系統(tǒng)在面對攻擊者選擇密文進行解密操作時,能夠防止攻擊者獲得有關(guān)明文的信息。攻擊者雖可進行選擇密文攻擊,但無法獲取關(guān)于明文的額外信息。符合IND-ID-CCA或ID-CCA安全的方案見文獻[54]。
(4)基于困難性假設(shè)安全模型:困難性假設(shè)基于某種數(shù)學(xué)問題的難度,假定某些問題在多項式時間內(nèi)難以解決,從而可作為密碼體制的安全基礎(chǔ)。比如大整數(shù)分解假設(shè)[16,43]、雙線性映射[14,16,37,43,54]、Diffie- Hellman假設(shè)[25,48]等。
(5)其他安全模型:有些PKS方案不能歸類于特定模型,而是采用可證明安全性定義來評估其安全性,以保證在不同威脅下的可靠性。文獻[36]中從偽隨機生成器和偽隨機函數(shù)的安全性出發(fā),證明了其中提出的SE PKS方案的安全性;文獻[42]中構(gòu)建了一個PRIV安全模型;文獻[5]中展示了對抗非串通服務(wù)器和惡意客戶端的能力。
總體而言,PKS技術(shù)(包括PIR PKS和SE PKS)在保護數(shù)據(jù)安全和用戶隱私方面已有多維度的安全模型和策略。這些模型的多樣性和復(fù)雜性表明,PKS技術(shù)是一個高度適應(yīng)性和可靠性的解決方案,能夠有效應(yīng)對各種安全挑戰(zhàn)。然而,這些安全性能的實現(xiàn)通常需要不同程度的計算和通信開銷,這在實際應(yīng)用中可能會成為一個需要考慮的因素。對各種PKS技術(shù)的安全性和效率的對比情況見表1。由表1可見,在使用PKS技術(shù)時,需要在提高安全性和優(yōu)化效率之間找到平衡點。
3 "PKS技術(shù)應(yīng)用
3.1 "PKS技術(shù)應(yīng)用場景
PKS技術(shù)已廣泛應(yīng)用于醫(yī)療[67-68]、金融[69]教育[54]及云計算[55]等多個領(lǐng)域。該技術(shù)旨在實現(xiàn)用戶隱私的保護和數(shù)據(jù)的安全共享,推動跨行業(yè)間的數(shù)據(jù)協(xié)作。
在云存儲等應(yīng)用場景中,SE PKS技術(shù)發(fā)揮了重要作用。用戶在上傳數(shù)據(jù)至云端前常通過加密手段保護私有數(shù)據(jù)。SE PKS技術(shù)(包括SSE技術(shù)和PEKS技術(shù))在確保云上隱私數(shù)據(jù)的機密性、完整性和可用性方面表現(xiàn)卓越,并實現(xiàn)了基于細粒度控制的安全數(shù)據(jù)共享。此技術(shù)的實用性已在多個實際應(yīng)用場景中得到驗證,例如人口普查數(shù)據(jù)的隱私查詢、執(zhí)法機構(gòu)間的信息共享、電子取證[47,56]、自動車牌讀取器數(shù)據(jù)分析以保護隱私、執(zhí)法機構(gòu)尋找特定個體或模式的任務(wù),以及Google的RAPPOR匿名化技術(shù)[58]。SE PKS技術(shù)還廣泛應(yīng)用于隱私保護記錄鏈接技術(shù)[57]和情報收集與分類等領(lǐng)域[8],為數(shù)據(jù)安全和隱私保護提供了可靠的解決方案。PIR PKS技術(shù)的應(yīng)用范圍同樣廣泛,涵蓋了云計算、醫(yī)療、金融、教育和社交網(wǎng)絡(luò)等。PIR PKS的設(shè)計初衷在于解決用戶隱私和數(shù)據(jù)可用性之間的平衡問題,通過Olumofin等人[4]的研究表明,PIR技術(shù)在數(shù)據(jù)隱私保護方面發(fā)揮著較大的應(yīng)用潛力,如專利數(shù)據(jù)庫、藥品數(shù)據(jù)庫、在線人口普查、實時股票報價、基于位置的服務(wù)以及在線行為分析等。雖然PIR技術(shù)發(fā)展多年,但通信和計算復(fù)雜性依然是該技術(shù)的研究重點,例如如何在多服務(wù)器PIR方案中提供亞線性通信復(fù)雜性;如何在保證單服務(wù)器PIR方案的安全要求條件下實現(xiàn)高查詢速度;如何解決在有限網(wǎng)絡(luò)帶寬下的速度緩慢和關(guān)鍵詞長度限制[59]等問題。Henzinger等人[33]對各類基于索引的PIR方案進行了吞吐量和通信量方面的比較,并提出了SimplePIR和DoublePIR方案,并通過數(shù)字證書透明性審計應(yīng)用場景證明了DoublePIR方案的潛力和實用性。
綜上所述,雖然PKS技術(shù)面臨安全性、計算和通信復(fù)雜性、隱私保護及效率等多個技術(shù)挑戰(zhàn),但因為其在實際應(yīng)用中的潛力與前景使該技術(shù)具有較高的研究價值和意義。為了解決PKS技術(shù)實際應(yīng)用中的困難和問題,研究者們通過不斷提出新的技術(shù)改進和假設(shè),以平衡隱私保護與查詢效率,適應(yīng)大規(guī)模數(shù)據(jù)的需求,推動PKS技術(shù)在實際應(yīng)用中的廣泛應(yīng)用。
3.2 "典型應(yīng)用案例分析
在本節(jié)中,我們將通過幾個實際應(yīng)用案例來說明PKS技術(shù)的實際應(yīng)用效果。
3.2.1 "RAPPOR技術(shù)應(yīng)用
Google提出了RAPPOR(Randomized Aggregatable Privacy-Preserving Ordinal Response)技術(shù)[60]。RAPPOR是一種隨機化數(shù)據(jù)收集方法,旨在無需暴露用戶具體數(shù)據(jù)的情況下,收集關(guān)于用戶行為和偏好的信息。RAPPOR技術(shù)包含兩個核心部分:第一部分是數(shù)據(jù)聚合,運用可搜索加密技術(shù)對用戶數(shù)據(jù)進行隨機化和擾動處理。這一過程在提供用戶行為和偏好的統(tǒng)計信息的同時,保障了用戶隱私的安全。第二部分是差分隱私保護,通過添加額外的隨機性來混淆數(shù)據(jù),確保即使在不完美的擾動條件下,用戶的具體數(shù)據(jù)也難以被還原或識別。Google Chrome瀏覽器中的“Chrome用戶體驗報告(CrUX)”[60]采用了RAPPOR技術(shù)來匿名收集用戶瀏覽器性能數(shù)據(jù)(CrUX統(tǒng)計數(shù)據(jù)示例見圖2)。通過配置Chrome瀏覽器上的CrUX搜索引擎,可以獲取網(wǎng)站的關(guān)鍵性能指標,如最大元素渲染時間(Largest Contentful Paint,LCP)、首次輸入延遲(First Input Delay,F(xiàn)ID)和累積布局偏移(Cumulative Layout Shift,CLS)。這些網(wǎng)站分析數(shù)據(jù)為網(wǎng)站開發(fā)者和運營者提供了重要的優(yōu)化參考,如圖2所示。目前,CrUX數(shù)據(jù)集包含約1500萬個來源,盡管并非涵蓋所有網(wǎng)站,但已覆蓋了廣泛的網(wǎng)站范圍。
3.2.2 "PKS在定向廣告領(lǐng)域中的應(yīng)用
在數(shù)字廣告領(lǐng)域,隱私保護技術(shù)的應(yīng)用日益受到重視,以響應(yīng)消費者對隱私保護的關(guān)切和隱私保護法律法規(guī)的完善。特別是,隱私保護關(guān)鍵詞搜索(PKS)技術(shù)被用于廣告行業(yè),以提升廣告投放的隱私友好性并遵守法規(guī)要求。例如,一些廣告公司開始采用Chrome Privacy Sandbox、Safari ITP、Firefox等隱私保護技術(shù)[61]。這些技術(shù)使得廣告投放既能滿足用戶需求,又能保護用戶的隱私。
此外,用戶還可以選擇使用如Tor、Brave、DuckduckGo等隱私保護瀏覽器,這些瀏覽器利用PKS技術(shù)加密用戶的搜索請求,并在多個服務(wù)器上分散存儲用戶的搜索數(shù)據(jù)和其他信息,以保護用戶的IP和位置信息。例如,Servan-Schreiber等人提出的AdVeil[62-63],這是一個私人定向廣告生態(tài)系統(tǒng),它基于不受信任的廣告網(wǎng)絡(luò)運行,并結(jié)合了PIR技術(shù)和局部敏感哈希的最近鄰搜索,實現(xiàn)了用戶數(shù)據(jù)的本地保留和對用戶定
向配置文件的完全控制。AdVeil的實現(xiàn)還支持私人計費指標,允許廣告網(wǎng)絡(luò)向廣告主收費,同時保護用戶與廣告之間互動的隱私。
總體而言,隨著隱私保護的需求日益增長,PKS技術(shù)在數(shù)字廣告等領(lǐng)域的應(yīng)用提供了隱私保護和數(shù)據(jù)安全的有效解決方案,同時也展現(xiàn)出與現(xiàn)行隱私法規(guī)的兼容性。但也需注意,如AdVeil所示,PKS技術(shù)在
實際應(yīng)用中仍然面臨著計算開銷、瀏覽器配合等挑戰(zhàn)。
3.2.3 "PKS技術(shù)在情報領(lǐng)域中的應(yīng)用
在情報收集領(lǐng)域,PKS技術(shù)能夠在保護查詢關(guān)鍵詞和查詢方的隱私的同時,實現(xiàn)隱私情報的分類和查詢。PKS技術(shù)在情報行業(yè)的數(shù)據(jù)過濾領(lǐng)域也得到了廣泛應(yīng)用[8]。該技術(shù)為情報機構(gòu)提供了在保護敏感信息和隱私的同時,提高數(shù)據(jù)共享和分析效率的手段。例如,可搜索加密技術(shù)可用于加密情報分析中涉及的敏感數(shù)據(jù)。情報機構(gòu)可以將加密數(shù)據(jù)提供給分析人員進行處理,有效防止未授權(quán)訪問和數(shù)據(jù)泄露,同時提升數(shù)據(jù)共享和分析的效率。PIR技術(shù)則在恐怖主義監(jiān)測領(lǐng)域發(fā)揮作用。情報機構(gòu)可以利用PIR技術(shù)從互聯(lián)網(wǎng)上檢索與恐怖主義相關(guān)的信息,同時保護查詢內(nèi)容的隱私。這種方法不僅保護了用戶隱私,還助力情報機構(gòu)及時發(fā)現(xiàn)和預(yù)防恐怖主義活動。此外,PKS技術(shù)也促進了不同情報機構(gòu)之間的數(shù)據(jù)共享,為信息交流和
協(xié)作提供了重要支持。
3.2.4 "PKS技術(shù)在農(nóng)業(yè)中的應(yīng)用
PKS技術(shù)在農(nóng)業(yè)中的一個顯著案例是其在精準農(nóng)業(yè)管理系統(tǒng)中的應(yīng)用。在這個案例中,一家農(nóng)業(yè)公司利用PKS技術(shù)來安全地處理和分析來自各地農(nóng)場的敏感數(shù)據(jù),如土壤質(zhì)量、氣候變化和作物生長情況。這些數(shù)據(jù)被用來優(yōu)化農(nóng)作物的種植、灌溉和施肥計劃。由于PKS保障了數(shù)據(jù)的隱私安全,農(nóng)民能夠放心地上傳和查詢個人農(nóng)場的數(shù)據(jù),而不必擔心個人信息泄露。同時,該技術(shù)使公司能夠匯總大量數(shù)據(jù)進行宏觀分析,以預(yù)測市場趨勢、調(diào)整生產(chǎn)策略,并及時應(yīng)對可能的病蟲害。通過這種方式,PKS技術(shù)不僅增強了數(shù)據(jù)的安全性,還提高了農(nóng)業(yè)生產(chǎn)的效率和可持續(xù)性,為農(nóng)業(yè)創(chuàng)新提供了強有力的數(shù)據(jù)支持。此外,PKS還可在病蟲害管理、農(nóng)業(yè)補貼與政策制定等方面同樣發(fā)揮關(guān)鍵作用,通過安全檢索市場數(shù)據(jù)、病蟲害信息以及政策相關(guān)數(shù)據(jù),有助于精準制定市場策略、管理病蟲害、合理分配資源和制定有效政策。因此,PKS在保障數(shù)據(jù)安全的同時,為農(nóng)業(yè)的可持續(xù)發(fā)展和創(chuàng)新提供了強有力的數(shù)據(jù)支持。
3.2.5 "PKS技術(shù)在其他領(lǐng)域中的應(yīng)用
PKS技術(shù)的應(yīng)用不僅限于上述案例,其在多個領(lǐng)域均展現(xiàn)出顯著的實用性。比如,在進行人口普查時,PKS技術(shù)可用于執(zhí)行隱私查詢和統(tǒng)計,保障國家人口數(shù)據(jù)及個人隱私信息的安全;執(zhí)法機構(gòu)在跨司法管轄區(qū)和國家邊界的合作中,可以通過PKS技術(shù)共享隱私信息,執(zhí)行電子取證,同時確保非嫌疑人的隱私信息得到保護;在數(shù)字媒體消費方面,PKS技術(shù)可在保護用戶隱私的同時,提供個性化媒體建議,達成個性化體驗與隱私保護之間的平衡;在通信行業(yè),PKS技術(shù)可通過隱藏元數(shù)據(jù)信息如時間、地點、參與者等,增強通信的私密性和機密性;在企業(yè)環(huán)境中,PKS技術(shù)用于進行隱私審計日志,以遵守隱私法律法規(guī)并保護員工及客戶的隱私。此外,PKS技術(shù)還被用于監(jiān)控敏感憑證的泄露情況,如電子郵件地址或賬戶密碼,從而降低數(shù)據(jù)泄露的潛在風(fēng)險。同時,在查詢?nèi)缧庞脠蟾娴群诿麊涡畔r,PKS技術(shù)也能夠在驗證或授予許可的過程中保護敏感的個人信息。
因此,可以看出PKS技術(shù)已在眾多領(lǐng)域得到廣泛應(yīng)用,有效地協(xié)調(diào)了信息訪問與隱私保護之間的需求。隨著PKS技術(shù)的持續(xù)發(fā)展,這些應(yīng)用預(yù)計將進一步促進隱私保護和數(shù)據(jù)安全領(lǐng)域的發(fā)展,展現(xiàn)出PKS技術(shù)在現(xiàn)代社會中的重要價值和廣泛影響力。
4 "PKS技術(shù)存在的問題與挑戰(zhàn)
隨著數(shù)據(jù)隱私保護需求的日益增長,作為一種新興的數(shù)據(jù)隱私保護技術(shù),PKS技術(shù)已經(jīng)引起了廣泛關(guān)注和應(yīng)用。PKS技術(shù)通過將查詢請求和搜索結(jié)果等進行加密,保護了用戶的隱私和數(shù)據(jù)的安全性。然而,PKS技術(shù)在應(yīng)用過程中仍存在一些問題與挑戰(zhàn)。
(1)查詢多樣性與復(fù)雜性:現(xiàn)有PKS技術(shù)主要針對簡單關(guān)鍵詞搜索,而實際應(yīng)用中可能需要更復(fù)雜的查詢類型,如出現(xiàn)查詢、布爾查詢(或謂詞查詢)、聯(lián)合查詢、子集查詢、范圍查詢、詞干查詢和否定條件查詢等。實現(xiàn)與常見數(shù)據(jù)庫如MySQL相同的查詢多樣性和效率可能會犧牲查詢和數(shù)據(jù)的隱私。研究者已經(jīng)開始對這些復(fù)雜查詢進行研究,并提出了按字典排序[37]、分級排序[17]、個性化排序[26]、相似性排序[24,27]等技術(shù)。但在保障隱私的同時支持這些復(fù)雜查詢?nèi)允且淮筇魬?zhàn)。
(2)多服務(wù)器查詢的安全性:隨著多服務(wù)器查詢的興起,如何防止多臺服務(wù)器之間的聯(lián)合作惡成了一個緊迫的問題。當前研究[20-21]表明,需要新的協(xié)議和機制以確保多服務(wù)器環(huán)境中用戶隱私的安全。
(3)隱私保護技術(shù)的進步:面對攻擊手段的演變,
目前的隱私保護技術(shù)需進一步提升。這對應(yīng)對越發(fā)嚴格的隱私法規(guī)和用戶期望尤為重要。
(4)ORAM技術(shù)在應(yīng)用上存在挑戰(zhàn):ORAM技術(shù)提供了提高隱私保護和安全性的新研究方向。然而,如何有效實施無泄漏的PKS算法[45],以及基于ORAM的PKS算法[49]可能帶來的高通信和計算成本,仍是待解決的問題。
(5)內(nèi)容數(shù)據(jù)的PKS技術(shù)仍需深入研究:雖然大多數(shù)研究集中于文本文件檢索,但內(nèi)容數(shù)據(jù)的PKS技術(shù)研究相對較少,如Xia等人在文獻[24]中提出的基于內(nèi)容的圖像檢索(Content-based Image Retrieval,CBIR)方案顯示了該領(lǐng)域的研究價值。
(6)支持關(guān)鍵詞的PIR PKS技術(shù)有待深入探索:目前的PIR技術(shù)主要支持索引和塊檢索,關(guān)于關(guān)鍵詞信息的研究較為有限。支持關(guān)鍵詞檢索的PIR技術(shù)可能面臨新的攻擊向量和泄漏風(fēng)險,因此需設(shè)計新的安全模型以應(yīng)對這些威脅,并兼顧通信、計算和存儲開銷。
(7)帶有輔助信息的PIR-SI(PIR with Side Information)技術(shù)仍存在技術(shù)挑戰(zhàn):帶有輔助信息的PIR-SI技術(shù)可提高了查詢效能,適用于醫(yī)療、金融等領(lǐng)域,但如何平衡輔助信息的使用與隱私保護仍存在技術(shù)挑戰(zhàn),需要進一步提出改進方案。
5 "總結(jié)與展望
本文從發(fā)展歷史、主要原理、優(yōu)勢和局限分析等方面系統(tǒng)地探討了SE PKS和PIR PKS技術(shù)。為解決PKS技術(shù)面臨的隱私性和效率之間的平衡挑戰(zhàn),本文還著重探討了增強隱私保護改進措施,比如結(jié)合最新的加密技術(shù)和數(shù)據(jù)處理策略來優(yōu)化PKS的性能,以及如何利用零知識證明、同態(tài)加密和差分隱私等前沿技術(shù)來增強數(shù)據(jù)安全性和用戶隱私保護。本文通過詳細的應(yīng)用示例說明PKS技術(shù)在數(shù)據(jù)隱私保護方面的作用和前景。
展望未來,PKS技術(shù)領(lǐng)域在尋求解決當前隱私查詢中存在的問題方面,可能會出現(xiàn)多種創(chuàng)新性解決方案。首先,PKS技術(shù)將通過整合先進的加密技術(shù)與高效的數(shù)據(jù)處理策略來優(yōu)化查詢效率,從而降低因重復(fù)查詢產(chǎn)生的計算開銷。其次,通過結(jié)合零知識證明、同態(tài)加密和差分隱私等技術(shù)的新近進展,PKS技術(shù)有望極大增強數(shù)據(jù)安全性,確保用戶隱私在查詢過程中得到全面保護。此外,PKS技術(shù)將著力提升技術(shù)成熟度,通過拓展研究與實踐的深度和廣度,加深隱私計算與PKS技術(shù)的融合與創(chuàng)新。同時,推進技術(shù)標準化和互操作性也將是PKS技術(shù)的關(guān)鍵發(fā)展方向。通過制定統(tǒng)一的技術(shù)和安全標準,可以確保不同供應(yīng)商和開發(fā)者能夠?qū)崿F(xiàn)無縫對接,促進隱私計算框架之間的高效合作。
PKS技術(shù)的研究動向方面,未來將出現(xiàn)多方面的創(chuàng)新性研究方向。一是提供多樣化查詢支持,以滿足各種復(fù)雜查詢需求,適應(yīng)多變的應(yīng)用場景。二是拓展跨平臺應(yīng)用,特別是在移動應(yīng)用領(lǐng)域和物聯(lián)網(wǎng)設(shè)備領(lǐng)域,實現(xiàn)全面的隱私保護。例如,通過PIR技術(shù)的輔助信息功能,用戶可以提供更多上下文以獲得更精確的查詢結(jié)果,同時保障隱私安全。三是結(jié)合人工智能與機器學(xué)習(xí),開發(fā)智能化隱私保護策略,通過增強隱私計算的機器學(xué)習(xí)模型,智能定制不同數(shù)據(jù)類別的加密和查詢策略。四是結(jié)合區(qū)塊鏈技術(shù),解決Web3.0發(fā)展過程中出現(xiàn)的數(shù)據(jù)孤島、價值孤島問題,促進多方協(xié)作共贏。通過對這些方向的深入研究,PKS技術(shù)將成為隱私計算領(lǐng)域中具有廣闊應(yīng)用前景和無限可能的技術(shù)方向之一。
參考文獻
[1] Chor B, Gilboa N, Naor M. Private information retrieval by keywords[J]. Journal of Cryptology, 1998, 11(2):193-205. http://eprint.iacr.org/ 1998/003.
[2] Kushilevitz, E, Ostrovsky R. Replication is not needed: Single database, computationally-private information retrieval[C]. Proceedings 38th annual symposium on foundations of computer science. IEEE, 1997: 364-373. https://doi.org/10.1109/SFCS.1997.646125.
[3] Ogata W, Kurosawa K. Oblivious keyword search[J]. Journal of complexity, 2004, 20(2-3):356-371. https://doi.org/10.1016/j.jco.2003. 08.023.
[4] Olumofin F, Goldberg I. Revisiting the computational practicality of private information retrieval[C]. International Conference on Financial Cryptography and Data Security, 2011: 158-172. https:// doi.org/10.1007/978-3-642-27576-0_13.
[5] Jarecki S, Jutla C, Krawczyk H, et al. Outsourced symmetric private information retrieval[C]. ACM SIGSAC conference on Computer and communications security, 2013: 875-888. https://doi.org/10.1145/ 250886.2516730.
[6] Goh E J. Secure indexes[J]. Cryptology ePrint Archive, 2003. https:// eprint.iacr.org/2003/216.
[7] Waters B R, Balfanz D, Durfee G, et al. Building an encrypted "and searchable audit log[C]. NDSS. 2004, 4: 5-6. https://www. researchgate.net/publication/221655531.
[8] Ostrovsky R, Skeith III W E. Private searching on streaming data[J]. Journal of cryptology, 2007: 397–430. https://doi.org/10.1007/s00145- 007-0565-3
[9] Chang Y C, Mitzenmacher M. Privacy preserving keyword searches on remote encrypted data[C]. International conference on applied cryptography and network security, 2005: 442-455, https://doi.org/ 10.1007/11496137_30.
[10] Freedman M J, Ishai Y, Pinkas B, et al. Keyword search and oblivious pseudorandom functions[C]. Theory of Cryptography: Second Theory of Cryptography Conference, 2005: 303-324. https://www.semanticscholar. org/paper.
[11] Abdalla M, Bellare M, Catalano D, et al. Searchable encryption revisited: Consistency properties, relation to anonymous IBE, and extensions[C]. Advances in Cryptology–CRYPTO 2005: 25th Annual International Cryptology Conference, 2005: 205-222. https://doi.org/ 10.1007/11535218.
[12] Abdalla M, Bellare M, Catalano D, et al. Searchable encryption revisited: Consistency properties, relation to anonymous IBE, and extensions[J]. Journal of cryptology, 2008, 21:350-391. https://doi. org/10.1007/s00145-007-9006-6.
[13] Curtmola R, Garay J, Kamara S, et al. Searchable symmetric encryption: improved definitions and efficient constructions[C]. Proceedings of the 13th ACM conference on Computer and communications security, 2006: 79-88, https://doi.org/10.1145/1180405. 1180417.
[14] Boneh D, Waters B. Conjunctive, subset, and range queries on encrypted data[C]. Theory of Cryptography: 4th Theory of Cryptography Conference, 2007: 535-554. https://doi.org/10.1007/978-3-540-70936- 7_29.
[15] Boneh D, Kushilevitz E, Ostrovsky R, et al. Public key encryption that allows PIR queries[C]. Advances in Cryptology-CRYPTO 2007: 27th Annual International Cryptology Conference, 2007: 50-67. https:// doi.org/10.1007/978-3-540-74143-5_4.
[16] Bao F, Deng R H, Ding X, et al. Private query on encrypted data in multi-user settings[C]. International Conference on Information Security Practice and Experience, 2008: 71-85. https://doi.org/10. 1007/978-3-540-79104-1_6.
[17] Liu Q, Tan C C, Wu J, et al. Efficient information retrieval for ranked queries in cost-effective cloud environments[C]. 2012 Proceedings IEEE INFOCOM. IEEE, 2012: 2581-2585. https://doi.org/10.1109/ INFCOM.2012.6195657.
[18] Melchor C A, Barrier J, Fousse L, et al. XPIR: Private information retrieval for everyone[J]. Proceedings on Privacy Enhancing Technologies, 2016, :155-174. https://dx.doi.org/10.1515/popets-2016- 0010.
[19] Goldberg I. Improving the robustness of private information retrieval[C]. 2007 IEEE Symposium on Security and Privacy (SP' 07), 2007: 131-148. https://doi.org/10.1109/SP.2007.23.
[20] Freij-Hollanti R, Gnilke O W, Hollanti C, et al. Private information retrieval from coded databases with colluding servers[J]. SIAM Journal on Applied Algebra and Geometry, 2017, 1(1):647-664, https://doi.org/10.1137/16M1102562.
[21] Tajeddine R, Gnilke O W, Karpuk D, et al. Private information retrieval from coded storage systems with colluding, Byzantine, and unresponsive servers[J]. IEEE Transactions on information theory, 2019, 65(6):3898-3906. https://doi.org/10.1109/TIT.2018.2890285.
[22] Chen Z, Wang Z, Jafar S A. The capacity of T-private information retrieval with private side information[J]. IEEE Transactions on Information Theory, 2020, 66(8):4761-4773. https://doi.org/10.1109/ TIT.2020.2977919.
[23] Curtmola R, Garay J, Kamara S, et al. Searchable symmetric encryption: improved definitions and efficient constructions[C]. Proceedings of the 13th ACM conference on Computer and communications security, 2006: 79-88, https://doi.org/10.1145/1180405. 1180417.
[24] Xia Z, Wang X, Zhang L, et al. A privacy-preserving and copy-deterrence content-based image retrieval scheme in cloud computing[J]. IEEE transactions on information forensics and security, 2016, 11(11):2594-2608. https://doi.org/10.1109/TIFS.2016.2590944.
[25] Golle P, Staddon J, Waters B. Secure conjunctive keyword search over encrypted data[C]. Applied Cryptography and Network Security: Second International Conference, 2004: 31-45. https://doi.org/10. 1007/978-3-540-24852-1_3.
[26] Fu Z, Ren K, Shu J, et al. Enabling personalized search over encrypted outsourced data with efficiency improvement[J]. IEEE transactions on parallel and distributed systems, 2015, 27(9): 2546-2559. https:// doi.org/10.1109/TPDS.2015.2506573.
[27] Cao N, Wang C, Li M, et al. Privacy-preserving multi-keyword ranked search over encrypted cloud data[J]. IEEE Transactions on parallel and distributed systems, 2013, 25(1): 222-233. https://doi.org/10. 1109/TPDS.2013.45.
[28] Xia Z, Wang X, Sun X, et al. A secure and dynamic multi-keyword ranked search scheme over encrypted cloud data[J]. IEEE transactions on parallel and distributed systems, 2015, 27(2): 340-352. https:// doi.org/10.1109/TPDS.2015.2401003.
[29] Chor B, Goldreich O, Kushilevitz E, et al. Private information retrieval[J]. IEEE Annual Symposium on Foundations of Computer Science (FOCS), 1995, : 41-50. https://doi.org/10.1109/SFCS.1995. 492461.
[30] Chor B, Kushilevitz E, Goldreich O, et al. Private information retrieval[J]. Journal of the ACM (JACM), 1998, 45(6): 965-981, https://doi.org/10.1145/293347.293350.
[31] Gertner Y, Ishai Y, Kushilevitz E, et al. Protecting data privacy in private information retrieval schemes[C]. ACM Symposium on Theory of Computing (STOC), 1998: 151-160, https://doi.org/ 10.1145/276698.276723.
[32] Rabin M O. How to exchange secrets with oblivious transfer[J]. Technical Memo TR-81, 1981. https://eprint.iacr.org/2005/187.
[33] Henzinger A, Hong M M, Corrigan-Gibbs H, et al. One server for the price of two: simple and fast single-server private information retrieval[C]. SEC '23: Proceedings of the 32nd USENIX Conference on Security Symposium, 2023: 3889–3905. https://dl.acm.org/doi/ 10.5555/3620237.3620455.
[34] Angel S, Chen H, Laine K, et al. PIR with compressed queries and amortized query processing[C]. 2018 IEEE symposium on security and privacy (SP). IEEE, 2018: 962-979. https://doi.org/10.1109/SP. 2018.00062.
[35] SealPIR: A computational PIR library that achieves low communication costs and high performance, 2020. https:.github.com/microsoft/ SealPIR.
[36] Song D X, Wagner D, Perrig A. Practical techniques for searches on encrypted data[C]. Proceeding 2000 IEEE symposium on security and privacy, 2000: 44-55. https://doi.org/10.1109/SECPRI.2000.848445.
[37] Boneh D, Di Crescenzo G, Ostrovsky R, et al. Public key encryption with keyword search[C]. Advances in Cryptology-EUROCRYPT, 2004: 506-522. https://doi.org/10.1007/978-3-540-24676-3_30.
[38] Shamir A. Identity-based cryptosystems and signature schemes[C]. Advances in Cryptology, 1985: 47-53. https://doi.org/10.1007/3-540- 39568-7_5.
[39] Boneh D, Franklin M. Identity-based encryption from the Weil pairing[C]. Advances in Cryptology, 2001: 213-229. https://doi.org/ 10.1007/3-540-44647-8_13.
[40] Abdalla M, Bellare M, Catalano D, et al. Searchable encryption revisited: Consistency properties, relation to anonymous IBE, and extensions[C]. Advances in Cryptology, 2005: 205-222. https://doi. org/10.1007/11535218_13.
[41] Abdalla M, Bellare M, Catalano D, et al. Searchable encryption revisited: consistency properties, relation to anonymous IBE, and extensions[J]. Journal of cryptology, 2008, 21: 350-391. https://doi. org/10.1007/s00145-007-9006-6.
[42] Bellare M, Boldyreva A, O’Neill A. Deterministic and efficiently searchable encryption[C]. Advances in Cryptology, 2007: 535-552. https://doi.org/10.1007/978-3-540-74143-5_30.
[43] Katz J, Sahai A, Waters B. Predicate encryption supporting disjunctions, polynomial equations, and inner products[C]. Advances in Cryptology, 2008: 146-162. https://doi.org/10.1007/978-3-540- 78967-3_9.
[44] Cash D, Jarecki S, Jutla C, et al. Highly-scalable searchable symmetric encryption with support for boolean queries[C]. Advances in Cryptology, 2013: 353-373. https://doi.org/10.1007/978-3-642- 40041-4_20.
[45] Cash D, Jaeger J, Jarecki S, et al. Dynamic searchable encryption in very-large databases: Data structures and implementation[J]. Cryptology ePrint Archive, 2014. https://doi.org/10.14722/ndss.2014.23264.
[46] Fuller B, Mitchell D, Cunningham R, et al. Security and privacy assurance research (SPAR) pilot final report[R]. Technical report, MIT Lincoln Laboratory Lexington United States, 2015. https://archive. org/details/DTIC_AD1045281.
[47] Pappas V, Krell F, Vo B, et al. Blind seer: a scalable private DBMS[C]. Symposium on Security and Privacy. IEEE, 2014: 359-374. https:// doi.org/10.1109/SP.2014.30.
[48] Patranabis S, Mukhopadhyay D. Forward and backward private conjunctive searchable symmetric encryption[C]. 28th Annual Network and Distributed System Security Symposium, 2021. https://doi.org/ 10.3929/ethz-b-000447960.
[49] Shang Z, Oya S, Peter A, et al. Obfuscated access and search patterns in searchable encryption[C]. 28th Annual Network and Distributed System Security Symposium, 2021. https://doi.org/10.48550/arXiv. 2102.09651.
[50] Ostrovsky R. Efficient computation on oblivious RAMs[C]. ACM Symposium on Theory of Computing, 1990: 514-523. https://doi. org/10.1145/100216.100289.
[51] Ostrovsky R, Skeith III W E. A survey of single-database private information retrieval: Techniques and applications[C]. International Workshop on Public Key Cryptography, 2007: 393-411. https://doi. org/10.1007/978-3-540-71677-8_26.
[52] Devet C, Goldberg I, Heninger N. Optimally robust private information retrieval[C]. Security'12: Proceedings of the 21st USENIX Conference on Security Symposium, 2012: 269-283. https://dl.acm.org/doi/10.5555/2362793.2362806.
[53] Kadhe S, Garcia B, Heidarzadeh A, et al. Private information retrieval with side information[J]. IEEE Transactions on Information Theory, 2019, 66(4): 2032-2043. https://doi.org/10.1109/TIT.2019.2948845.
[54] Yang P, Xiong N, Ren J. Data security and privacy protection for cloud storage: A survey[J]. IEEE Access, 2020, 8: 131723-131740. https://doi.org/10.1109/ACCESS.2020.3009876.
[55] Li J, Wang Q, Wang C, et al. Fuzzy keyword search over encrypted data in cloud computing[C]. 2010 Proceedings IEEE INFOCOM. IEEE, 2010: 1-5. https://doi.org/10.1109/INFCOM.2010.5462196.
[56] Kays D M. Reasons to friend electronic discovery law[J]. Franchise Law Journal, 2012:35-40.
[57] Gkoulalas-Divanis A, Vatsalan D, Karapiperis D, et al. Modern privacy-preserving record linkage techniques: An overview[J]. IEEE Transactions on Information Forensics and Security, 2021, 16: 4966-4987. https://doi.org/10.1109/TIFS.2021.3114026.
[58] Erlingsson ú, Pihur V, Korolova A. Rappor: Randomized aggregatable privacy-preserving ordinal response[C]. ACM Conference on Computer and Communications Security (CCS), 2014: 1054-1067, https://doi.org/10.1145/2660267.2660348.
[59] 張小青,張舒黎,雷術(shù)梅,等. 私有信息檢索技術(shù)分析對比研究[J]. 通信技術(shù), 2023, 56(2): 198-206.
[60] Sengupta J, Shreedhar T, Nguyen D, et al. Through the Lens of Google CrUX: Dissecting web browsing experience across devices and countries[J]. Computer Science, 2023. https://doi.org/10.48550/ arXiv.2308.06409.
[61] Geradin D, Katsifis D. Competition in ad tech: A response to Google[J]. TILEC Discussion Paper, 2020. https://dx.doi.org/10.2139/ ssrn.3617839.
[62] Servan-Schreiber S, Hogan K, Devadas S. AdVeil: A private targeted advertising ecosystem[J]. Cryptology ePrint Archive, 2021. https:// eprint.iacr.org/2021/1032.
[63] Sun H, Jafar S A. The capacity of private information retrieval[J]. IEEE Transactions on Information Theory, 2017, 63(7): 4075-4088. https://doi.org/10.1109/TIT.2017.2689028.
[64] Lai S, Patranabis S, Sakzad A, et al. Result pattern hiding searchable encryption for conjunctive queries[C]. ACM Conference on Computer and Communications Security (CCS). 2018: 745-762. https://doi. org/10.1145/3243734.3243753.
[65] Yang Y, Dong X, Cao Z, et al. IXT: Improved searchable encryption for multi-word queries based on PSI[J]. Frontiers of Computer Science, 2023, 17(5): 175811. https://doi.org/10.1007/s11704-022- 2236-9.
[66] Garg S, Mohassel P, Papamanthou C. TWORAM: efficient oblivious RAM in two rounds with applications to searchable encryption[C]. Annual International Cryptology Conference, 2016: 563-592. https://doi.org/10.1007/978-3-662-53015-3_20.
[67] Zhang R, Xue R, Liu L. Searchable encryption for healthcare clouds: A survey[J]. IEEE Transactions on Services Computing, 2017, 11(6): 978-996. https://doi.org/10.1109/TSC.2017.2762296.
[68] Li H, Yang Y, Dai Y, et al. Achieving secure and efficient dynamic searchable symmetric encryption over medical cloud data[J]. IEEE Transactions on Cloud Computing, 2017, 8(2): 484-494. https:// doi.org/10.1109/TCC.2017.2769645.
[69] Florea I M, Cioc?rlan ? D, Dura I. Practical analysis of searchable encryption strategies for financial architecture[C]. 2020 19th RoEduNet Conference: Networking in Education and Research (RoEduNet). IEEE, 2020: 1-6. https://doi.org/10.1109/RoEduNet51892. 2020.9324881.
引用本文:楊渝,王煒,陳世武.數(shù)據(jù)隱私保護關(guān)鍵詞檢索技術(shù)研究綜述與應(yīng)用分析[J].農(nóng)業(yè)大數(shù)據(jù)學(xué)報,2024,6(2):185-204. DOI: 10.19788/ j.issn.2096-6369.000012.
CITATION: YANG Yu, WANG Wei, CHEN ShiWu. A Review and Analysis of Keyword Search Technologies for Data Privacy Protection[J]. Journal of Agricultural Big Data,2024,6(2): 185-204. DOI: 10.19788/j.issn.2096-6369.000012.
A Review and Analysis of Keyword Search Technologies for Data Privacy Protection
YANG Yu*, WANG Wei, CHEN ShiWu
Integrated Innovation Research Institute, Beijing Topsec Network Security Technology Co., Ltd., 100193, China
Abstract: In the modern information society, data privacy protection has become a focal point of public attention. As internet users increasingly prioritize personal information security, research on privacy protection in the field of information retrieval has become crucial. Privacy-protecting keyword search technology aims to provide secure and private search services without revealing users' query intentions. Although existing technologies have made progress in meeting basic needs, how to reduce the risk of privacy leaks while maintaining efficiency remains a challenge. For this purpose, this paper provides a detailed review of privacy-protecting keyword search technology, systematically analyzing the principles, strengths, and weaknesses of current mainstream technologies. The study finds that although existing technologies can encrypt user queries to prevent direct leakage of sensitive information, there is still a potential risk of privacy leakage between the query pattern, access mode, and returned results. In response to this issue, the paper proposes a series of improvement directions to enhance the effectiveness of privacy protection. Furthermore, current privacy protection technologies face numerous challenges in practical applications, involving aspects such as technological enhancement and privacy compliance. By integrating and innovating cutting-edge technologies related to privacy-protecting keyword search, new ideas and solutions are expected to resolve these technical problems and promote the development of privacy protection technology to a higher level. Finally, the paper provides an outlook on the future development directions and innovative application models of privacy-protecting keyword search technology.
Keywords: searchable encryption; private information retrieval; keyword search