王鵬舉
(貴州師范大學(xué)大數(shù)據(jù)與計算機科學(xué)學(xué)院,貴陽550001)
互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展迎來大數(shù)據(jù)時代,爆炸式的數(shù)據(jù)增長致使信息過載與信息迷航。搜索引擎技術(shù)在一定程度上能滿足用戶信息檢索的需求。但傳統(tǒng)搜索技術(shù)通過關(guān)鍵字進行檢索,對于相同的檢索關(guān)鍵字只能返回相同的檢索結(jié)果,無法滿足多元化的需求[1];另外,這種方式需要用戶明確知道自己需要什么,并將其轉(zhuǎn)換為對應(yīng)的檢索關(guān)鍵字進行信息檢索。某些情況下,如果用戶不知道自己具體需要什么,傳統(tǒng)搜索引擎技術(shù)將變得無能為力。例如,用戶想聽一首符合自己口味而又從未聽過的歌曲,或想看一部符合自己口味而又不知道名字的電影,這個時候個性化推薦技術(shù)將變得十分有用。個性化推薦技術(shù)通過研究用戶興趣偏好,幫助用戶從海量的信息中去發(fā)掘用戶潛在的需求。該技術(shù)被提出來至今已有十余年歷史[1],廣泛應(yīng)用于廣告投放、電影推薦以及電子商務(wù)等領(lǐng)域。一方面,推薦系統(tǒng)可以提升用戶體驗,同時發(fā)掘商品交易中的“長尾商品”,服務(wù)經(jīng)濟社會;另一方面,推薦系統(tǒng)需要盡可能詳盡地收集用戶資料建立用戶模型以提供個性化推薦服務(wù),這個過程中用戶的個人身份信息、生理特征及社交記錄等隱私數(shù)據(jù)也在被各類機構(gòu)肆意收集,讓用戶隱私面臨巨大危險。
推薦系統(tǒng)架構(gòu)如圖1所示[1],它由用戶建模模塊、推薦對象建模模塊和推薦算法模塊3部分組成。
圖1推薦系統(tǒng)基本架構(gòu)
推薦系統(tǒng)利用統(tǒng)計分析以及機器學(xué)習(xí)等人工智能技術(shù)建立用戶模型,同時對被推薦對象進行建模,然后通過推薦算法計算得到用戶感興趣的對象,并根據(jù)推薦場景對推薦結(jié)果進行一定調(diào)整,最后將推薦結(jié)果展示給用戶。推薦的個性化程度和準確度越高,要求對用戶的個性化信息掌握得越多,還要能準確地表達給系統(tǒng)并能隨著它們的變化而及時修正[2]。
隱私即個人不愿意公開的私事,包括公民個人信息隱私、通信隱私、空間隱私(個人出入的特定空間或區(qū)域)、身體隱私等。文獻[3]中給出了較為準確的隱私定義:隱私是與個人相關(guān)的具有不被他人搜集、保留和處分的權(quán)利的信息資料集合,并且它能夠按照所有者的意愿在特定時間、以特定方式、在特定程度上被公開。在個性化推薦系統(tǒng)中,引發(fā)隱私擔(dān)憂的問題主要有以下兩個方面:
(1)用戶建模。推薦系統(tǒng)需要通過顯式或隱式的數(shù)據(jù)收集方法盡可能詳盡地獲取用戶信息(包括用戶姓名、性別、電話、住址,以及用戶瀏覽網(wǎng)頁內(nèi)容、產(chǎn)生的點擊行為等)以建立用戶模型(user profiles),這個過程中可能存在對用戶個人信息的過度收集、不正當(dāng)監(jiān)控等問題。其次,數(shù)據(jù)收集者存在對用戶數(shù)據(jù)進行二次利用的風(fēng)險。例如,不法收集者將用戶數(shù)據(jù)進行倒賣獲利等行為。另外,數(shù)據(jù)收集者還存在因自身管理不當(dāng)、技術(shù)漏洞等原因?qū)е掠脩魯?shù)據(jù)泄露的風(fēng)險。
(2)推薦計算。這個過程中主要是將用戶模型與推薦對象模型進行相似度計算。引發(fā)的隱私擔(dān)憂主要有不正當(dāng)?shù)臄?shù)據(jù)分析、不正當(dāng)?shù)臄?shù)據(jù)合并,以及惡意的誤導(dǎo)推薦等。
出于對隱私的擔(dān)憂,用戶需要在推薦系統(tǒng)帶來的收益與提交個人信息造成的隱私風(fēng)險付出之間作一個衡量,大多數(shù)用戶不愿意將其個人信息提供給服務(wù)商,或者必要換取某些服務(wù)時提供個人基本信息。因此,如果用戶隱私得不到較好的保護,一方面將造成用戶對系統(tǒng)的不信任,進而拒絕向服務(wù)商提供個人信息或拒絕使用相應(yīng)服務(wù)。另一方面,服務(wù)商無法獲取高質(zhì)量的用戶數(shù)據(jù)進而也就無法提供高質(zhì)量的用戶服務(wù)。文獻[3]中給出了隱私保護的定義:隱私保護是對個人隱私采取一系列的安全手段防止其泄漏和濫用的行為。在個性化推薦系統(tǒng)中,既要充分考慮用戶數(shù)據(jù)的利用價值,又要充分考慮用戶對個人數(shù)據(jù)使用的態(tài)度。目前,無論是在實際應(yīng)用環(huán)節(jié),還是科研研究中都已提出較多隱私保護方法,但面對日益復(fù)雜的網(wǎng)絡(luò)環(huán)境,用戶隱私保護問題仍然還有很多工作要做。在個性化推薦系統(tǒng)中,用戶隱私保護尤其面臨較多挑戰(zhàn)。
個性化推薦系統(tǒng)中對用戶隱私信息保護大體上從3個層面入手:隱私保護技術(shù)、隱私保護策略和法律法規(guī)保障。
從技術(shù)層面上講,推薦系統(tǒng)中用戶隱私保護方案大致可分為推薦系統(tǒng)體系結(jié)構(gòu)控制、匿名技術(shù)、數(shù)據(jù)擾動、加密技術(shù)4類,但實際研究與應(yīng)用中也存在將多種方案融合的方法。
2.1.1 推薦系統(tǒng)體系結(jié)構(gòu)控制
推薦系統(tǒng)的體系結(jié)構(gòu)控制著眼于研究用戶信息收集、建模以及用戶描述文件存放位置[2]。最初的個性化推薦系統(tǒng)采用集中式體系結(jié)構(gòu),即用戶信息收集、建模工作、推薦結(jié)果計算以及用戶描述文件存放位置都在服務(wù)器端。在這類推薦系統(tǒng)中,推薦系統(tǒng)服務(wù)器與Web服務(wù)器共享同一臺服務(wù)器,其系統(tǒng)結(jié)構(gòu)如圖2所示[4]。
圖2基于服務(wù)器的推薦系統(tǒng)結(jié)構(gòu)
基于服務(wù)器的推薦系統(tǒng)存在以下兩個問題[4]:
(1)推薦服務(wù)器與Web服務(wù)器共享同一臺設(shè)備,增加了Web服務(wù)器系統(tǒng)開銷。同時,推薦系統(tǒng)性能也受到Web服務(wù)器功能的限制。
(2)用戶描述文件存放在服務(wù)端存在巨大風(fēng)險,無論是推薦系統(tǒng)管理員還是惡意攻擊者都能比較方便地從服務(wù)端獲取用戶文件。
因此,有研究者提出推薦系統(tǒng)的分布式體系結(jié)構(gòu),文獻[10]較早提出了分布式推薦系統(tǒng)結(jié)構(gòu)。
(1)基于客戶端的推薦系統(tǒng)。在基于客戶端的推薦系統(tǒng)中,一般將用戶信息收集與建模工作放在客戶端完成,同時用戶描述文件也存放在客戶端,其系統(tǒng)結(jié)構(gòu)如圖3所示[4]。
圖3基于客戶端的推薦系統(tǒng)結(jié)構(gòu)
在這種結(jié)構(gòu)中,用戶數(shù)據(jù)存放在客戶端,保證了用戶對個人數(shù)據(jù)的可控性,因此具備較好的隱私性。同時,用戶信息收集在本地完成,因此可以獲得較為豐富準確的數(shù)據(jù)用于構(gòu)建高質(zhì)量的用戶模型,但是由此也帶來一些問題:①個性化推薦計算過程中還需要將部分用戶數(shù)據(jù)傳給服務(wù)端進行處理得到推薦結(jié)果,傳輸過程中存在隱私泄露風(fēng)險,需要開發(fā)安全傳輸平臺進行數(shù)據(jù)傳輸。②基于客戶端的推薦系統(tǒng)較難獲得其他用戶的數(shù)據(jù),因此較難實施基于用戶的協(xié)同過濾推薦。
文獻[5]提出一種線上線下結(jié)合方式,將用戶描述文件保存在本地,并將本地用戶描述文件進行聚合混淆后上傳至服務(wù)器用于個性化推薦,同時線上線下文件保持同步。文獻[6]提出一種樹狀分層的用戶文件描述結(jié)構(gòu),上層以一種較為概括性的方式描述用戶信息,下層以一種較為具體的方式描述用戶信息,然后根據(jù)用戶設(shè)置的參數(shù)來發(fā)布用戶數(shù)據(jù),從而達到保護用戶隱私的目的。
(2)基于代理端的推薦系統(tǒng)。在這種結(jié)構(gòu)中,用戶信息的收集、建模以及推薦服務(wù)都在代理端實現(xiàn)。比較典型的代理端個性化推薦系統(tǒng)有斯坦福大學(xué)的Fab、明尼蘇達大學(xué)的GroupLens等。
在基于代理端的推薦系統(tǒng)中,由于需要將用戶數(shù)據(jù)上傳至代理端,用戶數(shù)據(jù)集中在第三方依然存在暴露的風(fēng)險。
(3)基于P2P的推薦系統(tǒng)結(jié)構(gòu)。在P2P(peer to peer,P2P)結(jié)構(gòu)中,用戶計算機同時扮演客戶端與服務(wù)器角色,用戶數(shù)據(jù)存放在個人計算機中。其主要設(shè)計思路是將用戶查詢通過網(wǎng)絡(luò)中的對等點進行轉(zhuǎn)發(fā)提交以達到隱匿身份的目的,該系統(tǒng)結(jié)構(gòu)設(shè)計相對來說要靈活很多[18-20]。
圖4基于代理端的推薦系統(tǒng)結(jié)構(gòu)
圖5基于P2P的網(wǎng)絡(luò)模型
文獻[7]基于P2P網(wǎng)絡(luò),通過對等點將查詢進行匿名交換以達到隱私保護的目的。文獻[8]中采用k-匿名的代理轉(zhuǎn)發(fā)的增量數(shù)據(jù)更新方式面向移動商務(wù)推薦提出一種基于P2P的隱私保護策略。文獻[9]中,我們提出一種基于P2P網(wǎng)絡(luò)模型的網(wǎng)頁搜索引擎(web search engine,WSE)前端用戶隱私保護方案,利用P2P網(wǎng)絡(luò)架構(gòu)來將用戶根據(jù)他們的愛好進行分組,并構(gòu)建多層隱私保護機制,通過節(jié)點轉(zhuǎn)發(fā)來提交用戶查詢,WSE只能獲得一組查詢的簡要特征并提供相應(yīng)的個性化服務(wù)。
在基于P2P的隱私保護技術(shù)推薦系統(tǒng)中,其推薦計算是以在線計算的方式進行,因此其實時性較好,但是需要考慮該模型帶來的推薦質(zhì)量較低以及P2P網(wǎng)絡(luò)高度的開放性和匿名性所帶來的節(jié)點之間的信任問題。
2.1.2匿名技術(shù)
匿名技術(shù)指通過某些方式隱藏用戶真實身份和敏感信息,同時也能獲得較為準確的個性化推薦,該方法以1998年Sweeney等[11]提出的k-匿名(k-ano?nymity)模型為代表。k-匿名模型主要為防止鏈接攻擊而設(shè)計,其設(shè)計思想通過概括或隱匿等技術(shù),發(fā)布精度較低的數(shù)據(jù),使得每條記錄至少與數(shù)據(jù)表中其他k-1條記錄具有完全相同的準標識符屬性值,攻擊者僅能以不超過1/k的概率標識元組所屬個體的身份,并且可通過調(diào)整參數(shù)k值更改隱私保護級別,從而降低了隱私泄露的風(fēng)險。但是k-匿名模型無法抵御同質(zhì)化攻擊和背景知識攻擊,Machanavajjhala等[12]在此基礎(chǔ)上提出L-多樣性(L-diversity)模型。L-多樣性保證每一個等價類里,敏感屬性至少有L個不同的取值,使得攻擊者最多只能以1/L的概率確認某個體的敏感信息,從而保證用戶的隱私信息不能通過背景知識、同質(zhì)知識等方法推斷出來。但是L-多樣性模型無法避免偏斜性攻擊,并且存在敏感屬性比例的不均衡導(dǎo)致L-多樣性難以實現(xiàn)等問題。文獻[13]提出一種t-臨近模型(t-closeness),該匿名方式是對L-多樣性的進一步改進,保證敏感信息的分布情況與整個數(shù)據(jù)的敏感信息分布情況接近,從而達到保護用戶敏感信息的目的。文獻[7,9]本質(zhì)上也是采用匿名化思想,在基于P2P的推薦系統(tǒng)結(jié)構(gòu)中,通過鄰居轉(zhuǎn)發(fā)以達到隱匿用戶真實身份的目的。文獻[14]提出一種團體推薦模型,將相似用戶組建成一個團體,然后以團體為單位進行推薦,用戶既能獲得較好的推薦效果,同時也能起到隱匿身份的目的。文獻[15]采用數(shù)據(jù)聚合的方式,將不同用戶的數(shù)據(jù)進行交換聚合,以聚合后的數(shù)據(jù)用于計算得到推薦。文獻[16]使用一種新的數(shù)據(jù)聚合算法AGG(Aggregation)來替換公鑰同態(tài)加密算法,減少了用戶端與運算數(shù)據(jù)計算開銷。
2.1.3 數(shù)據(jù)擾動
數(shù)據(jù)擾動技術(shù)指在輸入或輸出數(shù)據(jù)中添加一定的隨機噪聲,防止攻擊者通過推理進行惡意攻擊,該方法本質(zhì)上是基于數(shù)據(jù)失真的隱私保護技術(shù),一般應(yīng)用于控制統(tǒng)計數(shù)據(jù)庫隱私泄露。Agrawal等最早在文獻[17]中提出了基于加法擾動的隱私保護技術(shù),該方法在原始數(shù)據(jù)矩陣X加上擾動矩陣C,并且要求擾動矩陣C中的每一行滿足均值為μ、方差為δ2的概率分布。但是,基于加法擾動的隱私保護技術(shù)存在數(shù)據(jù)可用性低的問題,后來在此基礎(chǔ)上出現(xiàn)了基于乘法擾動的隱私保護技術(shù),該方法以原始數(shù)據(jù)矩陣X與轉(zhuǎn)換矩陣M,利用公式Y(jié)=MX計算得到用戶盲化數(shù)據(jù)矩陣,使用該方法能得到較好的數(shù)據(jù)可用性。但是,在文獻[18]中,Liu等發(fā)現(xiàn)基于乘法擾動的推薦系統(tǒng)隱私保護方法無法抵抗背景攻擊,Dwork等[19]于2006年提出的差分隱私(differential privacy,DP)保護技術(shù),解決了大多數(shù)隱私保護技術(shù)中普遍存在的背景知識攻擊問題。
差分隱私本質(zhì)上也是一種基于數(shù)據(jù)擾動的隱私保護技術(shù),并且建立在嚴格的數(shù)學(xué)定義上,旨在保證攻擊者無法通過輸入或輸出數(shù)據(jù)的差異推測出個體敏感屬性,其形式化定義為:設(shè)有隨機算法M,PM為M所有可能輸出構(gòu)成的集合的概率,對于任意兩個鄰近數(shù)據(jù)集D和D'以及任意查詢集合S,若算法滿足式(1):
則稱算法M提供ε-隱私保護。該方法的核心思想在于對差別只有一條記錄的兩個數(shù)據(jù)集,查詢它們獲得相同值的概率非常接近,從而避免攻擊者通過捕捉輸出差異進而推測個體敏感屬性。其中ε越小,隱私保密度越高。差分隱私主要有中心化差分隱私(centralized differential privacy,CDP)和本地差分隱私(local differential privacy,LDP)兩種方案。CDP主要是在查詢結(jié)果中添加滿足某種分布的噪聲對查詢結(jié)果進行輸出擾動(Output Perturbation),從而使得查詢結(jié)果隨機化。但是由于所添加噪聲服從某種概率分布,攻擊者重復(fù)執(zhí)行相同的查詢,仍然有可能根據(jù)噪聲結(jié)果的分布情況推測算法輸出的真實結(jié)果。LDP主要是對用戶數(shù)據(jù)在本地進行輸入擾動(input pertur?bation),然后上傳至數(shù)據(jù)收集者,數(shù)據(jù)收集者拿到的是用戶脫敏后的數(shù)據(jù)集,該方法相對來說較為安全,已成為現(xiàn)今隱私保護技術(shù)研究的主要方向之一。
此外,文獻[20]中提出一種分布式體系結(jié)構(gòu)中基于多方的數(shù)據(jù)擾動協(xié)議;文獻[21]中通過不同噪聲強度引入敏感和非敏感數(shù)據(jù)訓(xùn)練集,提出一種隱私保護的社交推薦協(xié)議。
以上基于數(shù)據(jù)擾動的推薦系統(tǒng)隱私保護方案[17-23],本質(zhì)上都是在原始數(shù)據(jù)集上添加噪聲機制,該方法會因數(shù)據(jù)失真從而在一定程度上影響預(yù)測結(jié)果的準確性,因此在該研究方向上主要是考慮設(shè)計合理的擾動機制,提高數(shù)據(jù)可用性,具體可以考慮與安全硬件、加密等技術(shù)等進行結(jié)合。同時,在具體應(yīng)用場景中可考慮放低對隱私的要求,提高數(shù)據(jù)分析精度。
2.1.4 加密技術(shù)
該方法以安全多方計算、公鑰全同態(tài)加密技術(shù)為代表,一般方法是對用戶歷史數(shù)據(jù)集進行全同態(tài)加密并上傳至推薦服務(wù)器,后者利用其全同態(tài)性質(zhì)在密文域上進行建模和推薦結(jié)果計算,被授權(quán)用戶可以用相應(yīng)的私鑰解密推薦結(jié)果。該方法對用戶數(shù)據(jù)進行加密傳輸與存儲,并且數(shù)據(jù)不失真實性,因此能較好保護用戶隱私且推薦結(jié)果準確性高。文獻[22]中利用公鑰同態(tài)加密算法Paillier在電子醫(yī)療系統(tǒng)中構(gòu)造了一種患者健康信息保護方案。文獻[23]中結(jié)合公鑰同態(tài)加密和安全多方計算技術(shù),提出基于矩陣分解的隱私保護推薦系統(tǒng),該方案較文獻[22]所采用方案來說更為高效。文獻[24]中,Liu Jian等利用Yao的混淆電路、同態(tài)加密和秘密分享技術(shù),提出了推薦系統(tǒng)隱私保護的神經(jīng)網(wǎng)絡(luò)模型miniONN。此外,文獻[25]等都涉及到了通過加密技術(shù)實現(xiàn)推薦系統(tǒng)中用戶信息隱私保護方案。但是,由于通過加密技術(shù)涉及密鑰傳輸以及對大量用戶數(shù)據(jù)進行加密計算,從而導(dǎo)致推薦系統(tǒng)巨大的通信與運算開銷,尤其對于資源受限的移動用戶來說,該缺陷尤為明顯。因此,在該研究方向上需要考慮如何構(gòu)建高效的隱私保護方案。
綜合分析,基于匿名技術(shù)、數(shù)據(jù)擾動與加密技術(shù)的推薦系統(tǒng)隱私保護方案都涉及離線計算模型,因此其推薦結(jié)果實時性較低,而在基于體系結(jié)構(gòu)控制的推薦系統(tǒng)隱私保護方案中,P2P隱私保護技術(shù)以在線計算為主,因此實時性相對較好。表1從隱私保護度、計算開銷、推薦精度和實時性4個維度對上述4種個性化推薦系統(tǒng)隱私保護方案性能進行了比較。
表1推薦系統(tǒng)隱私保護技術(shù)的性能對比
表2典型推薦技術(shù)分類及優(yōu)缺點對比
結(jié)合上述分析,表2給出了文中所列典型的隱私保護技術(shù)所屬隱私保護方案類別以及各自的優(yōu)缺點對比。
需要特別說明的是,雖然從表中可以看出不同隱私保護技術(shù)之間優(yōu)缺點上存在一些共性,但是各自有其適用場景,因此它們都有自己存在的實際意義。
隱私保護策略指網(wǎng)站對用戶個人信息收集、使用過程中的保護策略,并以文字的形式展示給用戶,同時采用某種機器可讀語言對隱私保護策略進行描述從而在技術(shù)層面對隱私策略提供保證。
2.2.1 隱私偏好設(shè)置平臺(P3P)
隱私偏好設(shè)置平臺(the platform for privacy pref?erences project,P3P)由萬維網(wǎng)聯(lián)盟于2002年開發(fā)完成,它包含兩個組件,一個放在服務(wù)端用以提供一種用XML描述的用戶隱私保護策略文件,包括對用戶隱私信息收集、存儲、使用等相關(guān)的描述語法與語義;另一個放在客戶端形成一個用戶代理軟件,用戶通過代理軟件設(shè)置個人隱私偏好。代理軟件通過Applet等XML語言將用戶偏好設(shè)置轉(zhuǎn)換為對應(yīng)的機器可讀規(guī)則,然后將服務(wù)端網(wǎng)站隱私保護策略文件發(fā)送至客戶端與用戶隱私偏好進行匹配,如果匹配成功,則用戶可繼續(xù)訪問站點,否則用戶有權(quán)決定是否放棄對網(wǎng)站的訪問,或是修改個人隱私偏好參數(shù)以繼續(xù)訪問網(wǎng)站。但是P3P不具備任何強制力,同時用戶也沒有任何措施來判斷其隱私策略是否被網(wǎng)站執(zhí)行,因此P3P技術(shù)存在很大局限性。
2.2.2 企業(yè)隱私授權(quán)語言(EPAL)
企業(yè)隱私授權(quán)語言(enterprise privacy authoriza?tion language,EPAL)由IBM公司開發(fā)完成,它是一種基于XML格式的語言,能對隱私策略按規(guī)則進行描述。EPAL能使軟件開發(fā)者把安全策略執(zhí)行功能直接建在企業(yè)軟件應(yīng)用中。相比P3P,雖然EPAL同樣采用隱私策略描述語言來實現(xiàn)隱私保護機制,但是與前者以保護數(shù)據(jù)為中心不同,后者以控制訪問數(shù)據(jù)為中心,且EPAL有企業(yè)系統(tǒng)作為隱私策略實施的保障。
2.2.3 其他隱私保護策略
Huang[27]提出基于描述邏輯的策略分析方法,通過引入Web本體描述語言O(shè)WL來表達RBAC(基于角色的訪問控制)中的角色約束。Wei等[28]給出了普適計算環(huán)境中隱私策略的統(tǒng)一表示及其執(zhí)行機制,并使用多類邏輯和描述邏輯建立隱私策略模型和隱私策略公理。文獻[29]中構(gòu)建了一個包含隱私領(lǐng)域語義的隱私本體,并基于該隱私本體將用戶的隱私偏好轉(zhuǎn)換成SWRL(semantic web rule language)規(guī)則,利用推理引擎基于SWRL規(guī)則對隱私本體知識庫進行推理,推導(dǎo)出隱私策略符合用戶隱私偏好的Web服務(wù)。此外,現(xiàn)在一些廣泛流行的社交軟件中加入用戶可控的訪問控制機制,如微信朋友圈發(fā)布功能中可選的“誰可以看”功能,微博發(fā)布功能中的“選擇分享范圍”等功能,它們?yōu)橛脩籼峁┮环N個人信息發(fā)布范圍控制的機制,在一定程度上能防止用戶信息被廣泛流傳帶來的隱私風(fēng)險。
面對日益嚴峻的公民隱私泄露問題,除了通過相應(yīng)的隱私策略以及技術(shù)手段進行保護之外,還必須有配套法律法規(guī)予以規(guī)范管理,從國家機器層面對公民網(wǎng)絡(luò)生活提供隱私保障。
我國憲法第四十條規(guī)定:“中華人民共和國公民的通信自由和通信秘密受法律的保護。”該條款將公民網(wǎng)絡(luò)隱私權(quán)利作為一項基本權(quán)利寫進憲法。《民法總則》第111條中規(guī)定任何組織或個人應(yīng)通過合法程序獲取他人信息并確保信息安全,禁止非法收集、買賣他人信息。此外,十一屆全國人大審議通過的《加強網(wǎng)絡(luò)信息保護的決定》、2017年開始實施的《中華人民共和國網(wǎng)絡(luò)安全法》等,都列出了相關(guān)條款用于公民個人隱私信息保護。2020年10月,《中華人民共和國個人信息保護法(草案)》作為一部專門保護公民個人隱私信息的法律提請十三屆全國人大會議審議,對維護廣大人民群眾的個人信息權(quán)益具有重要意義。
在隱私保護問題上,我國與歐美國家在法律規(guī)范方面存在較大差距,文獻[30]最早在1890年提及隱私權(quán),它成為美國關(guān)于公民隱私保護的具有開創(chuàng)性意義的法律著作,它指出公民的個人隱私權(quán)是一項獨特的權(quán)利并應(yīng)受到保護。美國最早于1974年通過《隱私法案》(Privacy Act of 1974)對公民隱私權(quán)予以保護,之后相繼頒發(fā)《電子通訊隱私法》(Electronic Commu?nications Privacy Act of 1986,ECPA)、《公民網(wǎng)絡(luò)隱私權(quán)保護暫行條例》及《兒童在線隱私權(quán)保護法》(Chil?dren's Online Privacy Protection Act of 1998)等法律對公民隱私信息提供法律保障。歐盟于1995年制定了《計算機數(shù)據(jù)保護法》,1997年通過《電信事業(yè)個人數(shù)據(jù)處理及隱私保護指令》,后來相繼出臺《Internet上個人隱私權(quán)保護的一般原則》《信息公路上個人數(shù)據(jù)收集、處理過程中個人權(quán)利保護指南》《通用數(shù)據(jù)保護條例》(General Data Protection Regulation,GDPR)等系列法規(guī)對網(wǎng)民隱私予以保護。
以上是國內(nèi)外比較典型隱私保護法律案例??偟膩碚f,面對飛速擴張網(wǎng)絡(luò)體量,公民隱私保護相關(guān)法律法規(guī)跟進較慢,需要在發(fā)展中逐步完善,建立符合大數(shù)據(jù)時代特點及公民個人隱私數(shù)據(jù)特征的法律體系,營造可持續(xù)發(fā)展的網(wǎng)絡(luò)生態(tài)。
技術(shù)是把雙刃劍,在個性化推薦系統(tǒng)中,用戶隱私保護仍舊是一個嚴峻的問題,能否處理好用戶隱私數(shù)據(jù)安全問題將直接影響推薦技術(shù)更一步的發(fā)展。未來,個性化推薦系統(tǒng)中用戶隱私保護技術(shù)需要研究的問題仍舊比較多。
(1)權(quán)衡隱私保護模型的隱私性與數(shù)據(jù)可用性。在現(xiàn)今的很多推薦系統(tǒng)隱私保護設(shè)計方案中都存在數(shù)據(jù)可用性與隱私性難以平衡的問題,尋找二者的平衡需要綜合考慮多種因素。例如不同個體隱私差異、個體對隱私敏感度差異以及推薦服務(wù)提供商對系統(tǒng)模型的可用性預(yù)期等,這是一個十分復(fù)雜的問題,需要具體情況具體分析。
(2)研究可控的用戶個人描述文件建立方法?,F(xiàn)有推薦系統(tǒng)大多著眼于研究有效的用戶描述文件,過分注重對個人信息的獲取,缺乏對用戶描述文件建立后用戶對此文件中隱私暴露風(fēng)險的自主控制研究,因此還需要從用戶的個人隱私利益角度出發(fā),結(jié)合不同用戶隱私敏感度的個性化差異,研究可控的用戶描述文件建立方法,提升用戶數(shù)據(jù)透明性,保證用戶對個人數(shù)據(jù)的知情權(quán)、控制權(quán)。
(3)探索多種技術(shù)結(jié)合的推薦系統(tǒng)隱私保護方案?;跀?shù)據(jù)擾動技術(shù)的隱私保護方案優(yōu)點在于系統(tǒng)開銷小,但是其問題在于添加隨機噪聲會造成數(shù)據(jù)可用性降低,而數(shù)據(jù)加密技術(shù)能保證數(shù)據(jù)在傳輸、存儲以及計算過程中的機密性和正確性,但是涉及大量加密計算以及密鑰傳輸,系統(tǒng)開銷巨大,尤其在復(fù)雜數(shù)據(jù)模型中對系統(tǒng)性能影響嚴重。直觀上來講,上述兩種隱私保護方案在功能上形成互補關(guān)系,若是能很好將兩種方案結(jié)合起來將是一個很有意義的研究方向。因此,在研究新的隱私保護機制過程中,可以嘗試將多種技術(shù)進行結(jié)合以獲得更好的推薦系統(tǒng)模型。
(4)提升系統(tǒng)可用性。在原有業(yè)務(wù)系統(tǒng)中加入個性化功能勢必會提升系統(tǒng)負擔(dān),因此有必要研究設(shè)計較輕量級的中間件系統(tǒng),將推薦系統(tǒng)隱私保護模塊嵌入到現(xiàn)有系統(tǒng)中,提升系統(tǒng)可用性。
(5)建立健全的隱私保護法律法規(guī)與政策引導(dǎo)機制。大數(shù)據(jù)時代的極速發(fā)展,人們的生活方式和行為被數(shù)字化、模擬化,網(wǎng)絡(luò)的重要性已然如同水電一樣融入人們生活,公民個人隱私泄露問題凸顯,除了隱私保護技術(shù)滯后問題,還存在相關(guān)隱私保護法律法規(guī)滯后問題,建立健全的隱私保護法律法規(guī)和政策引導(dǎo)機制迫在眉睫。
個性化推薦系統(tǒng)中的用戶隱私保護是當(dāng)前網(wǎng)絡(luò)環(huán)境中公民隱私保護的子問題,隨著人工智能技術(shù)的發(fā)展,在數(shù)據(jù)挖掘、機器學(xué)習(xí)等領(lǐng)域中,用戶隱私泄露問題凸顯,隱私保護研究是當(dāng)前計算機學(xué)科領(lǐng)域的重點問題。