高玉寶(中國(guó)人民大學(xué)信息資源管理學(xué)院)
大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)給用戶隱私保護(hù)帶來了極大的威脅和挑戰(zhàn),加上巨大的利益驅(qū)動(dòng),泄露隱私、信息倒賣事件屢見不鮮,亟須出臺(tái)關(guān)于個(gè)人隱私保護(hù)的法律法規(guī)和規(guī)章制度,加大對(duì)侵害個(gè)人隱私行為的打擊力度。1973年,瑞典頒布了世界上首部全國(guó)性的個(gè)人數(shù)據(jù)保護(hù)法《瑞典數(shù)據(jù)法》[1]。在我國(guó),“隱私”一詞最早出現(xiàn)在法律法規(guī)中是1982年的《中華人民共和國(guó)民事訴訟法(試行)》[2]。2021年11月1日,《中華人民共和國(guó)個(gè)人信息保護(hù)法》(以下簡(jiǎn)稱《個(gè)人信息保護(hù)法》)正式施行[3],這是我國(guó)首部針對(duì)個(gè)人信息保護(hù)的專門性立法,改變了我國(guó)隱私保護(hù)“無專門法可依”的尷尬局面。
有學(xué)者用“刺猬困境”來形容信息共享和隱私保護(hù)之間的矛盾關(guān)系[4],即信息共享過少,人類生活的便利性便會(huì)相應(yīng)減少,但是信息共享過多,人們的隱私生活受到干擾和破壞的可能性就越大。大數(shù)據(jù)憑借其強(qiáng)大的數(shù)據(jù)收集和分析能力加劇了這種困境,大數(shù)據(jù)發(fā)展和隱私保護(hù)就像是天平的兩端,任何一方的增強(qiáng)或削弱都會(huì)迫使另一方作出回應(yīng)。從人類進(jìn)步和經(jīng)濟(jì)發(fā)展的社會(huì)利益視角來看,我們需要依靠大數(shù)據(jù)技術(shù)推進(jìn)信息革命,但從以人為本的個(gè)體性來看,隱私保護(hù)勢(shì)在必行?!秱€(gè)人信息保護(hù)法》對(duì)個(gè)人信息的收集、處理、利用、傳播、存儲(chǔ)進(jìn)行了嚴(yán)格規(guī)范,加大了隱私保護(hù)的力度,如何保持天平的平衡需要政府、業(yè)界、學(xué)界一起努力尋求一條解決路徑。
大數(shù)據(jù)與隱私保護(hù)的矛盾問題一直是法學(xué)、計(jì)算機(jī)學(xué)、圖書情報(bào)學(xué)、哲學(xué)等諸多學(xué)科特別關(guān)注的話題。從2011年麥肯錫公司的《大數(shù)據(jù):下一個(gè)創(chuàng)新,競(jìng)爭(zhēng)和生產(chǎn)力的前沿》報(bào)告開始[5],大數(shù)據(jù)正式出現(xiàn)在公眾視野,經(jīng)過短短十年的發(fā)展,大數(shù)據(jù)就已達(dá)到創(chuàng)新擴(kuò)散的成熟期[6]。如果說自身蘊(yùn)藏的巨大價(jià)值是大數(shù)據(jù)得以迅猛發(fā)展的內(nèi)在動(dòng)因,那么對(duì)人類生活理念、生活方式、思維方式、研究范式[7]的影響則是其備受關(guān)注的社會(huì)緣由。大數(shù)據(jù)技術(shù)憑借強(qiáng)大的數(shù)據(jù)收集、分析、挖掘能力助力于理解人類行為動(dòng)態(tài)、改善社會(huì)治理、創(chuàng)新商業(yè)模式、提升決策質(zhì)量、創(chuàng)造新的研究領(lǐng)域、加速科學(xué)發(fā)現(xiàn)和創(chuàng)新。但是,我們?cè)谙硎艽髷?shù)據(jù)帶來的巨大福利的同時(shí),也面臨“大數(shù)據(jù)污染”問題,即在數(shù)據(jù)生命周期過程中由于種種原因引發(fā)的網(wǎng)絡(luò)隱私問題泛濫成災(zāi)[6]。大數(shù)據(jù)時(shí)代隱私得不到有效保障的根源在于大數(shù)據(jù)技術(shù)自身邏輯的缺陷[8]、新技術(shù)與舊有倫理規(guī)范不相適應(yīng)[9]、規(guī)約機(jī)制的滯后性[10]和隱私觀念的轉(zhuǎn)變[11]。
為了解決大數(shù)據(jù)與隱私保護(hù)的矛盾,國(guó)內(nèi)外學(xué)者從立法、技術(shù)、倫理、行業(yè)規(guī)范等角度進(jìn)行了諸多探索。法律被認(rèn)為是解決重大社會(huì)矛盾最有效、最高效的手段,在學(xué)習(xí)借鑒美國(guó)、日本等國(guó)立法經(jīng)驗(yàn)的基礎(chǔ)上,有學(xué)者倡導(dǎo)建立適合我國(guó)國(guó)情的個(gè)人信息保護(hù)法[12],而在大數(shù)據(jù)生命周期的各個(gè)階段,如大數(shù)據(jù)的發(fā)布、存儲(chǔ)、分析和使用都存在隱私泄露的風(fēng)險(xiǎn)[13],因此技術(shù)手段也不可或缺。目前,主要的隱私保護(hù)技術(shù)包括大數(shù)據(jù)發(fā)布隱私保護(hù)技術(shù)[14]和大數(shù)據(jù)挖掘隱私保護(hù)技術(shù)[15],常用的手段有匿名化、加密、差分隱私和訪問控制,除此之外,契約理論[16]和倫理規(guī)范[9]也被倡導(dǎo)用來解決數(shù)據(jù)收集和隱私保護(hù)的矛盾問題。
如今,《個(gè)人信息保護(hù)法》已正式施行,其會(huì)對(duì)大數(shù)據(jù)的發(fā)展產(chǎn)生何種影響?哪些條款與大數(shù)據(jù)發(fā)展理念不相協(xié)調(diào)?個(gè)人信息保護(hù)和大數(shù)據(jù)發(fā)展的天平是否會(huì)有所傾斜?均是值得深思的問題。
對(duì)大數(shù)據(jù)的關(guān)注可以追溯到20世紀(jì)80年代,當(dāng)時(shí)就有學(xué)者預(yù)測(cè)大數(shù)據(jù)時(shí)代的來臨[17],但是并未形成大數(shù)據(jù)這一概念。隨著科學(xué)研究的深入發(fā)展,人們對(duì)大數(shù)據(jù)的認(rèn)識(shí)有了很大提升,維基百科將大數(shù)據(jù)描述為在合理的時(shí)間內(nèi)無法利用常規(guī)數(shù)據(jù)處理軟件獲取、管理和處理的數(shù)據(jù)集[18],不過這個(gè)概念中的術(shù)語存在很多不精確之處。國(guó)際數(shù)據(jù)公司IDC和科研機(jī)構(gòu)Gartner對(duì)大數(shù)據(jù)的概念進(jìn)行了完善,其關(guān)注點(diǎn)主要圍繞在大數(shù)據(jù)數(shù)量大、復(fù)雜度高和難以處理的特性方面[19-20]。與傳統(tǒng)數(shù)據(jù)不同,大數(shù)據(jù)的類型和模態(tài)更加多樣(既包括結(jié)構(gòu)化數(shù)據(jù)也包括非結(jié)構(gòu)化數(shù)據(jù))、數(shù)據(jù)來源更加多元(互聯(lián)網(wǎng)、各種傳感器設(shè)備、科學(xué)實(shí)驗(yàn)等都時(shí)刻在生成新的數(shù)據(jù)),其產(chǎn)生速度之快和數(shù)據(jù)流的存在形式對(duì)數(shù)據(jù)的存儲(chǔ)、處理和利用提出了更高的要求。也正是由于大數(shù)據(jù)的數(shù)量越來越大,加上其非結(jié)構(gòu)化和無序性,所以人們對(duì)它的理解也越來越少。
人們對(duì)大數(shù)據(jù)特征的認(rèn)識(shí)經(jīng)歷了從3V、4V、5V再到7V的演變。Laney在2001年提出大數(shù)據(jù)的3V特征,即數(shù)量(Volume)、速度(Velocity)和種類(Variety)三個(gè)維度[21]。數(shù)量意味著大數(shù)據(jù)不再是多少條數(shù)據(jù),而是一個(gè)規(guī)模龐大的數(shù)據(jù)集,數(shù)量特征是大數(shù)據(jù)分析、數(shù)據(jù)價(jià)值提取和準(zhǔn)確預(yù)測(cè)的基礎(chǔ);速度是指大數(shù)據(jù)的產(chǎn)生和傳播的速度更快,通常是以批量、實(shí)時(shí)、數(shù)據(jù)流的形式存在,而且數(shù)據(jù)價(jià)值的時(shí)效性更強(qiáng),這就要求數(shù)據(jù)獲取和處理需要在更短的時(shí)間內(nèi)完成;種類表示數(shù)據(jù)的類型多種多樣,因?yàn)榇髷?shù)據(jù)的來源極其廣泛,如社交網(wǎng)絡(luò)數(shù)據(jù)和機(jī)器生成數(shù)據(jù)以及空間數(shù)據(jù)等,所以非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)占比可能遠(yuǎn)超結(jié)構(gòu)化數(shù)據(jù)。
大數(shù)據(jù)的7V特征是在5V的基礎(chǔ)上增加了有效(Validity)和波動(dòng)性(Volatility)兩個(gè)特征[23]。有效性和真實(shí)性類似,但并不等同,大數(shù)據(jù)的有效性針對(duì)特定場(chǎng)景的數(shù)據(jù)的準(zhǔn)確性,換句話說,真實(shí)的數(shù)據(jù)如果未被恰當(dāng)理解也有可能是無效的,相同的數(shù)據(jù)在不同應(yīng)用環(huán)境之下的效果并不一定一樣;波動(dòng)性也就是大數(shù)據(jù)的不穩(wěn)定性,它對(duì)大數(shù)據(jù)的數(shù)量、種類和速度三個(gè)特性影響重大,如在數(shù)據(jù)保管期限到期時(shí)傳統(tǒng)數(shù)據(jù)的銷毀很容易完成,但是大數(shù)據(jù)時(shí)代的數(shù)據(jù)關(guān)聯(lián)性很強(qiáng),很難實(shí)現(xiàn)對(duì)數(shù)據(jù)的徹底銷毀,為此管理政策和標(biāo)準(zhǔn)都需要作出相應(yīng)的調(diào)整。
可見,大數(shù)據(jù)的意義不僅在于大,還在于數(shù)據(jù)的可用和有用。數(shù)據(jù)可用是數(shù)據(jù)利用的前提,數(shù)據(jù)有用則是數(shù)據(jù)價(jià)值實(shí)現(xiàn)的關(guān)鍵,二者對(duì)于實(shí)現(xiàn)數(shù)據(jù)基礎(chǔ)上的科學(xué)預(yù)測(cè)影響重大。
我國(guó)法域(除港澳臺(tái)地區(qū))中對(duì)于個(gè)人信息和隱私的保護(hù)大致經(jīng)歷了從被動(dòng)防御到主動(dòng)保護(hù)的演變過程。隱私代表著人格權(quán)益,象征著人的尊嚴(yán)、公平和自由,具有深厚的人文傳統(tǒng),其對(duì)應(yīng)的法律規(guī)范主要是不公開和保密;而個(gè)人信息是信息社會(huì)發(fā)展的產(chǎn)物,對(duì)它的保護(hù)更強(qiáng)調(diào)個(gè)體自主控制。從法律強(qiáng)制力的強(qiáng)弱和立法針對(duì)性的角度來看,我國(guó)對(duì)個(gè)人信息的保護(hù)可以分為無立法階段、分散立法階段和專門立法階段。
在網(wǎng)絡(luò)信息技術(shù)未普及之前,不論是刑法、民法還是行政法,對(duì)隱私或者個(gè)人信息的保護(hù)都是微弱的,主要規(guī)范對(duì)象都指向國(guó)家機(jī)關(guān),這也與當(dāng)時(shí)政府是收集公民個(gè)人信息的主要主體相呼應(yīng)。人們傾向于認(rèn)為隱私是為了遠(yuǎn)離群族,是非法秘密和自私的陰謀行為,不符合現(xiàn)實(shí)需要,并且愿意相信政府收集數(shù)據(jù)是基于安全和社會(huì)穩(wěn)定[24],所以此階段人們的隱私觀念模糊、薄弱。
20世紀(jì)80年代,我國(guó)法律中開始出現(xiàn)涉及公民隱私的保密規(guī)定,如1979年頒布的《中華人民共和國(guó)刑事訴訟法》中規(guī)定“有關(guān)國(guó)家機(jī)密或者個(gè)人隱私的案件,不公開審理”[25]。此后信息化浪潮席卷全球,最先發(fā)現(xiàn)互聯(lián)網(wǎng)巨大作用的科研人員和科研機(jī)構(gòu)成為我國(guó)全面接入互聯(lián)網(wǎng)的主要推動(dòng)力量和應(yīng)用者。加之個(gè)人信息產(chǎn)生的巨大經(jīng)濟(jì)價(jià)值,在經(jīng)濟(jì)利益和競(jìng)爭(zhēng)優(yōu)勢(shì)驅(qū)動(dòng)下的商家成為個(gè)人信息的瘋狂追逐者,政府相關(guān)部門掌握的個(gè)人信息數(shù)量之多也引發(fā)了人們的擔(dān)憂。由于信息保護(hù)意識(shí)薄弱以及監(jiān)管的缺失,在公共行政領(lǐng)域出現(xiàn)個(gè)人信息被非法收集、濫用、倒賣的情況,來自私人領(lǐng)域和公共領(lǐng)域的雙重壓力使人們急切渴求法律的保護(hù)。2010年施行的《中華人民共和國(guó)侵權(quán)責(zé)任法》(2021年1月1日已廢止)第一次提出將隱私正式作為一項(xiàng)權(quán)利進(jìn)行保護(hù),把隱私權(quán)與生命權(quán)、名譽(yù)權(quán)、財(cái)產(chǎn)權(quán)等民事權(quán)益等同對(duì)待,從民法的角度確立隱私權(quán)民事權(quán)利在一定程度上提升了隱私保護(hù)力度[26]。
國(guó)家治理、經(jīng)濟(jì)發(fā)展、技術(shù)進(jìn)步、人們生活水平的提高離不開信息的自由流通,但是人們希望在政府、企業(yè)甚至個(gè)人獲取、處理、存儲(chǔ)、使用、傳播他們的個(gè)人信息時(shí)具有足夠的知情權(quán)和控制權(quán)。2003年,國(guó)務(wù)院開啟了個(gè)人信息保護(hù)立法工作,但是作為解決社會(huì)矛盾的有力武器,法律在很多時(shí)候卻無法有效解決效率和公平、安全和秩序等價(jià)值取向的兼顧問題,所以在此階段,我國(guó)的個(gè)人信息保護(hù)立法工作長(zhǎng)期處于停擺狀態(tài)。面對(duì)同樣的問題,歐盟的統(tǒng)一立法模式看重的是公民的尊嚴(yán)和安全自由,美國(guó)的分散立法和行業(yè)自律模式更愿意相信市場(chǎng)的效率。當(dāng)時(shí)我國(guó)處于社會(huì)變革的關(guān)鍵期,推進(jìn)國(guó)家治理能力的提升和經(jīng)濟(jì)體制改革需要信息化建設(shè)的穩(wěn)步發(fā)展,因此采用分散立法和行業(yè)自律的方式更適合國(guó)家的整體戰(zhàn)略和當(dāng)時(shí)的國(guó)情。故而在21世紀(jì)初,我國(guó)很多領(lǐng)域的法律規(guī)范、部門規(guī)章和國(guó)家、行業(yè)標(biāo)準(zhǔn)中都增加了針對(duì)個(gè)人信息的保密義務(wù)以及侵權(quán)責(zé)任設(shè)置規(guī)定,但是對(duì)信息生命周期的管理、信息主體的權(quán)利界定和規(guī)范還有所不足。針對(duì)國(guó)家機(jī)關(guān)以及金融、電信、醫(yī)療等能夠獲取大量個(gè)人信息的工作單位,刑法確立了出售、非法提供公民個(gè)人信息罪,在身份證信息獲取、消費(fèi)者權(quán)益保護(hù)、旅游、電子商務(wù)和網(wǎng)絡(luò)安全等關(guān)鍵民生領(lǐng)域也設(shè)立了個(gè)人信息保密規(guī)定。如,2003年《中華人民共和國(guó)居民身份證法》中首次規(guī)定“公安機(jī)關(guān)及其人民警察對(duì)因制作、發(fā)放、查驗(yàn)、扣押居民身份證而知悉的公民的個(gè)人信息,應(yīng)當(dāng)予以保密”[27]。但是這些規(guī)定都較為單薄,對(duì)個(gè)人信息保護(hù)而言,并不能達(dá)到較好的保護(hù)效果。
部門規(guī)章和相關(guān)標(biāo)準(zhǔn)作為分散性法律法規(guī)的補(bǔ)充,在專門立法出臺(tái)之前充當(dāng)了行業(yè)自律的角色。在互聯(lián)網(wǎng)領(lǐng)域,國(guó)務(wù)院信息化領(lǐng)導(dǎo)小組在1998年發(fā)布《中華人民共和國(guó)計(jì)算機(jī)信息網(wǎng)絡(luò)國(guó)際聯(lián)網(wǎng)管理暫行規(guī)定實(shí)施辦法》,規(guī)定“用戶不得在網(wǎng)絡(luò)上散發(fā)惡意信息,冒用他人名義發(fā)出信息,侵犯他人隱私”[28]。原信息產(chǎn)業(yè)部在2000年發(fā)布《互聯(lián)網(wǎng)電子公告服務(wù)管理規(guī)定》,規(guī)定電子公告服務(wù)提供者應(yīng)當(dāng)對(duì)上網(wǎng)用戶的個(gè)人信息予以保密[29]。在互聯(lián)網(wǎng)全面進(jìn)入中國(guó)后,中國(guó)人民銀行發(fā)布了《個(gè)人信用信息基礎(chǔ)數(shù)據(jù)庫管理暫行辦法》,因?yàn)檫@是最直接和最全面接觸個(gè)人信息保護(hù)的領(lǐng)域,信用征信體系的建立有效保障了市場(chǎng)經(jīng)濟(jì)條件下個(gè)人信息利用與保護(hù)的良好秩序。之后,工信部陸續(xù)出臺(tái)了《信息安全技術(shù)局個(gè)人信息保護(hù)指南》和《信息安全技術(shù)公共及商用服務(wù)信息系統(tǒng)個(gè)人信息保護(hù)指南》,確立了個(gè)人信息處理的概念和原則,但是作為指導(dǎo)性技術(shù)文件,它們的強(qiáng)制力十分有限。
國(guó)際經(jīng)貿(mào)聯(lián)系的日益緊密、區(qū)域性個(gè)人信息保護(hù)立法的日益增多成為加速我國(guó)個(gè)人信息保護(hù)立法的一個(gè)重要?jiǎng)右?。在此形?shì)下,我國(guó)在2020年頒布的《中華人民共和國(guó)民法典》第6章中專門對(duì)隱私權(quán)和個(gè)人信息進(jìn)行保護(hù)[30],2021年11月1日《個(gè)人信息保護(hù)法》正式施行,此舉既順應(yīng)民心,也是在國(guó)際貿(mào)易中爭(zhēng)取主動(dòng)的明智決策。
《個(gè)人信息保護(hù)法》通過八章74個(gè)條款對(duì)個(gè)人信息處理活動(dòng)進(jìn)行了規(guī)范,包括一般個(gè)人信息處理規(guī)則、敏感個(gè)人信息處理規(guī)則、國(guó)家機(jī)關(guān)處理個(gè)人信息規(guī)定、個(gè)人信息跨境處理規(guī)則、個(gè)人信息權(quán)利、個(gè)人信息處理者義務(wù)、個(gè)人信息保護(hù)部門職責(zé)和相應(yīng)法律責(zé)任等,全面詳細(xì)的法律規(guī)范對(duì)于個(gè)人信息處理機(jī)構(gòu)提出了很高的法律遵從要求。透過大數(shù)據(jù)生命周期視角剖析《個(gè)人信息保護(hù)法》,充分了解《個(gè)人信息保護(hù)法》對(duì)大數(shù)據(jù)生命周期各個(gè)階段的要求,可以為機(jī)構(gòu)有效遵從《個(gè)人信息保護(hù)法》提供指導(dǎo),也可以在發(fā)現(xiàn)《個(gè)人信息保護(hù)法》對(duì)大數(shù)據(jù)發(fā)展帶來挑戰(zhàn)的基礎(chǔ)上尋求平衡路徑。表1從數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)傳輸四個(gè)環(huán)節(jié)列出了《個(gè)人信息保護(hù)法》關(guān)于大數(shù)據(jù)生命周期的條款。此處的數(shù)據(jù)處理是指在數(shù)據(jù)收集之后對(duì)數(shù)據(jù)進(jìn)行的集成、整合、分析、挖掘和解釋等處理活動(dòng)[31],主要集中在數(shù)據(jù)分析和數(shù)據(jù)挖掘環(huán)節(jié),并非《個(gè)人信息保護(hù)法》對(duì)個(gè)人信息處理進(jìn)行的寬泛界定。
20世紀(jì)80年代末,我國(guó)引入以JIF為主要指標(biāo)的引文分析法并運(yùn)用于期刊評(píng)價(jià),后來不僅進(jìn)入學(xué)術(shù)評(píng)價(jià)形成了人們?cè)嵅〉摹耙钥摹痹u(píng)價(jià),而且部分高校和科研機(jī)構(gòu)在進(jìn)行績(jī)效考核時(shí),常以JIF作為主要標(biāo)準(zhǔn)進(jìn)行考核。2006年,發(fā)表于《自然》題為《現(xiàn)金行賞,發(fā)表獎(jiǎng)勵(lì)》的文章說,這一年中國(guó)科學(xué)院給出一篇發(fā)表于《自然》的文章的獎(jiǎng)金就有25萬元人民幣,中國(guó)農(nóng)業(yè)大學(xué)的獎(jiǎng)金高達(dá)30萬元人民幣以上[12]。正如美國(guó)細(xì)胞生物學(xué)學(xué)會(huì)執(zhí)行董事Stefano Bertuzzi所說的,這樣導(dǎo)致的結(jié)果便是,學(xué)者競(jìng)相投稿于高JIF期刊。蘭迪·謝克曼也指出,現(xiàn)行評(píng)價(jià)機(jī)制扭曲了學(xué)術(shù)界,使那些最熱點(diǎn)但不一定是最好的成果獲得了最大回報(bào)。
表1 《個(gè)人信息保護(hù)法》關(guān)于大數(shù)據(jù)生命周期的相應(yīng)條款
維克托·邁爾·舍恩伯格提出大數(shù)據(jù)時(shí)代處理數(shù)據(jù)的理念要完成三大轉(zhuǎn)變:要全體不要抽樣、要效率不要精確、要相關(guān)不要因果[32]。要全體不要抽樣意味著通過全數(shù)據(jù)模式進(jìn)行數(shù)據(jù)分析,雖然數(shù)量大并不代表價(jià)值大,但是由于數(shù)據(jù)的相關(guān)性,大數(shù)量的數(shù)據(jù)整合和挖掘具有發(fā)現(xiàn)很多未知的、潛在的知識(shí)的可能性。而且全數(shù)據(jù)模式也是辨別數(shù)據(jù)真?zhèn)?,判斷事?shí)真相的基礎(chǔ),小樣本數(shù)據(jù)得出的結(jié)論并不一定能夠準(zhǔn)確反映事物的本質(zhì),有時(shí)候還會(huì)犯以偏概全的錯(cuò)誤,只有經(jīng)過全體數(shù)據(jù)的檢驗(yàn)才能更接近真相。數(shù)據(jù)收集的全面性是影響數(shù)據(jù)處理準(zhǔn)確性的關(guān)鍵,在數(shù)據(jù)收集時(shí)加入人工干預(yù)可能會(huì)導(dǎo)致數(shù)據(jù)失真和偏差,最終影響數(shù)據(jù)分析結(jié)果的準(zhǔn)確性[33]。
《個(gè)人信息保護(hù)法》對(duì)數(shù)據(jù)收集設(shè)定的目的和最小范圍原則可以說是從源頭上限制了數(shù)據(jù)的全面性。首先,明確的目的聲明對(duì)于數(shù)據(jù)收集者來說就是一個(gè)很困難的要求,很多時(shí)候大數(shù)據(jù)分析無法提前確定具體目的[34],數(shù)據(jù)挖掘和分析在摸索中進(jìn)行,能產(chǎn)生什么的結(jié)果是不可知的,因此想要提前確定數(shù)據(jù)處理目的十分困難。作為大數(shù)據(jù)的核心應(yīng)用之一,預(yù)測(cè)分析更是建立在充分、完整的數(shù)據(jù)基礎(chǔ)上,限定目的的數(shù)據(jù)收集無疑會(huì)削弱大數(shù)據(jù)的預(yù)測(cè)功能。此外,《個(gè)人信息保護(hù)法》的知情同意和公開透明原則對(duì)于數(shù)據(jù)收集來說是一個(gè)非常昂貴和困難的考驗(yàn)。據(jù)統(tǒng)計(jì),用戶想要閱讀完所有網(wǎng)絡(luò)應(yīng)用的隱私保護(hù)政策每年大概需要花費(fèi)244小時(shí)[35]。清晰明確、易懂的告知要求迫使數(shù)據(jù)收集者研發(fā)有效的隱私政策告知模型和方法,機(jī)構(gòu)成本相應(yīng)增加,對(duì)于微小型企業(yè)來說這種成本可能會(huì)成為他們喪失競(jìng)爭(zhēng)優(yōu)勢(shì)的最后一根稻草,在這種形勢(shì)之下產(chǎn)生數(shù)據(jù)壟斷危險(xiǎn)的可能性很大[36],畢竟對(duì)于大型互聯(lián)網(wǎng)企業(yè)來說這種成本不值得一提,但是由此帶來的成本收益差距會(huì)讓他們的競(jìng)爭(zhēng)優(yōu)勢(shì)陡增。
數(shù)據(jù)分析和數(shù)據(jù)挖掘是實(shí)現(xiàn)數(shù)據(jù)價(jià)值和收益的重要來源和必要途徑。大量不規(guī)則、復(fù)雜的數(shù)據(jù)只有經(jīng)過集成、選擇和分析才能發(fā)現(xiàn)其中蘊(yùn)含的相關(guān)關(guān)系以及有價(jià)值的信息,這也是大數(shù)據(jù)的一個(gè)重要功能。當(dāng)前,大數(shù)據(jù)通常以數(shù)據(jù)流的形式出現(xiàn),以最快的速度對(duì)最新的數(shù)據(jù)做出分析得出結(jié)果是流處理的重要目標(biāo)?!秱€(gè)人信息保護(hù)法》要求處理數(shù)據(jù)之前對(duì)涉及個(gè)人信息的數(shù)據(jù)進(jìn)行加密、匿名化、去標(biāo)識(shí)化等安全技術(shù)操作,但這樣做既增加了數(shù)據(jù)喪失時(shí)效性價(jià)值的風(fēng)險(xiǎn),也會(huì)因人工干預(yù)數(shù)據(jù)處理導(dǎo)致數(shù)據(jù)質(zhì)量和價(jià)值的損失。匿名化方法是通過隱藏用戶的身份和敏感數(shù)據(jù)達(dá)到隱私保護(hù)的目的,在數(shù)據(jù)發(fā)布之前,主要的匿名化操作有泛化、壓縮、分解、置換以及干擾[37],這些措施增強(qiáng)了數(shù)據(jù)的安全性,但是通過匿名化方式保護(hù)個(gè)人隱私通常要以犧牲數(shù)據(jù)的可用性為代價(jià)[31],弱可用的大數(shù)據(jù)還會(huì)加劇知識(shí)發(fā)掘和演化機(jī)制研究的難度[38]。對(duì)數(shù)據(jù)進(jìn)行加密操作會(huì)給數(shù)據(jù)提供商和數(shù)據(jù)倉庫服務(wù)商帶來巨大的計(jì)算成本,無法保證數(shù)據(jù)的效用。同態(tài)加密方案被認(rèn)為是解決大數(shù)據(jù)計(jì)算隱私的最好技術(shù),因?yàn)樗梢詫?duì)密文做任何復(fù)雜的計(jì)算[39],但是這種可行性僅停留在理論上,在實(shí)踐中也無法兼顧效率和性能需求[40]。
另外,依據(jù)《個(gè)人信息保護(hù)法》對(duì)個(gè)人數(shù)據(jù)進(jìn)行加密、匿名以及應(yīng)個(gè)人要求刪除數(shù)據(jù)后,實(shí)現(xiàn)決策結(jié)果的公平幾乎不可能,數(shù)據(jù)的刪除意味著破壞數(shù)據(jù)的完整性,殘缺的數(shù)據(jù)容易造成計(jì)算結(jié)果的偏差,依賴大數(shù)據(jù)進(jìn)行決策的主體則可能做出錯(cuò)誤的判斷和選擇。而且大數(shù)據(jù)算法是不具備“同情心”的,給它什么樣的數(shù)據(jù)和訓(xùn)練模型就會(huì)產(chǎn)生什么樣的結(jié)果,再加上算法制定者自身帶有一定的價(jià)值偏向,所以得出的結(jié)果難以保證公平。為此,要求數(shù)據(jù)處理過程要具備可解釋性和公開性,但是對(duì)于當(dāng)前的深度學(xué)習(xí)應(yīng)用領(lǐng)域,面對(duì)數(shù)以百萬甚至十億計(jì)的參數(shù),開發(fā)人員難以用可解釋的方法對(duì)一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)進(jìn)行標(biāo)注,因此也就產(chǎn)生了“黑箱算法”之說。雖然法律如此要求,但是在技術(shù)實(shí)現(xiàn)方面還有很長(zhǎng)的路要走。
從經(jīng)濟(jì)視角來看《個(gè)人信息保護(hù)法》,要求數(shù)據(jù)處理者部署包括軟件工具和保護(hù)策略在內(nèi)的數(shù)據(jù)安全解決方案是復(fù)雜且代價(jià)昂貴的。與因?yàn)閿?shù)據(jù)泄露賠償數(shù)百萬元人民幣相比,機(jī)構(gòu)部署數(shù)據(jù)安全保護(hù)措施、聘請(qǐng)專業(yè)人士管理和支持保護(hù)程序的成本更高[41]。
《個(gè)人信息保護(hù)法》對(duì)數(shù)據(jù)存儲(chǔ)的要求主要是為滿足數(shù)據(jù)處理目的的最短期限存儲(chǔ)個(gè)人數(shù)據(jù),保證數(shù)據(jù)的準(zhǔn)確性以及應(yīng)個(gè)人要求刪除數(shù)據(jù),這些要求是充分尊重個(gè)人決定權(quán)的體現(xiàn)。數(shù)據(jù)處理者需要為此建立應(yīng)對(duì)機(jī)制:一是建立用戶反饋通道,使用戶能夠方便快捷地提出修改和刪除個(gè)人數(shù)據(jù)的申請(qǐng);二是及時(shí)處理用戶申請(qǐng),修正和刪除個(gè)人數(shù)據(jù)。考慮到數(shù)據(jù)的潛在價(jià)值,數(shù)據(jù)處理者并不希望永久刪除個(gè)人數(shù)據(jù)。此外,在數(shù)據(jù)存儲(chǔ)階段最大的風(fēng)險(xiǎn)是數(shù)據(jù)泄露,在很多情況下隱私泄露的關(guān)鍵隱患并不是安全保護(hù)措施不到位,而是數(shù)據(jù)攻擊者所擁有的其他背景信息太多,基于數(shù)據(jù)的相關(guān)性,數(shù)據(jù)攻擊者可以基于龐大的背景信息將不同地點(diǎn)的數(shù)據(jù)聚集在一起,推斷出被隱匿的信息。因此,這個(gè)問題單靠立法和技術(shù)手段無法徹底解決,還需要在整個(gè)社會(huì)營(yíng)造遵紀(jì)守法、尊重他人隱私的良好環(huán)境。
從數(shù)據(jù)處理的角度來說,最短存儲(chǔ)期限要求也是影響數(shù)據(jù)價(jià)值發(fā)揮的關(guān)鍵。舍恩伯格曾說:數(shù)據(jù)就像是一個(gè)神奇的鉆石礦,它的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下[32]。大數(shù)據(jù)具有可再利用和價(jià)值多維的特征,數(shù)據(jù)的價(jià)值是在不斷的數(shù)據(jù)關(guān)聯(lián)和分析過程中實(shí)現(xiàn)的,為滿足處理目的的最短期限存儲(chǔ)數(shù)據(jù)必然會(huì)阻礙數(shù)據(jù)其他價(jià)值的實(shí)現(xiàn)。
數(shù)據(jù)傳輸階段的數(shù)據(jù)提供方、傳輸媒介、數(shù)據(jù)接收方的可信性是保證數(shù)據(jù)交換安全的前提。但是為了利益,很多數(shù)據(jù)提供商會(huì)將含有個(gè)人信息的數(shù)據(jù)銷售給第三方,甚至是境外機(jī)構(gòu)[42],這不僅會(huì)侵害到個(gè)人隱私,甚至還會(huì)威脅到國(guó)家安全。《個(gè)人信息保護(hù)法》設(shè)立專門的章節(jié)對(duì)個(gè)人信息跨境提供進(jìn)行規(guī)范,要求個(gè)人信息跨境傳輸要經(jīng)過國(guó)家網(wǎng)信部門的安全評(píng)估、主管機(jī)關(guān)批準(zhǔn)、專業(yè)機(jī)構(gòu)的個(gè)人信息保護(hù)認(rèn)證、依據(jù)相關(guān)規(guī)定與境外接收方簽訂合同并獲取個(gè)人同意。如此嚴(yán)格的規(guī)定為個(gè)人數(shù)據(jù)的跨區(qū)域流動(dòng)提供了安全保障,也為國(guó)家安全設(shè)置了一道屏障。同時(shí),為了保持國(guó)際貿(mào)易的主動(dòng)權(quán),加大個(gè)人信息保護(hù)力度是保障國(guó)際交流的必要手段。
大數(shù)據(jù)在為我們解決社會(huì)難題提供技術(shù)方案的同時(shí),也帶來了諸如隱私泄露的安全風(fēng)險(xiǎn),所以說大數(shù)據(jù)本身就是一個(gè)問題與解決方案結(jié)合的矛盾體[43]。數(shù)據(jù)利用與隱私保護(hù)就是這個(gè)矛盾體的主要方面,如果僅僅為了保護(hù)隱私就把所有數(shù)據(jù)加以隱匿,那么數(shù)據(jù)的價(jià)值就無法實(shí)現(xiàn),為此人們從立法、技術(shù)、倫理、契約、道德等方面思考如何在最大化隱藏用戶隱私的同時(shí)減少數(shù)據(jù)信息的損失,但是目前來看并未出現(xiàn)非常好的解決辦法?!秱€(gè)人信息保護(hù)法》加強(qiáng)了隱私保護(hù)力度,但也給大數(shù)據(jù)發(fā)展帶來了挑戰(zhàn)。未來,大數(shù)據(jù)的發(fā)展還需要從機(jī)構(gòu)管理、技術(shù)創(chuàng)新、隱私觀念、行業(yè)規(guī)范等視角思考如何在遵從《個(gè)人信息保護(hù)法》的前提下,充分釋放大數(shù)據(jù)能量。