(河南師范大學圖書館,河南 新鄉(xiāng) 453007)
大數據時代,人們的一舉一動都被以數據的方式存儲和呈現。我們的資產是銀行里的一個數字,朋友的問候是手機里的一條信息,我們的喜樂是微信上的一個狀態(tài),我們的位置是定位系統里的一個標記。無處不在的大數據記錄著我們的日常生活,關注著我們的喜好,跟蹤著我們的行動軌跡,使我們的個人隱私無處可藏。正如《大數據時代:生活、工作與思維的大變革》中所說,“我們時刻都暴露在‘第三只眼’之下:亞馬遜監(jiān)視著我們的購物習慣,谷歌監(jiān)視著我們的網頁瀏覽習慣,而微博似乎什么都知道,不僅竊聽到了我們心中的TA,還有我們的社交關系網[1]”。
那么,大數據背景下,我們還有個人隱私嗎?大數據對我們的個人隱私帶來了什么樣的影響?如何在大數據的共享開放中保護我們的個人隱私?這些成了備受關注的話題,值得我們深入探討。
關于大數據的概念不同的研究機構給出了不一樣的定義。研究機構高德納(Gartner Group)認為:大數據是需要重新處理后才能具有更強的決策力、洞察力和流程優(yōu)化能力,以適應海量、高增長和多樣化的信息資產[2]。麥肯錫研究所(McKinsey Company)認為:大數據是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規(guī)模、快速的數據流轉、多樣的數據類型和價值密度低四大特征[3]。而維基百科認為:大數據是指規(guī)模大且復雜以至于很難在合理時間內用現有的數據庫管理工具或傳統的數據處理應用來處理的數據集[4]。
大數據是信息技術發(fā)展到現今階段的一種表象特征。它具有量大(Volume)、高速(Velocity)、多樣性(Vari?ety)、低價值密度(Value)的特點,即通常所說的4V特征。也有部分人認為是5V特征,即增加了真實性(Verac?ity)的特點。
大數據的首要特點就是量大(Volume)。信息技術的發(fā)展使數據規(guī)模突飛猛進,IT系統、應用終端每天每秒都在產生新的數據。據IDC(International Data Corporation)預測,2020年全球數據量將達到35.2ZB,而到2020年中國掌握的數據將達到全球數據量的20%[5]。
高速(Velocity)是大數據的第二個特點,它主要表現在生產速度快、傳播速度快、獲取速度快。信息終端的發(fā)展加快了數據的生產和獲取速度;而網絡傳輸的方便快捷,實現了大數據的高速流轉和快速傳播。
大數據的第三個特點是多樣性(Variety),數據的多樣性表現在數據來源廣泛,數據種類繁多,傳輸結構多樣。數據的來源廣泛,各種設備以多種多樣的方式采集產生,如傳感器、照相機、掃碼儀等;數據的種類繁多,包括文字、圖片、音視頻、位置信息、瀏覽痕跡、通信記錄等等。數據傳輸方式多樣,傳輸鏈路復雜,有私人網絡、公用網絡、單向傳輸、雙向傳輸、一對多、多對一等[6]。
低價值密度(Value)是大數據的另外一個較為明顯的特點。大數據集中的單個數據往往沒有什么價值,但把這些散亂的數據聚集起來,就會產生較大的價值?;蛘邠Q一種方式來說,少量的高價值數據隱藏在低價值的海量數據中。大數據低價值密度的實質是,數據處理技術的發(fā)展使大數據的收集、整理、關聯分析變成可能,以前一些散亂的、毫無價值的數據,通過數據的交叉融合分析變成十分有價值的信息,數據的深度挖掘技術實現了大數據的潛在價值。
1980年發(fā)表在《哈佛法學評論》(Harvard Law Re?view)上的《隱私權》(The Right to Privacy)被認為是探討隱私權問題最早和最全面的論述[7]。在《隱私權》中,沃倫(Warren)等人指出個人隱私是一種“與公共利益、群眾利益無關的,當事人不愿他人侵入或不便侵入的個人領域”[8]。
隨著時代的變遷,個人隱私的具體內容發(fā)生了變化,但其實質特征卻沒有改變。個人隱私首先是不愿被他人侵入或知道,其次是與個人相關與公共利益無關。
個人隱私的內容隨著時代的變化而變化,且又具有區(qū)域文化的差異。筆者通過對相關文獻的研究,認為當下個人隱私的內容主要包含以下幾個方面:
一是個人具有的特征信息,如性別、肖像、身高、體重、姓名、年齡、個人愛好、既往病史、DNA、指紋等。
二是與個人相關的信息,如財產狀況、信用狀況、婚姻狀況、家庭成員、社會關系、家庭住址等。
三是不便被人知道的特殊信息,如身份證號、銀行卡號、網絡類賬號、檔案材料、私人信件等。
在互聯網背景下,個人的網絡活動蹤跡也屬個人隱私范疇,如上網記錄、瀏覽痕跡、活動日志等。
大數據廣泛存在于社會的各個角落,每個部門、每個機構都有自己的資料庫,如,銀行的客戶資料、學校的學生檔案、商場的會員資料、賓館的開房記錄等等,這些數據如果保管不善,就會造成非常嚴重的個人隱私泄露。如,某連鎖酒店計算機系統遭黑客攻擊,致使2 000萬條入住客戶信息泄露。
大數據的數據規(guī)模必然無法采用單臺計算機進行處理,它依托云計算的分布式架構對海量數據進行存儲、分析、挖掘,被數據化的個人隱私異構分布于各類云存儲平臺。因此,大數據的云處理技術使個人隱私具有分散性。
大數據背景下,個人隱私以數字化的形式存在,十分易于傳播。個人隱私一經泄露就會在網上快速蔓延,傳播網絡開放互聯加大了個人隱私泄露的影響范圍。信息在轉發(fā)分享的過程中,會被有意無意地刪減、變更、關聯等,使泄露的隱私信息在傳播中失真,嚴重的還會衍生出網絡謠言,加劇了隱私泄露的危險性,也加大了對受害者的傷害。
大數據時代,信息傳播途徑多樣,傳播鏈路復雜,個人隱私的易傳播性使隱私泄露更加隱蔽,傳播和擴散過程更難以控制,追責更加困難。
大數據背景下,多源數據的交叉融合能讓一些原本不存在的個人隱私被挖掘和顯現出來,即通過對原始數據的關聯挖掘產生新的隱私數據。如,通過分析一個人的購物信息可以知道其經濟財力、家庭成員等隱私:如果用戶經常購買奢侈品,那么他的經濟狀況不會差;如果用戶經常購買紙尿褲、育兒書籍等嬰幼兒用品,那么其家里極有可能幼兒。大數據背景下的個人隱私具有關聯隱匿性,關聯后的數據能產生關聯前各數據源沒有的信息。
大數據背景下的個人隱私保護已不是保護隱私數據本身,還包括能產生隱私數據的其他原始數據,以及隱私數據產生的其他增值信息。
傳統環(huán)境中,個人隱私保護強調的是隱私信息的隱私屬性。而大數據背景下,個人隱私信息能夠被數據化,通過數據的關聯聚合能夠準確還原某個群體的行為特征或某種社會生活面貌,當數據量達到一定規(guī)模時就會產生巨大的經濟利益[9]。如,電商平臺通過大數據分析用戶的購物信息,可以對用戶進行精準的廣告推送;生產廠商通過大數據分析客戶的購物偏好,可以有的放矢地進行產品研發(fā)和市場投放。
個人隱私信息的數據化,使其變成一種可以利用的商品,從而具有商業(yè)屬性。在商業(yè)利益的驅動下,公民的個人數據作為一種非常重要的資源被廣泛收集、交易、分析和處理,從而形成一種產業(yè)。大數據產業(yè)就是通過對數據進行加工實現數據的增值而盈利的。
隨著信息技術的發(fā)展,各種電子設備鋪天蓋地,覆蓋到了社會的每個角落,人們的個人數據時時刻刻都在被采集,如鷹眼系統,能夠如實地記錄人們的行蹤。超市的監(jiān)控,能夠記錄下顧客的一舉一動。各種線上線下的注冊消費,記錄著每個人的消費行為??爝f寄送、電商購物,暴露著人們的位置信息、家庭住址。即使我們不使用任何媒體,不用網絡購物,不用微信聊天,在社會的治安管理中,我們的基本信息和個人動態(tài)也已被數字化記錄和存儲,我們的隱私數據在不知情或不情愿中已被使用[7]。
據IDC統計,全球被創(chuàng)建的數據約70%來自個人[4],而這類數據中一半以上是用戶主動發(fā)布的文字圖片消息,如網上的各種“曬”:“曬娃”“曬幸福”“曬旅行”;各種約“贊”:“點個贊吧”“幫忙點個贊”等。這些被忽視的看似無關緊要的信息,經過大數據的轉發(fā)和傳播,就能造成非常嚴重的個人隱私數據泄露。如,“曬娃”“曬幸?!毙孤读思彝コ蓡T信息。“曬旅行”泄露了個人行蹤。這種把個人生活、行為事跡發(fā)布到網上以博眼球、求點贊的行為造成了個人隱私有意識、無意識的主動泄露。
數據處理技術的發(fā)展實現了大數據的潛在價值,也使一些表面上與個人隱私毫無關聯的數據經過大數據的分析和處理后揭示出隱藏在數據中的諸多個人信息,從而造成了非保密數據的個人隱私泄露。如單位信息本不屬于隱私數據,然而通過某種關聯,就可能成為一個人的職業(yè)信息。
這種不在個人隱私保護范疇,甚至用戶個人都不在乎的非保密數據,通過關聯分析、交叉印證等數據處理變成敏感信息造成的隱私泄露,是大數據背景下個人隱私泄露的新現象。
Ayasdi的聯合創(chuàng)始人兼CEO Gurjeet Singht曾指出:“在每天生產的大量數據中,有99%的數據未被利用”。雖然這1%的利用率無從考據,但從某種程度上說明了大數據利用率低的事實[5]。造成大數據利用率低的主要原因是數據的共享和開放程度較低。大數據要求數據共享和信息公開,以增加數據的有效利用,實現數據價值的最大化。然而,在數據共享訪問中,如果授權不足就會造成數據利用率低,而授權過度又會給個人信息安全帶來威脅,造成個人隱私泄露。
大數據規(guī)模巨大且來源復雜,數據共享的授權管理工作極其困難,為了保證用戶能夠順利地訪問數據,大數據的共享訪問往往授權過度,這在某種程度上造成了個人隱私的泄露。
大數據背景下,個人隱私保護是一個十分復雜的問題。它涉及技術、機制、法律法規(guī)等多個方面,涉及數據從產生、收集、分析、處理、利用的各個環(huán)節(jié)。
大數據相關立法缺失,權責不明,使公民的數據主權得不到有效保護,個人隱私泄露追責困難。
有關大數據的立法,首先明確數據的權屬,大數據的權屬問題與個人隱私保護息息相關。在大數據產業(yè)中,數據是一種資產,也有權屬問題。大數據的權屬問題不同于物權和知識產權,其權屬不僅關系到數據所有人、數據主體及數據原權利人等各方的利益,還關系到國家的安全、商業(yè)的機密和個人的權利。大數據的權屬歸大數據所有人,大數據所有人是指通過合法途徑獲取數據并實際控制數據的組織和個人[10]。大數據所有人獲取數據必須取得數據主體及原權利人的授權。大數據所有人對其所持有的數據依法享有信息財產權,并承擔相應的法律義務。大數據所有人對其所持有的數據享有處理決定權,并對因此而造成的個人隱私數據泄露負責。如美國政府出臺的大數據相關法律,規(guī)定互聯網企業(yè)收集和保存使用用戶信息須取得用戶本人的同意和授權,而對于用戶信息泄露造成的損失也由互聯網企業(yè)負責。
其次,大數據立法要明確數據主體享有的權利,把個人隱私泄露上升到個人權利侵犯的高度。數據主體對個人數據的采集使用應有知情權。在數據采集之初,數據主體應知曉數據的采集目的、未來用途、使用方式和范圍,采集方應明確告知。數據主體對個人數據的使用應享有可控權。數據主體有權查看、修改、刪除個人數據;當個人數據被共享傳播給第三方時,須取得數據主體同意;數據主體有權限制個人數據的不當共享和傳播。當數據挖掘侵害個人隱私時,數據主體有權中止數據的使用,有權對數據挖掘提出異議。
再次,建立完整的個人隱私保護法。大數據及大數據產業(yè)的發(fā)展,需要一套完整的法律體系來保護公民的個人隱私數據不受侵犯,然而遺憾的是,國內尚沒有一部明確的個人隱私保護法。雖然美國也沒有獨立的個人隱私保護法,但美聯邦及各州地方政府出臺了近百部有關隱私數據的行業(yè)法規(guī),形成了一套相當完整的法律體系[11]。中國應借鑒國外相關立法,結合中國實際,盡快出臺個人隱私保護法,用立法實現大數據的開放共享和個人隱私保護的銜接。
建立健全大數據管理機制,協調大數據開放共享與個人隱私保護間的平衡。
首先,對大數據進行分級管理,規(guī)定哪些數據可以開放,哪些數據不可以開放;哪些數據能夠被“二次挖掘使用”,哪些數據不能夠被“二次挖掘使用”。如,對于關系國計民生的政府大數據要優(yōu)先開放,對于涉及商業(yè)利益的企業(yè)大數據要選擇開放,對于涉及個人隱私的用戶數據要適當自愿開放。其次,對于開放的數據進行數據清洗,降低與數據個體的相關性;對于允許分析處理的數據進行運行監(jiān)管;對于醫(yī)療數據、患者病史等特定用途的數據禁止“二次分析使用”。加強對數據運營商的監(jiān)管,數據運營商必須具有應對黑客攻擊、自然災害等外部風險的技術實力,必須具有自查、監(jiān)督、問責的內部管理體制,以防監(jiān)守自盜,故意泄露客戶個人隱私。
建立信息生態(tài)系統,模擬自然界的生存法則,使大數據有序開發(fā)和共享。
模擬自然界中生物的壽數,給信息數據賦予一定的生命周期,超過生命周期的數據文件會自動消亡。如,不良征信記錄的保存年限為5年,超過5年的記錄可以使其自動刪除消亡。模擬自然界的社會活動,給數據文件賦予一定的使命,完成使命的文件即刻銷毀。如,“閱后即毀”。最近美國出現的一款名為Snapchat的照片分享軟件具有該功能。用戶如果在Snapchat中分享一張照片給朋友,該照片會在對方閱讀后自動銷毀,并禁止在閱讀時截屏存檔,銷毀后的照片不會在網上留下任何痕跡[12]。
模擬自然社會的人際關系,給數據建立朋友圈。把一些被允許的數據操作放入朋友列表,允許其訪問和處理。把一些不被接受的數據操作列入黑名單,拒絕其訪問。如,某個文件把“惡意篡改”列入了黑名單,當有數據篡改操作時,文件會自動銷毀。
用戶的“自我披露”是個人隱私泄露的一個重要途徑。社交平臺和移動終端的發(fā)展為大數據時代用戶個體的“數據化表演”提供了技術支持,人們不是在發(fā)狀態(tài)就是在看別人的狀態(tài)[13]。這種點贊、發(fā)狀態(tài)、“曬”和“秀”是用戶個體主動自愿與他人分享生活點滴記錄的,原不屬于隱私的范疇,因為個人隱私是不愿被他人侵入或知道的個人領域。但這種自愿分享會在轉發(fā)、傳播中失控,使自己的個人生活傳播到不愿分享的受眾范圍。公民在享受網絡帶來的便捷性與舒適度的同時,忽視了對個人隱私的保護。嫻熟的信息分享技巧與欠缺的個人隱私保護意識,造成了個人隱私有意無意地自我披露。
用戶留存在網上的個人信息很難被徹底刪除,有些將長期存在。如人人網是一個實名制的社交網絡平臺,所有注冊信息都必須是真實的,留存資料需要進行真實性驗證。人人網用戶,經認證的個人信息很難被刪除和修改,且人人網不允許注銷賬戶,賬戶一旦生成將永久存在。公民的個人信息在網上長期存在,經過若干年的發(fā)酵,會產生意想不到的后果[14]。用戶個人隱私保護意識欠缺,對隨性的自我展示后果缺乏預見性。
加強網絡用戶自身的個人隱私保護意識,了解網絡平臺的運行規(guī)則,在展示自我的同時,慎重考慮是否涉及個人隱私的披露,披露的程度、范圍以及后果等,對個人隱私的暴露進行有意識的防范。如,對個人信息進行隱私設定,設置允許哪些好友可見(或不可見)。
信息技術的發(fā)展,使一些原本難以收集和處理的數據變得容易起來,人們進入了大數據時代。大數據實現價值的關鍵在于數據的分析挖掘和開放共享,大數據的分析挖掘在給各行各業(yè)帶來精準情報的同時也給個人隱私安全帶來了巨大威脅,其開放性加劇了個人隱私泄露的風險。近年來,安全事件頻出,人們對個人隱私保護的呼聲漸高,也產生了對大數據的對抗。如何平衡大數據的充分利用和個人隱私保護,成了大數據應用和發(fā)展的關鍵問題,需要信息情報學的專家學者進一步深入研究。
參考文獻:
[1](英)維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[J].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[2]6個用好大數據的秘訣[EB/OL].[2017-09-26].http://www.thebigdata.cn/YeJieDongTai/29051.html.
[3]大數據時代要有大數據思維[EB/OL].[2017-10-10].http://www.thebigdata.cn/html/c3/14416.html.
[4]李昊,張敏,馮登國,等.大數據訪問控制研究[J].計算機學報,2017(1):72-91.
[5]楊倩倩,路海娟,朝樂門.大數據產業(yè)發(fā)展中存在的主要矛盾分析[J].情報理論與實踐,2016(10):11-15.
[6]賈利鋒,李海龍.“微時代”圖書館混合體驗式閱讀環(huán)境的構建—以新鄉(xiāng)地方文獻整理中心為例[J].圖書館,2016(6):107-111.
[7]顧理平,楊苗.個人隱私數據“二次使用”中的邊界[J].新聞與傳播研究,2016(9):75-86.
[8]Warren S D,Brandeis L D.The right to privacy[J].Har?vard Law Review,1890(5):193-220.
[9]于潔.大數據環(huán)境下情報分析對個人信息安全的影響[J].圖書情報研究,2016(2):32-37.
[10]王玉林.信息服務風險規(guī)避視角下的大數據控制人財產權利與限制研究[J].圖書情報知識,2016(5):116-122.
[11]王敏,江作蘇.大數據時代中美保護個人隱私的對比研究—基于雙方隱私保護最新法規(guī)的比較分析[J].新聞界,2016(15):55-61.
[12]趙惠,王忠.大數據時代個人隱私內容及其保護研究——基于調查數據的分析[J].情報理論與實踐,2016(8):28-31.
[13]王波偉,李秋華.大數據時代微信朋友圈的隱私邊界及管理規(guī)制—基于傳播隱私管理的理論視角[J].情報理論與實踐,2016(11):37-42.
[14]呂忠梅.尊重公民被數字遺忘的權力[EB/OL].[2017-10-14].http://www.npc.gov.cn/npc/dbdhhy/12_1/2013-03/15/content_1784623.htm