陸 康 劉 慧 任貝貝
圖書館智慧化轉(zhuǎn)型是一項長期漸進(jìn)的過程,構(gòu)建科學(xué)、合理、完備的標(biāo)準(zhǔn)體系對智慧圖書館的健康發(fā)展至關(guān)重要。大數(shù)據(jù)時代,數(shù)據(jù)安全在實(shí)踐中已受到高度重視,其中數(shù)據(jù)隱私問題成為未來智慧圖書館發(fā)展的挑戰(zhàn)之一。一方面,圖書館需要數(shù)據(jù)的開放與共享,并形成支撐知識服務(wù)、智慧服務(wù)的保障體系,以滿足服務(wù)創(chuàng)新需要;另一方面,面對數(shù)據(jù)在生產(chǎn)資料價值與隱私方面所具有的二元屬性,圖書館也需要加強(qiáng)科學(xué)管理,有必要對大數(shù)據(jù)隱私保護(hù)的問題重新定位并重點(diǎn)思考,探索大數(shù)據(jù)隱私管理的方案,以平衡發(fā)展中數(shù)據(jù)隱私與數(shù)據(jù)價值關(guān)系。
大數(shù)據(jù)是高科技時代發(fā)展下的產(chǎn)物,在信息流通、人們之間的交流越來越密切,生活也越來越方便的當(dāng)下呈現(xiàn)出快速地增長態(tài)勢,并在以云計算為代表的技術(shù)創(chuàng)新大幕的襯托下,數(shù)據(jù)源及其數(shù)據(jù)格式、類型越來越具有多樣化、廣泛性等特征。就圖書館大數(shù)據(jù)的產(chǎn)生方式,可分為自然產(chǎn)生的“數(shù)字化”數(shù)據(jù)與自然產(chǎn)生的“模擬化”數(shù)據(jù)兩種形式。
自然產(chǎn)生的“數(shù)字化”數(shù)據(jù)源自于計算機(jī)系統(tǒng),圖書館這類數(shù)據(jù)包括用于學(xué)科與信息服務(wù)的電子郵件與文本信息、用于空間服務(wù)的無線網(wǎng)絡(luò)位置數(shù)據(jù)[1]、關(guān)聯(lián)不同系統(tǒng)的用戶信息元數(shù)據(jù)、圖書館門戶網(wǎng)頁數(shù)據(jù)[2]以及RFID等物聯(lián)網(wǎng)數(shù)據(jù)等[3]。
自然產(chǎn)生的“模擬化”數(shù)據(jù)源自于空間物理世界轉(zhuǎn)化而來,通過各類型傳感器的記錄,最終產(chǎn)生計算機(jī)系統(tǒng)可以訪問的數(shù)字化格式。圖書館這類數(shù)據(jù)包括RFID圖書標(biāo)簽借閱、盤點(diǎn)產(chǎn)生的數(shù)據(jù),門禁IC卡、二維碼以及人臉系統(tǒng)識別產(chǎn)生的數(shù)據(jù)[4],以及支持移動圖書館等工具進(jìn)行空間監(jiān)測產(chǎn)生數(shù)據(jù)等?!澳M化”數(shù)據(jù)是物聯(lián)網(wǎng)的產(chǎn)物之一,在萬物互聯(lián)的背景下,將模擬化數(shù)據(jù)與圖書館數(shù)字化數(shù)據(jù)有效結(jié)合,可以精確感知用戶需求,從而實(shí)現(xiàn)圖書館的服務(wù)“智慧”。
圖書館大數(shù)據(jù)的處理框架,一般分為數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)分析與數(shù)據(jù)解析四個部分,其中數(shù)據(jù)收集包括各系統(tǒng)公開的業(yè)務(wù)數(shù)據(jù)以及用戶私有數(shù)據(jù)的收集;數(shù)據(jù)存儲是將包括“數(shù)字化”和“模擬化”數(shù)據(jù)在內(nèi)的數(shù)據(jù)匯聚、融合的過程,并處理數(shù)據(jù)的冗余、結(jié)構(gòu)不一致與重復(fù)性關(guān)系;數(shù)據(jù)分析就是從存儲的數(shù)據(jù)中提取智慧服務(wù)所需的有一定借鑒價值與規(guī)則的數(shù)據(jù)信息;數(shù)據(jù)解析就是用數(shù)據(jù)可視化或者溯源等技術(shù)來發(fā)布、展示數(shù)據(jù)分析的結(jié)果。
數(shù)據(jù)隱私一般是指個人或者機(jī)構(gòu)等不愿意被第三方知曉的信息,如個人行為信息、個人偏好信息等。這類信息在大數(shù)據(jù)技術(shù)的快速應(yīng)用和發(fā)展下與圖書館的業(yè)務(wù)息息相關(guān),圖書館中的各系統(tǒng)所產(chǎn)生的數(shù)據(jù)都可以為智慧服務(wù)提供決策。但在圖書館的大數(shù)據(jù)應(yīng)用中,這些數(shù)據(jù)的應(yīng)用及其處理步驟都與用戶數(shù)據(jù)的隱私性、模糊性與可用性等特征存在著一定關(guān)聯(lián),存在個人身份信息被泄露、個人行為信息被泄露、個人偏好信息被泄露[5],或是數(shù)據(jù)被破壞的風(fēng)險,并隨著互聯(lián)網(wǎng)發(fā)展使個人隱私呈現(xiàn)出網(wǎng)絡(luò)化、數(shù)據(jù)化趨勢。在這種趨勢作用下,大數(shù)據(jù)的多源性導(dǎo)致了大數(shù)據(jù)隱私存在著類別差異,其中人際關(guān)系、通信、身份等數(shù)據(jù)屬于核心隱私,環(huán)境、內(nèi)容、活動等數(shù)據(jù)屬于用戶使用圖書館各業(yè)務(wù)產(chǎn)生的。從來源角度進(jìn)行分類,大數(shù)據(jù)的隱私可以分為“監(jiān)視—隱私”“發(fā)布—隱私”“歧視—隱私”三類。從這三類特征來看,圖書館用戶個人數(shù)據(jù)的隱私風(fēng)險主要存在于以下四個方面。
首先是在安全監(jiān)視方面。圖書館中數(shù)據(jù)隱私與信息安全雖然存在著區(qū)別,但是兩者的目的是相似的,都是為了保障圖書館系統(tǒng)的安全、穩(wěn)定與用戶數(shù)據(jù)的私密性。信息安全主要是指信息或者信息系統(tǒng)是否存在未經(jīng)授權(quán)的訪問行為,包括非法使用行為、非法發(fā)布行為、破壞、篡改記錄及惡意刪除等,涉及數(shù)據(jù)的完整性、可用性與機(jī)密性等方面。對于信息安全主要是從訪問控制與密碼學(xué)方面實(shí)施相關(guān)方案,提供相應(yīng)的保障。但是數(shù)據(jù)隱私方面仍然存在著被泄露的可能,因?yàn)閿?shù)據(jù)隱私主要從數(shù)據(jù)層面進(jìn)行用戶數(shù)據(jù)的加密、匿名化、模糊化及差分隱私等方法為隱私提供保護(hù)。如果信息安全方面的密碼泄露,就會導(dǎo)致數(shù)據(jù)竊取者仍然可以通過合法途徑進(jìn)入系統(tǒng)獲取相關(guān)數(shù)據(jù),造成隱私泄露。
其次是數(shù)據(jù)共享和發(fā)布等傳輸行為方面。由于圖書館需要感知用戶需求才能有針對性地開展服務(wù),那么在圖書館內(nèi)系統(tǒng)及其圖書館與外部環(huán)境之間存在著數(shù)據(jù)共享和發(fā)布機(jī)制,需要通過傳輸控制協(xié)議(TCP)數(shù)據(jù)包層分析用戶行為和用戶感知,從而在定性和定量兩個方面評估用戶體驗(yàn)[6]。由此數(shù)據(jù)在進(jìn)行共享或發(fā)布過程中就會存在著有、無意識行為的數(shù)據(jù)遺失或者泄露問題,就有可能導(dǎo)致個人隱私存在風(fēng)險。
再次是在數(shù)字化數(shù)據(jù)源收集方面。圖書館部分系統(tǒng)和數(shù)據(jù)控制者由于片面追求全面數(shù)據(jù),會造成數(shù)據(jù)被過度收集問題[7],這與圖書館智慧服務(wù)的初衷相悖。例如,圖書館提出利用大數(shù)據(jù)挖掘技術(shù)進(jìn)行用戶畫像的個性化服務(wù)模型,以發(fā)現(xiàn)用戶的偏好、興趣、需求,以及活躍度等全貌信息,從而構(gòu)建用戶畫像,實(shí)現(xiàn)用戶和資源的精準(zhǔn)匹配,提供以用戶為中心、以需求為導(dǎo)向的個性化服務(wù)[8]。其中全面數(shù)據(jù)作為畫像精準(zhǔn)性的重要參數(shù)之一,就有可能存在數(shù)據(jù)的過度收集而導(dǎo)致的隱私風(fēng)險。
最后是在數(shù)據(jù)匯聚方面存在濫用行為問題。中國工程院院士鄔賀銓在2013年提出“大數(shù)據(jù)是下一個創(chuàng)新、競爭、生產(chǎn)力提高的前沿”①論斷,可以說大數(shù)據(jù)已經(jīng)進(jìn)入人類生活的方方面面。然而現(xiàn)代生活的便利同時也需要犧牲部分個人隱私,但是個人隱私一旦被濫用,則會代價巨大[9]。圖書館在運(yùn)用人工智能、區(qū)塊鏈、虛擬現(xiàn)實(shí)等技術(shù)開展的服務(wù)中,是以匯聚的數(shù)據(jù)作為“原料”支持著圖書館智慧服務(wù)。與此同時在大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)控制者們的權(quán)限不同,擁有的數(shù)據(jù)量存在著差異,會導(dǎo)致數(shù)據(jù)鴻溝、數(shù)據(jù)霸權(quán)現(xiàn)象的存在,而這種現(xiàn)象一方面會形成數(shù)據(jù)濫用行為,使大數(shù)據(jù)存在隱私風(fēng)險,陷于倫理危機(jī)之中;另一方面也容易導(dǎo)致數(shù)據(jù)透明性降低,用戶無法知曉自身數(shù)據(jù)的應(yīng)用,容易產(chǎn)生歧視心理。圖書館想要徹底擺脫數(shù)據(jù)霸權(quán)、數(shù)據(jù)鴻溝以及用戶的歧視心理,需要從倫理、制度、法規(guī)等視角實(shí)施隱私保護(hù)。
自1890年Warren等發(fā)表了《隱私權(quán)》[10]以來,個人隱私權(quán)作為一項獨(dú)特的權(quán)利正遭受大數(shù)據(jù)的隱私風(fēng)險。Bruce Schneier 認(rèn)為“因?yàn)槿绻覀冊谒械氖虑樯隙急挥^察,我們就會經(jīng)常受到糾正、判斷、批評的威脅,甚至?xí)回飧`我們的獨(dú)特性。我們變成了孩子,在警惕的目光下被束縛著,不斷地?fù)?dān)心—無論是現(xiàn)在還是在不確定的未來—我們留下的模式將會把我們帶回來,牽連到我們身上,無論什么權(quán)威現(xiàn)在已經(jīng)把注意力集中到我們曾經(jīng)隱私和無辜的行為上。我們失去了自己的個性,因?yàn)槲覀兯龅囊磺卸际强梢员挥^察和記錄的?!雹俪鲎杂贏LA網(wǎng)站的“聲明和政策”。布魯斯·施奈爾(Bruce Schneier)在《隱私的永恒價值》一書中對隱私的闡述,他認(rèn)為當(dāng)人們相信自己或可能受到審視時,他們的言論、思想和行動會受到寒蟬效應(yīng)。在現(xiàn)實(shí)中大數(shù)據(jù)讓我們處于透明的互聯(lián)網(wǎng)環(huán)境中,圖書館也存在著類似的情形,因此,圖書館的大數(shù)據(jù)安全與隱私保護(hù)不僅是管理層所要重視的問題,也是用戶所關(guān)切的對象。圖書館大數(shù)據(jù)隱私管理,不僅需要保障數(shù)據(jù)安全與用戶隱私,也是對圖書館數(shù)據(jù)關(guān)聯(lián)業(yè)務(wù)的有效實(shí)施起到保護(hù)作用,可以認(rèn)為大數(shù)據(jù)隱私管理是圖書館發(fā)展的重要環(huán)節(jié)之一。
我國圖書館數(shù)據(jù)隱私保護(hù)研究主要集中在以下三個方面:一是法律制度方面,統(tǒng)一立法完善行業(yè)立法健全我國個人隱私保護(hù)法律體系[11],借鑒美國圖書館協(xié)會(ALA)和美國國家信息標(biāo)準(zhǔn)組織(NISO)隱私管理規(guī)范構(gòu)建圖書館隱私管理的內(nèi)控體系[12];二是技術(shù)保障方面,遵循安全性、匿名性、用戶同意、服務(wù)與數(shù)據(jù)對等原則基礎(chǔ)上,對數(shù)據(jù)使用提出相應(yīng)的措施[13];三是技術(shù)與制度融合方面,從國家層面法律政策、圖書館行業(yè)規(guī)范、隱私保護(hù)技術(shù)措施和館員與用戶意識四個方面探討用戶隱私的保護(hù)策略[14]。關(guān)注數(shù)據(jù)開放中安全與隱私問題,從制度、技術(shù)及思想層面進(jìn)行控制與防范[15]。
國外圖書館數(shù)據(jù)隱私保護(hù)主要圍繞三個角度展開研究:一是人的教育角度。Noh,Younghee認(rèn)識到用戶隱私問題的重要性,并通過向圖書館員提供有關(guān)隱私主題的教育計劃和測量其效果來幫助減少侵犯隱私的行為[16];二是法律倫理角度。Shayna P認(rèn)為圖書館在法律和道德上有責(zé)任保護(hù)讀者的隱私,同時也面臨著用戶需求不斷變化的挑戰(zhàn),圖書館需要在用戶體驗(yàn)和隱私保護(hù)之間做出選擇[17];三是技術(shù)制度角度。Obrien P認(rèn)為圖書館應(yīng)在安全網(wǎng)絡(luò)協(xié)議、用戶教育、隱私政策、知情同意和風(fēng)險、收益分析等五個相互關(guān)聯(lián)的領(lǐng)域協(xié)調(diào)一致,以降低網(wǎng)絡(luò)追蹤對用戶隱私的影響[18]。Billey A認(rèn)為實(shí)時調(diào)整編目規(guī)則,保護(hù)權(quán)威文件中作者和貢獻(xiàn)者的個人數(shù)據(jù)隱私[19];Singley E認(rèn)為學(xué)術(shù)圖書館一直被視為用戶信息的可靠管理者,但大數(shù)據(jù)環(huán)境中圖書館安全保護(hù)能力包括隱私保護(hù)等受到了挑戰(zhàn)[20]。
國外圖書館制度也體現(xiàn)了對用戶隱私保護(hù)的重視,英國CILIP、澳大利亞ALIA等都強(qiáng)調(diào)了圖書館用戶隱私保護(hù)的重要性,并制定用戶隱私保護(hù)實(shí)施細(xì)則,如用戶個人信息搜集、保存、使用限制、披露限制等隱私保護(hù)相關(guān)政策,尤其注重通過技術(shù)方案來解決大數(shù)據(jù)時代個人信息保護(hù)和信息獲取之間的矛盾。
數(shù)字圖書館的系統(tǒng)安全一直受到關(guān)注,并將隨著以大數(shù)據(jù)為基礎(chǔ)的圖書館的到來,其安全、隱私問題將得到進(jìn)一步規(guī)范化制度管理,以保證業(yè)務(wù)開展的正?;D書館大數(shù)據(jù)隱私主動式管理框架,意在用技術(shù)、制度等方法在圖書館領(lǐng)域掀起探索隱私管理的研究熱潮,正如Willes.J所說“當(dāng)普通法適用于新的主題,在沒有先例可循的情況下,只有基于私性正義、合乎道德及公眾便利等原則方可為之。如果這種處理能夠被習(xí)慣上的接受或認(rèn)可尤為重要。”①參見Willes,J.,in Millar v.Taylor,4 Burr.2303-2312.基于此,本研究在圖書館用戶個人數(shù)據(jù)基礎(chǔ)上從法律、倫理與制度、穩(wěn)定可靠的機(jī)制,主動隱私管理技術(shù),隱私影響主動評估與隱私風(fēng)險主動監(jiān)控等五個方面創(chuàng)建圖書館大數(shù)據(jù)隱私主動式管理框架(如圖1所示)。
圖1 圖書館大數(shù)據(jù)隱私主動式管理框架
隨著社會科學(xué)及信息技術(shù)的進(jìn)步,當(dāng)人們通過數(shù)據(jù)庫搜索所需信息時,數(shù)據(jù)庫系統(tǒng)將更好地去解讀有意義的信息數(shù)據(jù),使大數(shù)據(jù)的價值不斷被利用。然而對于隱私保護(hù)來說,隱私管理需要確定明確的目標(biāo)。圖書館隱私管理的總體目標(biāo)是運(yùn)用圖書館自己的管理理念與方法,如管理文獻(xiàn)資源一樣管理圖書館大數(shù)據(jù)的隱私,具體目標(biāo)包括以下三點(diǎn)。
(1)能為圖書館業(yè)務(wù)的實(shí)施提供技術(shù)支持。大數(shù)據(jù)雖然是圖書館智慧服務(wù)開展的基礎(chǔ),但隱私保護(hù)是大數(shù)據(jù)應(yīng)用的前提。如果隱私問題成為圖書館發(fā)展路上的絆腳石,那圖書館智慧服務(wù)將成為一紙空談。圖書館應(yīng)該正確處理、規(guī)范數(shù)據(jù)控制者、處理者在大數(shù)據(jù)生命周期內(nèi)的收集、存儲、處理、轉(zhuǎn)換與銷毀的數(shù)據(jù)行為,防止隱私泄露,保障數(shù)據(jù)主體的信息安全。
(2)可為圖書館隱私危機(jī)提供方案。互聯(lián)網(wǎng)社各領(lǐng)域雖然已經(jīng)擁有熟悉使用大數(shù)據(jù)的案例,但是隱私保護(hù)策略方面仍然未找到合適的策略,例如在圖書館服務(wù)中,如何挖掘用戶文獻(xiàn)資源需求而不讓隱私泄露,如何在獲取用戶空間行為偏好而不存在讓用戶產(chǎn)生“被監(jiān)視”的心態(tài),如何確保在給用戶文獻(xiàn)資源推送中不被用戶誤解成“信息垃圾”等。
(3)為圖書館數(shù)據(jù)共享與用戶隱私提供安全保障,打消圖書館安全與用戶隱私顧慮。數(shù)據(jù)共享雖然讓圖書館各系統(tǒng)數(shù)據(jù)變得更有價值,而對于數(shù)據(jù)隱私保障是需要首要考慮的。在隱私得到保障的前提下,才能更好發(fā)揮數(shù)據(jù)共享的效能,達(dá)到實(shí)現(xiàn)圖書館智慧服務(wù)的理想狀態(tài)。例如圖書館的數(shù)據(jù)共享需求由來已久,從最初的文獻(xiàn)資源共享到現(xiàn)在的大數(shù)據(jù)環(huán)境下的數(shù)據(jù)共享,可讓圖書館用戶獲得更好的文獻(xiàn)資源與空間保障服務(wù)。然而近些年來的互聯(lián)網(wǎng)隱私泄露事件讓用戶對隱私的關(guān)注度逐漸提高。面對隱私泄露問題,構(gòu)建完善的隱私管理框架,讓圖書館數(shù)據(jù)共享、用戶隱私得到更好的保障,也是圖書館智慧服務(wù)得以健康發(fā)展的前提。
圖書館隱私主動監(jiān)控主要是在大數(shù)據(jù)處理時,能夠主動監(jiān)測到可能存在的惡意行為。對這種惡意行為的監(jiān)控需要建立在法律、倫理與制度的基礎(chǔ)上,從兩個方面提升主動監(jiān)控能力:一是在監(jiān)控應(yīng)用環(huán)境中具有是否存在外部攻擊及是否擁有合法授權(quán)(圖書館與用戶雙方)辨別的能力,即用戶在使用圖書館系統(tǒng)時是否存在著外部惡意攻擊的風(fēng)險,如移動圖書館系統(tǒng)中的鏈接是否存在著“環(huán)境-位置”的記錄程序等;二是具有保障整個隱私管理體系發(fā)布風(fēng)險危機(jī)通知的能力,類似于殺毒軟件的主動防護(hù)功能(博弈論,cost-optimal game-theoretical)[21]。總之,圖書館的隱私管理需要從不同的風(fēng)險角度,建立綜合性的隱私管理模式,并積極拓展隱私管理技術(shù)、制度方面的研究。
大數(shù)據(jù)時代的信息資源過度開發(fā)與利用引發(fā)了隱私危機(jī)成為包括圖書館在內(nèi)的信息服務(wù)機(jī)構(gòu)關(guān)注的焦點(diǎn),而IFLA與ALA一直關(guān)注并推動制定用戶隱私保護(hù)政策[22]。我國《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》《個人信息保護(hù)法》及《信息安全技術(shù) 個人信息安全規(guī)范》(以下簡稱《個人信息安全規(guī)范》)①參見《信息安全技術(shù) 個人信息安全規(guī)范》第5、6、7章關(guān)于個人信息收集、存儲、使用部分。對個人信息收集、保存、使用、流轉(zhuǎn)等環(huán)節(jié)提出要求,并規(guī)定了個人信息主體具有查詢、更正、刪除、撤回授權(quán)、注銷賬戶、獲取個人信息副本等權(quán)力,填補(bǔ)了國內(nèi)個人信息保護(hù)在實(shí)踐上的不足。圖書館大數(shù)據(jù)隱私管理應(yīng)該參照《網(wǎng)絡(luò)安全法》 《數(shù)據(jù)安全法》及《個人信息安全規(guī)范》的相關(guān)規(guī)定,制定、改進(jìn)、完善行業(yè)內(nèi)的隱私保護(hù)制度,從法律、國家標(biāo)準(zhǔn)角度為用戶提供安全、規(guī)范、穩(wěn)定的隱私保護(hù)措施。
隨著互聯(lián)網(wǎng)的發(fā)展,技術(shù)創(chuàng)新已經(jīng)成為社會服務(wù)創(chuàng)新的重要支撐,隱私技術(shù)也隨著技術(shù)創(chuàng)新應(yīng)運(yùn)而生。無論是位置服務(wù)(LBS)的隱私技術(shù)-扭曲法的隱私保護(hù),還是針對大數(shù)據(jù)隱私的完全同態(tài)加密方案,都應(yīng)圍繞業(yè)務(wù)對系統(tǒng)進(jìn)行隱私保護(hù),采取大數(shù)據(jù)主動式隱私管理框架的技術(shù)保障核心內(nèi)容來開展。
(1)系統(tǒng)支持圖書館中不同方式、內(nèi)容、類型的檢索、查詢需求,特別在隱私管理方面,交互式環(huán)境的構(gòu)建,成為圖書館大數(shù)據(jù)的主要應(yīng)用方式。交互式查詢差分隱私保護(hù)是主要的方式。其中包括關(guān)聯(lián)性分析的數(shù)據(jù)無關(guān)性處理模型(Data-independent processing model based on correlation analysis, DPMCA)、并行梯度下降矩陣分解模型(Parallel gradient matrix decomposition model, PGMDM)、差分隱私的自適應(yīng)加噪模型(Adaptive noise model based on differential privacy,ANMDP)等[23]。
(2)系統(tǒng)支持圖書館不同方式、內(nèi)容、類型的數(shù)據(jù)發(fā)布、可視化需求。圖書館中的自然產(chǎn)生的數(shù)字化數(shù)據(jù)還是模擬化數(shù)據(jù),經(jīng)過系統(tǒng)轉(zhuǎn)換(數(shù)據(jù)挖掘)后都可以表示成不同的數(shù)據(jù)類型,通過一定的方式,發(fā)布相關(guān)的內(nèi)容。例如關(guān)聯(lián)數(shù)據(jù)、人文數(shù)據(jù)可視化、流媒體視頻、原創(chuàng)音樂等。一般認(rèn)為非交互式的環(huán)境有助于行業(yè)內(nèi)部的技術(shù)創(chuàng)新。
(3)系統(tǒng)支持圖書館人工智能(機(jī)器學(xué)習(xí))與大數(shù)據(jù)挖掘等分析需求。數(shù)據(jù)分析是支持圖書館智慧服務(wù)的核心基礎(chǔ),也是發(fā)掘數(shù)據(jù)價值的具體過程。大規(guī)模性與可計算性、多模態(tài)性與有效性、增長性與時效性已成為數(shù)據(jù)價值發(fā)掘的重要特征,同時機(jī)器學(xué)習(xí)、支持向量機(jī)分類、線性與邏輯回歸及top-k頻繁模式挖掘也成為圖書館等領(lǐng)域常用的挖掘方法。
圖書館由于現(xiàn)有應(yīng)用環(huán)境的制約,離不開傳統(tǒng)隱私保護(hù)技術(shù)的支持,其中隱私主動式管理方案也是如此。傳統(tǒng)的隱私保護(hù)技術(shù),一般圍繞限制發(fā)布、數(shù)據(jù)加密、數(shù)據(jù)失真等方面進(jìn)行相關(guān)應(yīng)用開發(fā),其中限制發(fā)布技術(shù)是有選擇的發(fā)布原始數(shù)據(jù)或者發(fā)布精度較低的敏感數(shù)據(jù),從而實(shí)現(xiàn)隱私保護(hù)。主要表現(xiàn)為“數(shù)據(jù)匿名化”(Data anonymization),代表性技術(shù)為k-anonymity、l-diversity、t-closeness等。而數(shù)據(jù)加密技術(shù)也是常用的隱私保護(hù)方法,加密方法使用較多的為同態(tài)加密技術(shù)與安全多方計算等。這些方法與技術(shù)都較多被運(yùn)用到數(shù)據(jù)安全保護(hù)與隱私管理中。
目前,“用戶畫像”被圖書館廣泛用以開展智慧服務(wù)實(shí)踐,其中需要日志分析等操作來完成對用戶的“畫像”。所謂日志,就是按照一定的規(guī)則將操作系統(tǒng)、應(yīng)用程序、網(wǎng)絡(luò)設(shè)備中發(fā)生的事件記錄下來,用以對系統(tǒng)管理、網(wǎng)絡(luò)安全策略實(shí)施狀況以及其他安全防御系統(tǒng)的評估。近些年來,有關(guān)用戶的日志數(shù)據(jù)分析,用來監(jiān)測用戶行為,感知用戶所需。然而“畫像”精度的提升需要大量的數(shù)據(jù)。從日志產(chǎn)生的來源角度分類,日志主要分為三大類:操作系統(tǒng)日志(UNIX/Linux,Windows等)、網(wǎng)絡(luò)設(shè)備日志(路由交換設(shè)備、防火墻等安全設(shè)備)、應(yīng)用服務(wù)日志(Web等各種網(wǎng)絡(luò)應(yīng)用)。
長期以來,圖書館對電子資源的使用行為一直無法做到有效監(jiān)測,無法客觀評估其效率。部分圖書館實(shí)踐者采用應(yīng)用服務(wù)日志和網(wǎng)絡(luò)設(shè)備日志等方法,獲取電子資源訪問數(shù)據(jù),并采用系統(tǒng)匯聚,分析的方式,以訪問、瀏覽、下載與檢索等不同形式集成至統(tǒng)一的平臺,取得了一定的效果。其中的匿名化(以源IP形式來標(biāo)注),既可以讓圖書館決策者獲取用戶使用電子資源的詳細(xì)情況,又可以保護(hù)用戶的隱私,達(dá)到“用戶畫像”的隱私主動式管理的目的。
隨著圖書館中關(guān)聯(lián)數(shù)據(jù)、眾包及自媒體等新型的信息環(huán)境出現(xiàn),數(shù)據(jù)來源及數(shù)據(jù)流動性的真實(shí)、可靠越來越重要。為了保障數(shù)據(jù)安全和隱私保護(hù),圖書館可通過溯源機(jī)制排查隱私風(fēng)險,對違規(guī)操作人員起到追究責(zé)任的作用。溯源也稱起源, 英文為“provenance”,源于法語“provenior”,即“to come from”,意思是有關(guān)歷史對象的所有權(quán)、保管、位置的編年史[24]。溯源機(jī)制的初衷并非為了懲戒,而是通過數(shù)據(jù)溯源技術(shù)等對隱患事故起到預(yù)警作用。溯源機(jī)制是由社會科學(xué)、計算機(jī)與互聯(lián)網(wǎng)技術(shù)以及法律法規(guī)組合而成的對圖書館大數(shù)據(jù)主動式隱私管理框架進(jìn)行監(jiān)督作用的制度體系,其中包括操作是否存在著能力不足,數(shù)據(jù)標(biāo)識是否違反隱私策略,以及是否有對應(yīng)的懲戒措施等內(nèi)容。當(dāng)然溯源機(jī)制也需要隱私審查等方法的支持。圖書館隱患事故溯源機(jī)制是隱私管理技術(shù)機(jī)制與法律制度之間的橋梁,也屬于隱私管理技術(shù)體系的補(bǔ)充。
隱私影響評估(Privacy Impact Assessment,PIA)作為政府保護(hù)公民隱私的重要工具,是一種運(yùn)用閾值技術(shù)來評估隱私風(fēng)險的方法,已在西方發(fā)達(dá)國家隱私管理實(shí)踐中有著二十多年的應(yīng)用與發(fā)展歷程[25]。隱私影響評估方法是適應(yīng)社會公眾隱私保護(hù)訴求及政府隱私管理需要的產(chǎn)物。而隱私影響主動評估作為隱私風(fēng)險主動監(jiān)控后的管理體系,也是為圖書館大數(shù)據(jù)應(yīng)用提供基礎(chǔ)性服務(wù),同時是支持大數(shù)據(jù)挖掘的重要方法。
隱私影響主動評估也有兩個方面的意義:第一,對圖書館隱私影響風(fēng)險大小提前預(yù)判,將風(fēng)險危機(jī)扼殺在萌芽狀態(tài);第二,具有上傳下達(dá)的隱私管理技術(shù)的選擇能力。通過疑難問題解答與隱私評價進(jìn)行實(shí)時性風(fēng)險評估,從而選擇合適的隱私保護(hù)方案或者技術(shù)。例如,圖書館進(jìn)行數(shù)據(jù)挖掘時,當(dāng)出現(xiàn)新的與用戶本人相關(guān)的信息—運(yùn)動軌跡、瀏覽軌跡等,如果不涉及到具體的用戶則對結(jié)果做模糊化處理,以供圖書館進(jìn)行數(shù)據(jù)決策,開展相應(yīng)的空間服務(wù)、文獻(xiàn)資源推送等。
隱私影響主動評估也需要一定的技術(shù)方法支持,除了上述PIA工具外,EBIOS(Expression of needs and identification of security)也是常用的評估方法,是一種具有預(yù)測性、嚴(yán)重程度大小的衡量隱私影響的方案[26]。隱私影響評估應(yīng)該避免與原始數(shù)據(jù)的直接接觸,運(yùn)用安全多方計算。圖書館業(yè)務(wù)在差異性方面進(jìn)行隱私影響的等級評估時,需建立量化的隱私風(fēng)險影響機(jī)制,以起到隱私預(yù)警的作用。
大數(shù)據(jù)時代圖書館的發(fā)展避免不了對數(shù)據(jù)的使用,尤其是“智慧服務(wù)”環(huán)境下對用戶的“畫像”。圖書館在注重業(yè)務(wù)發(fā)展的同時也應(yīng)有責(zé)任對用戶隱私進(jìn)行保護(hù),以體現(xiàn)圖書館對用戶的人文關(guān)懷。“以用戶為中心”的理念不僅僅體現(xiàn)在服務(wù)方面,也應(yīng)該擴(kuò)展、延伸至用戶個人保護(hù)方面。本文借鑒互聯(lián)網(wǎng)安全領(lǐng)域的主動式隱私管理方法,嘗試擺脫傳統(tǒng)的被動式隱私保護(hù)技術(shù)約束,構(gòu)建適應(yīng)大數(shù)據(jù)時代的圖書館主動式隱私管理框架,再次體現(xiàn)了圖書館“以用戶為中心”的服務(wù)理念。針對圖書館大數(shù)據(jù)隱私管理相關(guān)問題,圖書館也需要從技術(shù)與制度挑戰(zhàn)方面加以討論和研究。在面對傳統(tǒng)匿名化技術(shù)、用戶數(shù)據(jù)加密、隱私特征判定等方面多角度綜合考慮,制定出符合法律、制度、標(biāo)準(zhǔn)及倫理的優(yōu)化方案。建立綜合性的隱私主動管理模式,并積極拓展隱私管理技術(shù)、制度方面的研究,將是一個長期的、動態(tài)的、周期性的過程,需要圖書館、企業(yè)、政府部門共同努力。