吳 超
中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 北京 100190
計(jì)算技術(shù)和能力已經(jīng)完全普適化,對(duì)數(shù)據(jù)的觀察和整合、分析和解釋,正在不斷創(chuàng)造新的知識(shí),推動(dòng)著科學(xué)技術(shù)的進(jìn)步和社會(huì)的發(fā)展。嵌入式和可穿戴設(shè)備正普及大眾,各類便攜傳感器已可對(duì)用戶敏感數(shù)據(jù)進(jìn)行采集,如智能手機(jī)包含了 GPS、加速度計(jì)、距離及光線傳感器、攝像頭、陀螺儀、指紋傳感器,甚至還包含心率監(jiān)測(cè)器等數(shù)據(jù)采集和感知設(shè)備。無處不在的互聯(lián)網(wǎng)和普及的云計(jì)算、存儲(chǔ)設(shè)施,也使得傳輸和管理這些所采集數(shù)據(jù)變得越來越容易。對(duì)這些所采集數(shù)據(jù)可從兩個(gè)方面進(jìn)行利用:① 建立數(shù)據(jù)的統(tǒng)計(jì)模型以幫助公共和私人部門了解社會(huì)運(yùn)行各方面的整體情況,如流行病的早期檢測(cè);② 從微觀層面提供個(gè)性化服務(wù),如對(duì)每個(gè)居民提供產(chǎn)品和服務(wù)推薦。
在深度網(wǎng)絡(luò)出現(xiàn)之前,機(jī)器學(xué)習(xí)模型無需大量訓(xùn)練數(shù)據(jù),就算有更多數(shù)據(jù),模型也不能訓(xùn)練得更好(模型進(jìn)入 saturation 狀態(tài))[1];而對(duì)深度網(wǎng)絡(luò)來說,因?yàn)槠渥銐蛏睿枰?xùn)練的參數(shù)足夠多,所以它對(duì)數(shù)據(jù)是饑餓的——當(dāng)數(shù)據(jù)越多的時(shí)候,能構(gòu)建的網(wǎng)絡(luò)就越深,其性能就越好,這是大數(shù)據(jù)的作用。如今,這種以大數(shù)據(jù)+深度神經(jīng)網(wǎng)絡(luò)為代表的人工智能技術(shù),正在深遠(yuǎn)地影響著社會(huì)生活的各個(gè)方面。而數(shù)據(jù)作為一種原材料,通過數(shù)據(jù)分析建模的加工挖掘,能產(chǎn)生新的價(jià)值,已成為新的生產(chǎn)力來源和資產(chǎn)。
眾多案例已展示了數(shù)據(jù)的應(yīng)用價(jià)值[2,3],然而一個(gè)技術(shù)要深刻地推進(jìn)社會(huì)發(fā)展,它需要從具有應(yīng)用價(jià)值發(fā)展為具有應(yīng)用+經(jīng)濟(jì)的雙重價(jià)值。從經(jīng)濟(jì)價(jià)值的眼光來看大數(shù)據(jù),我們可以看到所謂的“數(shù)據(jù)”在整條價(jià)值鏈上處在起點(diǎn)的位置。數(shù)據(jù)從一開始作為原材料,到最后成為產(chǎn)品提供給用戶,其中經(jīng)歷了一系列的加工和增值過程,包括清理[4]、語義化[5]、融合[6]、分析[7]、建模[8]、知識(shí)提取[9]、應(yīng)用[10]、分發(fā)[11]等關(guān)鍵步驟,如同一個(gè)工業(yè)產(chǎn)品,從原材料到最終產(chǎn)品形態(tài)再到市場(chǎng),是一個(gè)復(fù)雜的價(jià)值鏈,需要精巧的協(xié)同工作。而在目前大部分的大數(shù)據(jù)研究中,關(guān)注點(diǎn)還僅停留于這些具體過程的技術(shù)基礎(chǔ),我們相信隨著整個(gè)生態(tài)環(huán)境的建立,每個(gè)步驟背后的經(jīng)濟(jì)因素將成為最大的推動(dòng)力量。
在數(shù)據(jù)資產(chǎn)化過程中,隱私保護(hù)成為關(guān)鍵問題。數(shù)據(jù)所有權(quán)和隱私權(quán)問題長期以來都是信息產(chǎn)業(yè)的核心問題[12]。隱私可視為用戶對(duì)信息流通程度和方式的控制權(quán)。傳統(tǒng)隱私保護(hù)研究較關(guān)注訪問控制及數(shù)據(jù)發(fā)布前去除個(gè)人信息,并防止多個(gè)數(shù)據(jù)源融合之后恢復(fù)所去除的個(gè)人信息。而隨著大數(shù)據(jù)、移動(dòng)采集設(shè)備和機(jī)器學(xué)習(xí)等技術(shù)發(fā)展,在數(shù)據(jù)收集階段進(jìn)行隱私保護(hù),是面臨的一個(gè)新問題。
由于數(shù)據(jù)對(duì)于構(gòu)建高效模型越來越重要,數(shù)據(jù)收集中的隱私保護(hù)應(yīng)處在一種權(quán)衡取舍狀態(tài)。解決隱私保護(hù)問題,并不能將其孤立地看待,而是應(yīng)該放在一個(gè)更大的框架中,即在用戶的隱私權(quán)利和從用戶數(shù)據(jù)中獲得服務(wù)與資源之間進(jìn)行權(quán)衡取舍,使之在當(dāng)前情境達(dá)到最優(yōu)。因此,需要建立一個(gè)能支持多方雙贏的隱私保護(hù)機(jī)制:一方面保障用戶隱私可控而促進(jìn)數(shù)據(jù)交易和流通;另一方面促進(jìn)數(shù)據(jù)驅(qū)動(dòng)商業(yè)模式和生態(tài)健康發(fā)展。
數(shù)據(jù)收集作為開發(fā)創(chuàng)新及個(gè)性化、情境化應(yīng)用的關(guān)鍵環(huán)節(jié),從隱私角度來看,處在“法律灰色地帶”。當(dāng)前,大部分應(yīng)用程序只標(biāo)明了其市場(chǎng)價(jià)格,而對(duì)收集數(shù)據(jù)的范圍和粒度并沒有明確的協(xié)議。例如,一個(gè)導(dǎo)航軟件應(yīng)用系統(tǒng)可在用戶不知情的情況下,在后臺(tái)持續(xù)大量收集該用戶數(shù)據(jù)。以移動(dòng)應(yīng)用為例,91% 的 IOS 應(yīng)用程序和 83% 的 Android 應(yīng)用程序存在至少一種泄露用戶隱私的風(fēng)險(xiǎn)行為[13]。Facebook、Apple、Twitter、Yelp、Path 等公司都曾因被指控發(fā)布侵犯隱私的移動(dòng)應(yīng)用程序而成為訴訟的焦點(diǎn)[14]。
應(yīng)用程序(特別是移動(dòng)應(yīng)用)往往將數(shù)據(jù)收集信息(如類型、數(shù)量)描述的曖昧不明,雖然數(shù)據(jù)收集通常會(huì)在最終用戶協(xié)議中被提及(如在 Apple App Store 中),但用戶通常并不會(huì)閱讀這些冗長文檔,而直接選擇同意該條款。況且最終用戶協(xié)議中的許可聲明往往語焉不詳,且具誤導(dǎo)性,實(shí)際中卻大量收集用戶敏感數(shù)據(jù)。而且數(shù)據(jù)收集的隱私保護(hù)并不是一個(gè)有或無的問題[15],而是一個(gè)程度問題。盡管部分應(yīng)用程序商店(如 Google Play Store)對(duì)應(yīng)用程序訪問用戶數(shù)據(jù)提供了一定的控制機(jī)制,但對(duì)數(shù)據(jù)訪問的粒度仍然缺乏支持,在 Google Play Store 中標(biāo)明了應(yīng)用需要訪問的數(shù)據(jù)類型,對(duì)數(shù)據(jù)收集的數(shù)量和頻率并不明確,而數(shù)據(jù)的數(shù)量常常是很關(guān)鍵的[16]。
隱私保護(hù)與數(shù)據(jù)效用之間需要妥協(xié)和平衡[17-19],也要在技術(shù)方案上構(gòu)建一種生態(tài)環(huán)境,在這種情況下,各國政府出臺(tái)了一系列政策法規(guī)。例如,歐洲的數(shù)據(jù)保護(hù)政策 General Data Protection Regulation(GDPR),已于 2018 年 5 月開始實(shí)施。Determann[20]討論了 GDPR 與其他國家隱私保護(hù)規(guī)范的差異。Post[21]分析了 Google 在歐盟(西班牙)收到隱私侵犯調(diào)查及此事件帶來的深遠(yuǎn)影響,以及引起歐盟后續(xù)的法律環(huán)境變化。2017 年 6 月 1 日正式實(shí)施的《中華人民共和國網(wǎng)絡(luò)安全法》,強(qiáng)調(diào)了中國境內(nèi)網(wǎng)絡(luò)運(yùn)營者對(duì)所收集到的個(gè)人信息所應(yīng)承擔(dān)的保護(hù)責(zé)任和違規(guī)處罰措施。但專項(xiàng)個(gè)人信息保護(hù)法現(xiàn)尚在制訂中。
要推動(dòng)從數(shù)據(jù)到數(shù)據(jù)產(chǎn)品的價(jià)值鏈,還有很多關(guān)鍵的經(jīng)濟(jì)問題需要考慮,其中一個(gè)核心的問題是數(shù)據(jù)作為資產(chǎn)的定價(jià)問題。數(shù)據(jù)與其他原材料在 4 個(gè)方面有很大不同:① 數(shù)據(jù)的使用不會(huì)帶來數(shù)據(jù)的消耗,數(shù)據(jù)的開發(fā)不是排他的,甚至反而是利他的;② 聚合后的數(shù)據(jù)比單獨(dú)的數(shù)據(jù)更有價(jià)值,也應(yīng)該具有更高的價(jià)格;③ 同樣種類的數(shù)據(jù),不同來源的數(shù)據(jù)具有不同的價(jià)值,這點(diǎn)在醫(yī)療數(shù)據(jù)中尤為突出;④ 同樣的數(shù)據(jù)在不同的使用者看來,也是價(jià)值各異。在這些特殊的條件,如何對(duì)數(shù)據(jù)資產(chǎn)進(jìn)行定價(jià)是一個(gè)很難的問題,我們認(rèn)為采用一種基于市場(chǎng)協(xié)商的價(jià)格或許更為現(xiàn)實(shí)可行。
目前大部分應(yīng)用程序正在從以廣告收入為主的商業(yè)模式向基于個(gè)人數(shù)據(jù)采集的商業(yè)模式過渡。但在當(dāng)前的數(shù)據(jù)收集模式下,用戶無法憑借其貢獻(xiàn)的數(shù)據(jù)而獲取獎(jiǎng)勵(lì),這種模式表面上可使應(yīng)用程序服務(wù)從中受益,然而考慮到潛在的法律后果,實(shí)際上是阻礙了其商業(yè)模式的可持續(xù)發(fā)展。由于用戶數(shù)據(jù)的所有權(quán)不明,導(dǎo)致數(shù)據(jù)難以有效流通。
非法的數(shù)據(jù)交易會(huì)對(duì)個(gè)人數(shù)據(jù)等高價(jià)值信息的安全造成影響[22],對(duì)非法數(shù)據(jù)交易的購買方和協(xié)助方都應(yīng)進(jìn)行處罰。特別對(duì)于定價(jià)來說,傳統(tǒng)的效用價(jià)格論、成本價(jià)格論等定價(jià)模式并不適用[23]。金融資產(chǎn)的定價(jià)理論有值得借鑒的地方,然而供應(yīng)方提供的數(shù)據(jù)很難與數(shù)據(jù)需求方的應(yīng)用方向精準(zhǔn)匹配,供需錯(cuò)配的問題無法解決。另外,需求方在不確定某數(shù)據(jù)資源是否能真正能給組織帶來收益情況下,很難給出一個(gè)較高的價(jià)格。劉洪玉等[24]認(rèn)為在大數(shù)據(jù)交易過程中,由于缺乏足夠的歷史參考,其數(shù)據(jù)資源的交易價(jià)格很難確定,因此提出一種基于競標(biāo)機(jī)制的魯賓斯坦模型,用于大數(shù)據(jù)交易雙方進(jìn)行討價(jià)還價(jià),以求達(dá)成一個(gè)交易的均衡價(jià)格。Li 和Miklau[25]提出了數(shù)據(jù)市場(chǎng)定價(jià)的 3 個(gè)原則和定價(jià)函數(shù)的基本結(jié)構(gòu)。Valz[26]通過數(shù)據(jù)內(nèi)容動(dòng)態(tài)調(diào)整定價(jià);翟麗麗等[27]從資產(chǎn)的期權(quán)價(jià)值角度來評(píng)估大數(shù)據(jù)資源的價(jià)值,并指出數(shù)據(jù)在不斷變化和更新,加上數(shù)據(jù)的非獨(dú)占性等情況的出現(xiàn),數(shù)據(jù)資產(chǎn)的價(jià)值可能會(huì)下降,最后綜合這些因素構(gòu)建了一個(gè)評(píng)估模型來計(jì)算數(shù)據(jù)資產(chǎn)的價(jià)值。市場(chǎng)有助于數(shù)據(jù)合理定價(jià)[28],Iyilade 和 Vassileva[29]提出了一種隱私保護(hù)的數(shù)據(jù)交易算法,其基本思路是應(yīng)用程序之間通過市場(chǎng)機(jī)制來優(yōu)化數(shù)據(jù)共享。
但是,這些定價(jià)方式都存在一個(gè)共同的問題:對(duì)數(shù)據(jù)交易中的安全問題和隱私泄露等有較大的擔(dān)憂,大量數(shù)據(jù)源未被激活[30]。雖然數(shù)據(jù)具有明顯的商品特征,它卻有很強(qiáng)的非傳統(tǒng)商品屬性,如復(fù)制成本接近于 0、非排他性、時(shí)效性等。這造成了近年來,雖然建立了一些數(shù)據(jù)交易所(如 2017 年關(guān)閉的微軟 Azure DataMarket),但數(shù)據(jù)交易仍難以成規(guī)模,數(shù)據(jù)還很難流通并發(fā)揮價(jià)值。
有了定價(jià),還需要交易。數(shù)據(jù)資產(chǎn)要產(chǎn)生價(jià)值,需要進(jìn)行流通。早期數(shù)據(jù)流通研究是從數(shù)據(jù)可達(dá)性、分布式系統(tǒng)可靠性等角度出發(fā)的[31]。然而,在數(shù)據(jù)收集和交易過程中始終存在著“信息不對(duì)稱”:目前用戶缺乏對(duì)數(shù)據(jù)收集的認(rèn)知,因而始終處于弱勢(shì)。雖然目前有一些研究提出基于法律和交易的體系解決方法,但缺乏實(shí)在的技術(shù)方案。我們?cè)?Imperial Festival 和英國數(shù)字經(jīng)濟(jì)會(huì)議上的公眾調(diào)查所了解到,大多數(shù)用戶并不清楚自己究竟有多少數(shù)據(jù)被應(yīng)用程序收集。
我們提出了一種新的移動(dòng)隱私保護(hù)模型——PBD 模型[32](Pay-by-Data),PBD 將數(shù)據(jù)顯式地作為一種應(yīng)用效能的支付手段,用戶和數(shù)據(jù)收集者之間達(dá)成收集和反饋的協(xié)議,通過保護(hù)隱私達(dá)到數(shù)據(jù)的合理定價(jià)。
(1)在數(shù)據(jù)消費(fèi)者與數(shù)據(jù)提供者之間引入數(shù)據(jù)付費(fèi)協(xié)議(data pricing agreement,DPA)。DPA 以數(shù)據(jù)(隱私)作為計(jì)價(jià)工具,定義一種新型的應(yīng)用服務(wù)付費(fèi)方式,允許用戶交易自己的數(shù)據(jù)(隱私)以獲取服務(wù)或是其他激勵(lì)。DPA 詳細(xì)描述應(yīng)用所訪問的數(shù)據(jù)類型、收集數(shù)據(jù)的頻率以及用戶所獲得的回報(bào);并針對(duì)不同的數(shù)據(jù)質(zhì)量,制定不同的價(jià)格機(jī)制。因此微觀用戶數(shù)據(jù)的收集是被數(shù)據(jù)付費(fèi)協(xié)議顯式規(guī)范的,減少了肆意侵犯用戶隱私的行為。
(2)通過定制的Android等平臺(tái),改進(jìn)應(yīng)用程序與底層移動(dòng)服務(wù)之間的通信及請(qǐng)求獲取用戶數(shù)據(jù)的方式。用戶數(shù)據(jù)的訪問由數(shù)據(jù)付費(fèi)認(rèn)證服務(wù)控制,提供了更細(xì)的粒度支持。數(shù)據(jù)付費(fèi)協(xié)議在基于區(qū)塊鏈的智能合約上實(shí)現(xiàn),從而保證公平執(zhí)行和可追溯性。同時(shí)提供新的數(shù)據(jù)訪問開發(fā) API 供應(yīng)用開發(fā)使用。
(3)研究通過市場(chǎng)的機(jī)制尋找隱私保護(hù)和數(shù)據(jù)收集之間的平衡。透明可信的數(shù)據(jù)收集明確定義用戶的數(shù)據(jù)收集所對(duì)應(yīng)的報(bào)酬(即資源和服務(wù)),產(chǎn)生激勵(lì);并因此構(gòu)建一種數(shù)據(jù)定價(jià)和交易方法,數(shù)據(jù)被用作一種貨幣,用來購買應(yīng)用提供的服務(wù)和資源(這里也包括現(xiàn)實(shí)貨幣),通過有效的市場(chǎng)機(jī)制,使這些應(yīng)用程序和用戶之間達(dá)到定價(jià)均衡。