曾青云
(湖南云麓高新材料有限公司,湖南長(zhǎng)沙 410000)
大數(shù)據(jù)、人工智能技術(shù)、信息技術(shù)的快速發(fā)展之下,機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域正在不斷延伸,對(duì)人類(lèi)的各種日常行為從技術(shù)上進(jìn)行了深入的影響。但在信息技術(shù)有效使用的同時(shí),技術(shù)搜集的大量信息如何合理地利用和使用成為當(dāng)前信息技術(shù)發(fā)展必須面臨的主要問(wèn)題。例如在醫(yī)療過(guò)程中,人的生理特征、醫(yī)療記錄甚至收入狀況等敏感的數(shù)據(jù)均可以在機(jī)器學(xué)習(xí)的過(guò)程中進(jìn)行全面的收集,若不對(duì)其進(jìn)行有效的監(jiān)管和規(guī)制,該數(shù)據(jù)的惡用會(huì)導(dǎo)致相關(guān)社會(huì)問(wèn)題的頻發(fā)。不但對(duì)企業(yè)的信用、經(jīng)濟(jì)利益造成不良的影響,甚至對(duì)社會(huì)的穩(wěn)定、國(guó)家的安全產(chǎn)生安全隱患。例如在輿論操作的過(guò)程中,F(xiàn)acebook通過(guò)分析用戶(hù)的行為,并對(duì)其進(jìn)行精準(zhǔn)的輿論、廣告投放,從而對(duì)其的社會(huì)行為進(jìn)行直接影響,最終導(dǎo)致社會(huì)輿論走向的扭曲。特別是在數(shù)據(jù)、信息大爆炸的網(wǎng)絡(luò)時(shí)代,大數(shù)據(jù)、機(jī)器學(xué)習(xí)等技術(shù)可以從個(gè)人隱私中分析得出的關(guān)鍵信息非常驚人。雖然從2017年起,我國(guó)制定了網(wǎng)絡(luò)安全法,要求對(duì)個(gè)人隱私信息進(jìn)行有效的保護(hù),但在執(zhí)行的過(guò)程中依然面臨技術(shù)、制度等多方面的原因,使相關(guān)的條例無(wú)法得到有效的落實(shí)。不少企業(yè)也會(huì)利用該隱私問(wèn)題非法獲取巨額的利潤(rùn)。例如某外賣(mài)平臺(tái)在使用大數(shù)據(jù)和機(jī)器學(xué)習(xí)分析用戶(hù)消費(fèi)習(xí)慣的過(guò)程中,采取嚴(yán)重的價(jià)格欺詐行為對(duì)不同的用戶(hù)標(biāo)定不同的價(jià)格,以榨取巨額的經(jīng)濟(jì)利潤(rùn)。這種行為極其嚴(yán)重地影響了正常的市場(chǎng)消費(fèi)行為,從最終的結(jié)果上來(lái)看,這種行為會(huì)極大地打擊消費(fèi)者的消費(fèi)積極性,從而對(duì)市場(chǎng)的發(fā)展造成極其不利的影響。
多方安全計(jì)算主要采用動(dòng)態(tài)加密的方式對(duì)機(jī)器學(xué)習(xí)技術(shù)應(yīng)用過(guò)程中的數(shù)據(jù)進(jìn)行編碼加密,僅允許具有訪問(wèn)權(quán)限的人員、設(shè)備進(jìn)行解碼,以保障傳輸過(guò)程中的數(shù)據(jù)隱秘性[1]。同時(shí)可以借助軟硬件的安全協(xié)議對(duì)密文進(jìn)行有效的加密和解密。由于在加密和解密的過(guò)程中會(huì)伴隨著大量的數(shù)據(jù)計(jì)算,導(dǎo)致極大的計(jì)算資源負(fù)擔(dān)。在實(shí)際應(yīng)用的過(guò)程中,會(huì)因?yàn)橛布?jì)算能力以及計(jì)算設(shè)備的開(kāi)銷(xiāo)而受到一定程度的制約。
差分隱私則是建立在數(shù)學(xué)理論基礎(chǔ)上的加密方式,與傳統(tǒng)的加密方式相比,該加密方式主要通過(guò)向數(shù)據(jù)添加噪聲,在信息泄露或者受到攻擊的情況下,由于噪聲的添加而無(wú)法精確得出相關(guān)的數(shù)據(jù),從而對(duì)敏感信息進(jìn)行有效加密[2]。這種方式雖然不需要大量的計(jì)算資源,但同時(shí)也會(huì)對(duì)數(shù)據(jù)的精準(zhǔn)性和預(yù)測(cè)的可靠性造成不良的影響,在其應(yīng)用的過(guò)程中,最主要的挑戰(zhàn)是如何合理地添加噪聲,在增加數(shù)據(jù)擾動(dòng)的同時(shí)確保數(shù)據(jù)可以得到有效保存和精準(zhǔn)解密,以提升其實(shí)用價(jià)值。
現(xiàn)階段機(jī)器學(xué)習(xí)面臨的隱私保護(hù)問(wèn)題主要有:大范圍地收集數(shù)據(jù)致使相關(guān)隱私數(shù)據(jù)直接泄露,以及對(duì)數(shù)據(jù)模型的泛化能力不足從而導(dǎo)致隱私間接泄露的問(wèn)題兩部分組成。前者是指機(jī)器學(xué)習(xí)的過(guò)程中需要采用大量的數(shù)據(jù)樣本以保證機(jī)器學(xué)習(xí)、計(jì)算的效率,在采集數(shù)據(jù)的過(guò)程中,沒(méi)有經(jīng)過(guò)用戶(hù)的許可私自采集數(shù)據(jù)并進(jìn)行共享的行為會(huì)導(dǎo)致數(shù)據(jù)安全與隱私問(wèn)題的直接產(chǎn)生。后者則是因?yàn)樵跈C(jī)器學(xué)習(xí)的過(guò)程中,不可靠的數(shù)據(jù)分析過(guò)程并沒(méi)有對(duì)隱私數(shù)據(jù)進(jìn)行有效加密,導(dǎo)致在逆向推理的過(guò)程中,對(duì)機(jī)器學(xué)習(xí)采用的數(shù)據(jù)樣本進(jìn)行逆向推測(cè),從而間接導(dǎo)致安全與隱私問(wèn)題的產(chǎn)生[3]。由于機(jī)器學(xué)習(xí)的過(guò)程中,越大的數(shù)據(jù)樣本、越復(fù)雜的數(shù)據(jù)模型會(huì)直接影響機(jī)器學(xué)習(xí)技術(shù)的性能和應(yīng)用效果,因此在隱私保護(hù)的過(guò)程中,訓(xùn)練數(shù)據(jù)的逆向推理也很容易導(dǎo)致隱私保護(hù)問(wèn)題的產(chǎn)生。
從機(jī)器學(xué)習(xí)安全問(wèn)題的角度上來(lái)講,隱私保護(hù)問(wèn)題屬于內(nèi)部數(shù)據(jù)的安全問(wèn)題,另一部分則是針對(duì)機(jī)器學(xué)習(xí)所發(fā)起的外部隱私攻擊。由于攻擊者無(wú)法直接訪問(wèn)機(jī)器學(xué)習(xí)過(guò)程中的數(shù)據(jù)模型和訓(xùn)練數(shù)據(jù),所以只能通過(guò)外部攻擊對(duì)機(jī)器學(xué)習(xí)的數(shù)據(jù)庫(kù)進(jìn)行攻擊,從其中泄漏的部分來(lái)進(jìn)行逆向推理。有可能攻擊者對(duì)機(jī)器學(xué)習(xí)的模型和數(shù)據(jù)具有一定的認(rèn)識(shí),也有可能完全不知道當(dāng)前機(jī)器學(xué)習(xí)的模型和數(shù)據(jù)內(nèi)容,因此隱私攻擊的方式也被分為重構(gòu)攻擊和成員推斷攻擊。
2.2.1 重構(gòu)攻擊
重構(gòu)攻擊是一種有針對(duì)性的隱私攻擊方式,主要針對(duì)機(jī)器學(xué)習(xí)的特定隱私數(shù)據(jù)進(jìn)行攻擊:一方面可以被分為模型反演攻擊,該攻擊方式主要針對(duì)數(shù)據(jù)結(jié)構(gòu)相對(duì)簡(jiǎn)單的機(jī)器學(xué)習(xí)模型,對(duì)其在訓(xùn)練過(guò)程中采用的數(shù)據(jù)進(jìn)行查詢(xún)和對(duì)比,通過(guò)找出相關(guān)的信息對(duì)機(jī)器學(xué)習(xí)模型采用的數(shù)據(jù)進(jìn)行隱私數(shù)據(jù)、敏感數(shù)據(jù)的分析,從而找到自身想要獲取的隱私數(shù)據(jù)[4]。這種攻擊方式通常只能用于數(shù)據(jù)樣本較少,數(shù)據(jù)模型不夠完善的機(jī)器學(xué)習(xí)模型中。當(dāng)數(shù)據(jù)樣本較大時(shí),會(huì)增加其對(duì)比和分析的計(jì)算量,從而取得的攻擊效果有限。另一方面則是模型竊取攻擊,主要通過(guò)對(duì)決策模型進(jìn)行自適應(yīng)算法的攻擊,例如通過(guò)記住機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)、訓(xùn)練方式將其應(yīng)用到替代模型的運(yùn)算過(guò)程中,從而竊取機(jī)器學(xué)習(xí)模型,并將機(jī)器學(xué)習(xí)模型記錄的所有數(shù)據(jù)進(jìn)行全面的掌握。這種方式對(duì)于企業(yè)的危害程度較大,同時(shí)也需要具備一定的專(zhuān)業(yè)技術(shù)能力才能展開(kāi)模型竊取攻擊,既是企業(yè)安全防護(hù)的重點(diǎn),也是未來(lái)機(jī)器學(xué)習(xí)安全與隱私問(wèn)題研究的重要方向。
2.2.2 成員推斷攻擊
該攻擊方式是將一個(gè)攻擊的數(shù)據(jù)加入機(jī)器學(xué)習(xí)模型的訓(xùn)練過(guò)程中,使攻擊數(shù)據(jù)成為機(jī)器學(xué)習(xí)模型的“成員”,這種攻擊方式在特定情況下會(huì)對(duì)機(jī)器學(xué)習(xí)的有效應(yīng)用造成巨大的影響。例如在傳染病防治的過(guò)程中,錯(cuò)誤的訓(xùn)練數(shù)據(jù)會(huì)致使傳染病的判斷、診療存在巨大的誤差,進(jìn)而導(dǎo)致傳染病防治工作受到阻礙。
但總體上來(lái)說(shuō),現(xiàn)階段針對(duì)機(jī)器學(xué)習(xí)的隱私攻擊數(shù)量相對(duì)較少,只有在特定的情況下才會(huì)產(chǎn)生嚴(yán)重后果。機(jī)器學(xué)習(xí)在各個(gè)行業(yè)中不斷深入會(huì)加劇該問(wèn)題的產(chǎn)生數(shù)量,這些攻擊不但會(huì)對(duì)機(jī)器學(xué)習(xí)模型造成不良的影響,也會(huì)對(duì)機(jī)器學(xué)習(xí)模型應(yīng)用的領(lǐng)域產(chǎn)生巨大的震動(dòng)。一方面需要通過(guò)法律和社會(huì)的制約、監(jiān)管,使信息數(shù)據(jù)的收集、處理和傳播行為得到有效的規(guī)范,從而避免隱私數(shù)據(jù)的泄露問(wèn)題;另一方面還需要加強(qiáng)對(duì)機(jī)器學(xué)習(xí)模型在訓(xùn)練和應(yīng)用過(guò)程中的安全問(wèn)題的重視,采取數(shù)據(jù)加密、噪聲干擾、外部防護(hù)等方式來(lái)避免外部攻擊導(dǎo)致的安全及隱私問(wèn)題。
由于機(jī)器學(xué)習(xí)的過(guò)程中,模型本身會(huì)附帶巨量的訓(xùn)練數(shù)據(jù),其中的個(gè)體信息和隱私數(shù)據(jù)是導(dǎo)致隱私泄露的主要問(wèn)題。這就需要從模型訓(xùn)練的模式和方式上進(jìn)行有效完善。而現(xiàn)階段主要采用集中和聯(lián)邦兩種學(xué)習(xí)類(lèi)型,集中學(xué)習(xí)主要將訓(xùn)練數(shù)據(jù)存儲(chǔ)在集中的服務(wù)器、單機(jī)或者云端,對(duì)相關(guān)隱私數(shù)據(jù)的管理、部署以及訓(xùn)練都相對(duì)比較方便,具有更好的可控性。同時(shí)也是現(xiàn)階段主要采用的機(jī)器訓(xùn)練學(xué)習(xí)模式,由于該模式下數(shù)據(jù)在收集后,數(shù)據(jù)的控制權(quán)將歸管理者所有,具體其用于何處、怎么使用都無(wú)法得到公眾的有效監(jiān)管。而在機(jī)器學(xué)習(xí)發(fā)展的過(guò)程中,應(yīng)當(dāng)對(duì)其進(jìn)行查封隱私的保護(hù)?;谏疃葘W(xué)習(xí)的方法,在各個(gè)數(shù)據(jù)參數(shù)域中搜索如何將隱私數(shù)據(jù)泄露的風(fēng)險(xiǎn)進(jìn)行最小化的控制,一方面可以采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的數(shù)據(jù)模型來(lái)求解隱私數(shù)據(jù)保護(hù)的主要方式,另一方面還需要在決策邊界進(jìn)行訓(xùn)練樣本的有效控制,以實(shí)現(xiàn)良好的隱私保護(hù)[5]。
聯(lián)邦模型的學(xué)習(xí)過(guò)程中,其主要采用分布式的機(jī)器學(xué)習(xí)來(lái)提升機(jī)器學(xué)習(xí)的訓(xùn)練效率,多個(gè)節(jié)點(diǎn)同時(shí)展開(kāi)機(jī)器學(xué)習(xí),并構(gòu)建中心模型,展開(kāi)獨(dú)立訓(xùn)練。這種訓(xùn)練模式可以有效提升訓(xùn)練效率,由于多數(shù)的模型訓(xùn)練數(shù)據(jù)保存在各個(gè)節(jié)點(diǎn)服務(wù)器,因此隱私泄露的風(fēng)險(xiǎn)得到有效的降低。但由于這種學(xué)習(xí)訓(xùn)練模式尚處于發(fā)展的過(guò)程中,面臨的問(wèn)題較多?,F(xiàn)階段主要采用深度學(xué)習(xí)的隱私保護(hù)對(duì)其進(jìn)行有效處理,一方面,需要加強(qiáng)深層網(wǎng)絡(luò)模型的參數(shù)優(yōu)化,使機(jī)器學(xué)習(xí)模型能夠滿足大量訓(xùn)練數(shù)據(jù)下的隱私保護(hù),還需要根據(jù)有效的隱私預(yù)算,梯度式地用在隱私保護(hù)以及機(jī)器學(xué)習(xí)成本的平衡過(guò)程中;另一方面還需要采用寬松差分隱私的保護(hù)方式降低隱私保護(hù)的要求,使其采用更加寬松的差分隱私定義,合理控制隱私泄露的概率。
現(xiàn)階段針對(duì)機(jī)器學(xué)習(xí)所采用的隱私保護(hù)技術(shù)多為加密和擾動(dòng),這2種方式各有各的特點(diǎn),但在實(shí)際應(yīng)用的過(guò)程中,需要根據(jù)具體的情況進(jìn)行有效選擇。
3.2.1 加密
加密作為隱私保護(hù)技術(shù)應(yīng)用的歷史十分悠久,通過(guò)將數(shù)據(jù)信息進(jìn)行特定的編碼加密,使敏感數(shù)據(jù)在存儲(chǔ)和傳輸?shù)倪^(guò)程中,不會(huì)因?yàn)楣?、泄漏等?wèn)題而出現(xiàn)數(shù)據(jù)被解析的現(xiàn)象。這種方式具有較高的保密性,同時(shí)也僅限定于掌握編碼方式的人員才能夠獲取對(duì)應(yīng)的信息,但在機(jī)器學(xué)習(xí)的過(guò)程中,由于攻擊者可以根據(jù)機(jī)器學(xué)習(xí)模型對(duì)已經(jīng)加密的數(shù)據(jù)進(jìn)行反向推測(cè),因此在數(shù)據(jù)的加密和解密方式的應(yīng)用和計(jì)算過(guò)程中需要加強(qiáng)其機(jī)密性。在此基礎(chǔ)上,機(jī)器學(xué)習(xí)采用同態(tài)加密的方式來(lái)處理加密的數(shù)據(jù),同態(tài)加密方式不需要訪問(wèn)數(shù)據(jù)本身,在不公開(kāi)的情況下對(duì)真實(shí)數(shù)據(jù)進(jìn)行任意形式的加密。由于這種加密形式可以在互不信任的環(huán)境中進(jìn)行數(shù)據(jù)的協(xié)同處理,因此可以確保參與協(xié)同計(jì)算各方不公開(kāi)自身數(shù)據(jù)的基礎(chǔ)上確保最終計(jì)算結(jié)果的正確性和準(zhǔn)確性,因此可以適用在各種多方參與的隱私加密環(huán)境中[6]。機(jī)器學(xué)習(xí)模型的過(guò)程中,聯(lián)邦學(xué)習(xí)的模式通??梢圆捎猛瑧B(tài)加密方法,使其能夠面對(duì)各種分析和學(xué)習(xí)任務(wù)??傮w上來(lái)說(shuō),對(duì)隱私數(shù)據(jù)進(jìn)行加密的方式可以有效保證數(shù)據(jù)在傳輸與保存過(guò)程中的安全性,也依賴(lài)于加密函數(shù)的復(fù)雜程度,在采用非線性計(jì)算的深度學(xué)習(xí)模型中,加密算法的費(fèi)用和開(kāi)發(fā)成本較高也導(dǎo)致該技術(shù)在應(yīng)用的過(guò)程中面臨較多的阻礙。
3.2.2 擾動(dòng)
該技術(shù)在數(shù)據(jù)中加入隨機(jī)性的噪聲,使最終輸出的數(shù)據(jù)結(jié)果與真實(shí)結(jié)果具有較大的差異,防止數(shù)據(jù)在攻擊以及泄露后被攻擊者進(jìn)行惡意推理?,F(xiàn)階段最主要的擾動(dòng)方式是采用差分?jǐn)_動(dòng)機(jī)制,該技術(shù)最早應(yīng)用于數(shù)據(jù)庫(kù)開(kāi)發(fā)和保存過(guò)程中存在的隱私泄露問(wèn)題。差分?jǐn)_動(dòng)的加密方式可以增加數(shù)據(jù)輸出結(jié)果的不規(guī)律性,也不會(huì)因?yàn)閿?shù)據(jù)的增加或減少而帶來(lái)計(jì)算量的變化。保證了在采用差分?jǐn)_動(dòng)時(shí),攻擊者不太可能利用記錄差異而進(jìn)行敏感數(shù)據(jù)的屬性值推算。這種機(jī)制也是當(dāng)前機(jī)器學(xué)習(xí)中隱私保護(hù)所最常用的保護(hù)方法。一方面在機(jī)器學(xué)習(xí)的過(guò)程中會(huì)重復(fù)多次訪問(wèn)敏感數(shù)據(jù),若使用傳統(tǒng)預(yù)處理等方式的情況下,很容易導(dǎo)致隱私、敏感數(shù)據(jù)的泄露。另一方面,在簡(jiǎn)單機(jī)器學(xué)習(xí)模型的發(fā)展過(guò)程中,添加擾動(dòng)并不會(huì)對(duì)數(shù)據(jù)處理的效率造成較大的影響,并提升隱私保護(hù)的效果,而在數(shù)據(jù)量較大、數(shù)據(jù)結(jié)構(gòu)較為復(fù)雜的深度學(xué)習(xí)模型中,擾動(dòng)的增加會(huì)進(jìn)一步加大數(shù)據(jù)計(jì)算的總量,使學(xué)習(xí)模型的有效性與隱私保護(hù)的效果無(wú)法得到可靠的保障,這一問(wèn)題也是導(dǎo)致差分?jǐn)_動(dòng)技術(shù)無(wú)法得到有效發(fā)展的主要原因。
現(xiàn)階段機(jī)器學(xué)習(xí)技術(shù)的發(fā)展過(guò)程中,安全問(wèn)題與隱私保護(hù)成為該技術(shù)廣泛應(yīng)用的阻礙,因此需要對(duì)其加強(qiáng)研究,使其成為社會(huì)真正信任的技術(shù),使其能夠長(zhǎng)久造福人類(lèi)的社會(huì)發(fā)展。