国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于差分隱私的分段裁剪聯(lián)邦學(xué)習(xí)算法

2024-06-01 13:11:40吳俊儀李曉會
計算機應(yīng)用研究 2024年5期

吳俊儀 李曉會

摘 要:為解決現(xiàn)有的差分隱私聯(lián)邦學(xué)習(xí)算法中使用固定的裁剪閾值和噪聲尺度進行訓(xùn)練,從而導(dǎo)致數(shù)據(jù)隱私泄露、模型精度較低的問題,提出了一種基于差分隱私的分段裁剪聯(lián)邦學(xué)習(xí)算法。首先,根據(jù)客戶端的隱私需求分為隱私需求高和低。對于高隱私需求用戶使用自適應(yīng)裁剪來動態(tài)裁剪梯度,而低隱私需求用戶則采用比例裁剪。其次根據(jù)裁剪后閾值大小自適應(yīng)地添加噪聲尺度。通過實驗分析可得,該算法可以更好地保護隱私數(shù)據(jù),同時通信代價也低于ADP-FL和DP-FL算法,并且與ADP-FL和DP-FL相比,模型準確率分別提高了2.25%和4.41%。

關(guān)鍵詞:聯(lián)邦學(xué)習(xí); 差分隱私; 分段裁剪; 隱私分類; 自適應(yīng)加噪

中圖分類號:TP309 文獻標志碼:A?文章編號:1001-3695(2024)05-036-1532-06

doi:10.19734/j.issn.1001-3695.2023.09.0402

Segmental tailoring federated learning algorithm based on differential privacy

Abstract:To solve the problems caused by using fixed cropping thresholds and noise scales for training in existing differential privacy federated learning algorithms, such as data privacy leakage and low model accuracy, the paper proposed a segmented cropping federated learning algorithm based on differential privacy. Firstly, the clients divided the privacy requirements into high and low privacy demands. For users with high privacy demands,it employed adaptive clipping to dynamically clip the gradients. Conversely,for users with low privacy demands, it adopted proportional clipping. Secondly, the clients adaptively added noise scales based on the size of the clipped threshold. The experimental analysis shows that this algorithm effectively safeguards privacy data, while reducing communication costs compared to ADP-FL and DP-FL algorithms. Additionally, it achieves an improvement in model accuracy by 2.25% and 4.41% compared to ADP-FL and DP-FL respectively.

Key words:federated learning; differential privacy; segmental tailoring; privacy classification; adaptive noise addition

0 引言

隨著互聯(lián)網(wǎng)信息時代的快速發(fā)展,機器學(xué)習(xí)在圖像識別、自然語言處理[1]等許多領(lǐng)域得到了廣泛的應(yīng)用。然而大量多維度高質(zhì)量數(shù)據(jù)的引用使得人們越來越關(guān)注自己數(shù)據(jù)的隱私性。在傳統(tǒng)的集中式學(xué)習(xí)中,服務(wù)器大量使用本地數(shù)據(jù)進行訓(xùn)練,進而產(chǎn)生隱私泄露的風(fēng)險。聯(lián)邦學(xué)習(xí)[2]是一種分布式機器學(xué)習(xí)框架,其客戶端在中央服務(wù)器的組織協(xié)同下訓(xùn)練模型,參與方無須共享原始數(shù)據(jù),僅交換訓(xùn)練參數(shù)至服務(wù)器,由服務(wù)器進行統(tǒng)一聚合更新,旨在降低傳統(tǒng)機器學(xué)習(xí)的隱私風(fēng)險和通信復(fù)雜性,可以有效地緩解數(shù)據(jù)孤島[3]等問題。

然而現(xiàn)有研究顯示,攻擊者仍然可以攻擊訓(xùn)練上傳的相關(guān)參數(shù)來獲得用戶部分隱私數(shù)據(jù)[4,5]。為進一步緩解上述問題,研究者提出了以下解決方案:將安全多方計算(SMC)[6]、同態(tài)加密(HE)[7]技術(shù)應(yīng)用于聯(lián)邦學(xué)習(xí)。文獻[8]利用SMC集合聯(lián)邦學(xué)習(xí)設(shè)計了一個可以安全聚合用戶梯度的框架。文獻[9]提出了一種基于HE的聯(lián)邦學(xué)習(xí)算法,利用加法同態(tài)加密來保護梯度參數(shù)不受到攻擊。雖然聯(lián)邦學(xué)習(xí)與兩者相結(jié)合的方案可以提供較強的隱私保護,但同時也會帶來復(fù)雜沉重的計算和通信開銷。相對于安全多方計算和同態(tài)加密,差分隱私[10]的實現(xiàn)更加簡單,不需要大量的額外計算,因此在聯(lián)邦學(xué)習(xí)中得到了廣泛的應(yīng)用[11,12]。其主要通過噪聲機制干擾用戶的敏感特征,使個體數(shù)據(jù)無法被識別,在保護用戶隱私的同時保證模型的準確性和簡便性。

近年來,基于DP的FL方法通常是在梯度上傳過程中對梯度參數(shù)添加滿足差分隱私的噪聲并上傳到服務(wù)器,可以一定程度地保證本地數(shù)據(jù)的隱私,但在目前研究中發(fā)現(xiàn)在上傳梯度過程中仍然會因梯度丟失而導(dǎo)致用戶隱私泄露。而梯度裁剪作為一種差分隱私中常用的技術(shù),可以有效限制梯度范圍大小,進而減少隱私泄露風(fēng)險。 在聯(lián)邦學(xué)習(xí)模型中,醫(yī)療、金融、物聯(lián)網(wǎng)等領(lǐng)域的參與方通常擁有著大量的敏感信息,例如患者病例信息、財務(wù)信息、位置信息等。使用梯度裁剪技術(shù)的聯(lián)邦學(xué)習(xí)算法可以對本地模型梯度參數(shù)進行裁剪后再訓(xùn)練,并利用差分隱私技術(shù)進行加噪。在多方位保證數(shù)據(jù)隱私的同時,實現(xiàn)多個機構(gòu)之間的協(xié)作學(xué)習(xí)并提高模型的準確性。而現(xiàn)有基于裁剪的聯(lián)邦學(xué)習(xí)算法還存在一定的局限性。Fu等人[13]設(shè)定相同的裁剪因子來對梯度值進行裁剪,忽略了人們對于隱私需求的差異性。由于實際中,用戶對于數(shù)據(jù)的隱私保護需求程度的不同,采用相同級別的隱私保護可能會導(dǎo)致需求較高的隱私信息分配的隱私預(yù)算不足,最終導(dǎo)致用戶隱私泄露并影響模型的準確性。基于此,文獻[14]最先定義研究了自適應(yīng)裁剪技術(shù)并應(yīng)用于差分隱私模型。其根據(jù)訓(xùn)練模型中的梯度值自適應(yīng)調(diào)整裁剪閾值,可以根據(jù)模型實際情況更細粒度地進行隱私保護,盡可能保留有用信息,同時還可以減少對模型準確度性能的影響。Liu等人[15]提出了根據(jù)客戶端隱私需求異質(zhì)性對模型本地訓(xùn)練梯度分別進行自適應(yīng)裁剪操作,可以更好地保護隱私信息,但應(yīng)用于大規(guī)模數(shù)據(jù)集時會產(chǎn)生較大的計算開銷。除此以外,現(xiàn)有的差分隱私聯(lián)邦學(xué)習(xí)算法大多會在上傳時添加相同的噪聲大小。例如,Shokri等人[16]提出了在批次訓(xùn)練時向模型梯度中加入恒定噪聲來達到隱私保護作用。然而在實際的訓(xùn)練迭代過程中,參數(shù)會隨著訓(xùn)練次數(shù)的變化而不斷變化,相同的噪聲尺度大小會損害其模型精度。

針對上述問題,本文提出了一種基于差分隱私的分段裁剪聯(lián)邦學(xué)習(xí)框架。根據(jù)隱私需求參數(shù),將用戶分為隱私需求高和低兩類,隱私需求高的用戶根據(jù)具體訓(xùn)練參與方和輪次進行自適應(yīng)梯度裁剪,隱私需求低的用戶則根據(jù)其迭代訓(xùn)練的具體梯度大小按比例裁剪。最后根據(jù)裁剪閾值自適應(yīng)添加噪聲大小,以降低不同程度敏感信息被泄露的風(fēng)險,提高模型隱私性和準確性。本文主要貢獻如下:a)提出了一種基于差分隱私的分段裁剪聯(lián)邦學(xué)習(xí)算法,解決聯(lián)邦學(xué)習(xí)訓(xùn)練過程中參數(shù)上傳階段所產(chǎn)生的隱私泄露和模型訓(xùn)練精度低的問題;b)針對用戶隱私需求,設(shè)定了隱私程度高和低的分類,更好地保留參與方之間的差異性,并掩蓋不同參與方對于梯度的貢獻值;c)針對不同的實驗數(shù)據(jù)場景進行了比較,結(jié)果顯示所提方法明顯優(yōu)于其他算法。

1 相關(guān)工作

1.1 聯(lián)邦學(xué)習(xí)

聯(lián)邦學(xué)習(xí)是由Google提出的一種分布式機器學(xué)習(xí)框架,可以有效解決數(shù)據(jù)孤島、隱私泄露等[17]問題的發(fā)生。聯(lián)邦學(xué)習(xí)允許客戶端在不共享本地數(shù)據(jù)的情況下實現(xiàn)跨設(shè)備協(xié)同訓(xùn)練,使得數(shù)據(jù)可用而不可見。根據(jù)客戶端本地數(shù)據(jù)分布位置的不同,可以將聯(lián)邦學(xué)習(xí)分為三類:

a)跨樣本聯(lián)邦學(xué)習(xí)。該學(xué)習(xí)應(yīng)用于兩個特征重疊較多而樣本重疊較少的數(shù)據(jù)集上;其參與方數(shù)據(jù)量較少,通常是移動設(shè)備;可能會由于好奇的服務(wù)器或惡意參與方的攻擊導(dǎo)致隱私泄露。

b)跨特征聯(lián)邦學(xué)習(xí)。該學(xué)習(xí)是在兩個數(shù)據(jù)集用戶重疊較多而特征部分重疊較少的情況下進行訓(xùn)練的。其參與方本地數(shù)據(jù)集非常龐大、計算能力較好,通常是由相對獨立的不同組織構(gòu)成;但龐大的數(shù)據(jù)集也可能會產(chǎn)生更加復(fù)雜的隱私保護問題。

c)復(fù)合型聯(lián)邦。在兩個數(shù)據(jù)集特征和用戶重疊都較少的情況下,無法對數(shù)據(jù)進行切分訓(xùn)練,選擇復(fù)合型聯(lián)邦則可以有效解決數(shù)據(jù)規(guī)模小和標簽特征少的問題,進而提高模型精度。

本文主要針對跨樣本聯(lián)邦學(xué)習(xí),其流程如圖1所示,具體訓(xùn)練步驟如下:a)服務(wù)器初始化,首先由中央服務(wù)器將初始化全局模型參數(shù)w0分發(fā)給本地用戶;b)本地模型訓(xùn)練,用戶接收初始化模型參數(shù)w0進行本地模型訓(xùn)練,根據(jù)本地梯度g0進行梯度裁剪,根據(jù)裁剪后的梯度值求取新的模型參數(shù)w1,將更新后的參數(shù)傳輸給服務(wù)器;c)服務(wù)器聚合,服務(wù)器對接收到的參數(shù)進行聚合操作,根據(jù)其梯度平均值求取新的全局模型參數(shù),將更新后的模型參數(shù)分發(fā)給客戶端繼續(xù)訓(xùn)練。重復(fù)上述步驟,直到迭代收斂。

基本的聯(lián)邦學(xué)習(xí)系統(tǒng)中包含一個服務(wù)器和N個客戶端,其中:DK表示第k個客戶端持有的本地數(shù)據(jù)集k=1,2,3,…,N。服務(wù)器目標是從k個相關(guān)客戶端數(shù)據(jù)中學(xué)習(xí)一個模型,并最終優(yōu)化方程至收斂。其優(yōu)化方程的表達式如下:

其中:Fk是第k個客戶端的損失函數(shù)。

1.2 差分隱私

差分隱私最早由Dwork等人[18]提出,旨在對數(shù)據(jù)進行統(tǒng)計分析時最大化保護個人數(shù)據(jù)的隱私性,使得攻擊者無法在數(shù)據(jù)分析時推斷出特定用戶的隱私記錄情況。其主要思想是使用隨機擾動技術(shù)添加噪聲,使數(shù)據(jù)集中記錄的改變對模型的影響減小,從而更好地保護數(shù)據(jù)隱私。

定義1 (ε,δ)-差分隱私。

隨機機制M:X→R,在隨機的兩個數(shù)據(jù)集x和x′上,其中x,x′∈X,若其任意的輸出結(jié)果S∈R都滿足式(2),則稱算法M滿足(ε,δ)-差分隱私。

Pr[M(x)=S]≤eε×Pr[M(x′)=S]+δ(2)

其中:ε表示隱私保護預(yù)算;x和x′是記錄中相差為1的數(shù)據(jù)集。經(jīng)過隨機擾動后,輸出特定值的概率取決于ε。ε越小,隱私保護性越強。δ表示松馳項因子,當δ=0時則隨機算法滿足ε-差分隱私。

定義2 靈敏度。

對于一對數(shù)據(jù)x,x′∈X,設(shè)f是將數(shù)據(jù)集X映射到實數(shù)空間上的一個查詢函數(shù),即隨機機制f:X→R。對于數(shù)據(jù)集x和x′,其函數(shù)的全局敏感度為

其中:x和x′表示記錄中相差為1的數(shù)據(jù)集。

定義3 高斯機制。

對于任意符合高斯分布的數(shù)據(jù),添加噪聲Y~N(0,C2σ2),其輸出結(jié)果滿足

M=f+Y(4)

定理1 序列組合性。給定隨機算法A1、A2分別滿足(ε,δ)-差分隱私,那么其組合的隨機算法A(A1,A2)仍然滿足(ε,δ)-差分隱私。

定理2 后傳性。給定一個隨機算法A1,滿足(ε,δ)-差分隱私。對于任何隨機算法A2,其組合A2(A1(x))同樣滿足(ε,δ)-差分隱私。

1.3 威脅模型

使用梯度裁剪技術(shù)可以緩解本地數(shù)據(jù)上傳過程中產(chǎn)生的隱私泄露問題,減少數(shù)據(jù)的敏感性,然而其在訓(xùn)練中仍會被攻擊者所攻擊,進而威脅模型安全。例如以下兩個方面:

a)模型反轉(zhuǎn)攻擊[19]:也稱屬性推理攻擊。主要發(fā)生在模型訓(xùn)練完成后,攻擊者嘗試利用裁剪閾值與其他裁剪參數(shù)范圍結(jié)合進行推理來獲得原始梯度值,進而導(dǎo)致隱私泄露。Melis等人[20]驗證了在FL中攻擊者可以通過攻擊其共享的模型信息進而獲得參與者的隱私信息。

b)模型提取攻擊[21]:指攻擊者反復(fù)從模型中獲取響應(yīng)結(jié)果,并結(jié)合其他模型參數(shù)構(gòu)造出一個相似的模型。攻擊者可以嘗試將獲取的梯度裁剪信息應(yīng)用到相似模型中,進而推斷出更多的隱私信息。

綜上,雖然梯度裁剪可以一定程度上保護用戶隱私,但仍然會受到一些威脅攻擊。通過多方面考慮攻擊模型提出了分段裁剪防御措施,針對不同隱私需求程度分別進行裁剪操作,進而更好地保護用戶隱私安全。

2 SP-FL:基于差分隱私的分段裁剪聯(lián)邦學(xué)習(xí)算法

2.1 分段裁剪

現(xiàn)有的聯(lián)邦學(xué)習(xí)算法中,較為普遍地使用差分隱私技術(shù)來保護數(shù)據(jù)隱私。而在差分隱私中,梯度裁剪是一種必不可少的技術(shù),主要通過在每次梯度更新前對梯度進行截取或者縮放,以限制梯度值范圍來減少隱私泄露的風(fēng)險。裁剪閾值的選取會進一步對模型精度產(chǎn)生影響:如果裁剪閾值C設(shè)定較小,那么噪聲添加也會較少,但會破壞梯度估計的無偏性,導(dǎo)致其所裁剪的方向與實際方向有差異;反之,添加大量的噪聲雖然使得其可以提供較好的隱私保護,但同時降低了模型精度的準確性。因此C值設(shè)置得太大或者太小都會對訓(xùn)練模型產(chǎn)生一定影響。在梯度裁剪中有幾種常用的方法,例如:

a)常數(shù)裁剪。通過將梯度裁剪到預(yù)定的常數(shù)范圍內(nèi)來達到控制梯度整體振幅的作用。

b)自適應(yīng)裁剪。根據(jù)實際梯度屬性和分布進行自適應(yīng)調(diào)整裁剪閾值。

c)分段裁剪。將梯度劃分區(qū)間,分別進行合適的裁剪操作。

本文采用分段和自適應(yīng)相結(jié)合的方式,根據(jù)用戶隱私需求大小,將梯度范圍劃分為兩部分并分別進行裁剪。

在使用L2范數(shù)裁剪時,需要設(shè)定裁剪范圍來進行整體約束,因此在梯度裁剪時將本地迭代輪次下的樣本梯度L2范數(shù)與裁剪閾值C進行比較。如果其梯度L2范數(shù)大于C則將該樣本數(shù)目按比例進行縮減,反之則保持不變。其中L2范數(shù)的大小會隨著客戶端選取、迭代輪次的變化而變化。

基于上述所描述的問題,本文提出了一種基于差分隱私的分段裁剪聯(lián)邦學(xué)習(xí)算法。根據(jù)用戶對于本地數(shù)據(jù)的隱私需求不同,動態(tài)地調(diào)整裁剪閾值??蛻舳税凑諏Ρ镜財?shù)據(jù)的隱私需求設(shè)定隱私程度因子β。首先求取所有初始梯度L2范數(shù)的平均值作為其初始化裁剪閾值。對于隱私需求高的用戶,使用第k-1輪的平均梯度L2范數(shù)乘以當前客戶端所選取的隱私程度因子β(即裁剪因子)作為其第k輪次的裁剪閾值Cnt、h。其定義如式(5)所示。

隱私需求低的用戶則通過當前輪次的梯度L2范數(shù)乘以裁剪因子得到新的裁剪閾值Cnt、l。定義如式(7)所示。

Cnt、l=‖gnt(xi)‖2×β(7)

進而更好地滿足客戶端隱私需求的異質(zhì)性,減少傳輸過程中敏感數(shù)據(jù)泄露的風(fēng)險,并在一定程度上減少其通信開銷,保證模型準確性。

2.2 自適應(yīng)加噪

在加噪過程中給定隱私預(yù)算大小,噪聲程度σ的大小決定了向模型中添加噪聲的大小。添加噪聲有助于提高模型的隱私性,較大的噪聲程度使得每輪的隱私損失較小并且可以執(zhí)行多次迭代,但同時會對模型產(chǎn)生更嚴重的干擾,從而導(dǎo)致模型的準確性降低。當σ較小時,每輪損失較大但模型準確性較好。在模型訓(xùn)練期間,隨著梯度的降低,噪聲大小對模型的影響逐漸增大。隨著其訓(xùn)練迭代次數(shù)的增加,其梯度L2范數(shù)也會逐漸減小。因此為了使得模型每個客戶端獲得較小的噪聲干擾,提高模型精度,本文提出了自適應(yīng)加噪處理即在進行梯度下降算法操作求取模型梯度值時添加方差為σ×C的高斯噪聲,再進行加權(quán)操作。

總體來說,自適應(yīng)加噪的主要思想是隨著模型精度的不斷迭代收斂,希望每輪訓(xùn)練中的參與方梯度上加噪的尺度逐漸減小,以進一步使得模型精度更高。具體根據(jù)其裁剪梯度變化動態(tài)調(diào)整噪聲尺度。分別針對隱私需求高和低的用戶進行自適應(yīng)加噪處理,添加滿足差分隱私的高斯噪聲。再根據(jù)參與方數(shù)量聚合需求高和低兩類客戶端的梯度值,得到該訓(xùn)練輪次下的總梯度值,其定義如式(8)(9)所示。

2.3 SP-FL算法框架

在傳統(tǒng)的基于差分隱私的聯(lián)邦學(xué)習(xí)框架中,服務(wù)器會為每個客戶端提供相同的隱私預(yù)算,忽略了對隱私需求的差異性。因此本文提出SP-FL算法,根據(jù)客戶端對本地數(shù)據(jù)的隱私需求程度進行分類裁剪,在保證隱私的同時提高模型的準確度,減少計算消耗。

算法框架如圖2所示,由一個中央服務(wù)器server和N個相互獨立的客戶端組成,每個客戶端擁有一定數(shù)量的本地數(shù)據(jù)集。由中央服務(wù)器和N個客戶端協(xié)同訓(xùn)練共同執(zhí)行SP-FL算法。

a)初始化階段。中央服務(wù)器server發(fā)送初始化全局模型參數(shù)w0給各個客戶端。

b)訓(xùn)練階段??蛻舳私邮杖帜P蛥?shù)w0進行本地訓(xùn)練獲取梯度g1,g2,…,gn,根據(jù)客戶端的隱私需求因子分類為隱私需求高和隱私需求低兩類,分別求取其裁剪閾值C1,C2,…,Cn進行梯度裁剪。

c)上傳階段。對本地客戶端裁剪后的梯度值進行自適應(yīng)加噪處理,加權(quán)聚合所有參與方的梯度值求取總梯度。根據(jù)梯度值求取其新一輪更新后的模型參數(shù),并上傳給中央服務(wù)器。

d)聚合階段。服務(wù)器server接收各個客戶端上傳的模型參數(shù)進行聚合處理,并更新全局模型。將更新后的全局模型參數(shù)繼續(xù)分發(fā)給各個客戶端繼續(xù)迭代。

依次循環(huán)重復(fù)上述過程,直到迭代收斂或者達到迭代次數(shù)最大值。

2.4 算法實現(xiàn)

訓(xùn)練過程如算法1所示,具體包括以下步驟。設(shè)有N個客戶端,其中第k個客戶端擁有Dk(k=1,2,…,N)個數(shù)據(jù)集,總迭代次數(shù)為T。

a)初始化數(shù)據(jù)。設(shè)定全局模型參數(shù)w0,并由中心服務(wù)器廣播給所有客戶端。

b)本地梯度計算。從服務(wù)器接收初始化全局模型參數(shù)w0,并在數(shù)據(jù)集中按照比例P/|Dn|局部選取Lnt樣本數(shù)目作為訓(xùn)練集,使用梯度下降法計算本地梯度值gnt(xi)。

f)模型參數(shù)聚合。對所選取參與訓(xùn)練的客戶端所上傳的模型參數(shù)wnt+1進行加權(quán)聚合,并根據(jù)樣本數(shù)目求取平均值作為其下一次訓(xùn)練的全局模型參數(shù)。

g)模型參數(shù)廣播。服務(wù)器繼續(xù)向客戶端廣播新的模型參數(shù),重復(fù)步驟b)~g)直到迭代到最大次數(shù)T,停止。

算法1 基于差分隱私的分段裁剪聯(lián)邦學(xué)習(xí)框架

2.5 算法性能分析

2.5.1 隱私性分析

通過定理3證明算法1滿足差分隱私。

定理3 對于任意的t≥1,算法1對于任意客戶端在第t次迭代時滿足(ε,δ)-差分隱私。

證明 根據(jù)隱私需求的不同將本地客戶端分為隱私需求高和低兩類。首先本地客戶端對分類裁剪后的梯度添加滿足差分隱私標準差為σ×C的高斯噪聲,根據(jù)定義1可得每個客戶端都分別滿足(ε,δ)-差分隱私。給定任意兩個一條記錄中相差為1 的數(shù)據(jù)集x和x′,經(jīng)過算法1得到的輸出結(jié)果為M1和M2∈S,其分別滿足(ε,δ)-差分隱私。由定理1可得

因此隱私需求高和低兩類算法在本地訓(xùn)練過程中分別滿足(ε,δ)-差分隱私。而后根據(jù)差分隱私的組合性,算法1也同樣滿足(ε,δ)-差分隱私。除此以外根據(jù)差分隱私的后傳性,后續(xù)每一輪迭代過程都仍然滿足(ε,δ)-差分隱私。因此,算法1的每一輪迭代都滿足差分隱私。

由算法1可得,SP-FL算法根據(jù)本地用戶對隱私數(shù)據(jù)需求程度的不同,分別對梯度進行不同程度的裁剪操作。高隱私需求用戶可以獲得較大的裁剪閾值來降低梯度的敏感程度,對裁剪后的梯度進行自適應(yīng)加噪處理后應(yīng)用于模型更新操作。

在數(shù)據(jù)上傳過程中,自適應(yīng)添加噪聲增加了模型的不準確性,同時也增加了攻擊者獲取原始數(shù)據(jù)的難度。假設(shè)服務(wù)器是誠實且好奇的。在參數(shù)上傳階段,攻擊者針對客戶端所提交的更新后的參數(shù)信息進行攻擊時,無法通過攻擊獲取訓(xùn)練模型參數(shù)值,因此結(jié)合其他信息來進一步推斷模型的隱私特征信息。算法1保證了各個客戶端在上傳參數(shù)時用戶隱私信息的安全性,有效抵抗了模型反轉(zhuǎn)攻擊的發(fā)生。

針對不誠實的參與方之間的泄露問題。不同的客戶端設(shè)定不同的裁剪因子進行裁剪操作,極大地降低了信息的敏感程度,使得不誠實的參與方無法通過攻擊中央服務(wù)器下發(fā)的全局模型參數(shù)來獲取目標用戶的初始數(shù)據(jù)。

除此以外,SP-FL算法還有可能在中央服務(wù)器接收客戶端參數(shù)進行聚合時,受到模型提取等攻擊。在服務(wù)器接收客戶端上傳的模型參數(shù)進行聚合時,每輪迭代過程中,攻擊者無法隨意區(qū)分出任意客戶端的梯度信息,因此保證了在聚合過程中的用戶隱私,可以防止模型提取等攻擊情況的出現(xiàn)。

在DP-FL[13]、ADP-FL[15]、SP-FL中,DP-FL在本地裁剪時均采用相同的裁剪因子進行裁剪,對于隱私需求高的用戶,其裁剪值不夠,導(dǎo)致保留過多的隱私信息,容易使得攻擊者根據(jù)其他信息推斷出其隱私參數(shù),進而導(dǎo)致隱私泄露。而在ADP-FL中,信任與不信任中央服務(wù)器的客戶端分別進行操作,客戶端需要分別發(fā)送梯度值和裁剪方向信息給服務(wù)器,再由服務(wù)器更新裁剪閾值給客戶端進行裁剪。攻擊者可能會設(shè)計相關(guān)查詢模型,根據(jù)多次相同值的查詢結(jié)果構(gòu)建相似模型來獲取用戶隱私信息,致使隱私泄露問題的發(fā)生。相比之下,SP-FL算法隱私暴露風(fēng)險更低,根據(jù)客戶端隱私需求不同,不同程度地掩蓋原始隱私信息。結(jié)合自適應(yīng)加噪處理,使模型可以抵抗?jié)撛谀P凸舻耐瑫r保證模型準確性。

2.5.2 算法復(fù)雜度分析

SP-FL算法中,N個客戶端從服務(wù)器接收初始化全局模型參數(shù),在本地選取樣本數(shù)目進行訓(xùn)練獲取梯度值的時間復(fù)雜度為O(TNL),對本地梯度進行分段裁剪,并對裁剪后的梯度值進行加噪,獲取模型參數(shù)后發(fā)送給服務(wù)器的通信代價為O(TNL)。中央服務(wù)器對接收到的模型參數(shù)進行加權(quán)平均操作,并更新全局模型參數(shù)的時間復(fù)雜度為O(TNL)。

其中N為客戶端數(shù)量,T為最大迭代次數(shù),L為選取訓(xùn)練樣本數(shù)目。由于N遠大于T和L,所以其整體時間復(fù)雜度可以看作O(N)。相對于DP-FL、ADP-FL,SP-FL的計算復(fù)雜程度相對較低。

2.5.3 通信成本分析

此算法從初始化過程、參數(shù)上傳和模型參數(shù)廣播三部分分析通信成本代價。a)初始化過程,發(fā)送全局模型參數(shù)w0給N個客戶端的通信成本為O(N);b)參數(shù)上傳,客戶端經(jīng)過裁剪和加噪處理后將模型參數(shù)發(fā)送給中央服務(wù)器操作的通信代價為O(TN);c)模型參數(shù)廣播,更新后的全局模型參數(shù)分發(fā)給各個客戶端的通信消耗為O(N)??偟耐ㄐ懦杀緸镺(N(T+2))。DP-FL算法中對不信任服務(wù)器類客戶端需將裁剪信息發(fā)送給服務(wù)器,由服務(wù)器分發(fā)裁剪閾值,因此增加了通信成本。相比之下,SP-FL的通信成本會較小。

3 實驗結(jié)果與分析

3.1 實驗設(shè)置

1)實驗環(huán)境 實驗環(huán)境為Ubuntu 18.04系統(tǒng)(CPU:Intel CoreTM i5-8250U CPU @ 1.60 GHz 1.80 GHz),并使用機器學(xué)習(xí)框架和Python語言訓(xùn)練模型。

2)數(shù)據(jù)庫 數(shù)據(jù)庫則采用機器學(xué)習(xí)框架中常用的MNIST、Fashion-MNIST和CIFAR10三個數(shù)據(jù)集進行測試,數(shù)據(jù)集的具體信息如表1所示。兩個數(shù)據(jù)集均采用卷積神經(jīng)網(wǎng)絡(luò)作為網(wǎng)絡(luò)結(jié)構(gòu)進行本地模型訓(xùn)練,具體由兩個自適應(yīng)的卷積層和兩個全連接層組成。兩個卷積層的輸出通道分別為32和64,卷積核大小為4×4。全連接層輸入大小分別為64×4×4和32,輸出分別為16和10。

按照文獻[22]的劃分方法對兩個數(shù)據(jù)集進行分類,根據(jù)數(shù)字標簽對所選取的訓(xùn)練數(shù)據(jù)進行排序并平均劃分為500個片段,使得每個客戶所得到的隨機樣本中具有三個或以上的不完全相同的標簽,這更符合現(xiàn)實場景中的聯(lián)邦數(shù)據(jù)分布。

3.2 實驗結(jié)果

本文選擇在MNIST和Fashion-MNIST和CIFAR10數(shù)據(jù)集上進行實驗,比較DP-FL、NoDP-FL、ADP-FL和SP-FL四種算法。其中:DP-FL為選擇采用恒定的裁剪因子進行裁剪的算法,未考慮客戶端隱私需求的差異性;NoDP-FL是未采取差分隱私保護的聯(lián)邦學(xué)習(xí);ADP-FL則指采用自適應(yīng)裁剪的差分隱私聯(lián)邦學(xué)習(xí)算法。設(shè)置客戶端數(shù)量為100,并選擇各算法運行15次的平均值作為統(tǒng)計數(shù)據(jù)。

表2顯示了四種算法分別在數(shù)據(jù)集上的訓(xùn)練誤差大小。由表可得NoDP-FL算法的訓(xùn)練誤差在不同數(shù)據(jù)集上都是最小的。 SP-L與NoDP-FL的訓(xùn)練誤差相差較小,并明顯低于DP-FL和ADP-FL的模型誤差。由此可得SP-FL算法可用性較高,可以在保護用戶隱私的同時提升模型精度。

除此以外通過圖3可得,在相同的隱私預(yù)算下,SP-FL算法具有更高的可用性。隨著隱私水平的不斷提高,四個算法對于模型精度的影響都在逐漸增大。這是因為隱私預(yù)算的增加導(dǎo)致其添加的噪聲規(guī)模變小,模型的精度就會逐漸提高。隨著隱私預(yù)算的增加,SP-FL算法在不同數(shù)據(jù)集上的模型精度都明顯高于其他算法,可以更顯著地提高模型準確性。

3.2.1 參與方數(shù)量大小對模型影響

在聯(lián)邦學(xué)習(xí)中,每個獨立的參與方都有自己的本地數(shù)據(jù)集。隨著訓(xùn)練參與方數(shù)量的增加,模型數(shù)量也在逐漸增加,不同的參與方數(shù)據(jù)分布可能會有異質(zhì)性,進而導(dǎo)致模型的精度降低。為了對比研究算法對模型精度的影響,設(shè)定每個參與方的數(shù)據(jù)量相同,進而判斷不同數(shù)量的參與方對于模型精度的影響。

由圖4可得,在不同數(shù)據(jù)集上,隨著參與方數(shù)量的增多,大多情況下會導(dǎo)致模型精度的提升,但當達到一定程度時,參與方數(shù)量的繼續(xù)增長會導(dǎo)致模型精度趨于穩(wěn)定或者小范圍下降。其中SP-FL算法會比ADP-FL和DP-FL算法導(dǎo)致模型精度提升得更多,相比于NoDP-FL相差得較少,并且在持續(xù)增多時會較趨于穩(wěn)定。

3.2.2 迭代次數(shù)對模型性能影響

在本地訓(xùn)練階段,客戶端選擇使用分段裁剪方式對模型進行裁剪。隨著訓(xùn)練迭代次數(shù)的增加,可能會使得模型更好地適應(yīng)數(shù)據(jù)分布,減少其中裁剪閾值過高產(chǎn)生的誤差。另一方面,增加到一定范圍的迭代次數(shù)會進一步導(dǎo)致模型發(fā)生過擬合情況,從而增加計算成本,導(dǎo)致模型精度下降。因此設(shè)定其他參數(shù)為固定值的情況下,比較不同迭代次數(shù)下對于模型精度的影響情況。

由圖5可得,隨著本地訓(xùn)練迭代次數(shù)的增多,大多都會有益于模型精度的增長,但在達到一定數(shù)量的迭代次數(shù)后隨著大量噪聲的添加反而會導(dǎo)致模型精度降低。從圖中可以看出,在不同數(shù)據(jù)集上,SP-FL算法對模型精度有顯著的提高。相比于ADP-FL和DP-FL算法,其在達到一定值后只有小幅度的下降趨勢??傮w來說,隨著迭代次數(shù)的增加,SP-FL較趨于穩(wěn)定。

4 結(jié)束語

本文提出了一種基于差分隱私的分段裁剪聯(lián)邦學(xué)習(xí)算法。首先根據(jù)客戶端對本地數(shù)據(jù)隱私需求程度的不同,分為隱私需求高和低兩類進行分段裁剪,這樣可以充分考慮客戶隱私需求的差異性,減少隱私泄露風(fēng)險。其次根據(jù)本地模型訓(xùn)練迭代情況,自適應(yīng)地添加高斯噪聲大小,可以有效緩解噪聲尺度對模型準確性的影響。最后選擇三組公開的數(shù)據(jù)集進行實驗,證明了隨著參與方數(shù)量和本地迭代次數(shù)的不斷增加,該算法相對于傳統(tǒng)的裁剪算法可以更好地提高模型的隱私性和準確性,具有更好的性能。在整體訓(xùn)練過程中,因為數(shù)據(jù)分布不同,客戶端所選取數(shù)據(jù)樣本可能存在一定的異構(gòu)性。下一步將側(cè)重針對數(shù)據(jù)異構(gòu)性問題,進一步提高模型的隱私性。

參考文獻:

[1]Hard A, Rao K, Mathews R, et al. Federated learning for mobile keyboard prediction[EB/OL]. (2019-02-28) [2023-09-05]. https://arxiv.org/abs/1811.03604.

[2]Qin Zhijin, Li Y G, Ye Hao. Federated learning and wireless communications[J]. IEEE Wireless Communications, 2021,28(5): 134-140.

[3]Xu Guowen, Li Hongwei, Liu Xiaodong, et al. VerifyNet: secure and verifiable federated learning[J]. IEEE Trans on Information Forensics and Security, 2019, 15: 911-926.

[4]Nasr M, Shokri R, Houmansadr A. Comprehensive privacy analysis of deep learning: passive and active white-box inference attacks against centralized and federated learning[C]//Prac of IEEE Symposium on Security and Privacy. Piscataway, NJ: IEEE Press, 2019: 739-753.

[5]Song C, Ristenpart T, Shmatikov V. Machine learning models that remember too much[C]//Proc of ACM SIGSAC Conference on Computer and Communications Security. New York: ACM Press, 2017: 587-601.

[6]Truex S, Baracaldo N, Anwar A, et al. A hybrid approach to privacy-preserving federated learning[C]//Proc of the 12th ACM Workshop on Artificial Intelligence and Security.New York:ACM Press,2019:1-11.

[7]Xu Guowen, Li Hongwei, Zhang Yun, et al. Privacy-preserving fe-derated deep learning with irregular users[J]. IEEE Trans on Dependable and Secure Computing, 2020, 19(2): 1364-1381.

[8]Young T, Hazarika D, Poria S, et al. Recent trends in deep learning based natural language processing[J]. IEEE Computational Intel-ligence Magazine, 2018, 13(3): 55-75.

[9]Phong L T, Aono Y, Hayashi T, et al. Privacy preserving deep lear-ning via additively homomorphic encryption[J]. IEEE Trans on Information Forensics and Security, 2017,13(5): 1333-1345.

[10]徐晨陽, 葛麗娜, 王哲, 等. 基于差分隱私保護知識遷移的聯(lián)邦學(xué)習(xí)方法[J]. 計算機應(yīng)用研究, 2023,40(8): 2473-2480. (Xu Chenyang, Ge Lina, Wang Zhe, et al. Federated learning method based on differential privacy protection knowledge transfer[J]. Application Research of Computers, 2023, 40(8): 2473-2480.)

[11]Cao Hui, Liu Shubo, Zhao Renfang, et al. IFed: a novel federated learning framework for local differential privacy in power Internet of Things[J/OL]. International Journal of Distributed Sensor Networks, 2020,16(5). (2020-05-25). https://doi.org/10.1177/1550147720919698.

[12]Li Hao,Li Chengcheng,Wang Jian, et al. Review on security of federated learning and its application in healthcare[J]. Future Generation Computer Systems, 2023,144: 271-290.

[13]Fu Jie, Chen Zhili, Han Xiao. Adap DP-FL: differentially private federated learning with adaptive noise[C]//Proc of IEEE Internatio-nal Conference on Trust, Security and Privacy in Computing and Communications. Piscataway, NJ: IEEE Press, 2022: 656-663.

[14]Andrew G, Thakkar O, McMahan B, et al. Differentially private learning with adaptive clipping[J]. Advances in Neural Information Processing Systems, 2021,34: 17455-17466.

[15]Liu Wenyan, Cheng Junhong, Wang Xiaoling, et al. Hybrid differential privacy based federated learning for Internet of Things[J]. Journal of Systems Architecture, 2022, 124: article ID 102418.

[16]Shokri R, Shmatikov V. Privacy-preserving deep learning[C]//Proc of the 22nd ACM SIGSAC Conference on Computer and Communications Security. New York: ACM Press, 2015: 1310-1321.

[17]孫爽, 李曉會, 劉妍, 等. 不同場景的聯(lián)邦學(xué)習(xí)安全與隱私保護研究綜述[J]. 計算機應(yīng)用研究, 2021,38(12): 3527-3534. (Sun Shuang, Li Xiaohui, Liu Yan, et al. Review of federated lear-ning security and privacy protection studies in different scenarios[J]. Application Research of Computers, 2021, 38(12): 3527-3534.)

[18]Dwork C, McSherry F, Nissim K, et al. Calibrating noise to sensiti-vity in private data analysis[C]//Proc of the 3rd Theory of Cryptography Conference. New York: ACM Press, 2006: 265-284.

[19]Fredrikson M, Jha S, Ristenpart T. Model inversion attacks that exploit confidence information and basic countermeasures[C]//Proc of the 22nd ACM SIGSAC Conference on Computer and Communications Security. New York: ACM Press, 2015: 1322-1333.

[20]Melis L, Song Congzheng, De Cristofaro E, et al. Exploiting unintended feature leakage in collaborative learning[C]//Proc of IEEE Symposium on Security and Privacy. Piscataway, NJ: IEEE Press, 2019: 691-706.

[21]Tramèr F, Zhang F, Juels A, et al. Stealing machine learning models via prediction APIs[C]// Proc of the 25th USENIX Security Symposium. [S.l.]: USENIX Association, 2016: 601-618.

[22]McMahan H B, Ramage D, Talwar K, et al. Learning differentially private recurrent language models[EB/OL]. (2018-02-24) [2023-09-05]. https://arxiv.org/abs/1710.06963.

[23]Mcmahan H B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C]//Proc of the 20th International Conference on Artificial Intelligence and Statistics. [S.l.]: PMLR, 2017: 1273-1282.

工布江达县| 东乌珠穆沁旗| 丹江口市| 玉门市| 达日县| 开化县| 安阳县| 贵德县| 喀喇沁旗| 田东县| 西畴县| 丹巴县| 开阳县| 亚东县| 安西县| 方山县| 和平区| 宝鸡市| 永福县| 江西省| 宜城市| 宿州市| 唐山市| 潞西市| 罗定市| 奈曼旗| 洛扎县| 明光市| 渭源县| 通山县| 永平县| 高安市| 曲松县| 锦州市| 大丰市| 颍上县| 麻城市| 仁寿县| 兴宁市| 灵璧县| 丰镇市|