摘 要:聯(lián)邦學(xué)習(xí)的提出為跨數(shù)據(jù)孤島的共同學(xué)習(xí)提供了新的解決方案,然而聯(lián)邦節(jié)點(diǎn)的本地?cái)?shù)據(jù)的非獨(dú)立同分布(Non-IID)特性及中心化框架在參與方監(jiān)管、追責(zé)能力和隱私保護(hù)手段上的缺失限制了其大規(guī)模應(yīng)用。針對(duì)上述問題,提出了基于區(qū)塊鏈的可信切片聚合策略(BBTSA)和聯(lián)邦歸因(FedAom)算法。FedAom引入歸因思想,基于積分梯度法獲取歸因,從而定位影響模型決策行為的參數(shù),分級(jí)考慮參數(shù)敏感性,在局部更新過程中保持和強(qiáng)化全局模型所學(xué)習(xí)到的關(guān)鍵知識(shí),有效利用共享數(shù)據(jù),從而緩解Non-IID問題。BBTSA基于區(qū)塊鏈構(gòu)建去中心化的聯(lián)邦學(xué)習(xí)環(huán)境,允許聯(lián)邦節(jié)點(diǎn)在無須中心化第三方的情況下,通過在參與方間交換噪聲而非權(quán)重或梯度參數(shù),基于合作樹結(jié)構(gòu)實(shí)現(xiàn)對(duì)參數(shù)的切片混淆,以保護(hù)節(jié)點(diǎn)隱私。在兩種數(shù)據(jù)集上的不同分布條件下的驗(yàn)證結(jié)果顯示,F(xiàn)edAom在大多數(shù)條件下相比基線方法在穩(wěn)定性和收斂速度上都有顯著提升。而BBTSA能夠隱藏客戶端的隱私參數(shù),在不影響精度的情況下確保了訓(xùn)練過程的全程監(jiān)控和隱私安全。
關(guān)鍵詞:聯(lián)邦學(xué)習(xí); 區(qū)塊鏈; 隱私保護(hù); 非獨(dú)立同分布; 積分梯度; 歸因
中圖分類號(hào):TP181;TP309 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2024)08-024-2419-08
doi:10.19734/j.issn.1001-3695.2023.12.0611
Decentralized privacy-preserving optimization method for federated learning
Hou Zechao, Dong Jiangang
(College of Software, Xinjiang University, rümqi 830000, China)
Abstract:The advent of federated learning has unveiled a collaborative approach to learning across data islands, yet its scalability faces challenges from Non-IID local data at federated nodes and insufficient oversight, accountability, and privacy in centralized frameworks. To tackle these issues, this paper proposed a blockchain-based trustworthy slice aggregation(BBTSA) and federated attribution optimization method(FedAom). FedAom adopted attribution thinking, using the integrated gradients method for attribution to identify parameters influencing model decisions. It considered parameter sensitivity in a tiered app-roach, preserving and enhancing key knowledge learned by the global model during local updates. This effectively utilized shared data to mitigate the Non-IID problem. Concurrently, BBTSA employed blockchain to establish a decentralized framework, facilitating noise exchange between nodes instead of direct parameters, with a cooperative tree structure for obfuscation to boost privacy. Validation on diverse distributions across two datasets indicates FedAom notably improves stability and convergence speed over baseline methods in most instances. Simultaneously, BBTSA ensures client privacy without compromising model accuracy, guaranteeing training oversight and privacy protection.
Key words:federated learning; blockchain; privacy protection; Non-IID; integral gradient; attribution
0 引言
近些年來,人工智能技術(shù)的快速發(fā)展為傳統(tǒng)行業(yè)注入了新的活力,而這一切都離不開海量數(shù)據(jù)的驅(qū)動(dòng)[1]。傳統(tǒng)的機(jī)器學(xué)習(xí)依賴于集中式的中央服務(wù)器,數(shù)據(jù)以明文的方式傳輸至服務(wù)器并參與訓(xùn)練。此種方式存在兩種矛盾:a)數(shù)據(jù)來源于物流、醫(yī)療、衛(wèi)星等邊緣設(shè)備,這類數(shù)據(jù)往往包含如位置信息、健康數(shù)據(jù)以及涉及國(guó)家機(jī)密的地形地貌信息等,持有者不愿共享給中央服務(wù)器。如多個(gè)醫(yī)療機(jī)構(gòu)計(jì)劃開發(fā)一套人工智能系統(tǒng)輔助疾病診斷,然而,各機(jī)構(gòu)持有的病歷數(shù)量難以滿足高質(zhì)量模型的訓(xùn)練需求,而病歷的所有權(quán)由患者持有,醫(yī)院在未獲得授權(quán)的情況下無法共享使用。b)受限于帶寬與計(jì)算資源等因素,集中式的訓(xùn)練對(duì)服務(wù)器的硬件要求較大,并且在不受信任的信道中傳輸數(shù)據(jù)存在風(fēng)險(xiǎn)[2]。聯(lián)邦學(xué)習(xí)[3]是一種由谷歌于2017年提出的可實(shí)現(xiàn)數(shù)據(jù)隱私保護(hù)且支持將訓(xùn)練分散到多臺(tái)設(shè)備上的分布式機(jī)器學(xué)習(xí)技術(shù),通過傳遞梯度(或者參數(shù))而不是隱私數(shù)據(jù)使得多個(gè)參與方可以協(xié)作訓(xùn)練一個(gè)全局模型。一般來說,聯(lián)邦學(xué)習(xí)服務(wù)器利用聯(lián)合平均算法(federated averaging,F(xiàn)edAvg)聚合多個(gè)設(shè)備的本地模型參數(shù),來更新全局模型。
若數(shù)據(jù)在參與方中的分布滿足獨(dú)立同分布(independent and identically distributed,IID)條件時(shí),F(xiàn)edAvg可以達(dá)到與集中式學(xué)習(xí)等效的性能[4],但現(xiàn)實(shí)中數(shù)據(jù)分布往往是非獨(dú)立同分布(non-independent and identically distributed,Non-IID)的,例如,醫(yī)院A及B專長(zhǎng)于不同的疾病,或者使用的醫(yī)療設(shè)備型號(hào)不同使得樣本存在差異。研究者發(fā)現(xiàn)Non-IID的訓(xùn)練數(shù)據(jù)會(huì)阻礙FedAvg的收斂速度,甚至無法收斂[5],這是因?yàn)閿?shù)據(jù)的異質(zhì)性會(huì)導(dǎo)致客戶端模型發(fā)生漂移[6]。如圖1所示,客戶端傾向于優(yōu)化一個(gè)適合本地?cái)?shù)據(jù)分布的解,使得模型陷入局部最優(yōu)。此類問題的一個(gè)解決思路是構(gòu)建一個(gè)所有節(jié)點(diǎn)共享的數(shù)據(jù)集[7],將其混入客戶端的私有數(shù)據(jù)中參與訓(xùn)練或者由服務(wù)器對(duì)模型進(jìn)行微調(diào),這種方法對(duì)共享數(shù)據(jù)的利用效率較低。有研究[8, 9]通過對(duì)參數(shù)更新的限制來緩解模型漂移現(xiàn)象,然而,受限于深度神經(jīng)網(wǎng)絡(luò)(DNN)的權(quán)重排列不變性[10],同一權(quán)重在不同的任務(wù)中所表達(dá)的語義信息可能存在差異,如何從更具解釋性的角度定位并優(yōu)化導(dǎo)致漂移現(xiàn)象的參數(shù),具有重要的現(xiàn)實(shí)意義。
即使參與方的真實(shí)數(shù)據(jù)不需要離開本地,依然可以利用梯度或模型參數(shù)還原出相應(yīng)的隱私數(shù)據(jù),防止此類攻擊的常用方法有差分隱私、同態(tài)加密、梯度裁剪等,然而這些方法在保護(hù)節(jié)點(diǎn)隱私的同時(shí)也帶來了新的挑戰(zhàn)。此外,拜占庭節(jié)點(diǎn)的存在會(huì)對(duì)系統(tǒng)的穩(wěn)定性和安全性形成威脅。
區(qū)塊鏈憑借其去中心化、不可否認(rèn)性、可追溯性等特點(diǎn),能夠滿足溯源與追責(zé)的需求,星際文件系統(tǒng)(IPFS)可在保障去中心化特性的同時(shí)緩解賬本的存儲(chǔ)壓力[11]。
文獻(xiàn)[12]展示了歸因在引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)上的潛力,其基于積分梯度(integrated grad,IG)[13]與先驗(yàn)框?qū)W(wǎng)絡(luò)的學(xué)習(xí)行為進(jìn)行引導(dǎo),獲得了較好的效果。受此啟發(fā),本文提出了一種歸因優(yōu)化方法(attribution optimization method,AOM),并實(shí)現(xiàn)了FedAom算法。FedAom引入歸因的思想來描述網(wǎng)絡(luò)的行為,旨在深入找到模型決策行為背后的決定性特征,即“模型作出判斷的原因”。FedAom的目標(biāo)在于保持模型在局部迭代過程中的決策行為與全局模型一致。同時(shí)借助數(shù)據(jù)共享的思路,引入小批量共享數(shù)據(jù)作為計(jì)算模型歸因的載體。FedAom在優(yōu)化過程中加入對(duì)決策敏感參數(shù)的考量,有效利用共享數(shù)據(jù)的知識(shí),從而緩解聯(lián)邦學(xué)習(xí)環(huán)境中的Non-IID問題。另外還設(shè)計(jì)了一種基于區(qū)塊鏈的可信切片聚合策略(blockchain-based trustworthy slice aggregation,BBTSA),參與方無須透露任何與參數(shù)相關(guān)的信息,基于合作樹結(jié)構(gòu)的混淆過程可避免向所有節(jié)點(diǎn)廣播消息產(chǎn)生的高昂帶寬成本,通過合作混淆來破壞模型與參與方的訓(xùn)練樣本之間的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)了參數(shù)的完全匿名性。最終,融合上述兩個(gè)方案,可以在提高模型準(zhǔn)確度的同時(shí)實(shí)現(xiàn)對(duì)客戶端的隱私保護(hù),避免了中心化方案可能導(dǎo)致的隱私泄露問題,確保了對(duì)訓(xùn)練過程的全程監(jiān)控。本文的主要貢獻(xiàn)如下:
a)設(shè)計(jì)了一種可信切片聚合策略,在客戶端之間傳輸可抵消的隨機(jī)噪聲而非參數(shù),保護(hù)了客戶端的隱私且不影響模型精度?;趨^(qū)塊鏈技術(shù)構(gòu)建了一個(gè)去中心化的服務(wù),結(jié)合可驗(yàn)證隨機(jī)函數(shù)(verifiable random function,VRF),使客戶端成為混淆過程的主導(dǎo)者。通過智能合約(smart contract,SC)實(shí)現(xiàn)對(duì)客戶端身份及合作過程的自動(dòng)驗(yàn)證與處理,保證訓(xùn)練以及合作過程可信透明。借助IPFS與本文設(shè)計(jì)的合作樹結(jié)構(gòu)可降低鏈節(jié)點(diǎn)的存儲(chǔ)壓力與帶寬成本,提高效率。
b)提出了一種適用于Non-IID數(shù)據(jù)的歸因優(yōu)化方法。僅利用極少量的共享數(shù)據(jù)來計(jì)算歸因,作為模型對(duì)全局?jǐn)?shù)據(jù)決策敏感性的度量指標(biāo)。歸因方法能夠更為準(zhǔn)確地描述神經(jīng)網(wǎng)絡(luò)對(duì)輸入特征作出的反應(yīng),分級(jí)對(duì)待模型在訓(xùn)練過程中不同層敏感參數(shù)的更新行為,對(duì)客戶端的模型漂移進(jìn)行修正,有效地緩解了聯(lián)邦學(xué)習(xí)環(huán)境中的Non-IID問題。
c)通過實(shí)驗(yàn)來評(píng)估本文方案,結(jié)果表明所提方法在不同的Non-IID數(shù)據(jù)上的正確率及收斂速度都有所提高。切片聚合策略能有效地實(shí)現(xiàn)模型參數(shù)的匿名性,且不影響精度。
1 背景知識(shí)
1.1 聯(lián)邦學(xué)習(xí)
假設(shè)聯(lián)邦學(xué)習(xí)共有K個(gè)參與節(jié)點(diǎn),節(jié)點(diǎn)ki的本地私有數(shù)據(jù)集記為di∈D,di={(xij,yij)}nij=1,其中i∈{0,1,2,…,K},ni表示節(jié)點(diǎn)ki的樣本數(shù)量,D={di}Ki=1則是系統(tǒng)中所有參與節(jié)點(diǎn)的數(shù)據(jù)總和。在第t輪通信中,節(jié)點(diǎn)ki利用私有數(shù)據(jù)di訓(xùn)練一個(gè)本地模型θti,ki的目標(biāo)是最小化本地?fù)p失Euclid Math OneLApti:
arg minwti 1ni∑nij=1Euclid Math OneLApti(xij,yij,wti)(1)
聯(lián)邦學(xué)習(xí)總目標(biāo)是通過聚合客戶端的wi,獲得一個(gè)可以使全局損失最小化的模型參數(shù)w*global:
arg minw*global1K∑Ki=1Euclid Math OneLApti=1N∑Ki=1∑nij=1Euclid Math OneLApti(xij,yij,wti)(2)
1.2 聯(lián)邦學(xué)習(xí)面臨的隱私及異構(gòu)性問題
即使僅共享模型的參數(shù)信息,聯(lián)邦學(xué)習(xí)的應(yīng)用依然需要考慮隱私推理攻擊、好奇的參與方和中心化的風(fēng)險(xiǎn)。已有研究者展示了深度梯度泄露、模型逆向與成員推理攻擊[14]如何威脅節(jié)點(diǎn)隱私安全。Zhang等人[15]提出一種基于生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)的隱私推理攻擊方案,從公共信息上學(xué)習(xí)先驗(yàn),實(shí)現(xiàn)了高質(zhì)量推理,且基于差分隱私的一般性防御方案難以阻止攻擊。在此基礎(chǔ)上,Chen等人[16]充分利用了被攻擊模型的知識(shí),實(shí)現(xiàn)了對(duì)訓(xùn)練數(shù)據(jù)的細(xì)粒度重構(gòu),進(jìn)一步提升了攻擊效果。
研究者在醫(yī)療物聯(lián)網(wǎng)引入同態(tài)加密技術(shù)[17],對(duì)手無法利用加密后的模型密文推斷私人醫(yī)療數(shù)據(jù),并且可以確保服務(wù)器能獲得最終的聚合參數(shù),但同態(tài)運(yùn)算會(huì)帶來較大的計(jì)算負(fù)擔(dān),并且具有中心化的風(fēng)險(xiǎn)。曹世翔等人[18]借助中心化的洗牌機(jī)混淆梯度并采用差分隱私增強(qiáng)安全性,犧牲了一定精度,但缺乏對(duì)節(jié)點(diǎn)身份進(jìn)行驗(yàn)證的手段。
區(qū)塊鏈本質(zhì)上是一種去中心化的賬本,利用共識(shí)算法確保賬本一致性。通過哈希指針連接成鏈,保障數(shù)據(jù)安全和不變性。有研究者[19]結(jié)合區(qū)塊鏈設(shè)計(jì)了一種委員會(huì)共識(shí)方案,由委員會(huì)節(jié)點(diǎn)對(duì)局部模型進(jìn)行打分,礦工根據(jù)評(píng)分聚合模型,同時(shí)賬本將記錄非委員會(huì)成員的行為,但數(shù)據(jù)異質(zhì)可能會(huì)影響評(píng)分的公正性,并且此過程中需要傳輸一定的參數(shù)。劉煒等人[20]研究了在去中心化環(huán)境下保護(hù)參與方的隱私參數(shù),結(jié)合多種技術(shù)進(jìn)一步提高了系統(tǒng)安全性。Guduri等人[21]設(shè)計(jì)了一種輕量級(jí)聯(lián)邦學(xué)習(xí)架構(gòu),通過智能合約實(shí)現(xiàn)代理重加密。Madni等人[22]引入?yún)^(qū)塊鏈作為節(jié)點(diǎn)身份的驗(yàn)證方,通過點(diǎn)對(duì)點(diǎn)的方式自主完成梯度聚合,但參數(shù)依然以明文的方式在網(wǎng)絡(luò)中傳輸,存在被截取的風(fēng)險(xiǎn)。上述隱私保護(hù)方案對(duì)比情況如表1所示。
區(qū)塊鏈的一個(gè)顯著優(yōu)勢(shì)是允許不受信任的實(shí)體在無須依賴集中性的第三方機(jī)構(gòu)的條件下進(jìn)行可信交互,現(xiàn)有研究未能充分利用這一點(diǎn),本文基于區(qū)塊鏈的此種特性充分調(diào)度dh2Z35XV7fLt5GH7nXjHMQ==參與方的主動(dòng)能力及資源,各參與方在不暴露真實(shí)參數(shù)的情況下,借助區(qū)塊鏈與鄰居進(jìn)行參數(shù)混淆,以提升整體的安全性。
由于跨客戶端的數(shù)據(jù)異構(gòu)性,本地模型偏向于擬合客戶端的本地分布,這就導(dǎo)致了模型的漂移。Zhao等人[23]觀察到模型權(quán)重散度與數(shù)據(jù)異構(gòu)度呈正相關(guān),在Non-IID條件下,F(xiàn)ed-Avg算法出現(xiàn)了明顯的退化,5%的共享IID數(shù)據(jù)可顯著提升精度,但提供5%的隱私數(shù)據(jù)對(duì)參與方是難以接受的。李志鵬等人[24]提出一種借助全局模型學(xué)習(xí)到的知識(shí)來重構(gòu)Non-IID數(shù)據(jù)的方法,生成虛擬數(shù)據(jù)解決類別不均衡問題,但增加了計(jì)算負(fù)擔(dān)。常黎明等人[25]提出一種個(gè)性化聯(lián)邦學(xué)習(xí)方法,通過deep sets在特征維度上對(duì)客戶端進(jìn)行組合,同組客戶端將共同訓(xùn)練一個(gè)個(gè)性化的模型,降低了Non-IID帶來的影響。
另有研究者通過正則化本地優(yōu)化過程,從而修正客戶端模型的漂移。Li等人[8]提出聯(lián)合近端(federated proximal,F(xiàn)edProx)算法,允許客戶端執(zhí)行不同次數(shù)的本地更新,通過加入一個(gè)近端項(xiàng),迫使模型更新不會(huì)偏離全局模型太遠(yuǎn),有效地緩解了聯(lián)邦學(xué)習(xí)中數(shù)據(jù)異構(gòu)及系統(tǒng)異構(gòu)的問題。聯(lián)邦模型對(duì)比學(xué)習(xí)(model-contrastive federated learning,MOON)[26]從模型的表示能力入手,最小化局部模型與全局模型表示能力之間的差異,從而糾正局部訓(xùn)練。Shoham等人[9]將模型漂移看作是終身學(xué)習(xí)中的知識(shí)遺忘問題,提出了聯(lián)邦曲率(federated curvature,F(xiàn)edCurv)算法,利用Fisher信息矩陣保留對(duì)舊任務(wù)貢獻(xiàn)較大的參數(shù),尋找任務(wù)的普適解。FedProx與FedCurv等從權(quán)重的角度限制局部更新,有一定的局限性,這影響了模型在多任務(wù)學(xué)習(xí)環(huán)境下的能力。
1.3 歸因方法
歸因方法的目的在于評(píng)估輸入特征對(duì)預(yù)測(cè)結(jié)果的影響,最初用于解釋神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)行為,但近期的研究已經(jīng)開始探索其在約束和指導(dǎo)模型的學(xué)習(xí)過程中的能力[12,27]。傳統(tǒng)方案僅從權(quán)重的角度對(duì)偏離行為進(jìn)行正則化,忽略了權(quán)重真實(shí)的語義信息。本文基于歸因的思想,定位到在對(duì)本地分布外樣本的預(yù)測(cè)中表現(xiàn)出更高敏感性的參數(shù),并分級(jí)引導(dǎo)wi的更新。一般認(rèn)為,具有較大梯度的特征值相應(yīng)的重要性也越大,Shrikumar等人[28]通過將輸出偏導(dǎo)數(shù)與輸入特征相乘,生成銳化的歸因圖,以揭示特征的重要性和在預(yù)測(cè)中的強(qiáng)度,本文以G·I指代上述方法。
模型可視為特征提取器m與分類器c的組合,即θi=(m,c)。為更合理地獲得對(duì)模型的歸因行為,基于積分梯度法構(gòu)建一條連接基線x′與輸入x之間的路徑,將梯度的路徑積分Λ視為G·I中的導(dǎo)數(shù)項(xiàng)G,公式為
Λ::=Δx∫1σ=0c(m(x′+σ×Δx))x′dσΔx=x-x′(3)
其中:Λ中的元素αls,i,j指代模型第l層的第s個(gè)神經(jīng)節(jié)點(diǎn)中各參數(shù)對(duì)本層輸入的歸因敏感度,為簡(jiǎn)單起見,在無特殊說明的情況下,用αls代而表示;σ為路徑的控制變量,本文中σ是一個(gè)標(biāo)量且σ∈[0,1]。利用線性插值法構(gòu)建x′至x的直線路徑γ(σ):
γ(σ)=x′+σ×Δx(4)
其中:Δx=x-x′,沿路徑γ(σ)計(jì)算路徑積分,式(3)可重新修改為
Λpath_γ(σ)=∫1σ=0c(m(γ(σ)))γ(σ)·γ(σ)σdσ(5)
本質(zhì)上,x與對(duì)應(yīng)的特征圖具有相似的構(gòu)造,故本文的路徑構(gòu)建在特征圖與基線之間,且選擇黑色圖片作為x′。鑒于DNN模型的復(fù)雜性,對(duì)式(5)進(jìn)行計(jì)算存在困難,利用黎曼積分近似求解會(huì)引入過多的噪聲[29],緩解此問題的另一個(gè)簡(jiǎn)單有效的方案是通過梯形求和近似積分,將Δx均勻分割成q個(gè)小段,q∈Euclid ExtraeBp,沿γ(σ)采樣路徑點(diǎn),基于式(5)使用梯形法近似計(jì)算αls:
Ll-1s,i,j2qε∑qρ=1cy(m(x′+(ρ-1)Δxq))+cy(m(x′+ρΔxq))Ll-1s,i,j
Ll-1s,i,j=L((x′+ρΔxq)l-1s,i,j,wsl)(6)
以卷積層為例,cy(m(x))指的是模型將輸入x預(yù)測(cè)為真實(shí)類別y的置信度,wsl為模型第l層的第s個(gè)卷積核的參數(shù),L表示卷積操作,Ll-1s,i,j表示當(dāng)網(wǎng)絡(luò)輸入為x′+ρΔxq時(shí),對(duì)l-1層輸出的第s個(gè)特征子圖與參數(shù)wsl執(zhí)行卷積操作。為避免權(quán)重過大,使用ε對(duì)值進(jìn)行平衡?;谑剑?)近似計(jì)算得到的Λ即可反映出模型對(duì)類別y的決策焦點(diǎn)。
2 基于區(qū)塊鏈的可信分片聚合FedAom設(shè)計(jì)與實(shí)現(xiàn)
2.1 聯(lián)邦歸因(FedAom)算法
為緩解Non-IID數(shù)據(jù)帶來的客戶端漂移現(xiàn)象,本文提出了FedAom算法,通過約束局部模型的決策行為以保持和強(qiáng)化全局模型所學(xué)習(xí)到的關(guān)鍵知識(shí)。由于特征是由隱藏層產(chǎn)生的,其受隱藏層的輸入以及參數(shù)共同影響,而在Non-IID的情況下,不同參與方的樣本分布差異較大,使得輸入成為一個(gè)變量,這讓確定關(guān)鍵特征變得更加復(fù)雜。因此,本文采用了基于共享數(shù)據(jù)的策略,收集小批量的共享數(shù)據(jù)作為計(jì)算歸因的載體,當(dāng)輸入被固定為從這批共享數(shù)據(jù)中隨機(jī)抽取時(shí),歸因結(jié)果能夠更準(zhǔn)確地反映出參數(shù)在全局?jǐn)?shù)據(jù)預(yù)測(cè)階段中的敏感性。這種方式有效地將歸因的優(yōu)化轉(zhuǎn)換成了對(duì)敏感參數(shù)的優(yōu)化問題。由此,F(xiàn)edAom僅需極少量共享數(shù)據(jù)計(jì)算歸因,再利用歸因引導(dǎo)優(yōu)化過程,便可在模型訓(xùn)練中間接進(jìn)行知識(shí)回放,實(shí)現(xiàn)對(duì)共享數(shù)據(jù)包含的本地分布外知識(shí)的合理利用,從而減少了對(duì)數(shù)據(jù)量的依賴性。FedAom的優(yōu)化目標(biāo)同式(2),只是額外引入了輸入敏感性損失項(xiàng)Euclid Math OneLApt,ei,IS:
Euclid Math OneLApt,ei,IS=‖∪lnuml=1(L(xi,0,l-1,wi,0,l)Λ^0,lt-L(xi,e,l-1,wi,e,l)Λ^e,lt)‖2(7)
其中:Euclid Math OneLApt,ei,IS表示在第t輪全局通信中ki在本地訓(xùn)練的第e輪epoch的輸入敏感性損失,e∈{1,2,…,E},E為節(jié)點(diǎn)本地訓(xùn)練的總輪數(shù);L(·)表示將L的輸出拉平后的向量;lnum為模型的層數(shù);Λ的每一個(gè)元素按順序作為Λ^e,lt的對(duì)角線元素;Λ^e,lt為第t輪的第e次迭代時(shí)模型第l層的歸因敏感性矩陣。式(8)利用矩陣運(yùn)算,為重要的特征施加更大的權(quán)重,確保對(duì)那些關(guān)鍵特征更敏感的參數(shù)在更新時(shí)受到更多的關(guān)注,對(duì)這類特征相關(guān)的模型參數(shù)的更新將產(chǎn)生更大的損失,借此引導(dǎo)模型的學(xué)習(xí)過程。Λ^e,lt的形式如下:
Λ^e,lt=A100…0
As…000…Aυ(8)
其中:Λ^e,lt是一個(gè)具有分塊對(duì)角結(jié)構(gòu)的矩陣,其中每個(gè)塊As也是一個(gè)對(duì)角矩陣。在卷積層,As是一個(gè)δ×δ的矩陣,υ與δ分別表示第l層卷積核的數(shù)量以及每個(gè)通道所含元素的個(gè)數(shù)。而在全連接層,As是一個(gè)標(biāo)量矩陣,即δ=1,υ則表示全連接層的節(jié)點(diǎn)數(shù)。以卷積層為例,對(duì)應(yīng)于卷積核s的As表示如下:
AS=α1,1…00…αδ,δ(9)
其中:α是反映模型對(duì)輸入的敏感程度的權(quán)值。當(dāng)圖片比較復(fù)雜時(shí),υ與δ的值可能會(huì)很大,而Λ^e,lt是一個(gè)稀疏矩陣,直接存儲(chǔ)Λ^e,lt的空間效率較低,為在不過多丟失對(duì)輸入敏感性的前提下進(jìn)一步降低復(fù)雜性,對(duì)式(6)得到的每個(gè)卷積核的歸因敏感度αls求均值代替子塊As中的元素:
αi,i=1δαls s.t. i∈{1,…,δ}(10)
基于以上方式,模型可以在優(yōu)化過程中注意到參數(shù)與輸入之間的潛在聯(lián)系,對(duì)于那些在處理本地外分布輸入x時(shí)表現(xiàn)出較高敏感性的模型參數(shù),施加更大的懲罰來約束它們的變化,這不僅能更準(zhǔn)確地保留關(guān)鍵信息,而且還能在訓(xùn)練過程中有效地避免對(duì)不重要信息的過度擬合。FedAom的客戶端損失函數(shù)為
Euclid Math OneLApi=Euclid Math OneLApi,CE+(β-et/T-1e-1)Euclid Math OneLApi,IS(11)
其中:Euclid Math OneLApi,CE是交叉熵?fù)p失函數(shù),此項(xiàng)可引導(dǎo)模型最小化預(yù)測(cè)值與真實(shí)值之間的差異;β為調(diào)整優(yōu)化行為的超參數(shù);T為全局通信的總輪數(shù);Euclid Math OneLApi,IS的系數(shù)β-et/T-1e-1將伴隨著訓(xùn)練進(jìn)度減小,使模型在開始的頻繁波動(dòng)期注重于全局知識(shí)的保留。
2.2 基于區(qū)塊鏈的聯(lián)邦節(jié)點(diǎn)合作方案
切片聚合策略的目標(biāo)是切斷模型輸出概率分布同輸入之間的相關(guān)性,圖2展示了整體流程。參與方之間以層為單位進(jìn)行切片的交換,引入?yún)^(qū)塊鏈作為中間方對(duì)訓(xùn)練與合作行為進(jìn)行監(jiān)督,區(qū)塊鏈的存在為聯(lián)邦節(jié)點(diǎn)的交互創(chuàng)造了一個(gè)可信的環(huán)境,只有經(jīng)過認(rèn)證的節(jié)點(diǎn)才能參與到合作過程中,且過程透明可審計(jì)。BBTSA充分利用這一特性,為聯(lián)邦節(jié)點(diǎn)的可信合作提供保障。然而,即使僅交換模型的部分參數(shù),若雙方持有的樣本分布相似性較高,惡意的鄰居可以借助模型的微調(diào)恢復(fù)出其余參數(shù)。為避免此類攻擊,本文的參與方僅需向鄰居傳送隨機(jī)噪聲,真實(shí)參數(shù)依然保留在本地,并基于此目的設(shè)計(jì)了可抵消隨機(jī)噪聲策略,客戶端之間無法獲取到對(duì)方的參數(shù)來推斷隱私,同時(shí)聯(lián)邦學(xué)習(xí)服務(wù)器僅能訪問到混淆之后的參數(shù),避免了好奇的服務(wù)器導(dǎo)致的隱私泄露問題。為進(jìn)一步確保去中心化的特性,聯(lián)邦節(jié)點(diǎn)需同多個(gè)鄰居進(jìn)行合作,參與合作的節(jié)點(diǎn)需要基于VRF計(jì)算隨機(jī)數(shù)及證明,作為參與方的身份聲明,區(qū)塊鏈將根據(jù)賬本中的記錄與節(jié)點(diǎn)上傳的可驗(yàn)證隨機(jī)數(shù)構(gòu)建合作樹結(jié)構(gòu),節(jié)點(diǎn)僅需與合作樹中每層的鄰居建立一次通信,即可將通信建立次數(shù)降低到對(duì)數(shù)級(jí),減小帶寬壓力。這個(gè)過程中,合作雙方需要根據(jù)雙方的樣本比值對(duì)噪聲進(jìn)行加權(quán),以保證在聚合階段噪聲可以被正確抵消。
以一次合作混淆過程為例,假設(shè)本輪參與混淆的節(jié)點(diǎn)為ka與kb,a≠b且a,b∈(0,K)。需要交換的層為ltargeta,b={li} κ×lnum」i=1,κ為比例系數(shù), κ×lnum」表示計(jì)算參與混淆的目標(biāo)層的個(gè)數(shù)并向下取整。首先,ka與kb以各自在本輪中生成的隨機(jī)數(shù)作為種子,從一個(gè)標(biāo)準(zhǔn)正態(tài)分布中隨機(jī)采樣一個(gè)與ltargeta,b具有相同的結(jié)構(gòu)的噪聲noisea與noiseb,ka與kb計(jì)算各自的參數(shù)與噪聲之差并保存于本地:
ltargeta=ltargeta-noisea,ltargetb=ltargetb-noiseb(12)
雙方根據(jù)各自的數(shù)據(jù)量對(duì)噪聲進(jìn)行放縮之后,與對(duì)方建立通信并發(fā)送結(jié)果,實(shí)現(xiàn)了隱私參數(shù)不動(dòng)而噪聲動(dòng)的目的。參與方無法從收到的信息中破譯出任何有用信息。收到響應(yīng)之后,雙方利用噪聲更新本地模型參數(shù):
ltargeta=ltargeta+nbnanoiseb,ltargetb=ltargetb+nanbnoisea(13)
參與方根據(jù)合作樹結(jié)構(gòu)與每個(gè)鄰居執(zhí)行以上步驟,最終獲得的模型即為混淆后的模型。服務(wù)器接收到的參數(shù)是不同參與方的噪聲聚集體,從而無法獲取到任何有關(guān)節(jié)點(diǎn)隱私的信息。服務(wù)器按照經(jīng)典的樣本比例作為權(quán)重對(duì)參與方的參數(shù)進(jìn)行聚合,獲得最終的全局模型。按照以上通信協(xié)議聚合得到的參數(shù)中,所有的噪聲之和為0,可實(shí)現(xiàn)在不影響模型精度的同時(shí)保證參與方的隱私安全。
根據(jù)二項(xiàng)式定理,本文令κ為1/2,這有利于噪聲在每個(gè)節(jié)點(diǎn)中均勻分布。算法1展示了合作樹結(jié)構(gòu)的構(gòu)建流程。
算法1 基于區(qū)塊鏈的聯(lián)邦節(jié)點(diǎn)合作樹構(gòu)建
輸入:橢圓曲線Curv;基點(diǎn)G;哈希函數(shù)hash(·);隨機(jī)數(shù)random_number;證明proof。
輸出:第T輪節(jié)點(diǎn)合作樹tree。
for ki∈K parallel do //所有節(jié)點(diǎn)注冊(cè)身份信息
隨機(jī)選擇一個(gè)整數(shù)d∈(1,n-1) //n為G的階
(ski,pki)←generateKey(Curv,d,G)
registerOnBC(pki) //注冊(cè)上鏈
end for
getTreeFromBC(random_number,proof)
if verifyRN&P(random_number,proof) /*驗(yàn)證隨機(jī)數(shù)以及節(jié)點(diǎn)身份 */
tree←sort(random_number) //排列節(jié)點(diǎn)
end if
return tree
3 系統(tǒng)架構(gòu)
如圖3所示,在BBTSA策略中包含聯(lián)邦學(xué)習(xí)服務(wù)器、聯(lián)邦學(xué)習(xí)參與方和區(qū)塊鏈服務(wù)三個(gè)核心角色。它們之間的特定交互機(jī)制形成了BBTSA策略的運(yùn)行框架。
a)聯(lián)邦學(xué)習(xí)服務(wù)器(FLServer)。FLServer在BBTSA中扮演著任務(wù)管理者的角色,其不僅收集和維護(hù)共享數(shù)據(jù)集,還負(fù)責(zé)驗(yàn)證來自各參與方的參數(shù)更新,并進(jìn)行聚合以形成全局模型。另外還需要將聚合后的模型參數(shù)打包上鏈,利用區(qū)塊鏈技術(shù)確保訓(xùn)練過程的不可竄改性和可審計(jì)性。
b)聯(lián)邦學(xué)習(xí)參與方(client)。client承擔(dān)著數(shù)據(jù)提供者和模型訓(xùn)練者的雙重角色。參與方借助區(qū)塊鏈和IPFS獲取本輪全局模型,并基于dshare與FedAom在本地環(huán)境中進(jìn)行訓(xùn)練。同時(shí)需要參與合作混淆以實(shí)現(xiàn)參數(shù)匿名化。這個(gè)過程中參與方不僅貢獻(xiàn)了自己的數(shù)據(jù)和計(jì)算資源,還充分發(fā)揮了本身的主動(dòng)能力,增強(qiáng)了整體的隱私性。
c)區(qū)塊鏈服務(wù)(block chain)。區(qū)塊鏈服務(wù)是BBTSA策略中的信任基礎(chǔ)。鏈節(jié)點(diǎn)通過Raft共識(shí)協(xié)議以及gossip協(xié)議以維護(hù)一個(gè)去中心化的賬本,區(qū)塊鏈不僅負(fù)責(zé)驗(yàn)證參與方的身份,協(xié)助節(jié)點(diǎn)完成混淆,還通過IPFS技術(shù)緩解鏈的存儲(chǔ)壓力,為模型的混淆過程提供了必要的基礎(chǔ)設(shè)施支持。
系統(tǒng)中各實(shí)體包含以下行為:
a)參與實(shí)體使用橢圓曲線算法生成密鑰對(duì)(SKi,PKi),并將公鑰以十六進(jìn)制字符串的形式交由block chain注冊(cè)身份,私鑰則以安全的方式保存在本地。b)FLServer從部分志愿節(jié)點(diǎn)中收集一小部分?jǐn)?shù)據(jù)組建全局共享數(shù)據(jù)集dshare用于計(jì)算Λ。
c)FLServer初始化模型θ1并計(jì)算模型哈希并與θ1一起上傳到block chain。
d)block chain接收模型并驗(yàn)證哈希值,之后將數(shù)據(jù)存儲(chǔ)到IPFS中,并記錄存儲(chǔ)地址。
e)client從鏈上查詢本輪參數(shù)的存儲(chǔ)地址后從IPFS中下載模型及dshare,計(jì)算哈希值并與賬本記錄進(jìn)行對(duì)比判斷是否被竄改。驗(yàn)證通過后使用本地?cái)?shù)據(jù)di進(jìn)行訓(xùn)練。之后計(jì)算隨機(jī)數(shù)及證明并向block chain發(fā)起請(qǐng)求,并進(jìn)入等待合作的狀態(tài)。
f)block chain收集client的請(qǐng)求并驗(yàn)證身份,對(duì)合法的client構(gòu)建合作樹tree,記錄本次合作并將tree發(fā)送給client。
g)client按照tree與合作者建立安全信道并進(jìn)行切片交換,獲得混淆后的模型t,E+1i,計(jì)算哈希并記錄上鏈。
h)FLServer根據(jù)賬本記錄獲取本輪采樣的Ksamp個(gè)客戶端的混淆模型{t,E+1i}|Ksamp|i=1并檢查哈希值,為對(duì)合法的參數(shù)進(jìn)行聚合并開啟下一輪通信,直至達(dá)到設(shè)定好的停止條件。
算法2 基于區(qū)塊鏈的可信分片聚合FedAom算法
輸入:通信總輪數(shù)T;局部訓(xùn)練次數(shù)E;參與方個(gè)數(shù)K;客戶端采樣率r;參與方本地?cái)?shù)據(jù)集di∈D;本輪參與方的樣本總量N;共享數(shù)據(jù)dshare;目標(biāo)層比例γ;批量大小B;學(xué)習(xí)率η;超參數(shù)β;動(dòng)量momentum;學(xué)習(xí)率衰減ld;權(quán)重衰減wd。
輸出:第T輪全局模型θT。
初始化全局模型θ1 // 服務(wù)器端執(zhí)行
for t=1 to T do
根據(jù)r隨機(jī)選取客戶端Ksamp={k1,k2,…,k r×K」}
for ki∈Ksamp parallel do
下載全局模型θt
for e=1 to E do
θt,e+1i←clientUpdate(di,dshare,θt,ei,η)
end for
uploadToBC(hash(θt,E+1i),θt,E+1i,t) // 記錄上鏈
end for
{t,E+1i}|Ksamp|i=1←sliceAggregation(Ksamp,θt,E+1i,γ)
θt+1=∑|Ksamp|i=1niNt,E+1i //獲得下一輪模型m)end for
return θT
clientUpdate(di,dshare,θt,ei,η)
for b=(x+y)∈di in B do
θt,e+1i←根據(jù)式(1)(11)本地更新(β,momentum,ld,wd)
end for
return(θt,e+1i)
sliceAggregation(Ksamp,θt,E+1i,γ) //切片聚合
for ki∈Ksamp parallel do
(random_number,proof)←生成隨機(jī)數(shù)與證明(θt,ski)
tree←getTreeFromBC(random_number,proof)
{t,E+1i}|Ksamp|i=1←參與方間切片聚合(tree,θt,E+1i,γ)
end for
return{t,E+1i}|Ksamp|i=1
4 實(shí)驗(yàn)結(jié)果與分析
4.1 數(shù)據(jù)集
CIFAR-10物體識(shí)別數(shù)據(jù)集因其涵蓋類別的普遍性以及適中的尺寸,成為物體識(shí)別領(lǐng)域廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集之一。MNIST手寫體識(shí)別數(shù)據(jù)集的樣本具有較好的一致性,常常作為檢驗(yàn)算法的首選。兩者在本文的基線方法中也作為重合度最高的數(shù)據(jù)集出現(xiàn),為確保實(shí)驗(yàn)結(jié)果的公平性和可比性,選用MNIST和CIFAR-10作為驗(yàn)證數(shù)據(jù)集。
a)CIFAR-10是一個(gè)包含60 000張尺寸為32×32的彩色圖片的物體識(shí)別數(shù)據(jù)集,其中又可以分為包含50 000張圖片的訓(xùn)練集和10 000張的測(cè)試集。CIFAR-10共有十個(gè)類,包括交通工具和動(dòng)物等物體,不同類的樣本分布較均勻。
b)MNIST是一個(gè)涵蓋十個(gè)類別(0~9)的手寫數(shù)字圖片數(shù)據(jù)集。它包含60 000個(gè)訓(xùn)練樣本和10 000個(gè)測(cè)試樣本,每個(gè)樣本都是尺寸為28×28的單通道圖片。
為增強(qiáng)模型的魯棒性,本文還對(duì)訓(xùn)練集進(jìn)行了數(shù)據(jù)增強(qiáng)操作,包括隨機(jī)裁剪、水平翻轉(zhuǎn)和隨機(jī)遮擋。增強(qiáng)結(jié)果如圖4所示,圖(a)(b)分別代表原始樣本與經(jīng)過增強(qiáng)操作后的樣本。
4.2 實(shí)驗(yàn)設(shè)置
本實(shí)驗(yàn)選用Python 3.8作為編程語言,基于PyTorch 1.11+CUDA 11.3在PyCharm 2021中完成編碼,實(shí)驗(yàn)宿主機(jī)配置為Intel Xeon Platinum 8255C與NVIDIA RTX 3080 10 GB,操作系統(tǒng)為Ubuntu 20.04。同時(shí)基于Hyperledger Fabric 2.2構(gòu)建了一個(gè)聯(lián)盟鏈環(huán)境,鏈碼使用Go語言編寫,客戶端與鏈碼的交互通過fabric-sdk-go工具實(shí)現(xiàn)。實(shí)驗(yàn)?zāi)M了由100個(gè)client參與的聯(lián)邦學(xué)習(xí)系統(tǒng),并選用FedAvg[3]、FedProx[8]、FedCurv[9]與MOON[26]算法作為對(duì)比基線?;€模型的超參數(shù)遵照原文設(shè)置。每種算法的超參數(shù)選擇展示在表2中。
FedAom的參數(shù)β與ε分別取1.0和7.0,損失項(xiàng)系數(shù)控制損失項(xiàng)的介入慢慢變小。本文從每類訓(xùn)練數(shù)據(jù)中隨機(jī)抽取5個(gè)樣本組建dshare。對(duì)于CIFAR-10來說,dshare的尺寸僅為全局?jǐn)?shù)據(jù)的0.1%。其他未指定參數(shù)默認(rèn)設(shè)置為表3中的值。
為了確保公平性,F(xiàn)edAom與基線算法采用相同的模型結(jié)構(gòu)和參數(shù)設(shè)置。本文使用了自定義的CNN模型,該模型包含兩個(gè)5×5的卷積層和兩個(gè)全連接層,其中最后一層擁有512個(gè)神經(jīng)元。每一層都通過ReLU函數(shù)進(jìn)行激活,卷積層之間以及與全連接層的連接處還設(shè)置了2×2的最大池化層,并使用SGD作為優(yōu)化器。
4.3 模擬Non-IID條件
理想的聯(lián)邦學(xué)習(xí)環(huán)境下,各個(gè)客戶端本地的特征分布、標(biāo)簽分布以及樣本量應(yīng)當(dāng)一致,這樣服務(wù)器可以獲得優(yōu)質(zhì)的全局模型。然而客戶端之間的數(shù)據(jù)分布往往存在嚴(yán)重的差異,為模擬真實(shí)的聯(lián)邦學(xué)習(xí)環(huán)境,本文使用Dirichlet分布函數(shù)[26]對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分區(qū),根據(jù)αDirichlet對(duì)數(shù)據(jù)集進(jìn)行劃分,之后將分區(qū)后的數(shù)據(jù)分發(fā)給每個(gè)客戶端,以此來模擬Non-IID環(huán)境。αDirichlet控制著數(shù)據(jù)的均勻程度,αDirichlet越大則數(shù)據(jù)分布越均勻,反之則客戶端之間的分布就更偏斜,Non-IID程度越嚴(yán)重。另外還增加了另一個(gè)分布條件,將CIFAR-10的每類樣本均勻地進(jìn)行分片,每個(gè)分片含有同一類別的固定數(shù)量的樣本,讓客戶端隨機(jī)地從分片中抽取預(yù)定數(shù)量的片段,以模擬標(biāo)簽不平衡的分布。
為評(píng)估FedAom在嚴(yán)重Non-IID環(huán)境下的效果,分別在多種分布條件下對(duì)FedAom的表現(xiàn)展開實(shí)驗(yàn)。以CIFAR-10為例,當(dāng)αDirichlet=0.1時(shí),前20個(gè)客戶端的數(shù)據(jù)分布如圖5所示,橫坐標(biāo)為客戶端編號(hào),縱坐標(biāo)為樣本的總量,不同的顏色則指代不同類型的數(shù)據(jù),每個(gè)柱中通過不同顏色數(shù)據(jù)的堆疊展示了數(shù)據(jù)的分布情況。
4.4 精度對(duì)比
表4詳細(xì)展示了FedAom與其他方法在各種分布設(shè)置下的精度差異。為了最大程度地減少誤差的影響,選擇每種算法最后20輪的精度均值作為其真實(shí)精度。通過對(duì)表4的分析可以清楚地發(fā)現(xiàn),在大多數(shù)非獨(dú)立同分布(Non-IID)的條件下,F(xiàn)edAom相較于其他方法展現(xiàn)出了較高的預(yù)測(cè)精度。
觀察不同的分布條件下各算法的分類精度,可以發(fā)現(xiàn),不同組實(shí)驗(yàn)中FedProx與FedAvg的精度相差很小。隨著αDirichlet的增大,數(shù)據(jù)分布趨于均勻,各算法之間的差異逐漸縮小,由Non-IID引發(fā)的模型漂移現(xiàn)象得到緩解,使得FedAvg算法能夠聚合到更高質(zhì)量的全局模型,本文的實(shí)驗(yàn)結(jié)論也印證了這一點(diǎn)。而當(dāng)Non-IID程度逐漸變大時(shí),F(xiàn)edAom的提升將更加顯著,這是由于基于歸因的思想設(shè)計(jì)的FedAom可以從模型決策行為的角度上迫使參數(shù)保留對(duì)全局?jǐn)?shù)據(jù)分布的敏感性,借助全局模型的歸因行為在優(yōu)化過程中實(shí)現(xiàn)更有效的知識(shí)回放。相比于傳統(tǒng)的構(gòu)建共享數(shù)據(jù)池的方案,F(xiàn)edAom能夠更高效地利用共享數(shù)據(jù),從而降低參與方的隱私成本。
在本文設(shè)置的所有分布條件下,F(xiàn)edAom都展示出了更快的收斂速度。圖6、7分別展示了αDirichlet取0.2與0.1在不同數(shù)據(jù)集下的訓(xùn)練曲線,觀察發(fā)現(xiàn),αDirichlet取0.1時(shí),嚴(yán)重的數(shù)據(jù)偏斜加劇了客戶端模型對(duì)全局知識(shí)的遺忘,這導(dǎo)致全局模型出現(xiàn)較大的振蕩。而較小的αDirichlet會(huì)使得曲線更加平穩(wěn)。MOON對(duì)數(shù)據(jù)偏斜更加敏感。FedAom對(duì)比其他算法收斂的更快,在MNIST數(shù)據(jù)集上,F(xiàn)edAom到第75輪左右即可達(dá)到90%的平均正確率,而FedAvg則在120輪左右,相比之下本文方法可節(jié)約37.5%的通信開銷。
總的來說,本文的損失項(xiàng)可以更好地保留全局知識(shí),加快訓(xùn)練速度,F(xiàn)edAom聚合得到的全局模型能夠更大程度上緩解Non-IID分布帶來的不利影響,更快地達(dá)到預(yù)期精度,從而降低通信成本,這表明FedAom更適合處理Non-IID的情況。
4.5 模型漂移程度
客戶端數(shù)據(jù)的Non-IID分布使得全局模型的本地更新將偏離全局最優(yōu)解。對(duì)客戶端的本地分布而言,全局?jǐn)?shù)據(jù)屬于本地分布外(out of distribution, OOD)數(shù)據(jù)。直觀上,如果客戶端模型對(duì)本地占比較低的數(shù)據(jù)具有較好的預(yù)測(cè)精度,那么可以認(rèn)為模型繼承了全局模型對(duì)這類樣本的知識(shí)。通過將每個(gè)客戶端模型在本地?cái)?shù)據(jù)類別精度與該類樣本在本地?cái)?shù)據(jù)中的占比倒數(shù)相乘并平均,作為模型的分布外精度,具體情況如表5所示。圖8展示了αDirichlet=0.2時(shí)不同方法對(duì)本地分布外樣本的加權(quán)預(yù)測(cè)精度。由圖可知, FedAom相比其他算法在分布外數(shù)據(jù)上取得了最佳效果。這說明本文的正則項(xiàng)可以很好地引導(dǎo)局部更新朝全局最優(yōu)解靠近,同時(shí)保留更多全局信息并加快全局模型的收斂。進(jìn)一步觀察發(fā)現(xiàn),隨著訓(xùn)練的進(jìn)行,F(xiàn)edAom聚合得到的全局模型與其他方法的差異逐漸減小,這是因?yàn)楦呔鹊娜帜P彤a(chǎn)生更清晰的歸因。積分梯度路徑選擇和近似方法引入的噪聲對(duì)歸因的影響也會(huì)體現(xiàn)出來。選擇高質(zhì)量的基線和路徑,以及更好的近似方法可以進(jìn)一步改善FedAom的表現(xiàn),但這超出了本文的討論范圍。
4.6 有效性實(shí)驗(yàn)
FedAom利用少量全局?jǐn)?shù)據(jù)計(jì)算歸因,利用歸因間接地對(duì)本地模型進(jìn)行知識(shí)回放。為了使實(shí)驗(yàn)結(jié)果更加清晰,本文選擇了MNIST作為數(shù)據(jù)集,并在Dirichlet分布中進(jìn)行模擬,以驗(yàn)證FedAom對(duì)全局?jǐn)?shù)據(jù)的利用效率。相應(yīng)的對(duì)比方案則將收集到的數(shù)據(jù)共享給所有的客戶端,并作為本地?cái)?shù)據(jù)參與訓(xùn)練,其他的實(shí)驗(yàn)參數(shù)保持默認(rèn)設(shè)置,結(jié)果如圖9所示。其中share表示共享數(shù)據(jù)的方法,F(xiàn)edAvg表示原始的聯(lián)邦學(xué)習(xí)方法。
結(jié)果顯示,無論是本文方法還是通過共享數(shù)據(jù)的方法,都可以提高聯(lián)邦學(xué)習(xí)的收斂速度,這是由于兩種方式都在局部訓(xùn)練過程中進(jìn)行了知識(shí)回放。在聯(lián)邦學(xué)習(xí)的參與方隨機(jī)采樣過程中,很有可能選中到具有較大樣本偏差的客戶端,從而影響本輪模型的質(zhì)量。例如,在第20輪通信時(shí),F(xiàn)edAvg顯示出顯著下降,相比之下,Share和本文方法只有輕微波動(dòng),表明本文方法能更有效地穩(wěn)定訓(xùn)練過程。這得益于FedAom在歸因?qū)用嫔洗_保局部模型與全局模型的因果關(guān)系更緊密,優(yōu)化了訓(xùn)練效率。實(shí)驗(yàn)結(jié)果顯示,F(xiàn)edAom能夠更高效合理地利用相同的共享數(shù)據(jù),降低對(duì)數(shù)據(jù)量的依賴。
4.7 分片混淆結(jié)果驗(yàn)證
BBTSA在基于區(qū)塊鏈的去中心化環(huán)境中,通過讓參與方自主執(zhí)行切片混淆過程,從而達(dá)到匿名的目的。為探究本文方法能否成功完成預(yù)定的目標(biāo),本節(jié)選擇了在FedAvg最后一輪通信中的8個(gè)節(jié)點(diǎn)的本地模型進(jìn)行實(shí)驗(yàn)。分別測(cè)試了合作混淆前后各參與方的本地模型在其本地?cái)?shù)據(jù)上的預(yù)測(cè)精度,結(jié)果如圖10所示。
經(jīng)過混淆后,所有參與方的本地模型參數(shù)將疊加大量的隨機(jī)噪聲,直覺上,當(dāng)噪聲的方差足夠大時(shí),參數(shù)中保留的隱私信息將無法被辯別。通過實(shí)驗(yàn)結(jié)果可以看出,BBTSA可以使得混淆后的模型難以正確辨別訓(xùn)練集中的樣本?;煜?,各節(jié)點(diǎn)的訓(xùn)練集平均準(zhǔn)確率接近10%,這相當(dāng)于隨機(jī)猜測(cè)。綜上所述,BBTSA使得節(jié)點(diǎn)可以在沒有中心化的第三方機(jī)構(gòu)介入下,利用節(jié)點(diǎn)的主動(dòng)能力對(duì)參數(shù)進(jìn)行混淆,進(jìn)而提升隱私性。
4.8 防御能力
由于在本文中傳輸?shù)膮?shù)為模型權(quán)重而非梯度值,所以針對(duì)梯度的攻擊如深度梯度泄露DLG并不適用。而在針對(duì)模型參數(shù)的逆向推理攻擊中,基于GAN的方法顯得尤為有效。KEDMI[16]利用先驗(yàn)知識(shí)和目標(biāo)模型來學(xué)習(xí)敏感信息分布,相比GMI[15]有更好的攻擊效果。為測(cè)試BBTSA對(duì)這類攻擊的防御能力,將遵循與不遵循BBTSA的參與方本地模型選為KEDMI攻擊的目標(biāo)。實(shí)驗(yàn)根據(jù)文獻(xiàn)[16]的要求重新劃分了參與方的樣本并進(jìn)行訓(xùn)練,且嚴(yán)格遵照原文中報(bào)告的設(shè)置和實(shí)驗(yàn)細(xì)節(jié)。結(jié)果如圖11所示,其中T與F分別表示參與方遵循與不遵循BBTSA。
實(shí)驗(yàn)結(jié)果顯示,即使在迭代300次后,KEDMI仍未能有效地學(xué)習(xí)到目標(biāo)模型中的隱私知識(shí),導(dǎo)致輸出結(jié)果模仿先驗(yàn)分布樣本,例如將“3”錯(cuò)誤重建為“5”。而隨著迭代的進(jìn)行,未遵循BBTSA的參與方的重建結(jié)果將更接近于真實(shí)樣本,而遵循BBTSA的模型重建結(jié)果則依然偏向于先驗(yàn)樣本。由于參與方缺乏數(shù)字“4”的訓(xùn)練樣本,攻擊者難以從目標(biāo)模型中提取出足夠的相關(guān)知識(shí),導(dǎo)致KEDMI對(duì)“4”的重構(gòu)效果并不理想。這種情況下,攻擊者可根據(jù)重建樣本的質(zhì)量進(jìn)一步推斷出參與方的標(biāo)簽分布信息。
BBTSA利用了參與方的主動(dòng)能力,借助區(qū)塊鏈的去中心化特性,在避免將原始參數(shù)傳輸給不可信第三方的前提下,完成了參數(shù)匿名化。實(shí)驗(yàn)表明即使充分學(xué)習(xí)到先驗(yàn)知識(shí)的生成對(duì)抗攻擊方案也難以準(zhǔn)確重建參與方的隱私數(shù)據(jù)。
5 結(jié)束語
本文著眼于聯(lián)邦節(jié)點(diǎn)的隱私安全以及如何克服Non-IID引發(fā)的模型漂移問題,提出了聯(lián)邦歸因算法(FedAom)與基于區(qū)塊鏈的聯(lián)邦節(jié)點(diǎn)合作方案(BBTSA)。FedAom通過共享數(shù)據(jù)進(jìn)行模型歸因,指導(dǎo)本地更新,加速全局模型收斂,同時(shí)保留全局知識(shí)。而BBTSA在去中心化環(huán)境中通過切片混淆實(shí)現(xiàn)參數(shù)的完全匿名化,并降低了分發(fā)噪聲的帶寬消耗,在無須中心化的第三方機(jī)構(gòu)介入的情況下,實(shí)現(xiàn)了對(duì)隱私參數(shù)的保護(hù),且不會(huì)對(duì)全局模型造成負(fù)面影響。
然而,本文方法需要計(jì)算積分梯度,這增加了額外的計(jì)算量。近似方法引入的噪聲會(huì)對(duì)全局模型產(chǎn)生影響,并且未考慮節(jié)點(diǎn)宕機(jī)可能導(dǎo)致的問題。后期將考慮如何以更低的成本,獲得更加精確的歸因以及解決節(jié)點(diǎn)掉線問題。
參考文獻(xiàn):
[1]Wang Yaqing, Yao Quanming, Kwok J T, et al. Generalizing from a few examples: a survey on few-shot learning[J]. ACM Computing Surveys, 2020, 53(3): article No.63.
[2]Ma Xu, Wang Chen, Chen Xiaofeng. Trusted data sharing with flexible access control based on blockchain[J]. Computer Standards & Interfaces, 2021, 78: 103543.
[3]McMahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C]//Proc of Conference on Artificial Intelligence and Statistics.[S.l.]: PMLR, 2017: 1273-1282.
[4]Nilsson A, Smith S, Ulm G, et al. A performance evaluation of federated learning algorithms[C]//Proc of the 2nd Workshop on Distributed Infrastructures for Deep Learning. New York: ACM Press, 2018: 1-8.
[5]Li Xiang, Huang Kaixuan, Yang Wenhao, et al. On the convergence of FedAvg on Non-IID data[EB/OL]. (2020-06-25). https://arxiv.org/abs/1907.02189.
[6]Gao Liang, Fu Huazhu, Li Li, et al. FEDDC: federated learning with Non-IID data via local drift decoupling and correction[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 10102-10111.
[7]張紅艷, 張玉, 曹燦明. 一種解決數(shù)據(jù)異構(gòu)問題的聯(lián)邦學(xué)習(xí)方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(3): 713-720. (Zhang Hong-yan, Zhang Yu, Cao Canming. Effective method to solve problem of data heterogeneity in federated learning[J]. Application Research of Computers, 2024, 41(3): 713-720.)
[8]Li Tian, Sahu A K, Zaheer M, et al. Federated optimization in hete-rogeneous networks[EB/OL]. (2020-04-21). https://arxiv.org/abs/1812.06127.
[9]Shoham N, Avidor T, Keren A, et al. Overcoming forgetting in fede-rated learning on Non-IID data[EB/OL]. (2019-10-17). https://arxiv.org/abs/1910.07796.
[10]Wang Hongyi, Yurochkin M, Sun Yuekai, et al. Federated learning with matched averaging [EB/OL]. (2020-02-15). https://arxiv.org/abs/2002.06440.
[11]Mahmoud N, Aly A, Abdelkader H. Enhancing blockchain-based ride-sharing services using IPFS[J]. Intelligent Systems with Applications, 2022, 16: 200135.
[12]Bonnard J, Dapogny A, Dhombres F, et al. Privileged attribution constrained deep networks for facial expression recognition[C]//Proc of the 26th International Conference on Pattern Recognition. Piscata-way, NJ: IEEE Press, 2022: 1055-1061.
[13]Sundararajan M, Taly A, Yan Qiqi. Axiomatic attribution for deep networks[C]//Proc of the 34th International Conference on Machine Learning.[S.l.]: PMLR, 2017: 3319-3328.
[14]Ge Lina, Li Haiao, Wang Xiao, et al. A review of secure federated learning: privacy leakage threats, protection technologies, challenges and future directions[J]. Neurocomputing, 2023,561: 126897.
[15]Zhang Yuheng, Jia Ruoxi, Pei Hengzhi, et al. The secret revealer: generative model-inversion attacks against deep neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 253-261.
[16]Chen Si, Kahla M, Jia Ruoxi, et al. Knowledge-enriched distributional model inversion attacks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 16178-16187.
[17]Om Kumar C U, Gajendran S, Bhavadharini R M, et al. EHR privacy preservation using federated learning with DQRE-Scnet for healthcare application domains[J]. Knowledge-Based Systems, 2023, 275(C): 110638.
[18]曹世翔, 陳超夢(mèng), 唐朋, 等. 基于函數(shù)機(jī)制的差分隱私聯(lián)邦學(xué)習(xí)算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2023,46(10): 2178-2195. (Cao Shi-xiang, Chen Chaomeng, Tang Peng, et al. Differentially private fede-rated learning with functional mechanism[J]. Chinese Journal of Computers, 2023, 46(10): 2178-2195.)
[19]Zhang Wei, Wang Ziwei, Li Xiang. Blockchain-based decentralized federated transfer learning methodology for collaborative machinery fault diagnosis[J]. Reliability Engineering & System Safety, 2023, 229: 108885.
[20]劉煒, 唐琮軻, 馬杰, 等. 基于區(qū)塊鏈和動(dòng)態(tài)評(píng)估的隱私保護(hù)聯(lián)邦學(xué)習(xí)模型[J]. 計(jì)算機(jī)研究與發(fā)展, 2023, 60(11): 2583-2593. (Liu Wei, Tang Chongke, Ma Jie, et al. A federated learning model for privacy protection based on blockchain and dynamic evaluation[J]. Journal of Computer Research and Development, 2023, 60(11): 2583-2593.)
[21]Guduri M, Chakraborty C, Maheswari U, et al. Blockchain-based federated learning technique for privacy preservation and security of smart electronic health records[J]. IEEE Trans on Consumer Electronics, 2024, 70(1): 2608-2617.
[22]Madni H, Umer R, Foresti G. Blockchain-based swarm learning for the mitigation of gradient leakage in federated learning[J]. IEEE Access, 2023, 11: 16549-16556.
[23]Zhao Yue, Li Meng, Lai Liangzhen, et al. Federated learning with Non-IID data[EB/OL]. (2018-06-02). https://arxiv.org/abs/1806.00582.
[24]李志鵬, 國(guó)雍, 陳耀佛, 等. 基于數(shù)據(jù)生成的類別均衡聯(lián)邦學(xué)習(xí)[J]. 計(jì)算機(jī)學(xué)報(bào), 2023,46(3): 609-625. (Li Zhipeng, Guo Yong, Chen Yaofo, et al. Class-balanced federated learning based on data generation[J]. Chinese Journal of Computers, 2023, 46(3): 609-625.)
[25]常黎明, 劉顏紅, 徐恕貞. 基于數(shù)據(jù)分布的聚類聯(lián)邦學(xué)習(xí)[J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(6): 1697-1701. (Chang Liming, Liu Yanhong, Xu Shuzhen. Clustering federated learning based on data distribution[J]. Application Research of Computers, 2023, 40(6): 1697-1701.)
[26]Li Qinbin, He Bingsheng, Song D. Model-contrastive federated lear-ning[EB/OL]. (2021-03-30). https://arxiv.org/abs/2103.16257.
[27]Erion G, Janizek J D, Sturmfels P, et al. Improving performance of deep learning models with axiomatic attribution priors and expected gradients[J]. Nature Machine Intelligence, 2021, 3(7): 620-631.
[28]Shrikumar A, Greenside P, Kundaje A. Learning important features through propagating activation differences[C]//Proc of the 34th International Conference on Machine Learning.[S.l.]: PMLR, 2017: 3145-3153.
[29]Yang Ruo, Wang Binghui, Bilgic M. IDGI: a framework to eliminate explanation noise from integrated gradients[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 23725-23734.