基于潛在空間生成器的聯(lián)邦知識蒸餾

2024-12-31 00:00:00王虎王曉峰李可

計(jì)算機(jī)應(yīng)用研究 2024年11期

關(guān)鍵詞：概率分布

摘要：用戶的異質(zhì)性對聯(lián)邦學(xué)習(xí)（FL）構(gòu)成了顯著挑戰(zhàn)，這可能導(dǎo)致全局模型偏移和收斂速度緩慢。針對此問題，提出一種結(jié)合知識蒸餾和潛在空間生成器的聯(lián)邦學(xué)習(xí)方法（FedLSG）。該方法通過中央服務(wù)器學(xué)習(xí)一個(gè)搭載潛在空間生成器的生成模型，該模型能夠提取并模擬不同用戶端樣本標(biāo)簽的概率分布，從而生成更加豐富和多樣的偽樣本來指導(dǎo)用戶端模型的訓(xùn)練。這種方法旨在有效解決FL中的用戶異質(zhì)性問題。通過理論分析和實(shí)驗(yàn)驗(yàn)證，展示了與現(xiàn)有FedGen方法相比，F(xiàn)edLSG普遍比FedGen的測試精度高出1%左右，前20輪的通信效率優(yōu)于FedGen，同時(shí)還能提供一定程度的用戶隱私保護(hù)。

關(guān)鍵詞：用戶異質(zhì)性；聯(lián)邦學(xué)習(xí)；知識蒸餾；潛在空間生成器；概率分布

中圖分類號：TP181 文獻(xiàn)標(biāo)志碼：A 文章編號：1001-3695（2024）11-011-3281-07

doi：10.19734/j.issn.1001-3695.2024.03.0084

Knowledge distillation in federated learning based on latent space generator

Wang Hu^a， Wang Xiaofeng^{a， b}^?， Li Ke^a

（a.School of Computer Science amp; Engineering， b.The Key Laboratory of Images amp; Graphics Intelligent Processing of State Ethnic Affairs Commission， North Minzu University， Yinchuan 750021， China）

Abstract：User heterogeneity poses significant challenges to federated learning （FL）， leading to global model bias and slow convergence. To address this problem， this paper proposed a method combining knowledge distillation and a latent space ge-nerator， called FedLSG. This method employed a central server to learn a generative model with a latent space generator that extracted and simulated the probability distribution of sample labels from different user devices， then generated richer and more diverse pseudo-samples to guide the training of user models. This approach aimed to effectively address the problem of user heterogeneity in FL. Theoretical analysis and experimental results show that FedLSG generally achieves about 1% higher test accuracy than the existing FedGen method， improves communication efficiency in the first 20 rounds， and provides a degree of user privacy protection.

Key words：user heterogeneity; federated learning; knowledge distillation; latent space generator; probability distribution

0 引言

隨著現(xiàn)代信息化社會的飛速發(fā)展，用戶之間在特性、偏好，以及行為模式等眾多方面表現(xiàn)出了顯著的差異性，這種差異性被稱為用戶異質(zhì)性^［1^］。在傳統(tǒng)的聯(lián)邦學(xué)習(xí)框架中，用戶異質(zhì)性構(gòu)成了一大挑戰(zhàn)，經(jīng)常導(dǎo)致全局模型出現(xiàn)偏移^［²^］和收斂速度變慢的問題。同時(shí)，保護(hù)用戶隱私與提升模型的泛化能力之間的平衡，也極大地制約了聯(lián)邦學(xué)習(xí)性能的發(fā)揮。因此，為了克服這些問題，迫切需要研發(fā)一種創(chuàng)新的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法。

聯(lián)邦學(xué)習(xí)作為解決數(shù)據(jù)孤島問題的分布式機(jī)器學(xué)習(xí)新范式，面臨著非獨(dú)立同分布（Non-IID）數(shù)據(jù)的挑戰(zhàn)。此要求深度分析數(shù)據(jù)分布及樣本相關(guān)性，以精確選用模型與算法。然而，以往大多數(shù)現(xiàn)有聯(lián)邦學(xué)習(xí)方法中并沒有產(chǎn)生理想的全局模型和泛化性能。用戶異質(zhì)性主要體現(xiàn)在以下三個(gè)方面：a）不同用戶的數(shù)據(jù)可能具有不同的特征分布，這種異質(zhì)性體現(xiàn)在數(shù)據(jù)特征的維度、分布、稀疏等方面；b）不同用戶的標(biāo)簽數(shù)據(jù)可能存在差異，包括標(biāo)簽的類別、數(shù)量、分布等方面；c）不同用戶的數(shù)據(jù)規(guī)?？赡懿町愝^大，有些用戶可能擁有大量的數(shù)據(jù)，而有些用戶可能只有少量的數(shù)據(jù)^［3^］。因此，通過研究數(shù)據(jù)特征、標(biāo)簽、規(guī)模等方面的差異來探討用戶異質(zhì)性對聯(lián)邦學(xué)習(xí)的影響，并提出相應(yīng)的解決方案和算法。例如McMahan等人^［4^］提出了一種匹配平均的聯(lián)邦學(xué)習(xí)算法，以解決不同用戶數(shù)據(jù)特征分布不同的問題，并探討了在不同標(biāo)簽分布的情況下，如何設(shè)計(jì)有效的聯(lián)邦學(xué)習(xí)算法來實(shí)現(xiàn)模型聚合。而Konen等人^［⁵^］著重討論了如何在面對大規(guī)模和小規(guī)模數(shù)據(jù)集時(shí)，設(shè)計(jì)和優(yōu)化聯(lián)邦學(xué)習(xí)系統(tǒng)，以支持高效的參數(shù)更新和模型聚合。

面對用戶異質(zhì)性帶來的復(fù)雜挑戰(zhàn)，本文提出了一種融合知識蒸餾與潛在空間生成器的先進(jìn)聯(lián)邦學(xué)習(xí)（FL）策略。此方法通過在中央服務(wù)器學(xué)習(xí)潛在空間生成器的生成模型，實(shí)現(xiàn)了一種無須直接用戶數(shù)據(jù)訪問的信息整合方法。該方法生成的偽樣本既在中央服務(wù)器上聚合知識，也通過廣播至用戶端豐富本地訓(xùn)練環(huán)境，優(yōu)化模型表現(xiàn)。此外，為了進(jìn)一步提升偽樣本的真實(shí)性，本文在該生成器模型中引入了條件多頭自注意力機(jī)制，顯著增強(qiáng)了模型對樣本數(shù)據(jù)概率分布特征的捕獲能力。本文所提FedLSG的主要貢獻(xiàn)如下：

a）提出在一個(gè)生成器模型中的潛在空間中增加一個(gè)生成器所構(gòu)成的雙生成器模型，實(shí)現(xiàn)對用戶端樣本數(shù)據(jù)的偽樣本生成；

b）提出將條件多頭自注意力機(jī)制應(yīng)用到雙生成器中，提高偽樣本數(shù)據(jù)生成的逼真度；

c）中央服務(wù)器學(xué)習(xí)的雙生成器生成模型以無數(shù)據(jù)的方式集成用戶端樣本知識，然后廣播給用戶端；

d）在MNIST、EMNIST和CelebA數(shù)據(jù)集上展開實(shí)驗(yàn)，其中MNIST和EMNIST通過變化迪利克雷分布參數(shù)，CelebA則通過模擬人為行為實(shí)現(xiàn)Non-IID數(shù)據(jù)劃分，以此驗(yàn)證所提方法與常規(guī)聯(lián)邦學(xué)習(xí)技術(shù)相比的性能優(yōu)勢。

1 相關(guān)研究

McMahan等人^［4^］提出的FedAvg算法旨在解決分布式數(shù)據(jù)的聯(lián)合訓(xùn)練問題，其中每個(gè)設(shè)備（例如移動設(shè)備或邊緣設(shè)備）都維護(hù)自己的本地模型，并在本地?cái)?shù)據(jù)上進(jìn)行訓(xùn)練。在訓(xùn)練的每個(gè)輪次之后，這些本地模型的參數(shù)將被聚合到一個(gè)全局模型中，以更新全局模型的參數(shù)。然而，F(xiàn)edAvg算法通常不直接使用知識蒸餾技術(shù)。因此，無法有效地利用不同用戶端之間不同的知識進(jìn)行聯(lián)邦學(xué)習(xí)的訓(xùn)練。Jeong等人^［6^］提出了一種通信高效的基于設(shè)備的機(jī)器學(xué)習(xí)方法，稱為聯(lián)邦蒸餾和增強(qiáng)，研究的重點(diǎn)是在非獨(dú)立同分布和隱私數(shù)據(jù)環(huán)境下有效利用聯(lián)邦學(xué)習(xí)進(jìn)行模型訓(xùn)練。聯(lián)邦蒸餾旨在通過模型蒸餾的方式在設(shè)備端利用聯(lián)邦學(xué)習(xí)進(jìn)行訓(xùn)練。這種方法在設(shè)備上進(jìn)行模型蒸餾，從而減少了在聯(lián)邦學(xué)習(xí)過程中傳輸大量參數(shù)的需求，從而實(shí)現(xiàn)通信高效性。另一方面，增強(qiáng)方案使用GAN進(jìn)行數(shù)據(jù)增強(qiáng)，每個(gè)用戶端都將自己視為學(xué)生，通過數(shù)據(jù)增強(qiáng)從而改善了模型的泛化性能。雖然在通信效率和隱私保護(hù)方面有一定的優(yōu)勢，但可能會犧牲一定的模型性能。

鑒于知識蒸餾技術(shù)的逐漸流行，Itahara等人^［7^］提出的基于蒸餾的半監(jiān)督聯(lián)邦學(xué)習(xí)框架在聯(lián)邦學(xué)習(xí)領(lǐng)域有了極大進(jìn)展，旨在實(shí)現(xiàn)通信高效的協(xié)作訓(xùn)練，并應(yīng)對非獨(dú)立同分布的私有數(shù)據(jù)。結(jié)合了蒸餾技術(shù)和半監(jiān)督學(xué)習(xí)方法，以實(shí)現(xiàn)在設(shè)備端對模型進(jìn)行高效訓(xùn)練的同時(shí)，利用未標(biāo)記的數(shù)據(jù)來提高模型性能。Chen等人^［8^］提出MetaFed框架用于解決個(gè)性化醫(yī)療領(lǐng)域中的聯(lián)邦學(xué)習(xí)問題。該框架通過提出的循環(huán)知識蒸餾，無須中央服務(wù)器就能夠?qū)崿F(xiàn)不同聯(lián)邦之間的可信FL。然而MetaFed框架涉及元學(xué)習(xí)、知識蒸餾和聯(lián)邦學(xué)習(xí)等多種技術(shù)，其算法較為復(fù)雜，且應(yīng)用場景是否能夠在不同醫(yī)療場景中穩(wěn)健地適用，還需要更多的實(shí)驗(yàn)和研究支持。Mora等人^［9^］提供了一份關(guān)于介紹知識蒸餾在聯(lián)邦學(xué)習(xí)中的應(yīng)用指南，深入探討了將知識蒸餾技術(shù)應(yīng)用于聯(lián)邦學(xué)習(xí)的方法和技巧，包括如何設(shè)計(jì)合適的教師模型和學(xué)生模型，以及如何選擇適當(dāng)?shù)恼麴s損失函數(shù)。Zhang等人^［10^］提出了一種名為FedDTG的方法，該方法通過引入三方生成對抗網(wǎng)絡(luò)（GAN）來實(shí)現(xiàn)客戶端之間的數(shù)據(jù)自由共蒸餾，其中包括一個(gè)生成器、一個(gè)教師模型和一個(gè)學(xué)生模型。由GAN生成的偽樣本并且結(jié)合教師模型的知識，可以傳遞給學(xué)生模型進(jìn)行訓(xùn)練，從而使聯(lián)邦蒸餾更加高效和穩(wěn)健。然而該方法需要進(jìn)一步探討在計(jì)算資源消耗和通信成本。

近兩年出現(xiàn)了一些創(chuàng)新的方法強(qiáng)調(diào)了異構(gòu)數(shù)據(jù)在聯(lián)邦學(xué)習(xí)中的潛在應(yīng)用。Passerat-Palmbach等人^［11^］提出了一種名為FedGDKD的方法，用于聯(lián)邦學(xué)習(xí)中異構(gòu)模型之間的知識蒸餾。該方法利用生成對抗網(wǎng)絡(luò)實(shí)現(xiàn)了無須共享原始數(shù)據(jù)即可進(jìn)行知識蒸餾的目的。其中介紹了在聯(lián)邦學(xué)習(xí)場景中，針對異構(gòu)模型之間進(jìn)行知識蒸餾，以實(shí)現(xiàn)模型性能的提升和參數(shù)的壓縮。利用生成對抗網(wǎng)絡(luò)來實(shí)現(xiàn)數(shù)據(jù)無關(guān)的知識蒸餾，通過生成數(shù)據(jù)樣本來進(jìn)行模型之間的知識傳遞。然而，F(xiàn)edGDKD方法在不同數(shù)據(jù)集和異構(gòu)模型組合上的泛化能力有待驗(yàn)證，此外可能還需要更多的工作來優(yōu)化通信效率。張紅艷等人^［12^］將聚類和數(shù)據(jù)共享技術(shù)應(yīng)用于聯(lián)邦學(xué)習(xí)過程中，這有效地降低了數(shù)據(jù)異構(gòu)性的影響，并加速了本地模型的收斂速度。Tran等人^［13^］利用標(biāo)簽文本嵌入（LTE）作為錨點(diǎn)，結(jié)合bounding loss約束樣本嵌入，從而在聯(lián)邦學(xué)習(xí)的類增量學(xué)習(xí)中有效解決數(shù)據(jù)隱私和遺忘問題。Zhang等人^［14^］利用了預(yù)訓(xùn)練生成器中的知識，提出了一種上傳高效的知識傳輸方案，在異質(zhì)聯(lián)邦學(xué)習(xí)中實(shí)現(xiàn)了高性能，可適用于僅有一個(gè)邊緣客戶端的場景。Chen等人^［15^］探討了數(shù)據(jù)分布在客戶端之間的異質(zhì)性如何限制通過聯(lián)邦學(xué)習(xí)訓(xùn)練全局模型的性能，特別是在類分布高度不平衡的設(shè)置中，提出了一種稱為“超知識蒸餾”的技術(shù)，以獲得更全面和準(zhǔn)確的知識表示，并聯(lián)合訓(xùn)練一個(gè)全局模型和多個(gè)個(gè)性化模型來平衡全局性能和個(gè)性化性能。全局性能代表整個(gè)數(shù)據(jù)集的總體特征，而個(gè)性化模型則針對特定用戶或設(shè)備的數(shù)據(jù)進(jìn)行定制。然而所提“超知識蒸餾”涉及從多個(gè)教師模型中提取知識，并將其融合到學(xué)生模型中，可能會增加方法的復(fù)雜性和計(jì)算成本，未充分討論“超知識蒸餾”技術(shù)的實(shí)施和計(jì)算效率，并且也存在對非獨(dú)立同分布數(shù)據(jù)的適應(yīng)性不足，未充分考慮非獨(dú)立同分布數(shù)據(jù)的情況，這可能導(dǎo)致方法在處理非獨(dú)立同分布數(shù)據(jù)時(shí)性能下降。

本文綜合考慮在非獨(dú)立同分布數(shù)據(jù)下，使用潛在空間生成器以及條件多頭自注意力機(jī)制解決聯(lián)邦學(xué)習(xí)中用戶異質(zhì)性、全局模型的準(zhǔn)確性、通信效率，同時(shí)使用知識蒸餾技術(shù)可以對不同的用戶端模型產(chǎn)生良好的泛化性。

2 背景知識

2.1 聯(lián)邦學(xué)習(xí)

聯(lián)邦學(xué)習(xí)是一種分布式機(jī)器學(xué)習(xí)范式，用于訓(xùn)練全局模型而無須集中數(shù)據(jù)。在此方法中，數(shù)據(jù)分布在多個(gè)本地設(shè)備上，并在這些設(shè)備上訓(xùn)練模型，而不傳輸原始數(shù)據(jù)到中央服務(wù)器。模型在本地訓(xùn)練后，只將更新的子模型發(fā)送至中央服務(wù)器，中央服務(wù)器再聚合這些子模型以生成全局模型。這種方法既保護(hù)了數(shù)據(jù)隱私，又能最小化全局損失函數(shù)。

minω F（ω）=∑Kk=1N_kNF_k（ω）（1）

其中：F_K（ω）=1N_K∑i∈D_kf_i（ω），是第ω個(gè)參與方的損失函數(shù)；N_k是參與方k的數(shù)據(jù)集D_k的大小；N為K個(gè)參與方的總數(shù)據(jù)樣本大小；f_i（ω）是數(shù)據(jù)樣本i上的損失函數(shù)。

聯(lián)邦學(xué)習(xí)的迭代過程分四步，如圖1所示。a）本地用戶從中央服務(wù)器下載初始全局模型；b）使用此模型在本地進(jìn)行模型訓(xùn)練；c）訓(xùn)練后的子模型上傳至中央服務(wù)器；d）服務(wù)器通過聯(lián)邦平均算法（FedAvg）聚合這些子模型，為下一輪更新做準(zhǔn)備。

2.2 知識蒸餾

知識蒸餾^［16^］是一種模型壓縮技術(shù)，旨在將復(fù)雜的教師模型知識轉(zhuǎn)移到簡化的學(xué)生模型中，以減少參數(shù)、加速推理和節(jié)約存儲空間。此技術(shù)中，教師模型的軟目標(biāo)用作額外監(jiān)督信號，幫助學(xué)生模型學(xué)習(xí)教師的決策邊界。與標(biāo)準(zhǔn)模型訓(xùn)練直接匹配真值標(biāo)簽不同，知識蒸餾通過匹配學(xué)生模型輸出與教師模型的軟目標(biāo)來豐富訓(xùn)練信息，從而加快學(xué)習(xí)速度。

受知識蒸餾啟發(fā)，Seo等人^［17^］結(jié)合聯(lián)邦學(xué)習(xí)提出了federated distillation。在此方法中，教師模型的知識不僅包括輸出概率分布和中間表示，還包括未經(jīng)softmax處理的logit vector。他們提出將分布在各用戶端的logit vector按類別平均，改為概率分布處理，可以提高模型輸出的直觀性和解釋性，同時(shí)減少過擬合，更符合實(shí)際應(yīng)用中的需求。相關(guān)偽代碼在算法1中展示。

上述偽代碼描述了在每個(gè)設(shè)備上執(zhí)行本地訓(xùn)練的過程，并在服務(wù)器上進(jìn)行全局集成的過程。在使用概率分布處理的聯(lián)邦蒸餾（FD-PDP）中，在第8、16行使用了softmax函數(shù)來轉(zhuǎn)換logits為概率分布，并在第16行使用加權(quán)平均來更新每個(gè)類別的概率分布。本地訓(xùn)練階段涉及到使用預(yù)測函數(shù)F、損失函數(shù)?，以及softmax函數(shù)進(jìn)行本地模型更新。全局集成階段則涉及到將每個(gè)設(shè)備上的模型輸出的softmax概率分布進(jìn)行加權(quán)平均，以及將更新的概率分布返回給各個(gè)設(shè)備。這個(gè)過程反復(fù)執(zhí)行，直到全局模型收斂。

2.3 潛在空間生成器

潛在空間生成器（latent space generator）是一種機(jī)器學(xué)習(xí)中的輔助生成器^［18^］，用于處理數(shù)據(jù)的高維表示空間^［¹⁹^］。在多種實(shí)現(xiàn)方式中，自編碼器（autoencoder）和變分自編碼器（variational autoencoder）^［20^］尤為常用。自編碼器通過編碼器將輸入數(shù)據(jù)轉(zhuǎn)換為潛在空間表征，再通過解碼器恢復(fù)原始數(shù)據(jù)。變分自編碼器增加了概率分布約束，生成更具表現(xiàn)力和多樣性的潛在表征。

在聯(lián)邦學(xué)習(xí)中，編碼器主要提取樣本的概率分布特征表征。而潛在空間生成器基于這些特征，進(jìn)一步處理并生成中間特征表征，以傳遞給主生成器。此過程旨在創(chuàng)建更豐富和多樣性的偽樣本，有助于模型深入學(xué)習(xí)數(shù)據(jù)分布和特征，從而提高性能和泛化能力。

假設(shè)樣本的概率分布特征表示為P（x），其中x是輸入樣本。編碼器E用于提取樣本概率分布的特征表示，其輸出為潛在空間中的特征表示z，表示為

z=E（x）（2）

潛在空間生成器G根據(jù)樣本的概率分布特征表示P（x）進(jìn)行進(jìn)一步的特征提取，其輸出為生成的偽樣本x′，表示為

x′=G（P（x））（3）

在這個(gè)過程中，G將樣本的概率分布特征表示P（x）轉(zhuǎn)換為更加豐富的偽樣本x′。

2.4 條件多頭自注意力機(jī)制

自注意力機(jī)制（self-attention mechanism）是一種序列元素相互關(guān)系的捕捉機(jī)制，廣泛應(yīng)用于自然語言處理和序列建模。在圖像領(lǐng)域，自注意力也顯示出提高性能的潛力。如vision Transformer（ViT）^［21^］通過替代傳統(tǒng)卷積操作，展示了出色的圖像分類性能。這種機(jī)制通過調(diào)整像素間的特征權(quán)重，幫助模型更好地理解圖像結(jié)構(gòu)和內(nèi)容。多頭自注意力機(jī)制進(jìn)一步增強(qiáng)了這一功能，而條件多頭自注意力機(jī)制結(jié)合了多頭和條件注意力機(jī)制，使模型能根據(jù)特定條件調(diào)整不同圖像區(qū)域間的關(guān)系，以生成條件相關(guān)的注意力權(quán)重。條件多頭自注意力機(jī)制的主要步驟如下：

a）特征提取與表示轉(zhuǎn)換。圖像通過卷積神經(jīng)網(wǎng)絡(luò)（CNN）提取特征圖，再將特征圖轉(zhuǎn)換為二維矩陣，每個(gè)像素點(diǎn)作為一個(gè)特征向量。

b）條件信息嵌入。將條件信息（如任務(wù)標(biāo)簽或圖像屬性）通過嵌入層轉(zhuǎn)換為特征向量，并與原始特征圖融合。

c）注意力權(quán)重計(jì)算。計(jì)算每個(gè)像素點(diǎn)與其他像素點(diǎn)的相關(guān)性或相似度，并根據(jù)條件信息調(diào)整注意力權(quán)重。

d）多頭注意力匯聚。應(yīng)用多頭注意力機(jī)制，將注意力權(quán)重應(yīng)用于不同的頭上，得到多個(gè)注意力匯總結(jié)果。

e）多頭特征融合。將各頭的結(jié)果進(jìn)行特征融合，得到最終的特征表示，可以通過加權(quán)平均或拼接等方式。

f）更新特征表示。將融合后的特征表示送入后續(xù)網(wǎng)絡(luò)層，以提取更高級的語義信息或執(zhí)行特定任務(wù)。

這個(gè)過程使得機(jī)制能夠根據(jù)不同條件動態(tài)學(xué)習(xí)圖像內(nèi)部關(guān)系，適應(yīng)多樣的任務(wù)需求。

3 方法設(shè)計(jì)

問題描述

因此，根據(jù)聯(lián)邦學(xué)習(xí)的目標(biāo)，在學(xué)習(xí)一個(gè)由θ參數(shù)化的全局模型中，要最大限度降低其對每個(gè)用戶端上任務(wù)Tu的損失：

minθ Ε_Tu_∈T［L_u（θ）］（5）

其中：T={T_u}^U_u=1為用戶端任務(wù)的集合。本文考慮的是所有用戶端任務(wù)共享相同的真實(shí)標(biāo)簽函數(shù)h^φ和損失函數(shù)l，即T_u=（D_u，h^φ）。在具體實(shí)踐中，通過式（5）最小化

min1U∑Uu=1L^_u（θ）（6）

其中：L^_u（θ）：=1|D^_u|∑X_i;Y_i∈D^_u［l（k（f（c（X_i;θ^t）;θ^f）;θ^p），h^φ（X_i））］是在可觀測數(shù)據(jù)集D_u上的經(jīng)驗(yàn)損失來進(jìn)行經(jīng)驗(yàn)優(yōu)化。聯(lián)邦學(xué)習(xí)的一個(gè)隱含假設(shè)是全局?jǐn)?shù)據(jù)D^被分配到每個(gè)用戶端領(lǐng)域，其中D^=∪{D^_u}^U_u=1。

3.2 知識提取

知識蒸餾（KD）也被稱為教師-學(xué)生范式，其主要目的是學(xué)習(xí)一個(gè)輕量級學(xué)生模型，目標(biāo)是從一個(gè)或多個(gè)強(qiáng)大的教師模型中蒸餾出來知識。依賴一個(gè)代理數(shù)據(jù)集D_p，以最小化教師模型和學(xué)生模型輸出之間的差異，通常一個(gè)典型且有效的選擇是使用Kullback-Leibler散度來衡量這兩個(gè)分布情況，即

minθ_SΕ_X～D^_p［D_KL［σ（g（f（c（X;θ^t_T）;θ^f_T）;θ^p_T）‖

σ（g（f（c（X;θ^t_S）;θ^f_S）;θ^p_S）］］（7）

其中：g（·）是預(yù)測器k的logits輸出；σ（·）是應(yīng)用于這些logits的非線性激活函數(shù)，即k（W;θ^p）=σ（g（W;θ^p））。

然而，上述傳統(tǒng)知識蒸餾需要依賴代理數(shù)據(jù)集，為加強(qiáng)保護(hù)用戶端之間的隱私，采用一種無數(shù)據(jù)的方式進(jìn)行聯(lián)邦知識蒸餾知識的抽取。核心思想是提取關(guān)于數(shù)據(jù)分布全局視圖的知識，并將這些由中央服務(wù)器通過含有潛在空間生成模型的生成器所學(xué)習(xí)到的知識提取到用戶端模型中，以指導(dǎo)用戶端模型的學(xué)習(xí)。

首先，考慮一個(gè)條件分布Q^*：Y→X表示這類知識的特征，與真值數(shù)據(jù)分布是一致的。

Q^*=arg maxQ：Y→XΕ_Y_～P（Y）Ε_X_{～Q（X|Y）}［log p（Y|X）］（8）

其中：P（Y）和P（Y|X）分別是目標(biāo)標(biāo)簽真值的先驗(yàn)分布和后驗(yàn)分布。為了使式（8）優(yōu)化，可將P（Y）和P（Y|X）替換為經(jīng)驗(yàn)近似。因此，P（Y）為

P^（Y）∝∑uΕ_X_～D^_u［I（h^φ（X）=Y）］（9）

其中：I（·）為指數(shù)函數(shù)；D^_u為T_u域上的可觀測樣本數(shù)據(jù)。在聯(lián)邦學(xué)習(xí)中，P^（Y）通過在模型的上傳階段使用用戶端的訓(xùn)練標(biāo)簽計(jì)數(shù)來獲取目標(biāo)標(biāo)簽真值的先驗(yàn)分布的經(jīng)驗(yàn)近似。而P（Y|X）的后驗(yàn)分布的經(jīng)驗(yàn)近似可以使用來自所有用戶端模型的集成知識，即

logP^（Y|X）∝1U∑Uu=1log P（Y|X;θ_u）（10）

然而，雖然有了上面的先驗(yàn)分布和后驗(yàn)分布的經(jīng)驗(yàn)近似，但是直接在輸入空間X上優(yōu)化方程式（8）卻仍然有可能是不行的，因?yàn)橐牒髸刑卣鞅硎緕，尤其當(dāng)z的維數(shù)很高時(shí)會產(chǎn)生過大的計(jì)算負(fù)擔(dān)，加劇了聯(lián)邦學(xué)習(xí)的通信效率問題。此外，用戶端的隱私數(shù)據(jù)配置文件也可能會泄露，這并不符合聯(lián)邦學(xué)習(xí)中隱私保護(hù)的需求。因此，一個(gè)更切實(shí)際的想法是恢復(fù)一個(gè)引導(dǎo)分布G^*：Y→W→Z，它定義在一個(gè)主潛在空間Z上，其中主潛在空間Z包含一個(gè)副潛在空間W，定義的雙潛在空間結(jié)構(gòu)比原始樣本數(shù)據(jù)空間更為緊湊，并且可以緩解用戶端之間相關(guān)隱私的潛在威脅，即

G^*=arg maxG：Y→W→ZΕ_Y_～P^（Y）［Ε_W_{～G（W|Y）}［Ε_Z_{～G（Z|W）}［∑Uu=1log P（Y|Z;θ^P_u）］］］（11）

根據(jù)上述推理，本文方法使用編碼器生成模型中的生成器部分，通過學(xué)習(xí)一個(gè)含有潛在空間生成器的條件生成器G來進(jìn)行知識的提取，參數(shù)化為m以優(yōu)化以下目標(biāo)：

minm J（m）：=Ε_Y_～P^（Y）

［Ε_W_{～Gm（W|Y）}［Ε_Z_{～Gm（Z|W）}［l（σ（1U∑Uu=1g（Z;θ^P_u）），Y）］］］（12）

其中：g（·）和σ（·）是對數(shù)輸出和激活函數(shù)。給定任意的樣本Y，優(yōu)化方程式（12）只需要訪問用戶端模型的預(yù)測層模塊θ^P_u。具體來說，為了實(shí)現(xiàn)G（·|Y）的多樣性輸出，采用再參數(shù)化技術(shù)，引入了高斯噪聲向量ε～N（0，1）到主潛在空間生成模型中的主生成器中，即

Z～G_m（·|W）≡G_m（W，ε|ε～N（0，1））（13）

其次，再把主生成器所產(chǎn)生的潛在空間數(shù)據(jù)樣本標(biāo)簽分布下的特征表示傳輸?shù)礁鄙善髦?，?/p>

W～G_m（·|Y）≡G_m（Y，ε|ε～N（0，1））（14）

由副生成器處理中間表示，主生成器生成多樣化的偽樣本數(shù)據(jù)。

給定任意目標(biāo)標(biāo)簽Y，所提含有潛在空間的副生成模型生成器可以產(chǎn)生Z～G_m（·|W）的副潛在空間特征表示，集成用戶端模型的知識誘導(dǎo)出理想的預(yù)測。換句話說，生成器誘導(dǎo)出的分布圖像和來自用戶端所組成的全局樣本數(shù)據(jù)是一致的。

3.3 知識蒸餾

將中央服務(wù)器所學(xué)習(xí)到的條件生成器G_m廣播給用戶端，以便每個(gè)用戶端模型可以從G_m中采樣，以獲得到潛在特征空間上的數(shù)據(jù)增強(qiáng)表示Z～G_m（·|W）。因此，用戶端模型θ_u的目標(biāo)被改變，以最大限度地提高它對增強(qiáng)的數(shù)據(jù)樣本產(chǎn)生理想預(yù)測的概率：

minθ_u J（θ_u）：=L^_u（θ_u）+E^_Y_～P^（Y），Z～G_m（Z|W），W～G_m（W|Y）［l（k（Z;θ^P_u）;Y）］（15）

其中：L^_u（θ_u）：=1|D^_u|∑X_i∈D^_u［l（k（f（c（X_i;θ^t）;θ^f）;θ^p），h^φ（X_i））］是給定的用戶端模型上局部數(shù)據(jù)D^_u的經(jīng)驗(yàn)損失。為提高對潛在空間標(biāo)簽數(shù)據(jù)分布特征的提取，對含有潛在空間生成模型的主生成器，在主生成器的全連接層之后、表示層之前，應(yīng)用條件多頭自注意力機(jī)制。此機(jī)制可以根據(jù)特定的融合策略條件來自適應(yīng)地學(xué)習(xí)標(biāo)簽數(shù)據(jù)分布內(nèi)部不同區(qū)域之間的關(guān)系，并生成對應(yīng)于不同條件的特定的注意力權(quán)重。

3.4 方法總結(jié)與算法流程

本文靈活地融合了編碼器架構(gòu)，并設(shè)計(jì)了一種由主生成器和嵌入其中的副生成器構(gòu)成的雙重生成模型。通過該模型，中央服務(wù)器能夠有效聚集本地用戶數(shù)據(jù)的分布特征，并將這種共識知識反饋給各本地用戶端。為了更準(zhǔn)確地捕捉潛在空間中標(biāo)簽數(shù)據(jù)的分布特性，本文采用了一種條件化的多頭自注意力機(jī)制，這不僅增強(qiáng)了模型對偽樣本數(shù)據(jù)多樣性的理解能力，還促進(jìn)了知識蒸餾過程的高效進(jìn)行。以下是FedLSG算法的偽代碼。

4 實(shí)驗(yàn)分析

為綜合評估本文提出的含有潛在空間生成器的雙生成器模型，本章在人為仿真劃分的數(shù)據(jù)場景下進(jìn)行了充分的實(shí)驗(yàn)。

4.1 實(shí)驗(yàn)設(shè)置

1）實(shí)驗(yàn)數(shù)據(jù)

在MNIST^［22^］、EMNIST^［23^］和CelebA^［24^］三個(gè)主要的圖像數(shù)據(jù)集上進(jìn)行了詳細(xì)的實(shí)驗(yàn)分析。MNIST數(shù)據(jù)集包含了28像素×28像素的單通道手寫數(shù)字圖像，涵蓋了0～9共10個(gè)類別，總共包括60 000張訓(xùn)練圖像和10 000張測試圖像，每個(gè)類別的訓(xùn)練圖像數(shù)量大約為6 000張。EMNIST數(shù)據(jù)集是MNIST的擴(kuò)展版本，不僅包含了手寫數(shù)字，還增加了手寫字母圖像。實(shí)驗(yàn)使用的EMNIST子集為EMNIST Letters，該子集中的圖像同樣為28像素×28像素的灰度圖像，包含1～26共26個(gè)字母類別的標(biāo)簽，代表字母A～Z。該子集共有145 600個(gè)樣本，每個(gè)字母類別大約有5 600張訓(xùn)練圖像和800張測試圖像。CelebA是一個(gè)大型名人面部圖像數(shù)據(jù)集，含有超過200 000張圖像，每張圖像都有40個(gè)屬性注解。本文依據(jù)LEAF FL基準(zhǔn)建議，使用CelebA數(shù)據(jù)集中的smiling屬性執(zhí)行二分類任務(wù)，即預(yù)測圖像中的名人是否正在微笑。MNIST和EMNIST數(shù)據(jù)集用于進(jìn)行數(shù)字和字符的分類任務(wù)，以評估所提模型的性能。

2）對比算法

將FedAvg、FedProx^［25^］、FedDistill、Fed-ensemble^［26^］和FedGen^［27^］五種經(jīng)典算法與本文FedLSG進(jìn)行對比實(shí)驗(yàn)。FedAvg作為聯(lián)邦學(xué)習(xí)領(lǐng)域的一個(gè)標(biāo)準(zhǔn)基線，其核心是直接利用客戶端訓(xùn)練數(shù)據(jù)計(jì)算經(jīng)驗(yàn)損失，以此作為局部優(yōu)化目標(biāo)。FedProx在每個(gè)客戶端的局部優(yōu)化目標(biāo)中引入了一個(gè)近端項(xiàng)，該項(xiàng)通過限制待訓(xùn)練的局部模型與初始全局模型之間的歐氏距離，幫助減少客戶端學(xué)習(xí)目標(biāo)與全局學(xué)習(xí)目標(biāo)之間的偏差。FedDistill采用了一種不需要數(shù)據(jù)的知識蒸餾（KD）方法，在客戶端之間通過共享對數(shù)向量的標(biāo)簽平均來進(jìn)行學(xué)習(xí)。Fed-ensemble通過整合所有客戶端模型的預(yù)測輸出，對FedAvg進(jìn)行了拓展。而FedGen則引入了一個(gè)輕量級的生成器，以集成用戶信息并將其廣播給所有客戶端。為確保實(shí)驗(yàn)的公平性，所有算法均采用相同的數(shù)據(jù)分配方法、通用神經(jīng)網(wǎng)絡(luò)模型以及部分實(shí)驗(yàn)參數(shù)進(jìn)行比較。

3）實(shí)驗(yàn)細(xì)節(jié)

所有實(shí)驗(yàn)均使用Python 3.7作為編程開發(fā)語言，開發(fā)環(huán)境為PyCharm，硬件配置為12th Gen Intel Core^TM i7-1260p 2.10 GHz，48 GB內(nèi)存，使用CPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型，操作系統(tǒng)為Windows 11，在PyTorch 1.12.1框架下實(shí)現(xiàn)。

將MNIST和EMNIST數(shù)據(jù)集按照不同的迪利克雷分布進(jìn)行劃分。MNIST數(shù)據(jù)集中采用總共有20個(gè)用戶端的用戶數(shù)據(jù)，其中α采用不同的值，分別為0.05、0.1和1，使用總訓(xùn)練樣本的50%作為訓(xùn)練比例，訓(xùn)練時(shí)隨機(jī)選擇10個(gè)用戶端參與模型的訓(xùn)練。EMNIST與MNIST數(shù)據(jù)處理方法不同的是，它使用總訓(xùn)練樣本的10%作為訓(xùn)練比例。CelebA劃分設(shè)置為25個(gè)用戶端數(shù)量，在25個(gè)用戶端數(shù)量中隨機(jī)選擇5、10和15個(gè)用戶端作為參與方的訓(xùn)練。在三個(gè)不同的數(shù)據(jù)集上，分別報(bào)告不同算法的全局平均測試準(zhǔn)確率。

實(shí)驗(yàn)中提出的基于潛在空間生成器模型的詳細(xì)介紹如下：

SecondaryGenerator該生成器用于處理中間表示，是一個(gè)多層全連接神經(jīng)網(wǎng)絡(luò)模型，輸入維度為input_dim，輸出維度也為input_dim。它包含多個(gè)隱藏層，每個(gè)隱藏層都是線性變換、批量歸一化、LeakyReLU激活函數(shù)和dropout層的組合。最后一層是線性變換層，將隱藏層的輸出映射回原始輸入維度。MainGenerator生成器是一個(gè)包含全連接層、條件多頭注意力機(jī)制、表示層和SecondaryGenerator生成器的混合模型。如果embedding為true，則使用嵌入層，否則使用獨(dú)熱編碼。該生成器使用全連接層將嵌入層或獨(dú)熱編碼與隨機(jī)高斯噪聲連接，連接多個(gè)全連接層，每個(gè)全連接層包括線性變換、批量歸一化和ReLU激活函數(shù)。在全連接層后添加額外的隱藏層，在全連接層之后表示層之前插入了條件多頭注意力機(jī)制層，最后使用表示層將全連接層的輸出映射到潛在空間中，期間使用SecondaryGenerator處理潛在空間的中間表示。

表1展示了實(shí)驗(yàn)中的通用參數(shù)的默認(rèn)值。為了確保所有算法達(dá)到經(jīng)驗(yàn)性的收斂，全局平均測試準(zhǔn)確率的實(shí)驗(yàn)中，默認(rèn)將每輪的全局通信次數(shù)設(shè)定為200次，一共進(jìn)行三輪實(shí)驗(yàn)。這樣做是因?yàn)樵诔浞值膶?shí)驗(yàn)下，算法的精度會比較準(zhǔn)確且不會產(chǎn)生精度增益的事實(shí)。

為了公平比較不同算法在各個(gè)參與方上的性能，本文的local model模型統(tǒng)一采用了標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。這一架構(gòu)包含卷積層、批量歸一化層、ReLU激活函數(shù)和全連接層，旨在輸出分類結(jié)果或logit特征向量。針對不同數(shù)據(jù)集（如EMNIST）的特性，實(shí)驗(yàn)中會相應(yīng)調(diào)整網(wǎng)絡(luò)參數(shù)，以確保模型能夠適應(yīng)各種數(shù)據(jù)環(huán)境。

4.2 結(jié)果分析

1）準(zhǔn)確性比較

表2、3分別展示了FedLSG與其他競爭算法在不同迪利克雷分布場景下，在三個(gè)不同數(shù)據(jù)集上所達(dá)到的全局平均測試準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明，無論在哪種數(shù)據(jù)集中，F(xiàn)edLSG普遍優(yōu)于其他聯(lián)邦學(xué)習(xí)算法。這一發(fā)現(xiàn)強(qiáng)有力地證明了雙生成器模型，其中包含潛在空間生成器在聯(lián)邦學(xué)習(xí)應(yīng)用中的有效性。

由表2、3可知，在不同的迪利克雷分布數(shù)據(jù)場景下，隨著α和γ的逐漸增大，六種算法表現(xiàn)出的性能差異有所不同。在MNIST和EMNIST中，六種算法的準(zhǔn)確度都有所提升，但是FedDistill卻在EMNIST下準(zhǔn)確率保持在一個(gè)相對穩(wěn)定的狀態(tài)。其中FedLSG在α=0.05和α=0.1參數(shù)設(shè)置下保持最高的準(zhǔn)確率，F(xiàn)edGen在α=1.0參數(shù)設(shè)置下保持最高的精度。不過，值得注意的是，F(xiàn)edLSG在α=1.0參數(shù)設(shè)置下與FedGen的準(zhǔn)確率相差不大。在CelebA中，隨著γ參數(shù)設(shè)置的不同，F(xiàn)edLSG都保持最高的準(zhǔn)確率。分析以上結(jié)果，推測出現(xiàn)這種情況的原因是：當(dāng)α=1.0時(shí)處于均勻迪利克雷分布中，用戶的異質(zhì)性差異較小，所以FedLSG的中間表征處理沒有充分發(fā)揮作用，導(dǎo)致其準(zhǔn)確率略低于FedGen。然而，當(dāng)用戶的異質(zhì)性差異較大時(shí)，F(xiàn)edLSG始終保持著最高的準(zhǔn)確率，這表明FedLSG在處理用戶異質(zhì)性問題上優(yōu)于對比算法。

2）通信輪次性能比較

為了探究在相同的通信輪次下，六種算法對全局平均測試準(zhǔn)確率的影響及其性能提升速度的差異，本實(shí)驗(yàn)選擇了MNIST中α=0.1和CelebA中γ=5/25數(shù)據(jù)集作為實(shí)驗(yàn)對象，并將通信輪次設(shè)定為100輪。通過對比這六種算法之間的性能提升速度，實(shí)驗(yàn)旨在深入理解各算法在不同應(yīng)用場景下的效果。實(shí)驗(yàn)結(jié)果詳見圖3、4。

從圖3、4的數(shù)據(jù)分析結(jié)果來看，在相同的100輪通信周期內(nèi)，F(xiàn)edLSG表現(xiàn)出相對于其他算法在快速達(dá)到高準(zhǔn)確率方面的顯著優(yōu)勢，并展現(xiàn)出更好的穩(wěn)定性。特別是在前20輪通信周期內(nèi)，F(xiàn)edLSG的準(zhǔn)確率提升速度超過了其他五種算法。這一結(jié)果證明了FedLSG能夠在較少的通信輪次中實(shí)現(xiàn)較高的全局平均測試準(zhǔn)確率，從而突顯其在效率和性能上的優(yōu)越性。

3）超參數(shù)分析

為了探究條件多頭自注意力機(jī)制中注意力頭數(shù)對提取圖像特征的影響，實(shí)驗(yàn)選擇CelebA中γ=10/25數(shù)據(jù)集作為實(shí)驗(yàn)對象。在實(shí)驗(yàn)中，設(shè)置了注意力頭數(shù)分別為16、32、64和128作為實(shí)驗(yàn)超參數(shù)，對數(shù)據(jù)集進(jìn)行了200次訓(xùn)練，共訓(xùn)練1輪，并觀察實(shí)驗(yàn)結(jié)果，結(jié)果如圖5所示。

從圖5的實(shí)驗(yàn)結(jié)果來看，在保持訓(xùn)練輪次不變的情況下，提升注意力機(jī)制的頭數(shù)可以提高模型在全局平均測試準(zhǔn)確率上的表現(xiàn)。這一現(xiàn)象可以歸因于更多的注意力頭使得模型能夠并行地聚焦于圖像的多個(gè)關(guān)鍵區(qū)域，進(jìn)而對圖像的語義內(nèi)容、局部細(xì)節(jié)及全局信息進(jìn)行更為全面的理解和捕捉。此外，通過擴(kuò)增多頭注意力機(jī)制，模型在處理輸入數(shù)據(jù)中的變異和噪聲時(shí)展現(xiàn)出更高的魯棒性。因此，這一實(shí)驗(yàn)結(jié)果明確地展示了條件多頭注意力機(jī)制中頭數(shù)的設(shè)置對模型性能具有顯著影響。

4）消融實(shí)驗(yàn)

為了深入了解潛在空間生成器對FedLSG性能的影響，本實(shí)驗(yàn)采用了一種消融實(shí)驗(yàn)方法對其進(jìn)行了評估。在這個(gè)實(shí)驗(yàn)設(shè)置中，未集成潛在空間生成器的模型被命名為FedLSG^*。通過這種對比，旨在揭示潛在空間生成器的具體貢獻(xiàn)。實(shí)驗(yàn)的結(jié)果匯總?cè)绫?所示。

根據(jù)表4的實(shí)驗(yàn)數(shù)據(jù)，搭載了潛在空間生成器的FedLSG在多數(shù)場合下的性能超越了未搭載潛在空間生成器的FedLSG^*，特別是在CelebA上，F(xiàn)edLSG的表現(xiàn)明顯優(yōu)于FedLSG^*。這些結(jié)果充分證明了潛在空間生成器對于提升FedLSG性能起著關(guān)鍵作用。

5 結(jié)束語

針對用戶數(shù)據(jù)異質(zhì)性這一挑戰(zhàn)，本文提出了一個(gè)創(chuàng)新的聯(lián)邦學(xué)習(xí)范式，它結(jié)合了潛在空間生成器、知識蒸餾和條件多頭注意力機(jī)制。這一范式有效地解決了用戶數(shù)據(jù)異質(zhì)性問題，同時(shí)在較少的通信輪次中實(shí)現(xiàn)了更快的精度提升。值得一提的是，通過生成的偽樣本既保持了數(shù)據(jù)標(biāo)簽的分布，又增強(qiáng)了隱私保護(hù)的能力。

通過在多個(gè)數(shù)據(jù)集上的精確度對比、通信效率的評估、超參數(shù)的深入分析和詳細(xì)的消融實(shí)驗(yàn)，證實(shí)了集成潛在空間生成器的FedLSG在可行性和性能優(yōu)勢方面的顯著優(yōu)勢。鑒于擴(kuò)散模型在近兩年的快速進(jìn)展，下一步計(jì)劃將研究重點(diǎn)轉(zhuǎn)向結(jié)合擴(kuò)散模型的生成模型，進(jìn)一步設(shè)計(jì)和優(yōu)化下一代的聯(lián)邦學(xué)習(xí)范式。

參考文獻(xiàn)：

［1］Smith J， Johnson A. Understanding user heterogeneity in the era of modern information society［J］. Journal of Information Science， 2020， 42（3）： 415-430.

［2］Jothimurugesan E， Hsieh K， Wang Jianyu， et al. Federated learning under distributed concept drift［C］// Proc of International Conference on Artificial Intelligence and Statistics. ［S.l.］： PMLR， 2023： 5834-5853.

［3］Chen J， Lin X， Wang Z. Label heterogeneity regularization for imba-lanced learning［J］. IEEE Trans on Pattern Analysis and Machine Intelligence， 2020， 42（9）： 2288-2302.

［4］McMahan B， Moore E， Ramage D， et al. Communication-efficient learning of deep networks from decentralized data［C］// Proc of Artificial Intelligence and Statistics. ［S.l.］： PMLR， 2017： 1273-1282.

［5］Konen J， Mcmahan H B， Yu F X， et al. Federated learning： strate-gies for improving communication efficiency［EB/OL］. （2017-10-30）. https：//arxiv.org/abs/1610.05492.

［6］Jeong E， Oh S， Kim H， et al. Communication-efficient on-device machine learning： federated distillation and augmentation under Non-IID private data ［EB/OL］. （2023-10-19）. https：//arxiv.org/abs/1811.11479.

［7］Itahara S， Nishio T， Koda Y， et al. Distillation-based semi-supervised federated learning for communication-efficient collaborative training with Non-IID private data ［J］. IEEE Trans on Mobile Computing， 2023， 22（1）： 191-205.

［8］Chen Yiqiang， Lu Wang， Qin Xin， et al. MetaFed： federated lear-ning among federations with cyclic knowledge distillation for persona-lized healthcare［J/OL］. IEEE Trans on Neural Networks and Learning Systems. （2023-07-28）. https：//doi.org/10.1109/TNNLS.2023.3297103.

［9］Mora A， Tenison I， Bellavista P， et al. Knowledge distillation for federated learning： a practical guide ［EB/OL］. （2022-11-09）. https：//arxiv.org/abs/2211.04742.

［10］Zhang Zhenyuan. FedDTG： federated data-free knowledge distillation via three-player generative adversarial networks［EB/OL］. （2022-10-14）. https：//arxiv.org/abs/2201.03169.

［11］Passerat-Palmbach J. FedGDKD： federated GAN-based data-free knowledge distillation for heterogeneous models［EB/OL］. （2022-06-20）. https：//api.semanticscholar.org/CorpusID：254198729.

［12］張紅艷，張玉，曹燦明. 一種解決數(shù)據(jù)異構(gòu)問題的聯(lián)邦學(xué)習(xí)方法［J］. 計(jì)算機(jī)應(yīng)用研究， 2024， 41（3）： 713-720. （Zhang Hongyan， Zhang Yu， Cao Canming. Effective method to solve problem of data heterogeneity in federated learning ［J］. Application Research of Computers， 2024， 41（3）： 713-720.）

［13］Tran M T， Le T， Le X M， et al. Text-enhanced data-free approach for federated class-incremental learning ［EB/OL］. （2024-03-21）. https：//arxiv.org/abs/2403.14101.

［14］Zhang Jianqing， Liu Yang， Hua Yang， et al. An upload-efficient scheme for transferring knowledge from a server-side pre-trained generator to clients in heterogeneous federated learning ［EB/OL］. （2024-03-23）. https：//arxiv.org/abs/2403.15760.

［15］Chen Huancheng， Wang J， Vikalo H， et al. The best of both worlds： accurate global and personalized models through federated learning with data-free hyper-knowledge distillation ［EB/OL］. （2023-04-09）. https：//arxiv.org/abs/2301.08968.

［16］Hinton G， Vinyals O， Dean J. Distilling the knowledge in a neural network［EB/OL］. （2015-03-09）. https：//arxiv.org/abs/1503.02531.

［17］Seo H， Park J， Oh S， et al. Federated knowledge distillation［EB/OL］. （2020-11-04）. https：//arxiv.org/abs/2011.02367.

［18］Maal?e L， S?nderby C K， S?nderby S K， et al. Auxiliary deep generative models ［EB/OL］. （2016-06-16）. https：//arxiv.org/abs/1602.05473.

［19］Hinton G E， Salakhutdinov R R. Reducing the dimensionality of data with neural networks［J］. Science， 2006， 313（5786）： 504-507.

［20］Pinheiro C L， Araújo M M， Barros Da Silva E A， et al. Variational autoencoder［M］// Variational Methods for Machine Learning with Applications to Deep Networks. Cham： Springer， 2021： 111-149.

［21］Vaswani A， Shazeer N， Parmar N， et al. Attention is all you need［C］// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2017： 6000-6010.

［22］Deng Li. The MNIST database of handwritten digit images for machine learning research ［best of the Web］［J］. IEEE Signal Processing Magazine， 2012， 29（6）： 141-142.

［23］Cohen G， Afshar S， Tapson J， et al. EMNIST： extending MNIST to handwritten letters［C］// Proc of International Joint Conference on Neural Networks. Piscataway， NJ： IEEE Press， 2017： 2921-2926.

［24］Liu Ziwei， Luo Ping， Wang Xiaogang， et al. Large-scale celebfaces attributes（CelebA） dataset［EB/OL］. （2016-07-29）. https：//mmlab.ie.cuhk.edu.hk/projects/CelebA.html.

［25］Li Tian， Sahu A K， Zaheer M， et al. Federated optimization in hetero-geneous networks［C］ // Proc of the 3rd Conference on Machine Learning and Systems. 2020： 429-450.

［26］Shi Naichen， Lai Fan， Kontar R A， et al. Fed-ensemble： improving generalization through model ensembling in federated learning［J］. IEEE Trans on Automation Science and Engineering， 2023， 21（3）： 2792-2803.

［27］Zhu Zhuangdi， Hong Junyuan， Zhou Jiayu. Data-free knowledge distillation for heterogeneous federated learning［C］// Proc of the 38th International Conference on Machine Learning. ［S.l.］： PMLR， 2021： 12878-12889.

［28］Dosovitskiy A， Beyer L， Kolesnikov A， et al. An image is worth 16×16 words： transformers for image recognition at scale ［EB/OL］. （2021-06-03）. https：//arxiv.org/abs/2010.11929.

［29］Song C H， Hwang T， Yoon J， et al. Conditional cross attention network for multi-space embedding without entanglement in only a single network［C］// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway， NJ： IEEE Press， 2023： 11078-11087.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于潛在空間生成器的聯(lián)邦知識蒸餾