李翰奇 王小妮 吳秋新 王燦 吳浪 杜俊龍 秦宇
摘 要:針對車聯(lián)網(wǎng)聯(lián)邦學(xué)習(xí)服務(wù)難以滿足用戶訓(xùn)練個性化模型的需求,提出一種創(chuàng)新性的車聯(lián)網(wǎng)聯(lián)邦學(xué)習(xí)模型定制化服務(wù)框架。該框架采用了一種融合設(shè)備貢獻(xiàn)度和數(shù)據(jù)集相似性的聯(lián)邦學(xué)習(xí)聚合算法,實現(xiàn)了個性化聯(lián)邦學(xué)習(xí)。該算法通過不同權(quán)重分配方式和相似性計算,使得不同用戶可以根據(jù)自己的需求和數(shù)據(jù)特征,選擇合適的模型訓(xùn)練方案。該框架還提出了一種雙重抽樣驗證方法,解決了模型性能和可信度問題;此外,利用智能合約支持?jǐn)?shù)據(jù)協(xié)作,保障了數(shù)據(jù)的安全性。實驗結(jié)果表明,提出算法在大多數(shù)實驗場景中表現(xiàn)出較高的準(zhǔn)確率,該框架可以顯著提高車聯(lián)網(wǎng)服務(wù)的個性化水平,同時保證模型的準(zhǔn)確性和可靠性。
關(guān)鍵詞:車聯(lián)網(wǎng); 聯(lián)邦學(xué)習(xí); 模型定制; 智能合約; 聚合算法
中圖分類號:TP181;U495 文獻(xiàn)標(biāo)志碼:A?文章編號:1001-3695(2024)05-007-1328-10
doi:10.19734/j.issn.1001-3695.2023.09.0416
Customized federated learning model framework and
algorithm enhancements for vehicular networks
Abstract:This paper proposed an innovative customized service framework for the federated learning model of the Internet of Vehicles(IoV), which addressed the difficulty of meeting the needs of users to train personalized models in IoV federated learning services. This framework adopted a federated learning aggregation algorithm that integrated device contribution and dataset similarity, achieving personalized federated learning. This algorithm used different weight allocation methods and similarity calculations to enable different users to choose appropriate model training schemes based on their own needs and data characteristics. The framework also proposed a dual sampling validation method to address model performance and credibility issues, and utilized smart contracts to support data collaboration, ensuring data security. The experimental results show that the proposed algorithm exhibits high accuracy in most experimental scenarios, and this framework can significantly improve the personalized level of IoV services while ensuring the accuracy and reliability of the model.
Key words:Internet of Vehicles; federated learning; personalized model; smart contracts; aggregation algorithms
0 引言
車聯(lián)網(wǎng)作為智能交通的重要組成部分,正逐步改變?nèi)藗兊某鲂蟹绞?。將車輛、道路基礎(chǔ)設(shè)施和互聯(lián)網(wǎng)連接起來,為駕駛員和交通管理部門提供了更多的信息和控制手段。為了實現(xiàn)這一連接和信息傳遞,車聯(lián)網(wǎng)服務(wù)商收集車輛各種形式的數(shù)據(jù),包括車輛的位置信息、車速、油耗、行駛路線、發(fā)動機(jī)狀態(tài)、車輛健康狀況、駕駛習(xí)慣、車內(nèi)環(huán)境數(shù)據(jù)等,這些數(shù)據(jù)通過車載傳感器、GPS定位系統(tǒng)、車輛控制單元等設(shè)備收集,隨后經(jīng)過處理和分析用于提供各種車聯(lián)網(wǎng)服務(wù),如實時交通信息、遠(yuǎn)程車輛診斷、智能導(dǎo)航、駕駛行為分析、車輛遠(yuǎn)程控制和保險定價等功能。這些數(shù)據(jù)的收集和分析有助于安全駕駛、提高燃油效率、降低維護(hù)成本,同時也為用戶提供更便捷、智能化的駕駛體驗。然而,隨之而來的數(shù)據(jù)隱私和安全問題也需要得到妥善解決,以保護(hù)用戶的個人信息和車輛的安全性。對此,谷歌提出一種保護(hù)隱私的機(jī)器學(xué)習(xí)方法——聯(lián)邦學(xué)習(xí)(federated lear-ning,F(xiàn)L)[1],其中模型服務(wù)商將訓(xùn)練模型發(fā)送給設(shè)備進(jìn)行本地訓(xùn)練,設(shè)備無須向模型服務(wù)商發(fā)送任何形式的本地數(shù)據(jù),而是將更新的模型參數(shù)交由模型服務(wù)商整合。這樣模型服務(wù)商可以把樣本和特征匯聚到一起,獲得更好的預(yù)測模型,同時增加了互不信任的各方參與聯(lián)邦學(xué)習(xí)的意愿。
然而,在設(shè)備上傳模型參數(shù)和模型服務(wù)商發(fā)送訓(xùn)練模型時仍然有隱私數(shù)據(jù)泄露的可能[2]。隨著區(qū)塊鏈技術(shù)的持續(xù)發(fā)展,基于區(qū)塊鏈技術(shù)搭建車聯(lián)網(wǎng)數(shù)據(jù)共享平臺可以實現(xiàn)安全、透明、不可竄改的數(shù)據(jù)記錄和交換,為車輛之間、車輛與交通基礎(chǔ)設(shè)施之間建立信任提供了新的方法,從而實現(xiàn)數(shù)據(jù)安全性和高參與度的結(jié)合,使得該系統(tǒng)適合車輛制造商、保險公司、道路管理機(jī)構(gòu)以及車主和駕駛員,為各方提供了一個安全、可信的數(shù)據(jù)交換平臺,推動了車聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用和進(jìn)一步創(chuàng)新。
在傳統(tǒng)聯(lián)邦學(xué)習(xí)中,模型聚合僅針對全局模型參數(shù),最終交付的是適用于所有參與方數(shù)據(jù)的單一全局模型。然而,不同用戶的應(yīng)用場景和需求差異巨大。例如:在車輛安全領(lǐng)域,一家汽車制造商可能更關(guān)心模型的實時性和穩(wěn)定性,以支持自動駕駛系統(tǒng)的實時決策;而一家保險公司可能更側(cè)重于模型的事故預(yù)測準(zhǔn)確性和風(fēng)險評估。面對這種模型服務(wù)需求的多樣性,如何有效地針對個性化需求來聚合模型參數(shù)以滿足不同用戶的需求,成為一個亟待解決的問題。
本文深入分析了車聯(lián)網(wǎng)中的具體問題和需求,提出了一種創(chuàng)新的解決方案,即結(jié)合聯(lián)邦學(xué)習(xí)和區(qū)塊鏈技術(shù)構(gòu)建一個面向車聯(lián)網(wǎng)的模型學(xué)習(xí)服務(wù)框架。在此框架中,提出了融合設(shè)備貢獻(xiàn)度和數(shù)據(jù)集相似性的聯(lián)邦學(xué)習(xí)聚合算法(contribution and simulated-based aggregation algorithm,CSBA)以及雙重抽樣驗證算法(double class-sampled validation-error scheme,D-CSVES)。這些方法的設(shè)計充分考慮了數(shù)據(jù)的異質(zhì)性,解決了客戶個性化需求的問題。本文主要貢獻(xiàn)如下:a)聯(lián)邦學(xué)習(xí)模式結(jié)合了長安鏈(ChainMaker)不可竄改和分布式的特性,針對車聯(lián)網(wǎng)數(shù)據(jù)隱私保護(hù)和模型安全更新需求,提出了一種基于區(qū)塊鏈和聯(lián)邦學(xué)習(xí)的車聯(lián)網(wǎng)數(shù)據(jù)共享和模型更新方法,使用智能合約操作車輛上傳數(shù)據(jù)和用戶業(yè)務(wù)請求數(shù)據(jù)的過程,以保證數(shù)據(jù)的隱私性和安全性;b)提出了一種基于數(shù)據(jù)相似性的聯(lián)邦學(xué)習(xí)聚合算法,允許在模型聚合過程中考慮不同用戶之間的數(shù)據(jù)相似性,從而更精確地個性化聚合模型參數(shù),滿足不同用戶的需求;c)提出一種改進(jìn)的雙重抽樣驗證算法,該算法能夠更有效地評估模型在聯(lián)邦學(xué)習(xí)環(huán)境中的性能并提供更可靠的性能度量,以支持模型的優(yōu)化和選擇。使用Python進(jìn)行模擬驗證系統(tǒng)的可行性,在MNIST數(shù)據(jù)集、CNN模型的情況下得到了出色的識別準(zhǔn)確率,為系統(tǒng)的可行性提供了有力的支持。
1 聯(lián)邦學(xué)習(xí)與區(qū)塊鏈
1.1 聯(lián)邦學(xué)習(xí)概述
聯(lián)邦學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個分支,它構(gòu)建了一種全新的機(jī)器學(xué)習(xí)模式,訓(xùn)練模型時無須將數(shù)據(jù)上傳到中央服務(wù)器,而是將模型參數(shù)在客戶端和服務(wù)器之間相互傳遞,以保護(hù)客戶端隱私。聯(lián)邦學(xué)習(xí)的工作流程如圖1所示,通常分為三個階段:
a)初始化模型下載。中央服務(wù)器初始化初始模型的參數(shù),然后將其作為全局模型廣播給聯(lián)邦學(xué)習(xí)環(huán)境中的客戶端。
b)本地模型更新??蛻舳耸褂帽镜厮接袛?shù)據(jù)對接收到的全局模型進(jìn)行訓(xùn)練,然后所有的客戶端將它們的本地模型參數(shù)發(fā)送到中央服務(wù)器。全局模型從本地模型參數(shù)的平均值中更新。同時,中央服務(wù)器可以在訓(xùn)練過程中隨時添加或者刪除客戶端。
c)全局模型下載。中央服務(wù)器將聚合后的全局模型廣播給所有客戶端,完成一次聯(lián)邦學(xué)習(xí)迭代,中央服務(wù)器上的模型會隨著迭代次數(shù)的增多變得更加符合目標(biāo)要求。
假設(shè)客戶端的總數(shù)為N,ni表示第i個客戶端的數(shù)據(jù)樣本數(shù)量。在輪數(shù)t,聯(lián)邦學(xué)習(xí)服務(wù)器隨機(jī)選擇一些客戶端kN(0<k≤1)組成客戶端群,并要求他們用自己的本地數(shù)據(jù)集更新全局模型。更新方式采用聯(lián)邦平均算法,數(shù)學(xué)表達(dá)式為
其中:wt表示模型在時間t時的更新,而wt+1是模型在時間(t+1)時的更新;此外,Δwit+1給出了客戶端i在全局參數(shù)中更新的改變量;η為全局聯(lián)邦學(xué)習(xí)模型的學(xué)習(xí)率。
聯(lián)邦學(xué)習(xí)通過重復(fù)b)c)階段,使用聚合算法不斷迭代全局模型,然后同步給全局所有客戶端。在聯(lián)邦學(xué)習(xí)的全局模型更新過程中,聚合算法發(fā)揮著至關(guān)重要的作用。例如,文獻(xiàn)[1]中谷歌的聯(lián)邦學(xué)習(xí)框架vanilla FL在獲得本地模型更新的參數(shù)后,中央服務(wù)器通過聯(lián)邦平均算法(federated averaging algorithm,F(xiàn)edAvg)計算所有本地模型更新的平均值作為全局模型的更新,但僅限于依據(jù)本地數(shù)據(jù)量占數(shù)據(jù)總量的比值進(jìn)行權(quán)重分配,然而僅基于本地數(shù)據(jù)量的比例可能導(dǎo)致某些設(shè)備對全局模型的貢獻(xiàn)不足,存在一定的優(yōu)化空間。Konecˇny'等人[3]提出了Federated- Averaging算法,即一種基于聯(lián)邦平均的聯(lián)邦學(xué)習(xí)聚合算法。該算法使用本地更新的梯度進(jìn)行全局模型的更新,并使用加權(quán)平均的方式來平衡設(shè)備的不可靠性。FederatedAveraging算法能夠在移動設(shè)備上實現(xiàn)聯(lián)邦學(xué)習(xí),并提高通信效率和設(shè)備的可靠性,但是對于數(shù)據(jù)的不平衡性和異質(zhì)性表現(xiàn)不佳。Nilsson等人[4]對三種聯(lián)邦學(xué)習(xí)算法進(jìn)行基準(zhǔn)測試,并將它們的性能與傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行比較,其中聯(lián)邦平均算法在聯(lián)邦算法中達(dá)到了最高的精度。文獻(xiàn)[5]證明了聯(lián)邦匹配平均(federated matched averaging,F(xiàn)edMA)算法與聯(lián)邦平均算法和FedProx算法相比,僅在幾輪迭代中表現(xiàn)良好。朱建明等人[6]根據(jù)模型質(zhì)量評估結(jié)果以及節(jié)點在協(xié)作過程中的信譽(yù)值評分調(diào)整模型聚合權(quán)重,增加高質(zhì)量模型參數(shù)在聚合模型中的貢獻(xiàn)度占比,從而提升聚合模型的準(zhǔn)確率。從以上聚合方式中可以發(fā)現(xiàn),不同的權(quán)重分配方法對于聯(lián)邦學(xué)習(xí)算法的性能有顯著影響。
1.2 長安鏈概述
長安鏈作為區(qū)塊鏈開源底層軟件平臺,包涵區(qū)塊鏈核心框架、豐富的組件庫和工具集,可以為用戶高效、精準(zhǔn)地解決差異化區(qū)塊鏈實現(xiàn)需求,構(gòu)建高性能、高可信、高安全的新型數(shù)字基礎(chǔ)設(shè)施,同時也是國內(nèi)首個自主可控區(qū)塊鏈軟硬件技術(shù)體系。在長安鏈的區(qū)塊結(jié)構(gòu)中,每個區(qū)塊由Header(區(qū)塊頭)、Dag(塊內(nèi)交易的執(zhí)行依賴順序)、Txs(塊內(nèi)交易列表)和AdditionalData(區(qū)塊產(chǎn)生以后附加的數(shù)據(jù))構(gòu)成。區(qū)塊結(jié)構(gòu)如圖2所示。其中,區(qū)塊頭包括了多個字段,如BlockVersion(區(qū)塊版本)、BlockType(區(qū)塊的類型)、ChainID(鏈標(biāo)識)、BlockHeight(區(qū)塊高度)、BlockHash(本區(qū)塊的散列值)等。
鑒于區(qū)塊鏈在數(shù)據(jù)隱私保護(hù)方面具有一定優(yōu)勢,越來越多的研究人員將其應(yīng)用到聯(lián)邦學(xué)習(xí)上。Zhao等人[7]提出了一種基于區(qū)塊鏈的隱私保護(hù)聯(lián)邦學(xué)習(xí)框架,在保護(hù)數(shù)據(jù)隱私和確保安全性的同時提高了模型的準(zhǔn)確性和收斂速度,但是可能會面臨區(qū)塊鏈的性能瓶頸;Wu等人[8]提出了一種基于區(qū)塊鏈的去中心化聯(lián)邦學(xué)習(xí)方法,可以提高計算效率,同時保證數(shù)據(jù)隱私和安全性;Lu等人[9]提出一種使用深度學(xué)習(xí)模型和差分隱私技術(shù)的車聯(lián)網(wǎng)數(shù)據(jù)隱私保護(hù)方案;Boualouache等人[10]提出了一種使用差分隱私和聯(lián)邦聚合技術(shù)方案來保護(hù)數(shù)據(jù)隱私和解決數(shù)據(jù)不平衡問題,方案中所有車輛的數(shù)據(jù)都被用于訓(xùn)練模型,但是當(dāng)不同車輛之間的數(shù)據(jù)存在明顯不平衡時會導(dǎo)致模型的學(xué)習(xí)性能下降;Kang等人[11]提出了一種可靠的聯(lián)邦學(xué)習(xí)激勵機(jī)制,結(jié)合了聲譽(yù)和合同理論以激勵高聲譽(yù)的移動設(shè)備參與模型學(xué)習(xí);Hu等人[12]提出了一種基于區(qū)塊鏈的實時分布式能源交易共識機(jī)制,解決了傳統(tǒng)共識機(jī)制在實時交易中的效率問題;Yuan等人[13]提出了一種名為ShadowEth的新型私秘智能合約方案,該方案基于以太坊公共區(qū)塊鏈,使用加密技術(shù)保護(hù)合約的隱私和安全性,但存在對合約的復(fù)雜性和可擴(kuò)展性等的限制問題;Wang等人[14]提出了一種基于區(qū)塊鏈的數(shù)據(jù)訪問控制和數(shù)據(jù)共享框架,可以在分散式存儲系統(tǒng)中實現(xiàn)細(xì)粒度的數(shù)據(jù)訪問控制和數(shù)據(jù)共享,使用智能合約來管理訪問控制策略,同時通過基于區(qū)塊鏈的加密技術(shù)保護(hù)數(shù)據(jù)的隱私性和安全性;Qu等人[15]通過將區(qū)塊鏈和聯(lián)邦學(xué)習(xí)結(jié)合實現(xiàn)了分散隱私保護(hù),并防止了霧計算場景中的單點故障,區(qū)塊鏈可以向聯(lián)邦學(xué)習(xí)參與者提供激勵;Lu等人[16]通過聯(lián)邦學(xué)習(xí)來構(gòu)建數(shù)據(jù)模型并共享,提出了一種新的區(qū)塊鏈?zhǔn)跈?quán)協(xié)作架構(gòu),通過分布式多方貢獻(xiàn)數(shù)據(jù)以降低數(shù)據(jù)泄露的風(fēng)險,使用基準(zhǔn)、開放的真實數(shù)據(jù)集對提出的模型的有效性進(jìn)行了評估;Martinez等人[17]建立了一種基于EOS區(qū)塊鏈的聯(lián)邦學(xué)習(xí)模式來保護(hù)數(shù)據(jù)安全,提出了一種為設(shè)備的數(shù)據(jù)類定制驗證集以進(jìn)行類抽樣錯誤驗證(class-sampled validation-error scheme,CSVES)的激勵機(jī)制方案,在訓(xùn)練之前,數(shù)據(jù)提供者會將使用的一部分分類數(shù)據(jù)提供給模型服務(wù)商,模型服務(wù)商在這些分類數(shù)據(jù)中隨機(jī)抽樣一批作為驗證數(shù)據(jù)集返還給數(shù)據(jù)提供者,當(dāng)訓(xùn)練完成之后,利用這些驗證數(shù)據(jù)集計算驗證集誤差,如果驗證集誤差是遞減的,則確認(rèn)所訓(xùn)練模型是有效的。以上過程均使用智能合約完成操作,以限制模型服務(wù)商與本地節(jié)點功能的重合。類抽樣驗證錯誤方案解決了獎勵用戶貢獻(xiàn)的不準(zhǔn)確或效率低下的問題,但是即便驗證了所有數(shù)據(jù)提供者提供的模型參數(shù)是有效的,通過取平均值的聯(lián)邦平均算法對模型聚合,對于模型的參數(shù)也是嚴(yán)重的浪費。
區(qū)塊鏈現(xiàn)在已經(jīng)向智能合約時代發(fā)展,智能合約技術(shù)是區(qū)塊鏈技術(shù)中的一個重要組成部分,它為開發(fā)者提供了一種去中心化、不可竄改的計算環(huán)境,使得各種應(yīng)用可以在區(qū)塊鏈上進(jìn)行安全、透明的執(zhí)行[18]。而智能合約在長安鏈上具有多種功能,如可以實現(xiàn)去中心化的數(shù)字貨幣交易、智能投票、鏈上游戲、供應(yīng)鏈追溯等。同時,長安鏈還提供了多種開發(fā)工具和部署工具,方便開發(fā)者進(jìn)行開發(fā)、測試和部署。
本文在提出的面向車聯(lián)網(wǎng)的聯(lián)邦學(xué)習(xí)模型定制框架中使用了長安鏈的智能合約,將智能合約作為協(xié)調(diào)各個參與方之間的通信和數(shù)據(jù)交互的角色。當(dāng)設(shè)備需要上傳本地數(shù)據(jù)時,使用智能合約進(jìn)行身份驗證和數(shù)據(jù)安全保護(hù),確保數(shù)據(jù)的完整性和隱私性。同時,智能合約還負(fù)責(zé)管理和控制聯(lián)邦學(xué)習(xí)算法的執(zhí)行過程,確保各個參與方的本地模型都能按照預(yù)定的流程進(jìn)行訓(xùn)練和更新。在全局模型更新過程中,智能合約通過調(diào)用聯(lián)邦學(xué)習(xí)聚合算法來計算所有本地模型的更新,生成全局模型更新結(jié)果并將其發(fā)送給各個參與方。通過這種方式能夠更加高效地利用各個設(shè)備產(chǎn)生的數(shù)據(jù),并保障數(shù)據(jù)的隱私和安全性。
2 面向車聯(lián)網(wǎng)的聯(lián)邦學(xué)習(xí)模型定制框架
2.1 需求分析
車聯(lián)網(wǎng)的特點是不同用戶之間的需求和數(shù)據(jù)具有顯著的差異,這些差異包括駕駛習(xí)慣、行車偏好、使用場景等。一輛自動駕駛車輛需要實時性,個人車主需要個性化服務(wù),而車隊管理系統(tǒng)需要協(xié)同性和效率,傳統(tǒng)的模型學(xué)習(xí)方法難以有效滿足多樣性的需求,因此聯(lián)邦學(xué)習(xí)模型服務(wù)框架必須具備靈活性以滿足這些多樣性需求,需要解決以下問題:a)個性化需求問題。車聯(lián)網(wǎng)用戶需要個性化的預(yù)測和分析服務(wù),如何根據(jù)用戶的特定需求為他們提供高度個性化的模型是一個重要問題。b)數(shù)據(jù)碎片化問題。車聯(lián)網(wǎng)中的數(shù)據(jù)通常分散在不同的車輛和用戶側(cè),如何有效地協(xié)同利用這些分布式的數(shù)據(jù)以提高模型的泛化性能。c)數(shù)據(jù)隱私和安全問題。用戶的車聯(lián)網(wǎng)數(shù)據(jù)包含敏感信息,如行駛軌跡和車輛狀態(tài),如何確保數(shù)據(jù)的隱私性和安全性,以及如何建立可信任的數(shù)據(jù)交互環(huán)境。d)聯(lián)邦學(xué)習(xí)與區(qū)塊鏈整合問題。在解決上述問題時,如何充分利用聯(lián)邦學(xué)習(xí)方法來處理分布式數(shù)據(jù)和個性化需求,并將其與區(qū)塊鏈技術(shù)相結(jié)合以確保數(shù)據(jù)的可信任交互和隱私安全。
2.2 面向車聯(lián)網(wǎng)的聯(lián)邦學(xué)習(xí)模型定制化服務(wù)框架
基于上述需求和問題,設(shè)計面向車聯(lián)網(wǎng)的聯(lián)邦學(xué)習(xí)模型定制化服務(wù)框架。該框架如圖3所示。
主要包括以下組成部分:
a)長安鏈及智能合約。本框架首先在長安鏈上部署一套智能合約,以支撐車輛側(cè)、用戶側(cè)和模型服務(wù)商側(cè)建立實現(xiàn)模型定制化服務(wù)的聯(lián)邦學(xué)習(xí),通過智能合約為各方提供可信交互方式并保障數(shù)據(jù)的安全性和隱私性。
b)用戶側(cè)。在框架中,用戶側(cè)存在不同類型的用戶,包括車輛、個人和車聯(lián)網(wǎng)特定應(yīng)用系統(tǒng)等。用戶側(cè)的每個用戶都可以根據(jù)自身需求向模型服務(wù)商申請模型定制化服務(wù),用戶通過長安鏈及智能合約與模型服務(wù)商交互,完成模型定制需求提交、聚合模型有效性上傳和模型獲取等操作。
c)車輛側(cè)。在框架中,車輛側(cè)是車聯(lián)網(wǎng)運(yùn)行數(shù)據(jù)的持有者,每一輛車都可能含有一些特定的數(shù)據(jù)類型,并通過長安鏈及智能合約參與到模型服務(wù)商組織的聯(lián)邦學(xué)習(xí)中。車輛計算出本地數(shù)據(jù)類的頻率分布,提交給模型服務(wù)商用于支持聚合算法;在每一輪的聯(lián)邦學(xué)習(xí)中,參與學(xué)習(xí)的車輛首先獲取模型服務(wù)商的模型參數(shù),然后使用本地數(shù)據(jù)訓(xùn)練產(chǎn)生本輪本地模型,并使用從模型服務(wù)商獲取的分類抽樣驗證集對本地模型進(jìn)行驗證,最后將模型參數(shù)和驗證結(jié)果發(fā)送給模型服務(wù)商。
d)模型服務(wù)商側(cè)。模型服務(wù)商側(cè)在框架中扮演兩個角色,一個是基于長安鏈開發(fā)和部署一套支撐聯(lián)邦學(xué)習(xí)的智能合約,另一個是基于用戶側(cè)的定制化服務(wù)需求組織車輛側(cè)的聯(lián)邦學(xué)習(xí)。模型服務(wù)商獲取用戶側(cè)的模型定制化需求,接收車輛側(cè)的各車輛本地數(shù)據(jù)類的頻率分布,并基于該分布生成分類抽樣驗證集,然后發(fā)送給該車輛。組織每一輪的聯(lián)邦學(xué)習(xí),首先下發(fā)模型供車輛側(cè)訓(xùn)練,然后接收各車輛的本地模型和驗證結(jié)果,并根據(jù)聚合算法進(jìn)行參數(shù)更新和模型聚合;經(jīng)過多輪聯(lián)邦學(xué)習(xí)后,將所形成的模型交付給用戶側(cè),用戶側(cè)驗證有效則完成定制化服務(wù)任務(wù),否則繼續(xù)進(jìn)行訓(xùn)練直到用戶驗證通過。
面向車聯(lián)網(wǎng)的聯(lián)邦學(xué)習(xí)模型定制化服務(wù)框架融合用戶側(cè)、車輛側(cè)、模型服務(wù)商側(cè),構(gòu)建了一套新型聯(lián)邦學(xué)習(xí)模式,該模式采用長安鏈智能合約保障聯(lián)邦學(xué)習(xí)交互的可信與安全,并將雙重抽樣驗證融入聯(lián)邦學(xué)習(xí)過程,大大提升了定制化模型的適用性。
2.3 智能合約設(shè)計
為了支撐服務(wù)體系需要創(chuàng)建一個智能合約,由模型服務(wù)商部署在長安鏈上,并授權(quán)用戶和車輛可以調(diào)用智能合約的函數(shù)。函數(shù)列表如表1所示。
在這些函數(shù)中,由用戶和車輛調(diào)用的函數(shù)主要用于將用戶模型定制需求、車輛模型參數(shù)和數(shù)據(jù)類頻率分布寫入?yún)^(qū)塊中,由模型服務(wù)商調(diào)用的函數(shù)主要用于獲取用戶和車輛寫入的內(nèi)容以及基于車輛本地數(shù)據(jù)類頻率分布生成分類抽樣驗證集。verifyModelParameters()和verifyDataSet()函數(shù)則用于用戶和車輛進(jìn)行模型參數(shù)驗證和結(jié)果驗證。
2.4 聯(lián)邦學(xué)習(xí)模型定制化服務(wù)運(yùn)行流程
面向車聯(lián)網(wǎng)的聯(lián)邦學(xué)習(xí)模型定制化服務(wù)的具體運(yùn)行流程如下:a)智能合約部署。O需要在長安鏈平臺上部署所設(shè)計的智能合約,以支持用戶側(cè)Uj、車輛側(cè)Di與模型服務(wù)商之間的可信安全交互。b)Uj提交模型定制需求。如圖4所示,Uj通過調(diào)用submitRequirement()將自己需求的模型所偏好的數(shù)據(jù)類頻率分布CU寫入?yún)^(qū)塊中,以便O進(jìn)行處理。c)Di生成并提交本地數(shù)據(jù)的數(shù)據(jù)類頻率分布。如圖5所示,Di通過調(diào)用submitParameter()將自己的本地數(shù)據(jù)分布CD寫入?yún)^(qū)塊中,以便O獲取。
d)O依據(jù)車輛數(shù)據(jù)類頻率分布生成分類抽樣驗證集vsi。如圖5所示,O依據(jù)getParameters()獲取的車輛數(shù)據(jù)類頻率分布CD,通過調(diào)用generateDataSet()向車輛Di提供隨機(jī)大小的分類抽樣驗證集vsi,并在智能合約中進(jìn)行隱私保護(hù)措施。
e)O聚合模型。聚合過程如圖6所示,分成兩個階段,第一階段為權(quán)重wki的分配,第二階段是模型聚合和本地訓(xùn)練。
(a)采用三種不同算法(具體見3.2~3.4節(jié))實現(xiàn)權(quán)重分配。若采用3.2節(jié)的CBA聚合算法,O收到vki后會根據(jù)vki進(jìn)行聚合時每個Di的權(quán)重w的分配;若采用3.3節(jié)的SBA聚合算法,O收到CU和CD后,會根據(jù)CU與CD間的相似性進(jìn)行聚合時每個Fi的權(quán)重w的分配;若采用3.4節(jié)的CSBA聚合算法,O收到vki與CU和CD后,會根據(jù)vki、CU和CD間的相似性進(jìn)行聚合時每個Di的權(quán)重w的分配。
(b)O利用計算出的車輛權(quán)重聚合模型Mj,然后將生成的Mj返回給Uj。每個車輛Di在訓(xùn)練過程中都有Mj的Tki副本以及當(dāng)前版本vi=k,k表示第k輪,每個車輛Di∈D在接收到第k個模型Tki時,使用其大小為ni的本地數(shù)據(jù)di離線訓(xùn)練模型Tki以獲得更新的模型,然后計算梯度δi=Tk+1i-Tki,將δi的值和Tki同時上傳給O。
f)O下發(fā)模型參數(shù)。如圖6所示,O通過調(diào)用setModelParameters()將模型參數(shù)Tik寫入?yún)^(qū)塊中,供Di獲取。
g)Di獲取模型參數(shù)。如圖6所示,每一輪O發(fā)放本地模型時,Di可以通過調(diào)用getModelParameters()從區(qū)塊中獲取模型參數(shù)Tik。
h)Di進(jìn)行本地模型訓(xùn)練。如圖6所示,車輛Di進(jìn)行本地模型訓(xùn)練,然后將δi、vi作為交易從鏈上發(fā)送給與Di連接的區(qū)塊。從車輛Di上傳交易所需的參數(shù),如表2所示。
i)Di驗證數(shù)據(jù)集并提交結(jié)果。本框架采用的雙重抽樣驗證分成兩個階段,第一重分類抽樣驗證為車輛本地分類抽樣驗證,如圖5所示,第二重分類抽樣驗證是用戶個性化驗證,如圖7所示。圖5中Di驗證數(shù)據(jù)集并將驗證結(jié)果通過調(diào)用verifyDataSet()寫入?yún)^(qū)塊中,以便O獲取。
在第一重抽樣驗證中,如步驟d)所述,Di與O通過交互生成供Di驗證的數(shù)據(jù)集vsi,Di根據(jù)O設(shè)定的輪次(如每l輪開展一次驗證)驗證模型參數(shù),然后將驗證結(jié)果vki通過智能合約發(fā)送給O。第二重抽樣驗證將在步驟l)開始進(jìn)行。
j)O獲取驗證結(jié)果。如圖5所示,O通過getVerificationResult()獲取Di的驗證結(jié)果vki。如果聯(lián)邦學(xué)習(xí)還在設(shè)定的輪數(shù)內(nèi),繼續(xù)按步驟e)~j)進(jìn)行聯(lián)邦學(xué)習(xí),直到設(shè)定的輪數(shù)完成。
k)O向Uj交付模型參數(shù)。如圖6所示,O通過調(diào)用setModelParameters()將全局模型Mj寫入?yún)^(qū)塊中,供Uj獲取。
l)Uj獲取模型參數(shù)。如圖7所示,本步驟開始進(jìn)行第二重分類抽樣驗證,Uj可以通過調(diào)用getModelParameters()從區(qū)塊中獲取Mj。
m)Uj提交模型反饋。Uj通過verifyModelParameters()對接收到的Mj進(jìn)行驗證,如果驗證準(zhǔn)確率大于設(shè)定的模型驗證閾值θ,則認(rèn)可Mj,接受該模型,并將驗證結(jié)果result置為true;否則,將result置為false。然后通過調(diào)用submitModelFeedback()寫入?yún)^(qū)塊中,以便O獲取。
n)O獲取模型反饋。如圖7所示,O通過調(diào)用getModel-Feedback()獲取Uj的模型反饋result,如果為true,則結(jié)束聯(lián)邦學(xué)習(xí),完成Uj的模型定制化服務(wù);否則繼續(xù)進(jìn)行τ輪聯(lián)邦學(xué)習(xí)訓(xùn)練(τ是事先由O確定),然后再按步驟m)n)對所訓(xùn)練的模型進(jìn)行驗證。如此重復(fù),直到Uj接受O所訓(xùn)練的模型,完成模型定制化服務(wù)。
2.5 Petri網(wǎng)建模與分析
本文采用Petri網(wǎng)建模仿真工具PIPE構(gòu)建模型和仿真驗證,Petri網(wǎng)的設(shè)計如圖8所示,庫所和變遷的定義如表3所示,對面向車聯(lián)網(wǎng)的聯(lián)邦學(xué)習(xí)模型定制化服務(wù)框架Petri網(wǎng)的模型死鎖、安全性和有界性進(jìn)行檢驗。
利用PIPE仿真工具對Petri網(wǎng)系統(tǒng)的死鎖、有界性和活性進(jìn)行仿真分析的結(jié)果如表4所示。使用Petri網(wǎng)PIPE仿真工具對面向車聯(lián)網(wǎng)的聯(lián)邦學(xué)習(xí)模型定制化服務(wù)框架進(jìn)行仿真分析,驗證了該框架的Petri網(wǎng)模型具有有界性、安全性和活性,表明該框架在實際應(yīng)用系統(tǒng)開發(fā)中是可靠、可行的。
3 算法改進(jìn)
3.1 模型參數(shù)更新計算
在2.1~2.3節(jié)所描述的服務(wù)框架中,用戶Uj希望訓(xùn)練一個能夠適應(yīng)其數(shù)據(jù)類的模型。如圖4所示,Uj首先將自己的模型需求(需要預(yù)測的數(shù)據(jù)類CU)傳遞給模型服務(wù)商O,與此同時,每個車輛Di也加載本地數(shù)據(jù),提取本地數(shù)據(jù)的數(shù)據(jù)類CD發(fā)送給O。為了完成定制化模型需求,O收到CU與CD后,會根據(jù)CU與CD間的相似性進(jìn)行聚合時每個Di的權(quán)重w的分配,最后利用計算出的車輛權(quán)重聚合模型Mj∈M,然后O會將生成的Mj返回給Uj。O聚合初始模型T0i將所有權(quán)重初始化為ω~N(0,1)。用更新的δi對模型進(jìn)行聚合以計算T1i,定義ωkl為T0i中的第k輪第l個參數(shù),δki,l為第k輪第i個車輛的第l個參數(shù)的變化量,bk表示第k輪參與者的數(shù)量,η是學(xué)習(xí)率,wki是根據(jù)所選擇的算法第k輪分配的權(quán)重。訓(xùn)練模型應(yīng)用更新為
若聚合后的最新版本是版本k,則將Tki命名為Mj,稱為全局模型。
3.2 基于設(shè)備貢獻(xiàn)度的聯(lián)邦學(xué)習(xí)聚合算法
本節(jié)提出一種基于設(shè)備貢獻(xiàn)度的聚合 (contribution-based aggregation,CBA) 算法,旨在通過將設(shè)備本地驗證準(zhǔn)確率作為權(quán)重對模型參數(shù)的聚合產(chǎn)生影響,使得準(zhǔn)確率高的車輛訓(xùn)練參數(shù)對總體模型參數(shù)聚合的影響大,準(zhǔn)確率低的車輛訓(xùn)練參數(shù)對總體模型參數(shù)聚合的影響小。
在CBA算法中,每輛車的本地數(shù)據(jù)的驗證準(zhǔn)確率來自于雙重抽樣驗證(具體見3.4節(jié))的第一重抽樣驗證的分類抽樣結(jié)果,即驗證準(zhǔn)確率,作為貢獻(xiàn)度發(fā)送給模型服務(wù)商。模型服務(wù)商根據(jù)每個設(shè)備的貢獻(xiàn)度來分配其權(quán)重,然后利用加權(quán)平均的方式對模型參數(shù)進(jìn)行聚合。假設(shè)模型服務(wù)商為第i個車輛提供分類抽樣驗證集vsi,第i個車輛基于自身第k輪訓(xùn)練模型對vsi進(jìn)行驗證,得到模型驗證準(zhǔn)確率vki為
其中:TPki表示第i個車輛第k輪把正樣本判斷為正樣本的樣本數(shù)量;TNki表示把正樣本判斷為負(fù)樣本的樣本數(shù)量;FPki表示將負(fù)樣本判斷為正樣本的樣本數(shù)量;FNki表示將負(fù)樣本判斷為負(fù)樣本的樣本數(shù)量。依據(jù)模型驗證準(zhǔn)確率vki計算第k輪第i個車輛的模型權(quán)重wki為
3.3 基于數(shù)據(jù)集相似性的聯(lián)邦學(xué)習(xí)聚合算法
本節(jié)提出基于數(shù)據(jù)集相似性的聯(lián)邦學(xué)習(xí)聚合 (simulated-based aggregation,SBA)算法,數(shù)據(jù)集相似性是通過兩個數(shù)據(jù)集在數(shù)據(jù)類分布上的“距離”來定義。這里兩個數(shù)據(jù)集的數(shù)據(jù)類分布的“距離”采用信息論中的相對熵或者KL散度來定義。SBA算法旨在通過將數(shù)據(jù)集相似性作為權(quán)重對模型參數(shù)的聚合產(chǎn)生影響,使得相似性大的車輛訓(xùn)練參數(shù)對總體模型參數(shù)聚合的影響大,相似性小的車輛訓(xùn)練參數(shù)對總體模型參數(shù)聚合的影響小。
對提出定制化模型服務(wù)需求的用戶,可以用數(shù)據(jù)類分布CU={CU(k),k=1,2,…,p}來刻畫其模型定制需求,其中CU(k)為用戶第k個數(shù)據(jù)類的頻率。第i個車輛的數(shù)據(jù)類分布設(shè)為CDi={CDi(k),k=1,2,…,p},其中CDi(k)為第i個車輛第k個數(shù)據(jù)類的頻率,則第i個車輛與用戶的數(shù)據(jù)類分布的KL散度為
因為KL散度可以刻畫兩個概率分布之間的“距離”,所以兩個數(shù)據(jù)集的相似性可以采用散度的倒數(shù)來表示,距離小相似性就大,距離大相似性就小。但當(dāng)兩個分布完全相同時,KL散度的值為0,其倒數(shù)為無窮大,導(dǎo)致相似性為無窮大,因此需要進(jìn)行適當(dāng)調(diào)整。兩個數(shù)據(jù)集相似性計算調(diào)整如下:
為確保各個車輛的權(quán)重之和為1,將每個車輛的權(quán)重歸一化:
3.4 基于融合設(shè)備貢獻(xiàn)度和數(shù)據(jù)集相似性的聯(lián)邦學(xué)習(xí)聚合算法
本節(jié)提出融合設(shè)備貢獻(xiàn)度和數(shù)據(jù)集相似性的聯(lián)邦學(xué)習(xí)聚合算法(CSBA),旨在通過融合本地驗證準(zhǔn)確率和數(shù)據(jù)集相似性作為權(quán)重對模型參數(shù)的聚合產(chǎn)生影響,使準(zhǔn)確率高并且相似性大的車輛訓(xùn)練參數(shù)對總體模型參數(shù)聚合的影響加大,準(zhǔn)確率低或者相似性小的車輛訓(xùn)練參數(shù)對總體模型參數(shù)聚合的影響減小。
假設(shè)模型服務(wù)商為第i個車輛提供分類抽樣驗證集vsi,并設(shè)定提出定制化模型服務(wù)需求的用戶,其數(shù)據(jù)類分布為
3.5 基于CBA或CSBA及雙重分類抽樣驗證的聯(lián)邦學(xué)習(xí)算法
本文提出的基于CBA-CSBA雙重分類抽樣驗證算法(D-CSVES)旨在解決聯(lián)邦學(xué)習(xí)中的數(shù)據(jù)隱私和模型準(zhǔn)確性問題,利用模型服務(wù)商和車輛之間的雙重抽樣來驗證車輛本地數(shù)據(jù)的貢獻(xiàn)度并提高全局模型的準(zhǔn)確性。
在第一重抽樣驗證中,車輛的本地數(shù)據(jù)類CD被提取出來,并從屬于O的鏈下數(shù)據(jù)集中接收僅從CD的類中選擇的數(shù)據(jù)點的驗證集,并發(fā)送給車輛;車輛利用該數(shù)據(jù)集周期性地對本地模型進(jìn)行驗證,然后將驗證結(jié)果發(fā)送回模型服務(wù)商,如果驗證結(jié)果較優(yōu)秀,說明模型參數(shù)是一個有價值且有效的更新。選擇CBA算法用于改善聚合模型的效果。
在第二重抽樣驗證中,模型服務(wù)商將聚合起來的模型Mk交付給用戶Uj,Uj利用本地數(shù)據(jù)對模型進(jìn)行驗證并將結(jié)果發(fā)送給模型服務(wù)商;然后對驗證結(jié)果相似的用戶進(jìn)行聚類分析,以更加深入地了解不同用戶對模型的驗證結(jié)果。通過對每個用戶類別進(jìn)行統(tǒng)計分析,可以得出該類別用戶的平均驗證準(zhǔn)確率、標(biāo)準(zhǔn)差、最大值、最小值等指標(biāo),這些指標(biāo)用于評估模型的性能,并為進(jìn)一步改進(jìn)模型提供參考。同時將驗證結(jié)果與用戶屬性、地理位置等信息進(jìn)行關(guān)聯(lián)分析,探索驗證結(jié)果與用戶特征之間的關(guān)系。例如:可以將用戶按照年齡、性別、教育程度等屬性進(jìn)行分類,然后比較不同類別用戶的驗證結(jié)果,看是否存在顯著差異;也可以考慮將用戶按照地理位置進(jìn)行分類,然后比較不同地區(qū)用戶的驗證結(jié)果,探索是否存在地域差異等。通過第二重驗證結(jié)果與用戶特征的關(guān)聯(lián)分析可以為模型的個性化優(yōu)化提供支持。如果發(fā)現(xiàn)某些用戶群體在模型驗證中表現(xiàn)不佳,可以進(jìn)一步分析他們的特征,從而針對性地優(yōu)化模型,提高模型的適用性和泛化能力。通過這種雙重抽樣驗證的方式,可以有效驗證車輛本地數(shù)據(jù)的貢獻(xiàn)度,并提高全局模型的準(zhǔn)確性。
算法1 基于CBA或CSBA的雙重分類抽樣驗證算法
輸入:聯(lián)邦學(xué)習(xí)中的用戶U,車輛Di(i=1,2,…,n);聚合的模型Mk;用戶接受的模型驗證閾值θ。
輸出:本地模型分類驗證結(jié)果vki,用戶驗證結(jié)果result。
1)車輛
輸入:分類抽樣驗證集vsi。
輸出:本地模型分類驗證結(jié)果vki。
for e=1,2,…,epoch do
for i=1,2,…,n do
根據(jù)驗證集vsi對車輛Di本地模型Tki進(jìn)行驗證,驗證結(jié)果為vki;
end for
將驗證結(jié)果vki發(fā)送回模型服務(wù)商;
end for
2)模型服務(wù)商
輸入:聚合的模型Tki,用戶Uj的本地數(shù)據(jù),用戶驗證結(jié)果result。
輸出:用戶驗證結(jié)果result。
while result!=1 do
for i=1,2,…,bk do
for k=1,2,…,p do
if CDi(k)>0 then
從鏈下數(shù)據(jù)集SO中隨機(jī)取一個大小為m的樣本vs[k]i組成vsi;
end if
end for
將vsi發(fā)送給第i個車輛;
end for
//等待車輛發(fā)送的分類抽樣驗證結(jié)果vki
if 采用CBA算法
根據(jù)式(4)計算Di的權(quán)重wki;
else if 采用CSBA算法
根據(jù)式(9)計算Di的權(quán)重wki;
//聚合模型
result=將聚合的模型Mk交付給用戶Uj;
end while
3)用戶
輸入:用戶本地數(shù)據(jù)ui,全局模型Mk,用戶接受的模型驗證閾值θ。
輸出:用戶驗證結(jié)果result。
從模型服務(wù)商處接收聚合的模型Mk;
利用本地數(shù)據(jù)ui對模型進(jìn)行驗證;
result=θ;
if 驗證結(jié)果>θ do
result=1;
將驗證結(jié)果result發(fā)送回模型服務(wù)商。
3.6 基于SBA的聯(lián)邦學(xué)習(xí)算法
算法2 基于數(shù)據(jù)相似性的聯(lián)邦學(xué)習(xí)算法
輸入:聯(lián)邦學(xué)習(xí)中的用戶U;用戶的數(shù)據(jù)集ui;車輛Di(i=1,2,…,n);車輛的數(shù)據(jù)集di;聯(lián)邦學(xué)習(xí)模型Tki。
輸出:服務(wù)商聚合后的全局模型Mglobal。
1)車輛層面
輸入:車輛Di;車輛數(shù)據(jù)集di;聯(lián)邦學(xué)習(xí)模型Tik。
輸出:車輛本地數(shù)據(jù)集的數(shù)據(jù)類CDi;模型梯度δi。
for e=1,2,…,epoch do
for i=1,2,…,n do
將本地數(shù)據(jù)集的數(shù)據(jù)類CDi發(fā)送給模型服務(wù)商;
Di使用本地數(shù)據(jù)集di離線訓(xùn)練聯(lián)邦學(xué)習(xí)第k個模型Tki,得到更新的模型Tki;
將梯度計算為δi=Tk+1i-Tki并發(fā)送給模型服務(wù)商;
end for
end for
2)模型服務(wù)商層面
輸入:用戶Uj本地數(shù)據(jù)集的數(shù)據(jù)類CUj;車輛Di本地數(shù)據(jù)集的數(shù)據(jù)類CDi;模型梯度δi。
輸出:聯(lián)邦學(xué)習(xí)模型Tki;服務(wù)商聚合后的全局模型Mj。
for e=1,2,…,epoch do
for i=1,2,…,n do
根據(jù)式(7)計算Di的數(shù)據(jù)類CDi和用戶Uj的數(shù)據(jù)類CUj的數(shù)據(jù)相似度權(quán)重wki;
end for
根據(jù)式(2)計算聯(lián)邦學(xué)習(xí)模型Tki中的每個參數(shù)ωki;
將聯(lián)邦學(xué)習(xí)模型Tki發(fā)送給每個車輛;
end for
將聯(lián)邦學(xué)習(xí)模型Tki更新到模型服務(wù)商的全局模型Mj上;
返回服務(wù)商聚合后的模型Mj;
3)用戶層面
輸入:服務(wù)商聚合后的模型Mj;用戶本地的數(shù)據(jù)集ui。
輸出:無。
將本地數(shù)據(jù)集的數(shù)據(jù)類CU發(fā)送給模型服務(wù)商。
4 實驗結(jié)果及分析
4.1 數(shù)據(jù)集和實驗場景設(shè)置
本文實驗采用MNIST數(shù)據(jù)集進(jìn)行實驗,每個實驗場景車輛側(cè)設(shè)定5輛車,每輛車擁有不同的數(shù)據(jù)類頻率分布、模型服務(wù)商;用戶側(cè)設(shè)定為1名用戶,進(jìn)行聯(lián)邦學(xué)習(xí)模型的訓(xùn)練與評估。實驗設(shè)置如下:本文設(shè)計了16種實驗場景,每個場景中設(shè)定用戶模型定制需求的數(shù)據(jù)類及分布、每輛車擁有的數(shù)據(jù)類及其分布。每個實驗場景中,模型服務(wù)商還需根據(jù)不同實驗場景下各車輛的數(shù)據(jù)類及分布生成各自的分類抽樣驗證集,而每個用戶將依據(jù)其數(shù)據(jù)類及分布為定制模型生成其分類抽樣驗證集。在每個實驗場景中,四個算法FedAvg、CBA、SBA、CSBA分別運(yùn)行50次,每次進(jìn)行10輪聯(lián)邦學(xué)習(xí)通信,而每一輪聯(lián)邦學(xué)習(xí)每輛車要進(jìn)行10輪本地學(xué)習(xí)。針對這16種實驗場景,分成兩種實驗?zāi)J剑篴)選出每種算法在10輪聯(lián)邦學(xué)習(xí)通信的準(zhǔn)確率均值最高的結(jié)果,并呈現(xiàn)其曲線結(jié)果;b)選出每種算法在第10輪聯(lián)邦學(xué)習(xí)通信的準(zhǔn)確率最高的結(jié)果。
4.2 實驗結(jié)果分析
在16種實驗場景中,針對實驗?zāi)J絘),從實驗場景中選擇設(shè)置如表5~8所示的4種場景,實驗結(jié)果如圖9~12所示,其中包含10輪聯(lián)邦學(xué)習(xí)通信后,使用用戶驗證集進(jìn)行測試的模型損失曲線和準(zhǔn)確率曲線。
實驗1的結(jié)果如圖9所示,從總體趨勢來看,在準(zhǔn)確率方面CSBA算法表現(xiàn)最好,迅速從54.739%提高到89.867%,并穩(wěn)定在較高水平;CBA和SBA算法也在10輪通信后取得了較高的準(zhǔn)確率,分別達(dá)到86.194%和85.992%;FedAvg算法在相同輪次下的準(zhǔn)確率為85.439%,略低于其他三個算法。在損失函數(shù)方面,CSBA算法同樣取得了最好的結(jié)果,從73.253 7下降到16.941 7;其次是CBA和SBA算法,損失函數(shù)分別降至26.929 3和25.306 1;FedAvg算法在10輪通信后的損失函數(shù)為32.827 4。從整體趨勢來看,CBA、SBA和CSBA算法在準(zhǔn)確率和損失函數(shù)方面的表現(xiàn)都優(yōu)于FedAvg算法。
從圖9還可以觀察到在第一輪通信后,CBA和SBA算法都取得了較高的準(zhǔn)確率,而CSBA和FedAvg算法的準(zhǔn)確率較低;隨著通信輪次的增加,CSBA算法的準(zhǔn)確率迅速提高,而FedAvg和CBA算法的準(zhǔn)確率增長相對較緩。在損失函數(shù)方面,CBA和SBA算法在前幾輪通信后損失函數(shù)下降較快,CSBA算法的損失函數(shù)下降最為迅速,表現(xiàn)出最佳的收斂速度,F(xiàn)edAvg算法在10輪通信后的損失函數(shù)下降幅度相對較小。
觀察各算法在多次實驗中的準(zhǔn)確率和損失函數(shù)的波動情況可以看出:CSBA算法表現(xiàn)最為穩(wěn)定,準(zhǔn)確率和損失函數(shù)曲線較為平滑;CBA和SBA算法在實驗過程中也表現(xiàn)出較好的穩(wěn)定性,但相比之下略有波動;FedAvg算法的曲線波動較大,表現(xiàn)出較低的穩(wěn)定性。
在實驗2中,如圖10所示,在10輪聯(lián)邦學(xué)習(xí)通信后,F(xiàn)edAvg算法的準(zhǔn)確率從初始的15.655%逐步提高到最終的70.050%;CBA算法從初始的12.267%快速上升至最終的72.431%,表現(xiàn)較為穩(wěn)定;SBA算法在前幾輪有一定波動,但逐漸趨于穩(wěn)定,最終的準(zhǔn)確率為73.375%;CSBA算法在初始階段準(zhǔn)確率較低,隨后快速提升,最終達(dá)到73.904%。在損失函數(shù)收斂速度上,F(xiàn)edAvg算法的損失函數(shù)從167.471 7逐步降低到111.326 2,收斂較快;CBA算法的損失函數(shù)在前兩輪下降較快,后續(xù)略有波動,最終收斂至105.031 3;SBA算法的損失函數(shù)從136.144 2下降至112.856 2,過程中有一定波動,但整體趨勢向下;CSBA算法的損失函數(shù)在前四輪下降較快,后續(xù)逐漸趨于穩(wěn)定,最終收斂至111.968 3??梢园l(fā)現(xiàn),F(xiàn)edAvg算法在準(zhǔn)確率和損失函數(shù)方面表現(xiàn)一般,雖然準(zhǔn)確率提升較為明顯,但損失函數(shù)的收斂速度相對較慢;CBA算法在前幾輪迭代中取得了較高的準(zhǔn)確率,但在后期準(zhǔn)確率提升相對較緩,收斂速度較快;SBA算法在準(zhǔn)確率和損失函數(shù)方面表現(xiàn)良好,準(zhǔn)確率和損失函數(shù)均有較快的下降趨勢,整體穩(wěn)定性較高;CSBA算法在最初表現(xiàn)不如其他算法,但隨著迭代次數(shù)的增加,準(zhǔn)確率和損失函數(shù)迅速提升,取得了較好的結(jié)果。
綜上所述,SBA和CSBA算法在該實驗場景中表現(xiàn)較好,具有較快的準(zhǔn)確率和損失函數(shù)收斂速度,并且整體穩(wěn)定性較高;CBA算法在初期,準(zhǔn)確率具有較快的上升趨勢,但后期略顯緩慢;FedAvg算法雖然在準(zhǔn)確率和損失函數(shù)方面均有改進(jìn),但整體表現(xiàn)一般。
在實驗3中,如圖11所示,F(xiàn)edAvg算法的準(zhǔn)確率從55.354%上升至92.896%,表現(xiàn)出較好的學(xué)習(xí)能力;CBA算法的準(zhǔn)確率從70.729%上升至93.648%;SBA算法從75.914%上升至91.989%;CSBA算法從85.948%上升至93.622%。CBA、SBA和CSBA算法在前幾輪通信后的準(zhǔn)確率增長較快,但隨后趨于緩慢增長。與之相比,F(xiàn)edAvg算法在整個學(xué)習(xí)過程中準(zhǔn)確率增長較為平穩(wěn)。同時可以發(fā)現(xiàn),SBA算法的損失函數(shù)在10輪通信后從29.706 4逐漸減小到9.273 5,而其他三個算法在初始輪次中損失函數(shù)的降低速度較慢,后續(xù)趨于平穩(wěn),說明SBA在初始階段具有較好的收斂速度。
綜上所述,CBA、SBA和CSBA算法在一定程度上考慮了車輛個性化需求,對少量車輛數(shù)據(jù)集效果較好。
在實驗4中,如圖12所示,可以觀察到CBA和CSBA算法在初始幾輪聯(lián)邦學(xué)習(xí)中表現(xiàn)出了較好的性能,特別是在第一輪聯(lián)邦學(xué)習(xí)中,CBA算法的準(zhǔn)確率已經(jīng)達(dá)到了76.05%,而CSBA算法的準(zhǔn)確率為73.57%,相較于FedAvg算法的準(zhǔn)確率45.15%和SBA算法的36.82%,顯著提升了訓(xùn)練初始階段的模型性能。另外,CBA和CSBA算法在后續(xù)的準(zhǔn)確率曲線中一直保持較高的水平,并且損失函數(shù)下降速度相對較快,表明這兩種算法在訓(xùn)練過程中能夠更好地適應(yīng)車聯(lián)網(wǎng)數(shù)據(jù)異構(gòu)性和模型質(zhì)量不一致的情況。相比之下,F(xiàn)edAvg算法則在整體準(zhǔn)確率和損失函數(shù)上有了較大的改進(jìn),但與CBA和CSBA算法相比,仍存在一定差距。
通過詳細(xì)分析選取的四種實驗場景的實驗結(jié)果,可以得出以下結(jié)論:CSBA算法相對于FedAvg、CBA和SBA算法表現(xiàn)更優(yōu)秀。CSBA算法綜合了CBA和SBA的優(yōu)點,在考慮了用戶分布和車輛分布的個性化特點后提高了模型的泛化性和適應(yīng)性。隨著通信輪次的增加,CSBA算法逐漸收斂且具有更快的收斂速度,表現(xiàn)出更好的學(xué)習(xí)能力和性能。
針對實驗?zāi)J絙),在車聯(lián)網(wǎng)應(yīng)用中,算法需要在有限的通信輪次內(nèi)給出盡可能好的結(jié)果,因此第10輪的比較能夠更直觀地反映算法的短期效果。同時只關(guān)注第10輪的結(jié)果能夠減少實驗的計算開銷并能提供有價值的信息,從而更高效地進(jìn)行算法的性能評估和比較。表9是四種算法在五種場景下第10輪聯(lián)邦學(xué)習(xí)通信時的準(zhǔn)確率表現(xiàn)。
從表9可以看出,在大多數(shù)實驗場景中,SBA和CSBA算法取得了相對較高的準(zhǔn)確率,明顯優(yōu)于FedAvg和CBA算法。特別是在實驗場景9、10、11、13中,SBA和CSBA算法相比其他算法表現(xiàn)出較大的優(yōu)勢。而在一些實驗場景中,CBA算法取得了與SBA和CSBA算法相近的準(zhǔn)確率,表現(xiàn)較為穩(wěn)定。例如,在實驗場景7中,CBA算法的準(zhǔn)確率為98.98%,與SBA和CSBA算法的準(zhǔn)確率相差不大。
綜上所述, SBA和CSBA算法在大多數(shù)實驗場景中表現(xiàn)出較高的準(zhǔn)確率,優(yōu)于FedAvg和CBA算法。CBA算法在一些場景中也表現(xiàn)穩(wěn)定,與SBA和CSBA算法的準(zhǔn)確率相近;而FedAvg算法在少數(shù)實驗場景中也表現(xiàn)出競爭力,但整體性能相對一般。實驗結(jié)果表明在不同的實驗場景中,SBA和CSBA算法表現(xiàn)出比FedAvg算法更好的性能,特別是CSBA算法在所有實驗場景中均取得了最高的準(zhǔn)確率,CBA算法在某些實驗場景中也表現(xiàn)出較好的性能。這些結(jié)果進(jìn)一步驗證了在聯(lián)邦學(xué)習(xí)環(huán)境中,利用準(zhǔn)確率聚合、數(shù)據(jù)相似性的分類聚合和雙重抽樣驗證等方法可以顯著提高模型的性能和收斂速度,說明在聯(lián)邦學(xué)習(xí)環(huán)境中,面向車聯(lián)網(wǎng)的聯(lián)邦學(xué)習(xí)模型定制化服務(wù)框架可以顯著提高模型的性能。
本文設(shè)計了四種實驗場景,在面向車聯(lián)網(wǎng)的聯(lián)邦學(xué)習(xí)模型定制框架中,將本文方法與FedaAvg、FedFA和文獻(xiàn)[17]中的聯(lián)邦學(xué)習(xí)聚合算法進(jìn)行對比,每次進(jìn)行30輪聯(lián)邦學(xué)習(xí)通信,每一輪聯(lián)邦學(xué)習(xí)中每輛車要進(jìn)行10輪本地學(xué)習(xí)。四種算法的準(zhǔn)確率曲線如圖13所示。
從圖13可以看出,在四種實驗場景中,面向車聯(lián)網(wǎng)的聯(lián)邦學(xué)習(xí)模型定制框架中,CSBA算法通過使用數(shù)據(jù)相似性權(quán)重和本地驗證準(zhǔn)確率權(quán)重聚合,生成的模型更適合用戶目標(biāo)的數(shù)據(jù)分布。在30輪的訓(xùn)練中這種優(yōu)勢表現(xiàn)得尤為明顯。相比之下,F(xiàn)edAvg采用了傳統(tǒng)的平均聚合方式,F(xiàn)edFA則結(jié)合了訓(xùn)練精度和訓(xùn)練頻率的信息量來衡量權(quán)重,而RFedAvg[17]使用了利用模型差值平均的模型聚合方式,盡管這些算法在某些情況下表現(xiàn)良好,但在定制個性化目標(biāo)數(shù)據(jù)分布的訓(xùn)練任務(wù)中效果有限。
5 結(jié)束語
面向車聯(lián)網(wǎng)的聯(lián)邦學(xué)習(xí)模型定制化服務(wù)框架,通過綜合應(yīng)用長安鏈、數(shù)據(jù)相似性的聯(lián)邦學(xué)習(xí)聚合算法和雙重抽樣驗證方案,實現(xiàn)了對車聯(lián)網(wǎng)數(shù)據(jù)的高效處理和模型性能的顯著提升。它能夠在保障數(shù)據(jù)隱私的前提下,根據(jù)本地設(shè)備的數(shù)據(jù)相似性賦予模型參數(shù)更有針對性的權(quán)重,從而更好地利用分布不均的本地數(shù)據(jù)提高模型的準(zhǔn)確性和泛化能力。數(shù)據(jù)相似性的聯(lián)邦學(xué)習(xí)聚合算法提供了更個性化的模型參數(shù)聚合方式,使得模型的構(gòu)建更貼合需求場景,同時雙重抽樣驗證方案有效預(yù)防了模型的過擬合問題,保障了模型的可信度。這一框架有望為車聯(lián)網(wǎng)領(lǐng)域提供更安全、高效和個性化的服務(wù)。
隨著車聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,用戶對于個性化駕駛體驗的需求將持續(xù)增加。這個框架為滿足用戶特定的駕駛習(xí)慣、行車偏好和使用場景需求提供了有力支持,為車輛用戶帶來更智能化、個性化的出行體驗。未來可以從以下幾個方面繼續(xù)開展研究:
a)改進(jìn)和優(yōu)化框架中的算法,進(jìn)一步提升模型的訓(xùn)練效率和準(zhǔn)確率。同時,計劃擴(kuò)展框架的適用范圍,將其運(yùn)用于更多車聯(lián)網(wǎng)場景,如自動駕駛、交通管理和車輛安全等領(lǐng)域,以滿足不同用戶群體的需求。
b)關(guān)注數(shù)據(jù)隱私和安全性的問題,進(jìn)一步加強(qiáng)智能合約的安全性和用戶數(shù)據(jù)的隱私保護(hù),以確保用戶信息不被濫用或泄露。
c)多模態(tài)數(shù)據(jù)融合,隨著車聯(lián)網(wǎng)的不斷發(fā)展,車輛將會生成更多的多模態(tài)數(shù)據(jù),包括圖像、聲音、視頻等。致力開發(fā)能夠處理多模態(tài)數(shù)據(jù)的聯(lián)邦學(xué)習(xí)算法,以提供更全面、精確的個性化服務(wù)。
參考文獻(xiàn):
[1]McMahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C]//Proc of the 20th International Conference on Artificial Intelligence and Statistics. [S.l.]: PMLR, 2017:1273-1282.
[2]Mothukuri V, Parizi R M, Pouriyeh S, et al. A survey on security and privacy of federated learning[J]. Future Generation Computer Systems, 2021,115(2): 619-640.
[3]Konecˇny' J, McMahan H B, Ramage D, et al. Federated optimization: distributed machine learning for on-device intelligence[EB/OL]. (2016-10-08). https://arxiv.org/pdf/1610.02527.pdf.
[4]Nilsson A, Smith S, Ulm G, et al. A performance evaluation of fe-derated learning algorithms[C]//Proc of the 2nd Workshop on Distributed Infrastructures for Deep Learning. New York: ACM Press, 2018: 1-8.
[5]Wang Hongyi, Yurochkin M, Sun Yuekai, et al. Federated learning with matched averaging[EB/OL]. (2020-02-15). https://arxiv.org/pdf/2002.06440.pdf.
[6]朱建明, 張沁楠, 高勝, 等. 基于區(qū)塊鏈的隱私保護(hù)可信聯(lián)邦學(xué)習(xí)模型 [J]. 計算機(jī)學(xué)報, 2021,44(12): 2464-2484. (Zhu Jianming, Zhang Qinnan, Gao Sheng, et al. Privacy preserving and trustworthy federated learning model based on blockchain[J]. Chinese Journal of Computers, 2021,44(12): 2464-2484.)
[7]Zhao Yang, Zhao Jun, Jiang Linshan, et al. Privacy-preserving blockchain-based federated learning for IoT devices[J]. IEEE Internet of Things Journal, 2021,8(3): 1817-1829.
[8]Wu Xin, Wang Zhi, Zhao Jian, et al. FedBC: blockchain-based decentralized federated learning[C]//Proc of IEEE International Conference on Artificial Intelligence and Computer Applications. Pisca-taway, NJ: IEEE Press, 2020: 217-221.
[9]Lu Yunlong, Huang Xiaohong, Dai Yueyue, et al. Federated lear-ning for data privacy preservation in vehicular cyber-physical systems[J]. IEEE Network, 2020,34(3): 50-56.
[10]Boualouache A, Engel T. Federated learning-based scheme for detecting passive mobile attackers in 5G vehicular edge computing[J]. Annals of Telecommunications, 2022, 77(4):201-220.
[11]Kang Jiawen, Xiong Zehui, Niyato D, et al. Incentive mechanism for reliable federated learning: a joint optimization approach to combining reputation and contract theory[J]. IEEE Internet of Things Journal, 2019, 6(6): 10700-10714.
[12]Hu Meng, Shen Tao, Men Jinbao, et al. CRSM: an effective blockchain consensus resource slicing model for real-time distributed energy trading[J]. IEEE Access, 2020, 8: 206876-206887.
[13]Yuan Rui, Xia Yubin, Chen Haibo, et al. ShadowEth: private smart contract on public blockchain[J]. Journal of Computer Science and Technology, 2018, 33(5): 542-556.
[14]Wang Shangping, Zhang Yinglong, Zhang Yaling. A blockchain-based framework for data sharing with fine-grained access control in decentra-lized storage systems[J]. IEEE Access, 2018, 6: 38437-38450.
[15]Qu Youyang, Gao Longxiang, Luan T H, et al. Decentralized privacy using blockchain-enabled federated learning in fog computing[J]. IEEE Internet of Things Journal, 2020, 7(6): 5171-5183.
[16]Lu Yunlong, Huang Xiaohong, Dai Yueyue, et al. Blockchain and federated learning for privacy-preserved data sharing in industrial IoT[J]. IEEE Trans on Industrial Informatics, 2019,16(6): 4177-4186.
[17]Martinez I, Francis S, Hafid A S. Record and reward federated lear-ning contributions with blockchain[C]//Proc of International Confe-rence on Cyber-Enabled Distributed Computing and Knowledge Discovery. Piscataway, NJ: IEEE Press, 2019: 50-57.
[18]賀海武, 延安, 陳澤華. 基于區(qū)塊鏈的智能合約技術(shù)與應(yīng)用綜述[J]. 計算機(jī)研究與發(fā)展, 2018,55(11): 2452-2466. (He Haiwu, Yan An, Chen Zehua. Survey of smart contract technology and application based on blockchain[J]. Journal of Computer Research and Development, 2018,55(11): 2452-2466.)