楊文琦,章 陽,2,聶江天,楊和林,康嘉文,熊澤輝
(1.武漢理工大學(xué)計算機科學(xué)與技術(shù)學(xué)院,武漢 430063;2.武漢理工大學(xué)交通物聯(lián)網(wǎng)技術(shù)湖北省重點實驗室,武漢 430063;3.南洋理工大學(xué)計算機科學(xué)與工程學(xué)院,新加坡 639798;4.新加坡科技設(shè)計大學(xué)信息系統(tǒng)技術(shù)與設(shè)計學(xué)院,新加坡 487372)
無線通信網(wǎng)絡(luò)的許多新興智能應(yīng)用都是基于機器學(xué)習(xí)技術(shù),機器學(xué)習(xí)模型的訓(xùn)練通常需要大量數(shù)據(jù)集,而數(shù)據(jù)的收集在很大程度上依賴于分布分散的邊緣用戶節(jié)點[1]。由于傳統(tǒng)的機器學(xué)習(xí)技術(shù)需要集中儲存大量原始數(shù)據(jù),因此數(shù)據(jù)持有用戶會有隱私泄露的風(fēng)險。隨著大數(shù)據(jù)的日益發(fā)展,重視數(shù)據(jù)隱私和信息安全已成為了全球性趨勢[2-4],數(shù)據(jù)的隱私問題已影響到無線通信系統(tǒng)中數(shù)據(jù)的有效收集,大多數(shù)行業(yè)數(shù)據(jù)已出現(xiàn)數(shù)據(jù)孤島現(xiàn)象[5],如何在保護隱私的前提下高效收集分布式的數(shù)據(jù)成為研究熱點[6]。
聯(lián)邦學(xué)習(xí)是一種通過聚集局部計算的梯度來訓(xùn)練共享模型的分布式學(xué)習(xí)方法,這種新的機器學(xué)習(xí)范式使資源受限的客戶端節(jié)點可在中央服務(wù)器的協(xié)調(diào)下訓(xùn)練數(shù)據(jù)并分享梯度信息,同時保持訓(xùn)練數(shù)據(jù)分散在本地,避免上傳原始數(shù)據(jù)以致隱私泄露[7]。目前,研究人員對聯(lián)邦學(xué)習(xí)的探究主要集中在提高差分隱私[8]、安全多方計算[9]等隱私保護技術(shù)[10]和降低通信開銷[11-13]方面。文獻[14]提出一種聯(lián)邦強化技術(shù),通過聯(lián)邦學(xué)習(xí)減少移動邊緣用戶個性化的時間。文獻[15]在仿真通信網(wǎng)絡(luò)中部署聯(lián)邦學(xué)習(xí)系統(tǒng),說明聯(lián)邦學(xué)習(xí)參與者的模型訓(xùn)練進度和貢獻率。傳統(tǒng)的聯(lián)邦學(xué)習(xí)框架嚴(yán)格禁止原始數(shù)據(jù)共享,一般使用安全級別較高的差分隱私等方法進行加密,但聯(lián)邦學(xué)習(xí)對于隱私保護的過分嚴(yán)苛也降低了訓(xùn)練數(shù)據(jù)的可用性,從而降低模型的部分準(zhǔn)確率[16]。文獻[17]指出,在部署聯(lián)邦學(xué)習(xí)框架的無線通信網(wǎng)絡(luò)中,數(shù)據(jù)隱私性與可用性的平衡是亟待解決的問題。除此之外,能量供給是客戶端節(jié)點在信息感知和數(shù)據(jù)處理方面完成高質(zhì)量服務(wù)的關(guān)鍵[18],如果選擇節(jié)點作為聯(lián)邦學(xué)習(xí)的參與者,則需消耗自身大量的能量以確保采集到合適的數(shù)據(jù)并在本地順利訓(xùn)練模型[7]。隨著無線能量收集和傳輸技術(shù)的發(fā)展,客戶端節(jié)點可以通過無線能量源充電[19],但同時也需向能量源支付相關(guān)費用。隨著互聯(lián)網(wǎng)的高速發(fā)展,節(jié)約能源并使之可持續(xù)性發(fā)展早已成為主要問題[20]。因此,聯(lián)邦學(xué)習(xí)雖然減輕了傳統(tǒng)機器學(xué)習(xí)集中式訓(xùn)練方法帶來的隱私風(fēng)險和開銷[21],但對客戶端節(jié)點的能量、計算能力以及模型訓(xùn)練效果提出了挑戰(zhàn),在一定程度上影響了無線通信系統(tǒng)數(shù)據(jù)收集與使用的效率。
分布式數(shù)據(jù)的收集與訓(xùn)練除了需要滿足保護隱私和降低能耗的要求,還面臨著無線網(wǎng)絡(luò)中的不確定性。在下一代5G 通信網(wǎng)絡(luò)[22]不斷發(fā)展的背景下,分布式系統(tǒng)訓(xùn)練模型借助移動信息采集設(shè)備對較為偏僻的數(shù)據(jù)持有用戶進行數(shù)據(jù)收集與訓(xùn)練已經(jīng)成為主要方式。類似無人機[23]、無線傳感車輛[24]的高移動性新型網(wǎng)絡(luò)成員,在輔助無線通信網(wǎng)絡(luò)收集信息和訓(xùn)練數(shù)據(jù)的同時,它們移動靈活的特性也給無線通信網(wǎng)絡(luò)的信息收集和機器學(xué)習(xí)訓(xùn)練帶來了不確定性和安全隱患,例如,客戶端節(jié)點一般只有當(dāng)信息采集設(shè)備在其通信范圍內(nèi)才能傳送數(shù)據(jù),當(dāng)信息采集設(shè)備有其他任務(wù)離開后,該節(jié)點則無法傳送數(shù)據(jù)[25],這給通信網(wǎng)絡(luò)的管理增加了一定的難度。此外,移動信息采集設(shè)備在無線傳輸中的消息可能會被攻擊者竊聽,從而導(dǎo)致敏感信息泄露[26]和自身信譽下降,影響其與邊緣用戶節(jié)點的合作。如果無線通信網(wǎng)絡(luò)無法應(yīng)對移動信息采集設(shè)備帶來的不確定性和隱私安全挑戰(zhàn),就無法吸引擁有高質(zhì)量和大型數(shù)據(jù)集的邊緣用戶傳輸自身的數(shù)據(jù),使某些邊緣用戶的數(shù)據(jù)處入孤島狀態(tài)。因此,在無線通信網(wǎng)絡(luò)中,資源受限的客戶端節(jié)點亟需一種可克服無線網(wǎng)絡(luò)信息傳輸帶來的不確定性、兼顧數(shù)據(jù)可用性和隱私性的能量與信息管理策略。
本文針對移動信息采集設(shè)備輔助的無線通信網(wǎng)絡(luò)場景,提出一種基于聯(lián)邦學(xué)習(xí)的信息傳輸與能量管理組合優(yōu)化策略。將通用性較高的移動信息采集設(shè)備作為學(xué)習(xí)服務(wù)器,將客戶端節(jié)點作為學(xué)習(xí)參與者,并為客戶端節(jié)點構(gòu)建馬爾科夫決策模型,通過平衡數(shù)據(jù)可用性、用戶隱私以及能量消耗之間的關(guān)系,得出客戶端節(jié)點的信息傳輸與能量管理組合優(yōu)化策略。
聯(lián)邦學(xué)習(xí)因其嚴(yán)格的隱私保護機制成為解決無線分布式系統(tǒng)數(shù)據(jù)無法有效收集問題的有效框架。針對基于傳統(tǒng)聯(lián)邦學(xué)習(xí)框架工作的客戶端節(jié)點存在數(shù)據(jù)可用性較低以及能耗較大的問題,本文在無線通信網(wǎng)絡(luò)場景下提出一種將聯(lián)邦學(xué)習(xí)與傳統(tǒng)集中式學(xué)習(xí)相結(jié)合的優(yōu)化架構(gòu),如圖1 所示。
圖1 基于聯(lián)邦學(xué)習(xí)的優(yōu)化架構(gòu)Fig.1 Optimization framework based on federated learning
傳統(tǒng)的聯(lián)邦學(xué)習(xí)和集中式學(xué)習(xí)架構(gòu)都是由上層的中央學(xué)習(xí)服務(wù)器和下層的學(xué)習(xí)參與者兩個類型的實體組成。在傳統(tǒng)的聯(lián)邦學(xué)習(xí)架構(gòu)中,每個學(xué)習(xí)參與者在本地模型訓(xùn)練后僅向?qū)W習(xí)服務(wù)器發(fā)送訓(xùn)練后得到的加密梯度數(shù)據(jù),再由服務(wù)器解密聚合后統(tǒng)一將梯度數(shù)據(jù)回傳給學(xué)習(xí)參與者。在此過程中服務(wù)器不接觸原始數(shù)據(jù),因此,聯(lián)邦學(xué)習(xí)架構(gòu)起到了保護用戶隱私的作用。本文所提架構(gòu)通過保留聯(lián)邦學(xué)習(xí)的基礎(chǔ)分布式架構(gòu)和工作原理以保護客戶端節(jié)點的隱私。但聯(lián)邦學(xué)習(xí)需要能量有限的客戶端節(jié)點消耗自身算力訓(xùn)練數(shù)據(jù),數(shù)據(jù)加密壓縮的過程對于數(shù)據(jù)的可用性也有一定的損耗。在傳統(tǒng)的集中式學(xué)習(xí)中,學(xué)習(xí)參與者將自身的原始數(shù)據(jù)直接交由服務(wù)器訓(xùn)練。此過程中學(xué)習(xí)參與者需要承擔(dān)泄露隱私的風(fēng)險,并且傳輸大量原始的數(shù)據(jù)對信道的要求較高,數(shù)據(jù)最終傳輸成功概率受外部環(huán)境的影響,但這種學(xué)習(xí)方式僅在傳送數(shù)據(jù)時消耗自身能量,且原始數(shù)據(jù)的可用性較高,因此,傳統(tǒng)的集中式學(xué)習(xí)起到了降低能耗、保證數(shù)據(jù)可用性的作用。
本文為探究無線網(wǎng)絡(luò)場景下信息采集的隨機性對客戶端節(jié)點的信息傳輸以及學(xué)習(xí)選擇的影響,為聯(lián)邦學(xué)習(xí)架構(gòu)中的學(xué)習(xí)服務(wù)器加入了移動屬性,將移動信息采集設(shè)備作為學(xué)習(xí)服務(wù)器。對于客戶端節(jié)點,在移動服務(wù)器隨機的信息采集場景下得到可平衡自身能耗、數(shù)據(jù)可用性和隱私性的信息傳輸與能量管理策略,但最終所得的策略也更具通用性,傳統(tǒng)的云服務(wù)器穩(wěn)定的信息收集過程可作為其中的一種特例處理。本文圍繞一個移動信息采集設(shè)備(學(xué)習(xí)服務(wù)器)及與其可能發(fā)生交易的K個客戶端節(jié)點(學(xué)習(xí)參與者)進行研究并建立系統(tǒng)架構(gòu),如圖2 所示。
圖2 本文系統(tǒng)架構(gòu)Fig.2 Framework of the proposed system
移動信息采集設(shè)備在本文系統(tǒng)中作為一個可移動的學(xué)習(xí)服務(wù)器,不僅可以在不同的客戶端節(jié)點處收集數(shù)據(jù),還可以將收集的數(shù)據(jù)進行訓(xùn)練以構(gòu)建模型。本文假設(shè)移動信息采集設(shè)備在一個時隙內(nèi)僅停留在一個區(qū)域收集與處理該區(qū)域中客戶端節(jié)點的數(shù)據(jù)或梯度。每個節(jié)點可以不斷地產(chǎn)生原始數(shù)據(jù),擁有的電量和原始數(shù)據(jù)量都不完全相同,根據(jù)自身情況選擇參與到移動信息采集設(shè)備組織的聯(lián)邦學(xué)習(xí)或者傳統(tǒng)的機器學(xué)習(xí)中。
若客戶端節(jié)點選擇參與分布式的聯(lián)邦學(xué)習(xí),則先在本地訓(xùn)練模型,局部計算梯度參數(shù),再將加密過的梯度參數(shù)發(fā)送給移動信息采集設(shè)備。移動信息采集設(shè)備得到所有客戶端節(jié)點的數(shù)據(jù)之后,在不了解任何節(jié)點信息的情況下執(zhí)行安全聚合,并計算總梯度。最后將結(jié)果分別傳送給參與的客戶端節(jié)點,節(jié)點再使用解密的梯度參數(shù)更新各自的模型。
客戶端節(jié)點還可以選擇傳統(tǒng)的集中式機器學(xué)習(xí),其僅作為數(shù)據(jù)提供者,直接發(fā)送原始數(shù)據(jù)給移動信息采集設(shè)備。在這種情況下,客戶端節(jié)點選擇放棄保護隱私并完全信任移動信息采集設(shè)備,以節(jié)省訓(xùn)練過程中的計算開銷。移動信息采集設(shè)備得到所有客戶端節(jié)點的數(shù)據(jù)之后,在了解節(jié)點信息的情況下執(zhí)行數(shù)據(jù)聚合和訓(xùn)練。
從保護隱私的角度分析,客戶端節(jié)點更傾向于在本地訓(xùn)練數(shù)據(jù),以避免發(fā)送大量的原始數(shù)據(jù)帶來隱私泄露的風(fēng)險。但從提高模型訓(xùn)練效果和減少能源消耗的角度分析,客戶端節(jié)點傳送原始數(shù)據(jù)有助于最大程度地保留數(shù)據(jù)的可用性,有利于對模型進行訓(xùn)練,同時也可避免因在本地進行模型訓(xùn)練而消耗較多的能量。因此,本文基于聯(lián)邦學(xué)習(xí)中的用戶合作訓(xùn)練模型,設(shè)計一種客戶端節(jié)點的信息傳輸機制。該機制基于馬爾科夫決策過程(Markov Decision Process,MDP)構(gòu)建隨機優(yōu)化模型,并通過求解MDP 模型得到客戶端節(jié)點的最優(yōu)信息傳輸與能量管理組合優(yōu)化策略。
為確定無線網(wǎng)絡(luò)場景下客戶端節(jié)點的信息傳輸與能量管理組合優(yōu)化策略,本節(jié)將客戶端節(jié)點的信息傳輸與能量管理問題建模為一個MDP 模型,以描述與分析節(jié)點在移動信息采集設(shè)備帶有不確定性的信息采集過程中的狀態(tài)變化與行為模式。
1.2.1 狀態(tài)空間
狀態(tài)S是一個復(fù)合狀態(tài)變量,由數(shù)據(jù)狀態(tài)、能量狀態(tài)和移動信息采集設(shè)備區(qū)域狀態(tài)這3 組離散狀態(tài)表示,如式(1)所示:
其中:數(shù)據(jù)狀態(tài)Q∈Q={0,1,…,Q}為客戶端節(jié)點在其數(shù)據(jù)緩存池中當(dāng)前滯留的數(shù)據(jù)量;Q為最大數(shù)據(jù)量。本文假設(shè)每個客戶端節(jié)點訓(xùn)練和發(fā)送數(shù)據(jù)所需要的能量是由外部設(shè)備提供的,單個客戶端節(jié)點配備儲能設(shè)備和無線充電設(shè)備,從可訪問的能源中充電并儲存在自身的儲能設(shè)備中。能量狀態(tài)E∈E={0,1,…,E}為客戶端節(jié)點儲能設(shè)備中的剩余電量,E為最大電量。移動信息采集設(shè)備區(qū)域狀態(tài)U∈U={0,1}表示移動信息采集設(shè)備是否處于該客戶端節(jié)點的數(shù)據(jù)可傳送區(qū)域范圍中,U=0 表示移動信息采集設(shè)備不在節(jié)點傳送區(qū)域中,即移動信息采集設(shè)備未到該節(jié)點處,該節(jié)點無法與移動信息采集設(shè)備產(chǎn)生任何交易,U=1 則表示移動信息采集設(shè)備在該節(jié)點處。
1.2.2 動作空間
客戶端節(jié)點在每個時隙中根據(jù)所觀測到的當(dāng)前狀態(tài)做出相應(yīng)的動作決策。動作空間A 為節(jié)點在每個時隙內(nèi)可選擇執(zhí)行的動作集合,如式(2)所示:
其中:A=0 為節(jié)點決定不執(zhí)行任何操作;A=1 為節(jié)點決定參與聯(lián)邦學(xué)習(xí),僅向移動信息采集設(shè)備傳送在本地訓(xùn)練后的加密數(shù)據(jù),消耗自身算力,并保護數(shù)據(jù)隱私;A=2 為節(jié)點決定直接向移動信息采集設(shè)備傳送原始數(shù)據(jù),以避免由于本地訓(xùn)練計算量過大而可能產(chǎn)生的能源中斷等問題。
1.2.3 狀態(tài)轉(zhuǎn)移矩陣
狀態(tài)轉(zhuǎn)移矩陣H為節(jié)點在一個時隙內(nèi),從當(dāng)前狀態(tài)S轉(zhuǎn)移到下一個狀態(tài)S'的整體狀態(tài)轉(zhuǎn)移矩陣,矩陣橫坐標(biāo)代表節(jié)點當(dāng)前狀態(tài)S,縱坐標(biāo)代表下一狀態(tài)S'。該矩陣描述客戶端節(jié)點所觀測系統(tǒng)狀態(tài)的變化過程。該矩陣由3 個狀態(tài)分量的轉(zhuǎn)移矩陣通過Kronecker 乘積?推導(dǎo)得出,如式(3)所示:
狀態(tài)轉(zhuǎn)移矩陣包括數(shù)據(jù)狀態(tài)轉(zhuǎn)移矩陣、能量狀態(tài)轉(zhuǎn)移矩陣、區(qū)域狀態(tài)轉(zhuǎn)移矩陣。
1)數(shù)據(jù)狀態(tài)轉(zhuǎn)移矩陣Q(A)
為節(jié)點從當(dāng)前數(shù)據(jù)狀態(tài)Q轉(zhuǎn)移到下一個狀態(tài)Q'的分量轉(zhuǎn)移矩陣。為方便解釋,本文將數(shù)據(jù)的流動模式分為消耗和產(chǎn)生兩步推導(dǎo):在一個時隙開始時,根據(jù)節(jié)點所做出的不同決策,節(jié)點消耗對應(yīng)的數(shù)據(jù)量;在一個時隙結(jié)束前,節(jié)點會重新收集k個單位的數(shù)據(jù),若當(dāng)前數(shù)據(jù)緩存池的數(shù)據(jù)存儲已經(jīng)達到最大容量,則其數(shù)據(jù)量不變。當(dāng)A=0 時,節(jié)點的數(shù)據(jù)狀態(tài)轉(zhuǎn)移矩陣如式(4)所示:
其中:0 為全0 矩陣;I為單位矩陣;1 為全1 矩陣。當(dāng)A=1 時,即節(jié)點在本地訓(xùn)練模型更新梯度參數(shù)并傳送給移動信息采集設(shè)備。在能量充足的情況下,節(jié)點可以在一個時隙內(nèi)向移動信息采集設(shè)備傳送v個單位的數(shù)據(jù),若數(shù)據(jù)緩存池中當(dāng)前的數(shù)據(jù)量大于等于v,則上傳v個單位的數(shù)據(jù);小于v則上傳當(dāng)前所有數(shù)據(jù)。本文假設(shè)在上傳梯度數(shù)據(jù)過程中不會發(fā)生數(shù)據(jù)丟失的情況,且上傳過程中數(shù)據(jù)的損耗忽略不計,則此時節(jié)點的數(shù)據(jù)狀態(tài)轉(zhuǎn)移矩陣如式(5)所示:
當(dāng)A=2 時,即節(jié)點直接將原始數(shù)據(jù)傳送給移動信息采集設(shè)備,在能量充足的情況下,節(jié)點可以在一個時隙內(nèi)向移動信息采集設(shè)備傳送v個單位的數(shù)據(jù),但龐大的數(shù)據(jù)量對信道的要求較高,信道的不穩(wěn)定性導(dǎo)致數(shù)據(jù)包有一定傳送失敗的概率。本文假設(shè)傳送成功的概率為q,如果數(shù)據(jù)第一次傳送失敗,可重復(fù)嘗試傳輸直到當(dāng)前時隙結(jié)束。如果當(dāng)前時隙結(jié)束時傳送仍然失敗,數(shù)據(jù)會繼續(xù)滯留在數(shù)據(jù)緩沖池中,造成數(shù)據(jù)延遲??蛻舳斯?jié)點當(dāng)前選擇參與集中式學(xué)習(xí)時,其數(shù)據(jù)狀態(tài)的轉(zhuǎn)移過程如圖3 所示。
圖3 客戶端節(jié)點數(shù)據(jù)狀態(tài)轉(zhuǎn)移過程Fig.3 State transfer process of client node data
此時數(shù)據(jù)狀態(tài)轉(zhuǎn)移矩陣如式(6)所示:
矩陣中q所在位置表示在當(dāng)前時隙開始時,節(jié)點數(shù)據(jù)量為Q,選擇傳送原始數(shù)據(jù)后數(shù)據(jù)傳送成功,則數(shù)據(jù)量先減少v個單位(若當(dāng)前節(jié)點數(shù)據(jù)量小于v個單位,則上傳當(dāng)前所有數(shù)據(jù),當(dāng)前數(shù)據(jù)量暫時為0),增加新收集的k個單位數(shù)據(jù)之后,節(jié)點在當(dāng)前時隙結(jié)束時擁有的數(shù)據(jù)量變?yōu)镼'。矩陣中1-q所在位置表示節(jié)點當(dāng)前數(shù)據(jù)量為Q,選擇傳送原始數(shù)據(jù)后數(shù)據(jù)傳送失敗,則數(shù)據(jù)量不會發(fā)生變化,節(jié)點數(shù)據(jù)量僅增加新收集的k個單位后變?yōu)镼'。
2)能量狀態(tài)轉(zhuǎn)移矩陣E(A)
為節(jié)點從當(dāng)前能量狀態(tài)轉(zhuǎn)移E到下一個狀態(tài)E'的分量轉(zhuǎn)移矩陣。假設(shè)能量的補充和傳輸消耗不會同時進行,且在一個時隙內(nèi)最多只能消耗節(jié)點當(dāng)前已有的能量儲備。本文也將能量的流動模式分為消耗和補充兩步推導(dǎo),在一個時隙開始時,根據(jù)節(jié)點做出不同的決策,節(jié)點消耗對應(yīng)的能量;在一個時隙結(jié)束前,外部設(shè)備會給客戶端節(jié)點提供w個單位的能量,補充的能量可供節(jié)點下一個時隙使用。若當(dāng)前儲能已經(jīng)達到最大容量,則其能量水平不變。當(dāng)A=0 時,即節(jié)點不執(zhí)行任何操作,節(jié)點的能量狀態(tài)轉(zhuǎn)移矩陣如式(7)所示:
當(dāng)A=1 時,在一個時隙內(nèi),節(jié)點訓(xùn)練模型消耗m個單位的電量,上傳的梯度數(shù)據(jù)消耗的能量忽略不計,當(dāng)客戶端節(jié)點存儲的能量小于m個單位時,即無法完成模型訓(xùn)練,當(dāng)前存儲能量不會被消耗,節(jié)點的能量狀態(tài)轉(zhuǎn)移矩陣如式(8)所示:
當(dāng)A=2 時,傳送成功的概率為q,上傳過程消耗n個單位能量,當(dāng)存儲的能量小于n個單位時,即無法完成數(shù)據(jù)包的傳送,當(dāng)前存儲能量也不會被消耗,節(jié)點的能量狀態(tài)轉(zhuǎn)移矩陣如式(9)所示:
矩陣中q所在位置表示當(dāng)前時隙開始時,節(jié)點能量為E,選擇傳送原始數(shù)據(jù)后數(shù)據(jù)傳送成功,則節(jié)點能量先減少n個單位(若當(dāng)前節(jié)點擁有的能量小于n個單位,則無法傳送數(shù)據(jù),能量也不會被消耗,即節(jié)點能量保持不變),外部設(shè)備提供w個單位能量后,節(jié)點能量變?yōu)镋'。矩陣中1-q所在位置表示節(jié)點當(dāng)前能量為E,選擇傳送原始數(shù)據(jù)后數(shù)據(jù)傳送失敗,能量未因此發(fā)生變化,節(jié)點能量僅增加新收集的w個單位后變?yōu)镋'。
3)區(qū)域狀態(tài)轉(zhuǎn)移矩陣U
為移動信息采集設(shè)備覆蓋區(qū)域狀態(tài)轉(zhuǎn)移的概率矩陣。移動信息采集設(shè)備當(dāng)前是否在節(jié)點的數(shù)據(jù)傳送范圍內(nèi),直接決定了節(jié)點是否可以將數(shù)據(jù)傳送給移動信息采集設(shè)備。只有作為數(shù)據(jù)接收方的移動信息采集設(shè)備停留在節(jié)點處時,節(jié)點才能夠參與到移動信息采集設(shè)備組織的聯(lián)邦學(xué)習(xí)或集中式學(xué)習(xí)中。因此,移動信息采集設(shè)備在節(jié)點處的概率越大,節(jié)點越有可能獲得訓(xùn)練局部模型或上傳原始數(shù)據(jù)所帶來的收益。若移動信息采集設(shè)備當(dāng)前時隙不在節(jié)點處,則下一個時隙移動信息采集設(shè)備進入?yún)^(qū)域的概率為p;若移動信息采集設(shè)備當(dāng)前時隙在節(jié)點處,則下一個時隙移動信息采集設(shè)備繼續(xù)停留在傳送區(qū)域的概率為P(A),節(jié)點的區(qū)域狀態(tài)轉(zhuǎn)移矩陣如式(10)所示:
設(shè)式中P(A=0)
1.2.4 回報函數(shù)
客戶端節(jié)點在工作過程中會在不同狀態(tài)之間轉(zhuǎn)換,并相應(yīng)地采取不同的行動,節(jié)點在當(dāng)前狀態(tài)做出動作后,其作為學(xué)習(xí)參與者將獲得即時獎勵,記為即時效用函數(shù)F(S|A),該函數(shù)僅與當(dāng)前狀態(tài)有關(guān)。本文假設(shè)F(S|A)由3 個分量組成,分別為模型收益函數(shù)FT(S|A)、數(shù)據(jù)延遲函數(shù)FD(S|A) 和隱私泄露函數(shù)FL(S|A),如式(11)所示:
其中:ρT、ρD、ρL為權(quán)重系數(shù);FT(S|A)為節(jié)點訓(xùn)練模型所得的收益。機器學(xué)習(xí)訓(xùn)練模型的好壞很大程度上取決于訓(xùn)練集所用數(shù)據(jù)的質(zhì)量和數(shù)量,一般而言,訓(xùn)練樣本越多,越有可能通過學(xué)習(xí)獲得具有強泛化能力的模型。最終所得模型的準(zhǔn)確度越高,收益也越大[27],則FT(S|A)如式(12)所示:
其中:ΔQ為節(jié)點最終傳送給移動信息采集設(shè)備的數(shù)據(jù)量,訓(xùn)練模型的最終效果與ΔQ成正相關(guān)。但若節(jié)點沒有足夠的能量或者移動信息采集設(shè)備不在傳送范圍內(nèi),節(jié)點則無法在本地更新梯度數(shù)據(jù)或上傳原始數(shù)據(jù)給移動信息采集設(shè)備,因此節(jié)點模型收益為0。由于聯(lián)邦學(xué)習(xí)對于隱私保護的嚴(yán)苛性,可能會導(dǎo)致數(shù)據(jù)的可用性降低,因此傳送原始數(shù)據(jù)可以得到更好的模型訓(xùn)練效果,即T1(ΔQ) FD(S|A)為數(shù)據(jù)在節(jié)點數(shù)據(jù)緩存池中滯留的開銷,數(shù)據(jù)在數(shù)據(jù)緩存池中滯留的時間越長,傳送給移動信息采集設(shè)備的時效性就越低,對總體效用的損耗也越大,則FD(S|A)如式(13)所示: 其中:Q'為當(dāng)前時隙結(jié)束時仍滯留在節(jié)點數(shù)據(jù)緩存池的數(shù)據(jù)量,滯留開銷僅與Q'成負(fù)相關(guān),與節(jié)點當(dāng)前的能量級和移動信息采集設(shè)備的區(qū)域狀態(tài)都無關(guān)。 FL(S|A)為隱私泄露的風(fēng)險開銷,通過分析數(shù)據(jù)量得出信息量的關(guān)系為:當(dāng)數(shù)據(jù)量從無到有增加時,可得出的信息量會隨之快速增加。隨著數(shù)據(jù)量繼續(xù)增加,同樣數(shù)據(jù)量可得的有效信息則逐漸減少,該數(shù)量關(guān)系符合對數(shù)變化規(guī)律[28],則FL(S|A)如式(14)所示: 當(dāng)A=1 時,由于數(shù)據(jù)是加密上傳的,隱私泄露的風(fēng)險較小,隱私開銷可忽略不計。當(dāng)A=2 時,移動信息采集設(shè)備得到大量的節(jié)點原始數(shù)據(jù),從而導(dǎo)致節(jié)點隱私有泄露的風(fēng)險,此時隱私開銷L(ΔQ)與上傳的真實數(shù)據(jù)量ΔQ呈負(fù)相關(guān)。如果節(jié)點沒有足夠的能量或者移動信息采集設(shè)備不在傳送范圍內(nèi),即不產(chǎn)生任何信息傳輸,則隱私開銷為0。 在建立MDP 模型的基礎(chǔ)上,本文分別采用值迭代算法以及深度強化學(xué)習(xí)算法求解MDP,以獲取客戶端節(jié)點的優(yōu)化策略。 在已知完整的系統(tǒng)和環(huán)境信息的前提下,值迭代算法根據(jù)MDP 模型計算最佳的策略。系統(tǒng)優(yōu)化的具體目標(biāo)是在當(dāng)前系統(tǒng)狀態(tài)下,選擇每個決策階段的最佳動作,使節(jié)點長期預(yù)期效用最大化,從而得到最優(yōu)策略。由于MDP 模型是由所提出的狀態(tài)空間、動作空間、狀態(tài)轉(zhuǎn)移矩陣H(S,S'|A)和即時效用函數(shù)F(S|A)實現(xiàn),因此MDP 優(yōu)化公式可通過貝爾曼方程迭代求得,如式(15)~式(17)所示: 其中:γ∈(0,1]為折扣因子,公式的解可通過值迭代算法得到。值迭代算法首先初始化所有狀態(tài)值函數(shù)V(S),分別計算節(jié)點在每一個狀態(tài)下執(zhí)行不同動作時所有可能未來狀態(tài)的預(yù)期效用和,選擇使節(jié)點長期預(yù)期效用最大化的動作,并將當(dāng)前狀態(tài)的值函數(shù)更新為長期預(yù)期效用的最大值。當(dāng)狀態(tài)空間里的所有狀態(tài)遍歷完畢后,則完成了一次迭代過程,重復(fù)上述迭代過程直至前后兩次迭代所得的所有狀態(tài)值函數(shù)之間的差值均小于設(shè)定的某一閾值,所有狀態(tài)值函數(shù)收斂,此時節(jié)點在每個狀態(tài)下對應(yīng)執(zhí)行的動作即為客戶端節(jié)點信息傳輸與能量管理的組合優(yōu)化策略φ*(A|S)。 傳統(tǒng)的值迭代算法需要完整的系統(tǒng)和環(huán)境信息,適用的狀態(tài)和動作空間較小,且沒有泛化能力。隨著系統(tǒng)規(guī)模的增加,值迭代的復(fù)雜度呈指數(shù)級增長。與值迭代算法相比,深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)顯著降低了模型的復(fù)雜性,在問題規(guī)模增大的情況下算法復(fù)雜度也沒有提升。DRL 是強化學(xué)習(xí)和深度學(xué)習(xí)的結(jié)合,在具有決策能力強化學(xué)習(xí)基礎(chǔ)上借助深度神經(jīng)網(wǎng)絡(luò)使智能體擁有對復(fù)雜環(huán)境的理解能力和泛化能力,為智能體動態(tài)地提供不斷適應(yīng)環(huán)境變化的決策方案。 深度Q 網(wǎng)絡(luò)(Deep Q Network,DQN)是DRL 算法的典型代表。與值迭代算法相比,DQN 利用深度神經(jīng)網(wǎng)絡(luò)逼近值函數(shù),將當(dāng)前系統(tǒng)觀察到的狀態(tài)作為神經(jīng)網(wǎng)絡(luò)的輸入,通過經(jīng)驗回放打破數(shù)據(jù)之間的相關(guān)性。DQN 通過兩個結(jié)構(gòu)相同但參數(shù)不同的神經(jīng)網(wǎng)絡(luò),從歷史經(jīng)驗中學(xué)習(xí)回報和動作之間的關(guān)系,優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)重,從環(huán)境中最大化獲得累計回報值,最終輸出一組動作的估計Q值。此外,DQN的輸入數(shù)量僅由狀態(tài)本身性質(zhì)決定,即使輸入數(shù)量改變,DQN 的結(jié)構(gòu)也無需改變,具有一定通用性[29]。因此,本文采用基于DQN 的算法為客戶端節(jié)點提供實時決策,以尋找節(jié)點信息傳輸與能量管理組合優(yōu)化策略。具體過程見算法1。 算法1基于DQN 算法的客戶端節(jié)點信息傳輸與能量管理組合優(yōu)化策略 本文通過仿真構(gòu)建系統(tǒng)模型,并定義了相關(guān)性能指標(biāo)評價所提MDP 策略。 本文設(shè)置客戶端節(jié)點的最大數(shù)據(jù)容量Q=10,最大儲能容量E=10。在一個時隙內(nèi)節(jié)點可向移動信息采集設(shè)備傳送v=3 個單位數(shù)據(jù),新收集k=2 個單位數(shù)據(jù)。節(jié)點在本地訓(xùn)練消耗m=3 個單元能量,傳送原始數(shù)據(jù)給移動信息采集設(shè)備消耗n=1 個單位能量,每個時隙外部設(shè)備給節(jié)點補充w=1 個單位能量。移動信息采集設(shè)備進入節(jié)點傳送范圍的概率p=0.5;節(jié)點執(zhí)行不同動作后,移動信息采集設(shè)備繼續(xù)停留在節(jié)點處的概率P(A=0)=0.5,P(A=1)=0.7,P(A=2)=0.9。節(jié)點成功傳送原始數(shù)據(jù)的概率為q=0.9。對于1.2.4 節(jié)中給出的回報函數(shù),本文設(shè)置T1(ΔQ)=3ΔQ,T2(ΔQ)=4ΔQ,設(shè)置數(shù)據(jù)滯留開銷D(Q')=Q',隱私泄露開銷L(ΔQ)=lb(ΔQ+1),設(shè)置權(quán)重系數(shù)ρT、ρD、ρL分別為1、-0.5、-2。 對于DQN 算法中的初始參數(shù),本文設(shè)置參數(shù)θ為0~0.3 的隨機數(shù),該參數(shù)隨著每次迭代實時更新,每隔300 步目標(biāo)值神經(jīng)網(wǎng)絡(luò)的參數(shù)θ-更新一次。記憶回放池D=500,學(xué)習(xí)率α=0.001,ε-貪心策略中的探索率ε=0.95。 為驗證所提策略的性能,本文設(shè)置4 種對比策略:1)貪心策略(GRE),節(jié)點不考慮未來的長期收益,每次都選擇使即時效用F(S|A)最大化的動作;2)隨機策略(RAN),節(jié)點每次在動作空間中隨機選擇一個動作,所有動作被選中的概率相等;3)傳統(tǒng)聯(lián)邦學(xué)習(xí)策略(FED),節(jié)點在任何狀態(tài)下僅選擇參與聯(lián)邦學(xué)習(xí),即在本地訓(xùn)練并上傳梯度數(shù)據(jù);4)傳統(tǒng)集中式學(xué)習(xí)策略(TRA),節(jié)點在任何狀態(tài)下僅選擇參與集中式機器學(xué)習(xí),即上傳原始數(shù)據(jù)。 為評估所提出策略性能,本文定義相關(guān)性能評價指標(biāo)如表1 所示。 表1 客戶端節(jié)點性能評價指標(biāo)Table 1 Performance evaluation indexs of client node 本文首先基于所提出的值迭代算法進行仿真實驗,通過比較長期效用對客戶端節(jié)點的性能進行驗證。本文研究客戶端節(jié)點的最大數(shù)據(jù)容量Q對其長期效用的影響,改變Q為0~10,在不同策略下長期效用隨節(jié)點最大數(shù)據(jù)容量的變化如圖4 所示。隨著數(shù)據(jù)容量增加,所有策略的效用都呈先增后減的趨勢。這是由于在Q較小時,節(jié)點最大數(shù)據(jù)存儲容量的增加使得節(jié)點可以存儲更多的數(shù)據(jù)以供未來訓(xùn)練模型使用,從而減少節(jié)點參與聯(lián)邦學(xué)習(xí)或集中式學(xué)習(xí),數(shù)據(jù)緩存池中可供訓(xùn)練的數(shù)據(jù)短缺問題發(fā)生的概率減少。隨著Q增加,訓(xùn)練模型所帶來的收益逐漸不足以抵消巨大的數(shù)據(jù)量,滯留在緩存池中的數(shù)據(jù)延遲開銷,因此長期效用逐漸減少。在最大數(shù)據(jù)容量較小時表現(xiàn)較優(yōu)的GRE 策略,隨著數(shù)據(jù)容量的增加逐漸體現(xiàn)出了劣勢。由于GRE 策略是短視的,節(jié)點在決策時僅選擇當(dāng)前時隙能得到最高回報的動作,而忽略了當(dāng)前所選擇動作對未來的影響。FED 策略的能耗成本始終較大,TRA 策略的隱私泄露成本較大,無法獲得優(yōu)于MDP 策略的長期效用。在這種情況下,本文提出的MDP 策略相較于其他基準(zhǔn)策略的優(yōu)勢逐漸擴大。MDP 策略在已知全局環(huán)境信息的情況下,在盡量保護用戶隱私和保持模型訓(xùn)練精度基礎(chǔ)上,降低能量開銷的策略,實現(xiàn)性能平衡。 圖4 在不同策略下長期效用隨節(jié)點最大數(shù)據(jù)容量的變化Fig.4 Long-term utility changes with maximum data capacity of client node under different strategies 在不同策略下長期效用隨節(jié)點最大儲能容量的變化如圖5 所示,改變節(jié)點最大儲能容量E從0~10,隨著E增加,所有策略的效用都呈現(xiàn)增加趨勢后逐漸平緩。當(dāng)E從0~1 時,MDP、GRE 和TRA 策略的長期效用都有一個較大幅度增加,由于節(jié)點上傳原始數(shù)據(jù)需要n=1 個單位能量,此時最大儲能容量的增加使節(jié)點在做決策時有足夠的能量使用,可以減少由于儲能能力不足而造成能量短缺。當(dāng)E>1 時,上述3 種策略的邊際效用減小,此時最大儲能容量已超過節(jié)點執(zhí)行任何操作所需的能量,因此,最大儲能容量的增加帶來的優(yōu)勢也逐漸減少。而FED 策略在E=3 時長期效用才有一個較大的提升,但仍低于其他策略的長期效用。在不同的儲能容量E下,由于本文提出的MDP 策略考慮了未來可能會產(chǎn)生的能量短缺,提前做出了有利于提高長期效用的決策,因此MDP 策略的表現(xiàn)優(yōu)于其他基準(zhǔn)策略。在實際系統(tǒng)中可以依照相應(yīng)的仿真結(jié)果設(shè)置客戶端節(jié)點的最大數(shù)據(jù)容量和最大儲能容量,以節(jié)省成本,例如,在本實驗參數(shù)設(shè)置條件下,將客戶端節(jié)點的最大數(shù)據(jù)容量設(shè)置為3,最大儲能容量設(shè)置為1 是較為合適的選擇。 圖5 在不同策略下長期效用隨節(jié)點最大儲能容量的變化Fig.5 Long-term utility changes with maximum energy capacity of node under different strategies 本文還研究了節(jié)點傳送原始數(shù)據(jù)的成功率q對長期效用的影響,如圖6 所示。隨著q的增加,除了在任何狀態(tài)下都選擇上傳梯度數(shù)據(jù)的FED 策略的總體效用不受原始數(shù)據(jù)發(fā)送成功率的影響,其他所有策略的效用都呈先增后減的趨勢。在q較小時,若節(jié)點選擇了傳送原始數(shù)據(jù),隨著q的增大,更多原始數(shù)據(jù)可直接用于模型訓(xùn)練,節(jié)點所得的訓(xùn)練收益也隨之增大,且大于節(jié)點在其他方面的成本消耗。當(dāng)q=0.8 時,節(jié)點在隱私開銷、模型收益和能量消耗之間達到了最佳平衡。而當(dāng)q>0.8 時,雖然此時數(shù)據(jù)傳送成功概率更高,所獲得的模型收益可能更大,但隨著原始數(shù)據(jù)傳送成功率的提高,當(dāng)節(jié)點選擇傳送原始數(shù)據(jù)時,隱私泄露的風(fēng)險開銷也隨之變大,此時三者之間的最優(yōu)決策所達到的平衡被打破,因此長期效用反而降低。實際系統(tǒng)可以依照相應(yīng)的仿真結(jié)果設(shè)置客戶端節(jié)點的數(shù)據(jù)發(fā)送成功率。在本實驗參數(shù)設(shè)置條件下,維持客戶端節(jié)點的數(shù)據(jù)發(fā)送成功率約為0.8 較合適。從圖6 可以看出,本文考慮了未來長期效用的MDP 策略優(yōu)于其他基準(zhǔn)策略。 圖6 在不同策略下長期效用隨節(jié)點原始數(shù)據(jù)發(fā)送成功率的變化Fig.6 Long-term utility changes with transmission success rate of node original data under different strategies 為驗證部署DQN 策略的客戶端節(jié)點在未知信息的高維環(huán)境中探索學(xué)習(xí)的性能,本文進行了仿真實驗。在不同策略下長期效用隨訓(xùn)練周期的變化如圖7 所示。在經(jīng)過約300 輪訓(xùn)練后,DQN 的仿真結(jié)果收斂于MDP 的仿真結(jié)果并逐漸趨于穩(wěn)定,原因是DQN 策略對先前訓(xùn)練周期的系統(tǒng)狀態(tài)、狀態(tài)轉(zhuǎn)換和即時回報都進行了采樣,并將這些歷史數(shù)據(jù)放入記憶回放池中,之后通過訓(xùn)練歷史數(shù)據(jù)不斷調(diào)整深度神經(jīng)網(wǎng)絡(luò)中的權(quán)重因子,最終調(diào)整到趨于穩(wěn)定且較高的水平,得出節(jié)點最優(yōu)的信息傳輸與能量管理策略。該結(jié)果表明DQN 策略在高維復(fù)雜的無線通信網(wǎng)絡(luò)環(huán)境中,仍表現(xiàn)出較強的探索學(xué)習(xí)能力。 圖7 在不同策略下長期效用隨訓(xùn)練周期的變化Fig.7 Long-term utility changes with training period under different strategies 在不同策略下節(jié)點平均數(shù)據(jù)延遲隨訓(xùn)練周期的變化如圖8 所示?;跉v史數(shù)據(jù)訓(xùn)練的DQN 策略的平均數(shù)據(jù)延遲初期隨著訓(xùn)練周期的增加逐漸降低,可以有效地處理數(shù)據(jù)傳輸任務(wù),DQN 策略在訓(xùn)練約300 輪時收斂于MDP 策略,相較于其他基準(zhǔn)策略產(chǎn)生的數(shù)據(jù)延遲最少。由于數(shù)據(jù)長時間累積存儲在隊列中會導(dǎo)致較大的延遲開銷和較少的長期收益,DQN 策略通過訓(xùn)練學(xué)習(xí)過程快速調(diào)整策略進行平衡,因此更好地完成了移動信息采集設(shè)備和客戶端節(jié)點間的信息傳輸。 圖8 在不同策略下平均數(shù)據(jù)延遲隨訓(xùn)練周期的變化Fig.8 Average data delay changes with training period under different strategies 在不同策略下節(jié)點掉電率隨訓(xùn)練周期的變化如圖9 所示?;贒QN 策略的掉電率在訓(xùn)練約300 輪向下收斂于MDP 策略的基準(zhǔn)值且遠(yuǎn)低于其他策略,相比其他基準(zhǔn)策略,對于回報的短視,DQN 策略在學(xué)習(xí)歷史經(jīng)驗的過程中已逐漸學(xué)會如何規(guī)避可能對后續(xù)能量造成短缺的選擇,不斷調(diào)整策略以最大程度地減少能量短缺。 圖9 在不同策略下掉電率隨訓(xùn)練周期的變化Fig.9 Energy shortage probability changes with training period under different strategies 本文設(shè)計一種基于聯(lián)邦學(xué)習(xí)的信息傳輸與能量管理策略。通過構(gòu)建馬爾科夫決策模型分析客戶端節(jié)點在系統(tǒng)中的行為模式,采用值迭代算法和深度強化學(xué)習(xí)算法求解馬爾科夫決策模型,得到客戶端節(jié)點的能量與信息管理優(yōu)化策略。仿真結(jié)果表明,本文策略能夠?qū)崿F(xiàn)節(jié)點在數(shù)據(jù)隱私保護、模型收益和能量消耗之間的最優(yōu)平衡。由于無線通信網(wǎng)絡(luò)的實際應(yīng)用場景通常是層次復(fù)雜的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),而本文僅研究聯(lián)邦學(xué)習(xí)框架下無線網(wǎng)絡(luò)中一對多通信的問題,因此后續(xù)將對多層次無線網(wǎng)絡(luò)結(jié)構(gòu)下多對多信息傳輸?shù)膭討B(tài)變化進行研究,使信息傳輸與能量管理策略適用于無線通信網(wǎng)絡(luò)的實際應(yīng)用場景。2 無線通信網(wǎng)絡(luò)場景下的優(yōu)化策略
2.1 值迭代算法
2.2 深度強化學(xué)習(xí)
3 仿真與結(jié)果分析
3.1 仿真環(huán)境與參數(shù)
3.2 評價指標(biāo)
3.3 仿真結(jié)果分析
4 結(jié)束語