高速車(chē)聯(lián)網(wǎng)場(chǎng)景下分簇式無(wú)線(xiàn)聯(lián)邦學(xué)習(xí)算法

2021-07-02 08:54王家瑞譚國(guó)平周思源

計(jì)算機(jī)應(yīng)用 2021年6期

王家瑞，譚國(guó)平*，周思源

（1.河海大學(xué)計(jì)算機(jī)與信息學(xué)院南京 211100；2.江蘇智能交通及智能駕駛研究院南京 210019）

（?通信作者:gptan@hhu.edu.cn）

0 引言

隨著5G 技術(shù)的發(fā)展，物聯(lián)網(wǎng)逐漸成為5G 時(shí)代的研究熱點(diǎn)。車(chē)聯(lián)網(wǎng)作為物聯(lián)網(wǎng)中一個(gè)有潛力的研究分支，有望成為智能交通系統(tǒng)中的重要的數(shù)據(jù)傳輸與控制平臺(tái)。車(chē)聯(lián)網(wǎng)是一種移動(dòng)自組網(wǎng)絡(luò)，可以有效地改善道路安全問(wèn)題和駕駛者的駕乘環(huán)境。支撐這一功能的是用戶(hù)及其車(chē)輛所帶來(lái)的大量數(shù)據(jù)，但是車(chē)聯(lián)網(wǎng)的規(guī)模巨大、所用無(wú)線(xiàn)信道較為開(kāi)放缺乏保密性、車(chē)輛的運(yùn)動(dòng)軌跡容易被跟蹤預(yù)測(cè)，這都使用戶(hù)的安全隱私容易泄露。不法分子可能通過(guò)截取用戶(hù)廣播的信息、預(yù)測(cè)車(chē)輛軌跡等方式竊取同戶(hù)的數(shù)據(jù)隱私，一旦車(chē)聯(lián)網(wǎng)系統(tǒng)暴露了任何車(chē)輛或用戶(hù)的隱私信息，將在很長(zhǎng)一段時(shí)間內(nèi)難以被公眾廣泛地接受。因此，用戶(hù)的隱私安全問(wèn)題逐漸成為限制車(chē)輛及用戶(hù)參與數(shù)據(jù)提供程度的主要因素。為加強(qiáng)對(duì)用戶(hù)隱私的保護(hù)，除差分隱私保護(hù)理論［1］、k匿名［2］等常用的隱私保護(hù)方法外，近幾年，文獻(xiàn)［3-7］中也提出了許多解決方案。與此同時(shí)，2016 年谷歌提出了一種基于用戶(hù)隱私保護(hù)的學(xué)習(xí)框架——聯(lián)邦學(xué)習(xí)［8-10］，其主要的特征是數(shù)據(jù)提供方的數(shù)據(jù)均保留在本地，沒(méi)有進(jìn)行數(shù)據(jù)傳輸，從源頭上抑制了數(shù)據(jù)隱私的泄露。通過(guò)聯(lián)邦學(xué)習(xí)，車(chē)聯(lián)網(wǎng)系統(tǒng)可以在保護(hù)用戶(hù)隱私不被泄露的條件下，使用大量用戶(hù)數(shù)據(jù)進(jìn)行模型訓(xùn)練。

現(xiàn)行的許多關(guān)于分布式聯(lián)邦學(xué)習(xí)系統(tǒng)的研究［11-14］的用戶(hù)拓?fù)渫ǔ樾切屯負(fù)?。但星型拓?fù)浯蠖噌槍?duì)小范圍的隨機(jī)用戶(hù)，并沒(méi)有充分考慮車(chē)聯(lián)網(wǎng)場(chǎng)景下車(chē)輛隨道路分布的特殊性及其對(duì)聯(lián)邦學(xué)習(xí)訓(xùn)練效果的影響，為此本文提出了一種分布式的分簇式聯(lián)邦學(xué)習(xí)算法。從文獻(xiàn)［15-16］中可以得知，目前車(chē)聯(lián)網(wǎng)的發(fā)展存在以下兩方面挑戰(zhàn):一方面，車(chē)聯(lián)網(wǎng)場(chǎng)景下用戶(hù)分布往往更為分散，采用單參數(shù)服務(wù)端進(jìn)行用戶(hù)的模型數(shù)據(jù)匯總、更新往往需要更長(zhǎng)的時(shí)間；另一方面，用戶(hù)距離參數(shù)服務(wù)端較遠(yuǎn)，用戶(hù)所需的總功率相對(duì)較大。通過(guò)設(shè)計(jì)用戶(hù)的分簇方案可以選擇用戶(hù)端總功率較小的分簇方式進(jìn)行訓(xùn)練，從而對(duì)用戶(hù)端進(jìn)行功率控制。

1 高速路車(chē)聯(lián)網(wǎng)模型

1.1 高速公路車(chē)輛分布模型

如圖1 所示，模型建立在雙向四車(chē)道的高速公路上，路段長(zhǎng)度為L(zhǎng)，單車(chē)道寬為W，圓點(diǎn)表示車(chē)輛。在道路中間每隔距離i設(shè)置一個(gè)路側(cè)元（Road Side Unit，RSU），用于完成用戶(hù)模型的接收匯總與更新。

在車(chē)用無(wú)線(xiàn)通信技術(shù)的長(zhǎng)期演進(jìn)計(jì)劃（Long Term Evolution-Vehicle to everything，LTE-V2X）系統(tǒng)級(jí)仿真中，設(shè)計(jì)車(chē)輛撒點(diǎn)及運(yùn)動(dòng)的內(nèi)容包括五項(xiàng):車(chē)輛數(shù)量、撒點(diǎn)方式、車(chē)速、行車(chē)方向、轉(zhuǎn)向模型［17］。其中車(chē)輛數(shù)量N的計(jì)算式如下:

其中:P為車(chē)速；T為駕駛員安全反應(yīng)時(shí)間。在上述模型的基礎(chǔ)上，將在四條車(chē)道上隨機(jī)撒點(diǎn)，使車(chē)輛散布于每條車(chē)道的中線(xiàn)上，并保證車(chē)輛之間的間距大于安全跟車(chē)距離l。

1.2 無(wú)線(xiàn)傳輸模型

考慮到RSU 的發(fā)射功率可以滿(mǎn)足數(shù)據(jù)的有效發(fā)送，而移動(dòng)車(chē)輛的發(fā)射功率有限，假設(shè)RSU 將數(shù)據(jù)下傳至簇內(nèi)用戶(hù)的下行信道及RSU 之間的信道均為無(wú)損信道，用戶(hù)上傳模型數(shù)據(jù)至RSU的信道為衰落信道。

在用戶(hù)端進(jìn)行上行模型數(shù)據(jù)傳輸時(shí)，采用模擬的方法進(jìn)行傳輸，第i次迭代時(shí)，RSU接收到的信號(hào)yi(t)可表示為:

其中:Mi為第i次迭代時(shí)當(dāng)前簇內(nèi)用戶(hù)的集合；hm，i(t)～CN(0，)為第m個(gè)設(shè)備在第i次模型迭代時(shí)與RSU之間的瑞利信道，zi(t)～CN(0，)為加性高斯白噪聲；xm，i(t)為t時(shí)刻第m個(gè)設(shè)備在第i次模型迭代完成后所需發(fā)送的信息?？梢詫m，i(t)用式（3）表示:

其中:gm，i(t)為第i次迭代時(shí)的模型梯度值；αm，i(t)表示功率控制向量。為滿(mǎn)足發(fā)射功率的限制，該功率控制向量的表達(dá)式如下:

其中，γ(t)，λm，i(t)∈R，為功率控制參數(shù)，調(diào)控λm，i(t)與γ(t)的值，可以使αm，i(t)滿(mǎn)足功率限制條件。

結(jié)合式（4），可以將RSU接收信號(hào)重新表達(dá)為:

假設(shè)信號(hào)需要傳輸?shù)木嚯x為d，考慮大尺度衰落，可以重新得到此時(shí)RSU處接收到的信號(hào)表達(dá)式:

其中:B為與信號(hào)頻率等條件相關(guān)的常數(shù)；ρ為信號(hào)距離衰落因子，控制信號(hào)衰落的幅度。

1.3 控制參數(shù)

由式（4）可知，可以通過(guò)調(diào)整λ的值來(lái)控制有效傳輸模型數(shù)據(jù)的數(shù)量，以完成對(duì)數(shù)據(jù)丟包情況的模擬。定義有效數(shù)據(jù)傳輸率β為有效傳輸?shù)臄?shù)據(jù)包數(shù)量J占模型數(shù)據(jù)完整傳輸時(shí)所需傳輸數(shù)據(jù)包數(shù)量H的比值，即:

它可以作為有效傳輸概率的估計(jì)，即:

其中f(z)為瑞利分布的概率密度:

其中δ為方差，由此，可以得到:

1.4 損失函數(shù)

第k個(gè)用戶(hù)端處訓(xùn)練模型的損失函數(shù)可表示為:

其中:Dk表示在第k個(gè)用戶(hù)處收集到的本地?cái)?shù)據(jù)集；f(w，xi，yi)表示模型w基于訓(xùn)練集樣本xi及其對(duì)應(yīng)標(biāo)簽yi的誤差損失函數(shù)。同時(shí)，一簇內(nèi)的總體模型損失函數(shù)F(w)可以表示為如下形式:

其中，K為該簇內(nèi)參與模型訓(xùn)練的用戶(hù)總數(shù)。

2 分簇式無(wú)線(xiàn)聯(lián)邦學(xué)習(xí)算法

2.1 整體系統(tǒng)流程

圖2 為整體系統(tǒng)框圖，后續(xù)實(shí)驗(yàn)也將據(jù)此進(jìn)行相關(guān)仿真。在一次迭代中，當(dāng)一簇用戶(hù)的模型更新完成后，其模型將作為下一簇用戶(hù)的初始模型進(jìn)行訓(xùn)練，這種方式與傳統(tǒng)聯(lián)邦學(xué)習(xí)中模型值取平均的做法不同，但這也是針對(duì)分簇式聯(lián)邦學(xué)習(xí)方法進(jìn)行的一種嘗試。

圖2 C-WFLA流程Fig.2 Flow chart of C-WFLA

2.2 分簇算法

在每次隨機(jī)撒點(diǎn)完成后，將根據(jù)個(gè)用戶(hù)的車(chē)輛位置進(jìn)行分簇，把模型中的N個(gè)用戶(hù)分為C簇，控制用戶(hù)端在上傳數(shù)據(jù)時(shí)不要離RSU 過(guò)遠(yuǎn)，具體的分簇方法基于二分k-means 的思路，流程如下:

1）計(jì)算N個(gè)用戶(hù)位置坐標(biāo)的質(zhì)心。

2）選擇距離1）中質(zhì)心最近的RSU作為初始中心點(diǎn)。

3）隨機(jī)選取2 個(gè)用戶(hù)位置做中心點(diǎn)，并由此將剩余用戶(hù)分為兩簇。

4）選取步驟3）中未選擇的用戶(hù)點(diǎn)，分別計(jì)算其與步驟3）中選取兩中心點(diǎn)歐氏距離的平方，并使其歸于數(shù)值較小的一方，該用戶(hù)點(diǎn)加入后，重新計(jì)算該簇用戶(hù)位置坐標(biāo)的質(zhì)心。

5）重復(fù)步驟4）直至所有點(diǎn)分簇完成，選擇距離兩簇質(zhì)心最近的RSU作為該簇的中心點(diǎn)。

6）分別計(jì)算兩簇內(nèi)用戶(hù)點(diǎn)與中心點(diǎn)距離的平方和，選擇數(shù)值較大的一簇重復(fù)步驟3）～4）直至模型內(nèi)的總簇?cái)?shù)達(dá)到設(shè)定值。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)參數(shù)

在實(shí)驗(yàn)仿真中，圖1 中示意的高速公路的長(zhǎng)度L定為1 000 m，單條道路寬定為7.5 m。

設(shè)置車(chē)輛數(shù)量時(shí)，取車(chē)輛速度P為120 km/h，駕駛員安全反應(yīng)時(shí)間T取6 s，安全跟車(chē)距離l取20 m，確保同一車(chē)道兩車(chē)間距大于20 m，根據(jù)式（1），可得N=20。因此，在每次迭代時(shí)將模擬生成20輛車(chē)的位置，以進(jìn)行分簇。

本次實(shí)驗(yàn)，以數(shù)字手寫(xiě)體識(shí)別的模型訓(xùn)練為例，展示訓(xùn)練效果，優(yōu)化器選擇隨機(jī)梯度下降（Stochastic Gradient Descent，SGD），訓(xùn)練集大小r取5 000，經(jīng)預(yù)實(shí)驗(yàn)迭代次數(shù)i取150，學(xué)習(xí)率lr選擇如式（13）:

基于每次迭代整體的效率與速度，分簇過(guò)少會(huì)使整體用戶(hù)的發(fā)射功率增加，分簇過(guò)多會(huì)導(dǎo)致單次迭代內(nèi)的訓(xùn)練區(qū)域較多，系統(tǒng)整體訓(xùn)練時(shí)間較長(zhǎng)，因此選擇將20 個(gè)用戶(hù)分為3簇。

根據(jù)圖2 介紹的流程，接下來(lái)通過(guò)一次仿真案例的執(zhí)行情況，具體展示分簇算法運(yùn)行結(jié)果細(xì)節(jié):

1）根據(jù)用戶(hù)位置，20個(gè)用戶(hù)端的初始分簇情況如下:

其中，數(shù)字0～19 為用戶(hù)端的標(biāo)號(hào)，在分配訓(xùn)練集圖片時(shí)，將給0 號(hào)、1 號(hào)用戶(hù)端分配5 000 張數(shù)字“0”的圖片，以此類(lèi)推18號(hào)、19號(hào)用戶(hù)端將獲得5 000張數(shù)字“9”的圖片。

2）在根據(jù)β值的大小做好功率控制的情況下，通過(guò)當(dāng)前簇內(nèi)用戶(hù)（［1，2，5，6，12，14，17，18］）的數(shù)據(jù)集進(jìn)行模型學(xué)習(xí)，并通過(guò)RSU 將匯總、更新后的模型參數(shù)傳至下一簇（［7，13，15，19］），并作為下一簇用戶(hù)模型訓(xùn)練的初始模型。

3）重復(fù)2）中的操作，直至3簇用戶(hù)均訓(xùn)練完成，第一次迭代結(jié)束。

4）在下一輪迭代開(kāi)始之前，系統(tǒng)將重新生成用戶(hù)的位置信息，并重新進(jìn)行分簇。

5）重復(fù)2）～3）中的操作，直至迭代150 次，模型損失值基本收斂，訓(xùn)練完成。

3.2 結(jié)果分析

圖3 為β值取20%、40%、60%、80%、100%時(shí)，模型經(jīng)過(guò)150 輪迭代，傳統(tǒng)聯(lián)邦學(xué)習(xí)（集中式）、分簇式聯(lián)邦學(xué)習(xí)（分布式）兩種訓(xùn)練方式下，模型損失函數(shù)的變化。

從圖3 可以看出:在β大于等于40%時(shí)，兩種訓(xùn)練方式下的模型收斂值、收斂速度相近，但分簇式訓(xùn)練在模型收斂時(shí)的損失函數(shù)波動(dòng)變大。當(dāng)β值繼續(xù)降低到20%時(shí)，傳統(tǒng)聯(lián)邦學(xué)習(xí)的收斂值劇增，整體模型訓(xùn)練效果變差。

圖3 不同β值下的損失函數(shù)變化Fig.3 Change of loss function under different β values

表1為模型經(jīng)過(guò)150輪迭代后，兩種訓(xùn)練方式下?lián)p失函數(shù)的收斂值。

從表1 中可以看出:β高于40%時(shí)，分簇式聯(lián)邦學(xué)習(xí)訓(xùn)練后的模型收斂值略高于傳統(tǒng)聯(lián)邦學(xué)習(xí)；而當(dāng)β值降低至20%，分簇式聯(lián)邦學(xué)習(xí)的模型收斂值卻更低，這說(shuō)明在β值較低，即信道狀態(tài)較差或者發(fā)射功率受限較大時(shí)，分簇式訓(xùn)練有著更好的抵抗性，因此獲得了更好的模型訓(xùn)練效果。

表1 兩種訓(xùn)練方式下模型收斂值對(duì)比Tab.1 Comparison of model convergence values under two training methods

對(duì)傳統(tǒng)聯(lián)邦學(xué)習(xí)模式在不同β值下的收斂情況進(jìn)行了橫向?qū)Ρ龋鐖D4所示。在圖4中可以觀察到，β值為100%、80%時(shí)曲線(xiàn)基本重合，當(dāng)β值低于40%時(shí)，模型損失函數(shù)出現(xiàn)了類(lèi)似門(mén)限效應(yīng)的情況，隨著β值的減小，損失函數(shù)的收斂值迅速變大，而分簇式聯(lián)邦學(xué)習(xí)訓(xùn)練出的模型并沒(méi)有出現(xiàn)類(lèi)似情況。

圖4 傳統(tǒng)聯(lián)邦學(xué)習(xí)在訓(xùn)練時(shí)的損失函數(shù)值Fig.4 Loss function values during training of traditional federated learning

這一現(xiàn)象，推測(cè)可能是隨機(jī)拓?fù)渚W(wǎng)絡(luò)的隨機(jī)性產(chǎn)生的效果:

1）從模型參數(shù)的角度分析:假設(shè)有利于模型訓(xùn)練的關(guān)鍵參數(shù)位置基本不變，在隨機(jī)網(wǎng)絡(luò)引入之前，在通過(guò)功率控制進(jìn)行模擬丟包后，關(guān)鍵位置的模型參數(shù)可能會(huì)丟失，從而導(dǎo)致模型不能正常收斂。而在分簇式聯(lián)邦學(xué)習(xí)中，用戶(hù)被分為了多簇，在每一次的迭代中，模型需要進(jìn)行多次接力更新才能完成，而根據(jù)式（6）可知，聯(lián)邦學(xué)習(xí)只關(guān)注模型更新時(shí)，所有用戶(hù)發(fā)送的梯度矢量平均值。由于分簇式聯(lián)邦學(xué)習(xí)的每一簇用戶(hù)在上傳模型數(shù)據(jù)時(shí)都需要進(jìn)行一次功率控制，從概率上講，模型中關(guān)鍵位置參數(shù)全部丟失的可能性相對(duì)減小，取而代之的是該位置上的參數(shù)值變小，這一變化提高了其模型數(shù)據(jù)在丟包較多的情況下，訓(xùn)練后模型的整體效果。

2）分簇式聯(lián)邦學(xué)習(xí)在每次迭代時(shí)，用戶(hù)的位置與用戶(hù)的分組方式發(fā)生了改變，這相當(dāng)于在模型訓(xùn)練的過(guò)程中引入了一定的隨機(jī)性，從而優(yōu)化了整體模型訓(xùn)練的效果，而也正是由于這種隨機(jī)性的引入使模型收斂時(shí)會(huì)出現(xiàn)一定的波動(dòng)。

4 結(jié)語(yǔ)

針對(duì)基于高速公路模型的車(chē)聯(lián)網(wǎng)場(chǎng)景，本文提出了一種分布式的分簇式無(wú)線(xiàn)聯(lián)邦學(xué)習(xí)算法（C-WFLA）。通過(guò)仿真實(shí)驗(yàn)對(duì)該算法的訓(xùn)練性能進(jìn)行的分析可知，本文提出的分簇式訓(xùn)練方式能有效應(yīng)對(duì)無(wú)線(xiàn)系統(tǒng)中的數(shù)據(jù)丟包狀況，即在相應(yīng)的丟包率低于一定的閾值時(shí)，本文提出的分布式算法依然能夠取得較好的訓(xùn)練效果。但本文所提出的算法還存在很多問(wèn)題值得探討:1）目前只考慮了數(shù)字手寫(xiě)體識(shí)別模型訓(xùn)練，對(duì)一些更復(fù)雜的模型有待實(shí)驗(yàn)驗(yàn)證；2）對(duì)于無(wú)線(xiàn)信道的仿真還不夠?qū)嶋H，沒(méi)有考慮多徑效應(yīng)、多普勒效應(yīng)等實(shí)際情況；3）對(duì)模型隨機(jī)性的考慮還不夠完備，分簇方法也還有待優(yōu)化；4）在諸如城市道路、鄉(xiāng)村道路等不同車(chē)聯(lián)網(wǎng)模型下的訓(xùn)練效果還有待驗(yàn)證。以上問(wèn)題都將是我們后續(xù)的重點(diǎn)研討方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡