賀承啟
(貴陽桑力電子實(shí)業(yè)有限公司,貴州 貴陽 550000)
在邊緣計(jì)算環(huán)境中,動(dòng)態(tài)資源分配的數(shù)學(xué)建模需要考慮多種約束條件。首先,邊緣節(jié)點(diǎn)的異構(gòu)性約束意味著不同節(jié)點(diǎn)具有不同的計(jì)算能力、存儲(chǔ)容量以及傳輸速率。通常用N表示邊緣節(jié)點(diǎn)的數(shù)量,Ci表示第i個(gè)節(jié)點(diǎn)的計(jì)算能力,Si表示存儲(chǔ)容量,Ri表示傳輸速率。其次,地理分散性約束影響著節(jié)點(diǎn)之間的通信網(wǎng)絡(luò)時(shí)延,在地理分散性這一約束條件中,Dij表示節(jié)點(diǎn)之間的地理距離,Tij表示2 個(gè)節(jié)點(diǎn)間的通信網(wǎng)絡(luò)時(shí)延,其中i、j分別表示2 個(gè)節(jié)點(diǎn)的索引[1]。最后,在動(dòng)態(tài)資源分配中需要考慮能量因果性約束,確保節(jié)點(diǎn)的能源消耗不超過其能量供給,該約束條件中通常用Ei表示第i個(gè)節(jié)點(diǎn)的能量。為保障邊緣計(jì)算中動(dòng)態(tài)資源的合理分配,需要滿足邊緣節(jié)點(diǎn)異構(gòu)性、地理分散性、能量因果性等約束條件公式。邊緣節(jié)點(diǎn)異構(gòu)性約束條件公式為
地理分散性約束條件公式為
能量因果性約束條件公式為
邊緣計(jì)算動(dòng)態(tài)資源分配的核心優(yōu)化目標(biāo)是降低通信網(wǎng)絡(luò)時(shí)延,提高系統(tǒng)性能和用戶體驗(yàn)。為高效利用有限的資源,需要對(duì)邊緣計(jì)算的動(dòng)態(tài)資源分配進(jìn)行2 個(gè)方面的優(yōu)化。一方面,最小化整個(gè)通信網(wǎng)絡(luò)的總時(shí)延,通過智能資源分配和合理任務(wù)調(diào)度來加快節(jié)點(diǎn)間的數(shù)據(jù)傳輸[2]。另一方面,需要最大化邊緣計(jì)算節(jié)點(diǎn)的計(jì)算能力、存儲(chǔ)容量和傳輸速率,以保證系統(tǒng)在高負(fù)載時(shí)的高效運(yùn)行。
為高效、智能地解決邊緣計(jì)算動(dòng)態(tài)資源分配的多目標(biāo)優(yōu)化問題,文章提出一種基于深度強(qiáng)化學(xué)習(xí)的創(chuàng)新性求解方法。該方法以通信網(wǎng)絡(luò)時(shí)延最小化、能源消耗最小化、資源利用率最大化等作為優(yōu)化目標(biāo),構(gòu)建一個(gè)綜合考慮邊緣節(jié)點(diǎn)異構(gòu)性、地理分散性以及能量因果性的數(shù)學(xué)模型,并通過設(shè)計(jì)基于深度強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)資源分配算法,利用策略梯度方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)的參數(shù),使其能夠自適應(yīng)地學(xué)習(xí)最優(yōu)的資源分配策略。同時(shí),該算法使用多層感知器(Multi-Layer Perceptron,MLP)來逼近節(jié)點(diǎn)的策略函數(shù),根據(jù)邊緣計(jì)算網(wǎng)絡(luò)的實(shí)時(shí)狀態(tài)靈活調(diào)整計(jì)算任務(wù)、計(jì)算頻率、發(fā)射功率等資源。
基于深度強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)資源分配算法以MLP結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)為策略函數(shù),根據(jù)邊緣計(jì)算網(wǎng)絡(luò)的節(jié)點(diǎn)的負(fù)載、網(wǎng)絡(luò)擁塞情況以及通信網(wǎng)絡(luò)時(shí)延等實(shí)時(shí)狀態(tài)信息,動(dòng)態(tài)地調(diào)整邊緣節(jié)點(diǎn)的資源分配策略[3]。該函數(shù)的輸入層負(fù)責(zé)接收狀態(tài)信息,隱藏層采用多個(gè)神經(jīng)元進(jìn)行非線性映射,輸出層負(fù)責(zé)計(jì)算任務(wù)的分配、計(jì)算頻率的調(diào)整及發(fā)射功率的設(shè)定等。輸出層的激活函數(shù)為Sigmoid(·),確保輸出在[0,1]范圍內(nèi),方便調(diào)整比例。該策略函數(shù)表達(dá)式為
式中:Win和Wout分別表示神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣;bin和bout分別表示神經(jīng)網(wǎng)絡(luò)的偏置向量,bin和bout中的每個(gè)元素對(duì)應(yīng)輸出層中的一個(gè)神經(jīng)元的偏置;X表示輸入向量;H表示隱藏層輸出向量;O表示輸出層輸出向量。
為訓(xùn)練和調(diào)優(yōu)神經(jīng)網(wǎng)絡(luò)的參數(shù),本算法采用策略梯度方法,并定義損失函數(shù)為
式中:Ai表示期望的資源分配策略;Oi表示神經(jīng)網(wǎng)絡(luò)輸出的實(shí)際資源分配策略。通過最小化損失函數(shù),更新神經(jīng)網(wǎng)絡(luò)參數(shù),從而獲得最優(yōu)的資源分配策略。這種策略函數(shù)設(shè)計(jì)能夠更好地捕捉邊緣計(jì)算環(huán)境的特征,實(shí)現(xiàn)智能、靈活的資源分配策略,從而最小化通信網(wǎng)絡(luò)時(shí)延,提高整體系統(tǒng)性能。
為最小化通信網(wǎng)絡(luò)時(shí)延,文章設(shè)計(jì)一個(gè)收益函數(shù),并綜合考慮本地執(zhí)行、卸載執(zhí)行及數(shù)據(jù)傳輸?shù)臅r(shí)間成本。其收益函數(shù)表達(dá)式為
式中:Tlocal、Toffload及Ttransmission分別表示本地執(zhí)行時(shí)間、卸載時(shí)間及數(shù)據(jù)傳輸時(shí)間。本地執(zhí)行時(shí)間、卸載時(shí)間和數(shù)據(jù)傳輸時(shí)間的計(jì)算公式為
式中:W表示任務(wù)大??;Flocal表示本地執(zhí)行的計(jì)算頻率;Foffload表示卸載執(zhí)行的計(jì)算頻率;Dtransmission表示數(shù)據(jù)傳輸時(shí)延;D表示數(shù)據(jù)大小;Rtransmission表示數(shù)據(jù)傳輸速率。收益函數(shù)profit 能夠全面考慮任務(wù)在邊緣節(jié)點(diǎn)執(zhí)行和卸載執(zhí)行之間的權(quán)衡,通過最小化綜合時(shí)間,找到最優(yōu)的資源分配策略,以降低通信網(wǎng)絡(luò)時(shí)延,提高整體系統(tǒng)性能。
基于深度強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)資源分配算法的策略優(yōu)化方法通過定義損失函數(shù)為負(fù)的收益函數(shù),計(jì)算關(guān)于策略函數(shù)參數(shù)的梯度,并使用隨機(jī)梯度下降法更新參數(shù)。同時(shí),在策略方法中引入經(jīng)驗(yàn)回放機(jī)制,將歷史經(jīng)驗(yàn)存儲(chǔ)于經(jīng)驗(yàn)池,并隨機(jī)抽樣進(jìn)行訓(xùn)練,以平穩(wěn)訓(xùn)練過程。該過程中,該方法通過設(shè)定停止準(zhǔn)則來控制訓(xùn)練過程,當(dāng)達(dá)到一定訓(xùn)練輪數(shù)或損失值閾值將結(jié)束訓(xùn)練。這一策略更新方法結(jié)合深度學(xué)習(xí)的表達(dá)能力,不斷優(yōu)化策略函數(shù)的參數(shù),使其能夠更準(zhǔn)確地生成最優(yōu)的資源分配策略,以最小化通信網(wǎng)絡(luò)時(shí)延。
為確定優(yōu)化的基于深度強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)資源分配算法的有效性,本研究搭建仿真環(huán)境進(jìn)行仿真對(duì)比實(shí)驗(yàn)。在仿真環(huán)境搭建中,借助ntel Xeon 處理器,內(nèi)存16 GB,存儲(chǔ)256 GB 固態(tài)硬盤(Solid State Disk,SSD)的邊緣服務(wù)器搭建硬件環(huán)境,并依靠Linux 操作系統(tǒng),搭載Docker 容器化技術(shù),實(shí)現(xiàn)資源調(diào)度和任務(wù)卸載策略。同時(shí),在仿真環(huán)境設(shè)置中,本研究將緣節(jié)點(diǎn)數(shù)量設(shè)置為50 個(gè),邊緣服務(wù)器數(shù)量為5 個(gè),云服務(wù)器數(shù)量為1 個(gè),進(jìn)行1 000 輪仿真,以確保充分收斂并獲取穩(wěn)定的性能評(píng)估結(jié)果。
在對(duì)比實(shí)驗(yàn)中,本研究選用固定資源分配法和貪心資源分配法作為對(duì)比算法。其中,固定資源分配算法是一種簡單而常見的資源分配策略,其將資源在整個(gè)仿真過程中保持不變,作為基準(zhǔn)對(duì)比[4]。貪心資源分配算法是一種基于貪心策略的資源分配算法,其可以根據(jù)當(dāng)前時(shí)刻的網(wǎng)絡(luò)狀態(tài)和任務(wù)需求,選擇最優(yōu)的資源分配方案[5]。這2 種算法的選擇可以全面評(píng)估所提出的基于深度強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)資源分配算法的性能。
固定資源分配法、貪心資源分配法與優(yōu)化的基于深度強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)資源分配算法(以下簡稱優(yōu)化算法)的通信網(wǎng)絡(luò)時(shí)延對(duì)比如表1 所示,資源利用效率對(duì)比如表2 所示。
表1 通信網(wǎng)絡(luò)時(shí)延對(duì)比 單位:ms
表2 資源利用率對(duì)比 單位:%
通過表1 和表2 仿真實(shí)驗(yàn)的對(duì)比分析數(shù)據(jù)可以發(fā)現(xiàn),在通信網(wǎng)絡(luò)時(shí)延方面,優(yōu)化算法在平均時(shí)延、最大時(shí)延以及最小時(shí)延3 個(gè)指標(biāo)上均顯著優(yōu)于對(duì)比算法,相比固定資源分配算法、貪心資源分配算法的資源分配算法,優(yōu)化算法能夠更有效地降低通信網(wǎng)絡(luò)時(shí)延,提高邊緣計(jì)算性能;在資源利用效率方面,優(yōu)化算法的平均利用率也遠(yuǎn)高于其他算法。由此表明,優(yōu)化算法能夠更靈活地適應(yīng)邊緣計(jì)算網(wǎng)絡(luò)的實(shí)時(shí)狀態(tài)和需求,從而更充分和高效地利用資源。
文章提出優(yōu)化的基于深度強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)資源分配算法,成功解決邊緣計(jì)算網(wǎng)絡(luò)的資源分配難題,顯著降低通信網(wǎng)絡(luò)時(shí)延,并提高資源利用效率。與傳統(tǒng)算法相比,優(yōu)化算法在時(shí)延和利用率方面均取得明顯優(yōu)勢。通過充分考慮邊緣計(jì)算網(wǎng)絡(luò)的異構(gòu)性、動(dòng)態(tài)性和多目標(biāo)性,為邊緣計(jì)算的實(shí)際應(yīng)用提供高效和智能的解決方案。