能量收集輔助的礦山物聯(lián)網(wǎng)智能計算卸載方法

2023-11-18 08:48閔明慧朱浩鵬程志鵬帥李世銀彭國軍

電子與信息學報 2023年10期

關鍵詞：時延邊緣礦山

閔明慧張鵬朱浩鵬程志鵬馬帥李世銀* 肖亮彭國軍

①(中國礦業(yè)大學信息與控制工程學院徐州 221116)

②(武漢大學空天信息安全與可信計算教育部重點實驗室武漢 430072)

③(廈門大學信息學院廈門 361005)

1 引言

為推進智慧礦山建設，實現(xiàn)礦山生產(chǎn)自動化、信息化和智能化，需要對礦山物聯(lián)網(wǎng)中數(shù)據(jù)密集且時延敏感的計算任務進行及時處理和分析[1]。然而，一般情況下，礦山物聯(lián)網(wǎng)設備計算、能量和內(nèi)存資源受限[2]。因此，針對智慧礦山建設需求的高效任務計算卸載方法亟待研究。

移動邊緣計算(M ob ile Edge Com pu ting,MEC)技術利用邊緣服務器的計算、緩存和能量資源將礦山物聯(lián)網(wǎng)設備產(chǎn)生的計算任務卸載至邊緣端協(xié)助處理以降低計算時延和能耗，甚至提高智慧礦山的安全性[3,4]。Porambage等人[5]展開一項全面調(diào)查，介紹了M EC技術在不同物聯(lián)網(wǎng)系統(tǒng)中的應用，并闡明了該技術可改善物聯(lián)網(wǎng)性能。在工業(yè)物聯(lián)網(wǎng)等場景，可以利用邊緣計算技術有效地解決設備終端計算能力不足的問題，在靠近用戶的邊緣上提供滿意的服務質量和靈活的計算資源[6]。采用智能計算卸載框架將單個物聯(lián)網(wǎng)設備上的計算任務卸載到多個邊緣服務器上，并對任務分配以及CPU頻率進行聯(lián)合優(yōu)化，可最大限度地減少執(zhí)行延遲和能耗[7]。本工作針對礦山物聯(lián)網(wǎng)中豐富特殊的計算任務需求[8]，如實時檢測甲烷濃度的時延敏感型計算任務、采煤工作面高效運行大量感知參數(shù)處理的數(shù)據(jù)密集型任務以及火災/爆炸警報的生命保障型任務，運用MEC技術實現(xiàn)礦山物聯(lián)網(wǎng)的高效任務處理和性能優(yōu)化。

傳統(tǒng)物聯(lián)網(wǎng)系統(tǒng)利用電網(wǎng)供電必然導致大量的碳排放，這不符合節(jié)能減排的需求。在智慧礦山生產(chǎn)過程中，挖掘使用能量收集(Energy Harvesting,EH)技術，將井下可再生能源(包括風能[9]、無線射頻信號能量[10]和機械能[11]等)作為綠色供電來源，這是響應國家倡導的“碳中和、碳達峰”目標的有效舉措，可解決礦用電池不易更換的難題[9]，也可極大地提高井下工作生產(chǎn)的安全性。此外，將EH技術運用到邊緣計算系統(tǒng)中，有助于實現(xiàn)可持續(xù)的任務計算效益。Sun等人[12]提出一種基于差分進化算法的能量收集和任務計算優(yōu)化方案，該方案不僅優(yōu)化效率高和能耗低，而且能有效緩解微型設備的能源短缺問題，延長設備的使用壽命。因此，本文采用EH技術輔助礦山物聯(lián)網(wǎng)設備供電，以提高任務計算效益并延長設備使用壽命。

礦山物聯(lián)網(wǎng)中井下通信環(huán)境相比于地面更加復雜多變，嚴重的非視距通信場景導致邊緣覆蓋困難；此外，井下還存在無線信號衰落嚴重、傳輸距離受限等突出問題[13]。因此，本文考慮在礦山物聯(lián)網(wǎng)設備近端布置多個邊緣服務器提供視距通信且增強覆蓋范圍，并設計一對多的礦井MEC網(wǎng)絡架構，即由一個礦山物聯(lián)網(wǎng)設備和M個井下邊緣服務器組成的礦井MEC網(wǎng)絡。此外，由于井下導致信號衰落的因素復雜多變、移動設備遮擋信號視距傳輸、多徑衰落效應十分嚴重，目前尚欠缺針對復雜環(huán)境的無線通信理論來精確刻畫井下通信模型。因此，傳統(tǒng)的優(yōu)化理論無法解決礦井下的計算卸載策略選擇問題。本文將礦山物聯(lián)網(wǎng)設備的計算卸載過程建模為馬爾可夫決策過程(M arkov Decision Process,MDP)[14]，利用強化學習(Reinforcement Learning,RL)算法可在不了解系統(tǒng)模型的情況下，根據(jù)上一個時隙中每條邊緣鏈路的無線信道帶寬、預測的EH再生能量和當前物聯(lián)網(wǎng)設備的電池電量選擇計算卸載策略(即選擇邊緣服務器和計算任務的卸載率)。通過與環(huán)境不斷交互，礦山物聯(lián)網(wǎng)設備可自適應復雜環(huán)境在動態(tài)試錯中探索最優(yōu)的計算卸載策略并獲得最優(yōu)長期效益。

綜上所述，本文提出了融合能量收集和強化學習的智能計算卸載機制，建立井下一對多MEC網(wǎng)絡模型，對能耗、時延和任務失敗等問題進行具體分析。本文首先提出了一種基于RL—Q-learning算法的智能計算卸載機制，礦山物聯(lián)網(wǎng)設備作為智能體在不能精確獲取井下系統(tǒng)模型的情況下動態(tài)探索最優(yōu)計算卸載策略。但是，傳統(tǒng)的強化學習技術面臨維度災難問題，當動作狀態(tài)空間很大時，Q-learning算法的計算效率會大大降低。并且計算卸載率是連續(xù)的策略空間，Q-learning算法需先將該策略離散化才可進行學習。因此，本文還提出了一種基于深度確定性策略梯度算法(Deep Determ inistic Policy Gradient,DDPG)的計算卸載機制，可實現(xiàn)在連續(xù)空間內(nèi)選擇計算卸載策略，減小離散化誤差[15]。再者，利用卷積神經(jīng)網(wǎng)絡解決了維度災難問題，能夠更好地捕獲井下環(huán)境特征，進一步優(yōu)化計算卸載策略選擇，提升系統(tǒng)性能。仿真結果表明所提機制可減少能量損耗、降低計算時延和任務計算失敗率，提高計算卸載效益。

2 系統(tǒng)模型

圖1給出了由一個礦山物聯(lián)網(wǎng)設備和M個井下邊緣服務器組成的礦井MEC網(wǎng)絡架構。礦山物聯(lián)網(wǎng)設備為井下多種傳感設備，如巷道巡檢機器人、煤炭采掘機和采煤工人安全頭盔等。這些設備將產(chǎn)生的計算任務卸載至邊緣服務器以協(xié)助任務處理。礦山物聯(lián)網(wǎng)設備配備了射頻能量采集器、風力渦輪機等儲能元件和EH組件，利用能量收集技術產(chǎn)生電能。物聯(lián)網(wǎng)設備既可以在本地處理計算任務，也可以將部分或全部任務卸載至井下邊緣服務器。另外，任務處理的最小時間單位為時隙，假設物聯(lián)網(wǎng)設備在第k個時隙生成R(k)Mbit的計算任務數(shù)據(jù)量。

圖1 礦山物聯(lián)網(wǎng)中的MEC架構

2.1 移動邊緣計算卸載模型

M個邊緣服務器部署在礦山物聯(lián)網(wǎng)設備可視距通信的范圍內(nèi)。物聯(lián)網(wǎng)設備至邊緣服務器的無線信道鏈路帶寬為B i(k)，其中。物聯(lián)網(wǎng)設備在時隙k內(nèi)選擇信道較好的井下邊緣服務器i并將R(k)x(k)M b it計算任務量卸載至該服務器，其中x(k)(0≤x(k)≤1)為卸載率。具體來說，當x(k)=0時，物聯(lián)網(wǎng)設備本地處理全部計算任務；當x(k)=1時，設備將所有計算任務卸載到邊緣服務器；當0≤x(k)≤1時，該設備將R(k)x(k)M bit數(shù)據(jù)卸載至井下邊緣服務器i，剩余的(1-x(k))R(k)M bit數(shù)據(jù)在本地處理。于是，礦山物聯(lián)網(wǎng)設備在時隙k內(nèi)選擇卸載策略a(k)=[i(k),x(k)]∈A，其中A表示所有可能的計算卸載策略集合。

礦山物聯(lián)網(wǎng)設備的CPU用作本地計算，處理1 M bit數(shù)據(jù)需要N個CPU周期，則本地計算需要(1-x(k))R(k)N個CPU周期，CPU周期頻率為f，用S1=N/f表示本地計算1 M b it數(shù)據(jù)所需的時間。e0表示物聯(lián)網(wǎng)設備本地處理1 bit數(shù)據(jù)消耗的能量。和分別表示本地計算的時延和能耗，表達式為

由于動態(tài)復雜礦井環(huán)境下的無線信道狀態(tài)信息難以精確獲取，本文將信道帶寬B建模成馬爾可夫鏈[16]，并用來簡化和表征信號傳輸速率。礦山物聯(lián)網(wǎng)設備通過帶寬為的無線信道，在時隙k內(nèi)卸載計算任務至邊緣服務器i。S2表示井下邊緣服務器計算1 M b it數(shù)據(jù)所需的時間，且有S1?S2，表明邊緣服務器具有更強的計算處理能力。P為物聯(lián)網(wǎng)設備的發(fā)射功率。分別表示任務卸載產(chǎn)生的時延和能耗，表達式為

2.2 能量收集與電池模型

礦山物聯(lián)網(wǎng)設備使用EH技術，捕獲井下可再生能源(包括風能、無線環(huán)境中的射頻信號、機械能等)作為綠色供電能源。EH技術配合電池充電，來補給物聯(lián)網(wǎng)設備計算任務的電量需求。

令時隙k內(nèi)收集的能量為g(k)，且本地計算和計算卸載的總能量損耗為E(k)=()。電池電量表示為b(k),b(k+1)則表示獲取EH產(chǎn)能后下一時刻的電池電量，其表達式為

本文以無線信道中的射頻信號能量為例對EH過程建模[17]，在時隙k內(nèi)EH產(chǎn)能為

其中，G表示礦山物聯(lián)網(wǎng)設備上的天線部分和射頻能量發(fā)射器天線的聯(lián)合增益；ν ∈(0,1)表示井下再生能源的轉換效率，由于井下無線信道條件較差，能源轉換效率相對地面場景較低；η(k)表示礦山物聯(lián)網(wǎng)設備上EH模塊的傳輸功率；d(k)代表在時隙k內(nèi)EH模塊和對應射頻能量發(fā)射器之間的距離；τ ≥2表示再生能量傳輸過程中的路徑損耗因子。此外，在動態(tài)復雜礦井環(huán)境下，根據(jù)文獻[18]中模型評估實際產(chǎn)能g(k)并用馬爾可夫鏈模型表示其產(chǎn)能隨時間的變化。

2.3 問題描述

針對礦山物聯(lián)網(wǎng)中大量且特殊的計算任務需求，并充分考慮礦山特殊通信環(huán)境對物聯(lián)網(wǎng)智能計算卸載的影響，本文構建EH輔助的一對多礦井MEC網(wǎng)絡框架，實現(xiàn)礦山物聯(lián)網(wǎng)的智能計算卸載。此外，為了充分滿足礦山物聯(lián)網(wǎng)應用中特殊任務處理的服務質量需求，本文設計了由任務共享收益、能量損耗、計算時延和任務失敗損失共同組成的目標效益函數(shù)。再者，考慮到動態(tài)復雜礦井環(huán)境中的無線通信模型無法精確獲取，傳統(tǒng)的優(yōu)化理論無法解決礦井下的計算卸載策略選擇問題，研究基于強化學習的動態(tài)計算卸載機制，最大化系統(tǒng)的長期折扣累計效益，提升礦山物聯(lián)網(wǎng)智能計算卸載性能。

3 基于Q-learning的礦山物聯(lián)網(wǎng)計算卸載機制

由式(7)可見，當I(b(k+1)=0)=0時，礦山物聯(lián)網(wǎng)設備將計算任務卸載至邊緣服務器，可降低資源有限的礦山物聯(lián)網(wǎng)設備的任務處理負擔，得到任務共享收益θ0x(k)R(k)。當I(b(k+1)=0)=1時，計算任務因電量不足而處理失敗，無任務共享收益。但是，在這個過程中產(chǎn)生了相應的能量損耗E(k)和計算時延T(k)，并且效益函數(shù)也由于計算任務處理失敗而降低。

礦山物聯(lián)網(wǎng)設備在狀態(tài)s(k)下基于ε-greedy選擇計算卸載策略a(k)，將計算任務卸載至邊緣服務器i，得到效益U(k)，并進入下一個狀態(tài)s(k+1)。Q值Q(s(k),a(k))表示井下MEC系統(tǒng)的每個計算卸載動作-狀態(tài)對的長期期望折扣效益值，Q值在每個時隙內(nèi)通過貝爾曼方程完成迭代更新，具體為

其中，學習率α∈(0,1]表示當前Q值所占權重；折扣因子γ∈[0,1]表示未來效益的衰減。γ越小表示物聯(lián)網(wǎng)設備越重視當前的效益，而忽略未來長期效益?；赒-learning的計算卸載機制的核心步驟如算法1所示。

4 基于DDPG的礦山物聯(lián)網(wǎng)計算卸載機制

在智慧礦山建設的大背景下，礦山物聯(lián)網(wǎng)環(huán)境更加復雜，使用傳統(tǒng)的強化學習如Q-learning算法存在維度災難。再者，實際的計算卸載策略空間為高維且連續(xù)的向量。第3節(jié)提出的RLOM機制需要將計算卸載策略離散化，這將不可避免地導致離散化誤差，使得最終的學習結果并非真實最優(yōu)。為了能夠解決復雜礦山物聯(lián)網(wǎng)環(huán)境下的維度災難問題并更好地處理連續(xù)計算卸載策略空間的策略選擇問題，滿足井下計算密集型和時延敏感型任務的快速計算需求，本文提出了一種基于DDPG的計算卸載機制，記為DDRLOM。

DDRLOM機制結合了深度強化學習DQN和Actor-Critic算法來處理礦山物聯(lián)網(wǎng)設備的高維且連續(xù)的計算卸載策略選擇問題。該機制采用深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)壓縮系統(tǒng)的狀態(tài)空間，解決維度災難問題[19,20]，并且可更好地捕獲井下環(huán)境特征，進一步優(yōu)化計算卸載策略選擇，提升礦山物聯(lián)網(wǎng)的任務計算卸載性能。此外，DNN作為非線性擬合器，擬合高維且連續(xù)的計算卸載策略與Q值以加快學習速度；然后，利用一個參數(shù)化的動作價值函數(shù)a(k)=μ(s(k);ξ)進行計算卸載策略選擇，提高算法對連續(xù)動作空間的處理能力，該動作函數(shù)實現(xiàn)給定輸入系統(tǒng)狀態(tài)s(k)，輸出一個最優(yōu)的計算卸載策略a(k)。

如圖2所示，DDRLOM機制采用Actor-Critic架構體系，包含4個神經(jīng)網(wǎng)絡，即Actor網(wǎng)絡和Critic網(wǎng)絡；Target Actor網(wǎng)絡和Target Critic網(wǎng)絡。其中，Actor網(wǎng)絡對應網(wǎng)絡參數(shù)為ξ2將當前系統(tǒng)狀態(tài)作為輸入，輸出計算卸載策略，即選擇協(xié)助計算的邊緣服務器和礦山物聯(lián)網(wǎng)設備的卸載率。為了使模型更有效地更新網(wǎng)絡參數(shù)和實現(xiàn)優(yōu)化的收斂效果，增加算法的探索能力，在計算卸載策略選擇時增加了OU(Ornstein-Hollenbeck)過程[15]即噪聲函數(shù)N，加入擾動噪聲后的計算策略生成如式(9)

圖2 基于DDPG的計算卸載機制(DDRLOM)框架

Critic網(wǎng)絡對應網(wǎng)絡參數(shù)為ξ1，作為價值網(wǎng)絡給出逼近狀態(tài)動作對的值函數(shù)Q(s(k),a(k))，從而提供優(yōu)化的梯度信息，幫助Actor網(wǎng)絡采取更好的策略。

算法1 基于Q-learning的計算卸載機制

基于DDPG的計算卸載機制的核心步驟如算法2所示。

5 理論分析

本節(jié)分析3種典型場景下的靜態(tài)計算卸載策略，從理論上推導并證明了不同條件下的最優(yōu)卸載策略選擇及其效益函數(shù)的理論界，以指導基于RL的計算卸載機制的學習參數(shù)設置和環(huán)境配置。下述分析中假設計算卸載策略選擇和狀態(tài)更新均在一個時隙內(nèi)完成，故省略時隙k。

5.1 計算任務部分卸載到邊緣服務器處理

算法2 基于DDPG的計算卸載機制

到最大值，同時獲得系統(tǒng)最優(yōu)性能如式(16)—式(18)所示。證畢

當物聯(lián)網(wǎng)設備到邊緣服務器的無線信道狀態(tài)一般時，物聯(lián)網(wǎng)設備本地處理部分計算任務，并將剩余的計算任務卸載給邊緣服務器，以權衡能耗和時延，從而使其效益最大化如式(16)所示。此時，能量損耗和計算時延與生成的任務大小R正相關，如式(17)和式(18)所示。

5.2 計算任務全部卸載至邊緣服務器處理

式(28)表明礦山物聯(lián)網(wǎng)設備的效益值隨著B ≥Bm′ax遞增，且于i*=arg max1≤i≤M B i達到最大值。由式(28)可知，a*=[i*,1]是該場景下的最佳計算卸載策略，且礦山物聯(lián)網(wǎng)設備獲得最大效益值U(1)，同時獲得系統(tǒng)最優(yōu)性能如式(25)—式(27)所示。證畢

若礦山物聯(lián)網(wǎng)設備與至少一個邊緣服務器之間的無線信道狀態(tài)良好，那么物聯(lián)網(wǎng)設備將所有計算任務卸載至邊緣服務器處理。此時，最佳計算卸載策略為a*=[i*,1]，可取得較高的計算任務共享收益；此外，無線信道狀態(tài)良好時，計算卸載過程中的時延和能耗都較小，如式(26)和式(27)所示。

5.3 計算任務全部本地處理

定理3當?shù)V山物聯(lián)網(wǎng)設備至無線信道狀態(tài)最好的邊緣服務器i*的信道狀態(tài)較差，即B i*≤時，

礦山物聯(lián)網(wǎng)設備將生成的計算任務全部本地處理，即最佳計算卸載策略為a*=[i*,0]。此時，物聯(lián)網(wǎng)設備的效益、能量損耗和計算時延分別為

式(33)表明礦山物聯(lián)網(wǎng)設備的效益值在卸載率為0時達到最大值。因此，a*=[i*,0]是礦山物聯(lián)網(wǎng)設備在該場景下的最佳卸載策略，同時獲得系統(tǒng)最優(yōu)性能如式(30)—式(32)所示。證畢

若無線信道狀態(tài)較差，即式(3)和式(4)中無線信道帶寬B較小(B≤B′′min)時，傳輸過程中的時延和能耗較大。如式(33)所示，物聯(lián)網(wǎng)設備將在本地處理所有的計算任務，以避免任務卸載導致過大的任務處理時延和能量消耗。

6 仿真結果與分析

本節(jié)通過仿真驗證所提方法的性能優(yōu)勢。仿真中考慮礦井MEC系統(tǒng)包含3個邊緣服務器和1個礦山物聯(lián)網(wǎng)設備。其中礦山物聯(lián)網(wǎng)設備的EH產(chǎn)能由無線射頻能量轉換而來，由于井下無線通信環(huán)境復雜且信號衰落與地面相比更加嚴重，井下EH的平均能量轉換效率設置為0.3[22]。物聯(lián)網(wǎng)設備上的電池最大電量為1000 m Ah。邊緣服務器的計算能力更強[23]，量化體現(xiàn)如下，邊緣服務器處理1 M bit數(shù)據(jù)所需要的時間為0.05m s，而本地設備處理1 M bit數(shù)據(jù)所需要的時間為0.4 m s。根據(jù)防爆標準GB/T 3836.1—2021中無線射頻信號的規(guī)定[24]，設置物聯(lián)網(wǎng)設備的發(fā)射功率為5.5W。

在學習算法中，設置學習率α=0.001、折扣因子γ=0.9。表1列出了DDRLOM機制的超參數(shù)設置。我們將能量損耗、計算時延和任務失敗率作為邊緣計算卸載的各項性能指標，其中任務失敗率定義為失敗的計算任務占總處理任務的比例。根據(jù)式(7)設定權重系數(shù)θ0=15,θ1=4,θ2=5,θ3=7。仿真評估選取了DRLO[18]和全本地處理方案Fu ll Local作為對比機制。

表1 DDRLOM機制的超參數(shù)設置

6.1 不同計算卸載機制的收斂性能評估

圖3給出了給定訓練回合數(shù)下礦山物聯(lián)網(wǎng)設備采用不同計算卸載機制的收斂性能結果，其中最大回合數(shù)為200，每回合最大時隙數(shù)為1000。將不同的智能計算卸載機制的收斂性能進行對比，可以看出DDRLOM機制的性能優(yōu)于RLOM機制。首先，DDRLOM機制相比于RLOM機制具有更快的收斂速度。例如，在相同的學習回合數(shù)下，DDRLOM機制基本已經(jīng)實現(xiàn)收斂，而RLOM機制的效益值仍然呈現(xiàn)逐步上升趨勢。這是因為DDRLOM機制通過DNN壓縮狀態(tài)空間來加速學習過程，提高計算卸載性能。此外，DDRLOM機制收斂后的計算卸載效益也明顯優(yōu)于DRLO機制。例如，在第40回合數(shù)處，DDRLOM機制的平均效益值比DRLO機制約高24.6%。因為DDRLOM結合了DQN和Actor-Critic架構來處理礦山物聯(lián)網(wǎng)設備的連續(xù)高維計算卸載策略，減小了離散誤差，優(yōu)化了計算卸載策略選擇。

圖3 不同智能計算卸載機制的收斂性能

6.2 能量收集產(chǎn)能對計算卸載性能的影響

圖4給出了礦井MEC系統(tǒng)中EH產(chǎn)能對計算任務失敗率的影響?？梢悦黠@看出，隨著EH平均產(chǎn)能的增加，礦山物聯(lián)網(wǎng)設備的任務失敗率顯著降低。例如，當平均收集產(chǎn)能從2.00 J增加到3.00 J時，RLOM機制的任務失敗率降低了52.5%。當平均收集產(chǎn)能為2.5 J時，DDRLOM機制比DRLO機制的任務失敗率約少99.9%。此外，在平均收集產(chǎn)能大于2.75 J時DDRLOM機制的任務失敗率幾乎達到0。

圖4 能量收集產(chǎn)能對計算任務失敗率的影響

6.3 邊緣服務器計算能力對計算卸載性能的影響

圖5給出了礦井MEC系統(tǒng)中邊緣服務器計算能力對計算時延的影響。邊緣服務器的處理能力用處理1Mbit所需要的時間S2來衡量，S2∈[0.001,0.025,0.050,0.075,0.100]。如圖5所示，由于Full Local方案將計算任務全部本地處理不受T1的變化而變化，其他機制下礦山物聯(lián)網(wǎng)設備的計算時延隨著T1的降低而減小，且遠遠小于Fu ll Local方案的時延。例如，當T1從0.1降低到0.001時，DDRLOM機制的計算時延降低57.7%。

圖5 邊緣服務器計算能力對計算時延的影響

6.4 任務量大小對計算卸載性能的影響

本工作對動態(tài)計算卸載中前3000個時隙的平均性能進行了評估，分析了計算卸載性能和總計算任務量的關系。如圖6所示，可以明顯看出，隨著礦山MEC系統(tǒng)中計算任務量的增加，礦山物聯(lián)網(wǎng)設備的能量損耗、計算時延和任務失敗率也在增加。例如，當總計算任務量從4.2 M bit增加到5.8 M bit時，采用Fu ll Local的計算卸載方案平均性能指標增加明顯。當計算任務量為5 M bit時，DDRLOM機制相對于DRLO機制，能量損耗約降低14.2%，計算時延約降低7.7%，任務失敗率約降低30.9%?？梢?，針對計算任務需求更強的礦山物聯(lián)網(wǎng)環(huán)境，采用DDRLOM機制可以在保證能耗、時延和任務失敗率都增加不多的前提下取得更好的計算卸載性能。

圖6 計算卸載的平均性能與計算任務量之間的關系

7 結束語

該文提出一種融合能量收集和強化學習技術的礦山物聯(lián)網(wǎng)智能計算卸載方法，以應對井下通信環(huán)境復雜和設備資源受限的挑戰(zhàn)，并提高計算密集和時延敏感任務的計算效率。在不可精確獲取井下系統(tǒng)模型的情況下，針對計算能力較弱的礦山物聯(lián)網(wǎng)設備提出基于復雜度較低的Q-learning算法的RLOM機制，實現(xiàn)動態(tài)探索最優(yōu)計算卸載策略；此外，對于復雜的礦山物聯(lián)網(wǎng)場景下高維且連續(xù)的策略空間問題，該文設計了基于DDPG的智能計算卸載機制DDRLOM，減小了計算卸載策略選擇過程中的離散化誤差，進一步優(yōu)化計算卸載策略選擇。針對3種典型場景的靜態(tài)計算卸載策略進行了理論分析，可助于指導基于RL的智能計算卸載機制的學習參數(shù)設置和環(huán)境配置。仿真結果表明，所提方法可提高任務計算卸載性能，提升礦山物聯(lián)網(wǎng)的安全性和生產(chǎn)效率。針對復雜受限空間的礦井環(huán)境，引入智能超表面輔助井下通信，完善井下無線通信理論并優(yōu)化智能計算卸載方法是下一步研究工作的重點，為5G助力智慧礦山數(shù)字化轉型提供有力支撐。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡