云邊協(xié)同下基于多智能體強(qiáng)化學(xué)習(xí)的任務(wù)卸載策略

2022-02-17 13:42:00劉雨暉陳寧江何子琦

廣西大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年6期

劉雨暉, 陳寧江,2,3*, 何子琦

(1.廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院, 廣西南寧 530004；2.廣西智能數(shù)字服務(wù)工程技術(shù)研究中心, 廣西南寧 530004；3.廣西高校并行分布與智能計(jì)算重點(diǎn)實(shí)驗(yàn)室, 廣西南寧 530004)

0 引言

基于Cybertwin的云邊協(xié)同網(wǎng)絡(luò)概念的提出，旨在將物理對(duì)象映射到虛擬網(wǎng)絡(luò)空間進(jìn)行實(shí)時(shí)配置從而優(yōu)化業(yè)務(wù)流程，為設(shè)計(jì)支持海量傳感器數(shù)據(jù)采集與處理的萬物互聯(lián)架構(gòu)以及構(gòu)建整個(gè)物聯(lián)網(wǎng)信息系統(tǒng)的“數(shù)字孿生”提供相應(yīng)的技術(shù)支撐[1]。由于智能移動(dòng)設(shè)備自身算力資源有限，因此需要通過Cybertwin服務(wù)代理將復(fù)雜終端任務(wù)卸載到資源豐富的核心云、邊緣云或者空閑設(shè)備上執(zhí)行，在滿足用戶對(duì)網(wǎng)絡(luò)服務(wù)質(zhì)量(quality of service，QoS)的高要求的同時(shí)提高資源利用率。

現(xiàn)有基于近似優(yōu)化算法的任務(wù)卸載方法通常是根據(jù)優(yōu)化問題建立對(duì)應(yīng)的數(shù)學(xué)規(guī)劃模型，運(yùn)用如貪心算法[2]、拉格朗日松弛[3]、李雅普諾夫(Lyapunov)優(yōu)化[4]和博弈論(game theory)[5]等算法在可接受的時(shí)間內(nèi)求得一個(gè)近似最優(yōu)解，但對(duì)于求解動(dòng)態(tài)變化的大規(guī)模計(jì)算系統(tǒng)問題卻難以抉擇。由于其解空間的復(fù)雜性，因此通常采用單智能體深度強(qiáng)化學(xué)習(xí)算法求解最佳策略，同時(shí)也引出以下問題：第一，單智能體算法解決的是環(huán)境中存在單一智能體的情況(或者多個(gè)智能體可以轉(zhuǎn)化為一個(gè)智能體的決策)，缺少考慮多智能體的聯(lián)合行為對(duì)環(huán)境穩(wěn)定性影響而導(dǎo)致效果不佳[6]；第二，大規(guī)模智能移動(dòng)設(shè)備的接入導(dǎo)致每個(gè)智能體的策略隨著訓(xùn)練的進(jìn)行都應(yīng)發(fā)生變化，只考慮單智能體自身狀態(tài)變化而沒有精確完整的環(huán)境信息會(huì)導(dǎo)致經(jīng)驗(yàn)重放(experience replay)機(jī)制失效[7]。

因此，本文中將針對(duì)云邊協(xié)同環(huán)境下資源綜合利用困難以及單智能體強(qiáng)化學(xué)習(xí)算法不能滿足大規(guī)模終端協(xié)作任務(wù)卸載等問題，設(shè)計(jì)基于Cybertwin的云邊協(xié)同計(jì)算系統(tǒng)模型(Cybertwin-based cloud-edge collaborative computing system model，CCECM)，并構(gòu)建基于多智能體雙延遲深度確定性策略梯度算法(multi-agent twin delayed deep deterministic policy gradient algorithm，MATD3)的協(xié)作任務(wù)卸載與資源分配聯(lián)合優(yōu)化方法，從而緩解了海量終端協(xié)同卸載場(chǎng)景下單智能體強(qiáng)化學(xué)習(xí)算法效果不佳的問題，進(jìn)而提高任務(wù)處理效率與用戶體驗(yàn)質(zhì)量。

1 系統(tǒng)模型

本節(jié)將進(jìn)一步從協(xié)同卸載模式、業(yè)務(wù)傳輸模型和綜合時(shí)延與能耗的卸載成本模型等角度構(gòu)建基于Cybertwin的云邊協(xié)同計(jì)算系統(tǒng)模型(CCECM)，從云邊端多角度刻畫任務(wù)卸載模型，更準(zhǔn)確地表征任務(wù)卸載所需總成本。基于Cybertwin的云邊協(xié)同計(jì)算系統(tǒng)架構(gòu)如圖1所示，分成以下3層：由工業(yè)物聯(lián)網(wǎng)制造設(shè)備、無人機(jī)和自動(dòng)駕駛運(yùn)輸車等智能設(shè)備接入的智能移動(dòng)設(shè)備層(smart mobile device, SMD)，配置Cybertwin服務(wù)代理的邊緣云層(edge cloud, EC)以及具有高性能數(shù)據(jù)中心的核心云層(core cloud,CC)。

圖1 基于Cybertwin的云邊協(xié)同計(jì)算系統(tǒng)架構(gòu)Fig.1 Cybertwin-based cloud-edge collaborative computing system architecture

核心云層由多個(gè)大型云數(shù)據(jù)中心組成，依托大容量、高速、低時(shí)延的專用數(shù)據(jù)傳輸網(wǎng)絡(luò)為任務(wù)執(zhí)行提供充足的算力資源，因此，一般認(rèn)為核心云的服務(wù)能力能夠滿足所有用戶設(shè)備的服務(wù)需求，可以將部分任務(wù)卸載到核心云的數(shù)據(jù)中心上，以緩解邊緣云的流量壓力。

1.1 協(xié)同卸載模式

(1)

(2)

(3)

(4)

(5)

(6)

(7)

④ 智能移動(dòng)設(shè)備卸載任務(wù)到核心云的云數(shù)據(jù)中心：由于核心云的云數(shù)據(jù)中心擁有海量算力與存儲(chǔ)資源，因此當(dāng)設(shè)備卸載任務(wù)到核心云時(shí)通常忽略在核心云上的執(zhí)行時(shí)間和計(jì)算能耗[12]，總時(shí)延可以表示為

(8)

(9)

(10)

(11)

(12)

1.2 業(yè)務(wù)傳輸模型

(13)

(14)

(15)

(16)

(17)

1.3 綜合時(shí)延與能耗的卸載成本模型

① 任務(wù)卸載的總時(shí)延取決于任務(wù)Γi(t)完成所選擇的協(xié)同卸載模式所需要的時(shí)間，表示為

(18)

② 任務(wù)卸載的總能耗定義為任務(wù)Γi(t)完成所選擇的協(xié)同卸載模式而產(chǎn)生的能量消耗，表示為

(19)

Fi(t)=αiTi(t)+βiEi(t)，

(20)

式中αi、βi分別為任務(wù)卸載總時(shí)延和總能耗的權(quán)重系數(shù)，通過求解上述權(quán)重系數(shù)來滿足延遲敏感型和延遲容忍型任務(wù)的服務(wù)質(zhì)量要求，其滿足的約束條件如下：

αi+βi=1, 0≤αi≤1,0≤βi≤1。

(21)

2 基于多智能體強(qiáng)化學(xué)習(xí)的任務(wù)卸載與資源分配聯(lián)合優(yōu)化方法

本節(jié)首先綜合多維資源約束條件制定任務(wù)卸載與資源分配的聯(lián)合優(yōu)化問題，然后將該問題轉(zhuǎn)化為成多智能體合作的馬爾可夫博弈過程(Markov game process，MGP)，最后提出基于多智能體雙延遲深度確定性策略梯度(MATD3)的深度強(qiáng)化學(xué)習(xí)算法求解。

2.1 優(yōu)化問題描述

(22)

通過聯(lián)合優(yōu)化智能設(shè)備協(xié)同任務(wù)卸載模式X(t)、頻譜資源φl(t)與算力資源Rcp(t)等異構(gòu)資源分配，實(shí)現(xiàn)最小化系統(tǒng)總成本，并盡量提高任務(wù)執(zhí)行的完成率，則該組合優(yōu)化問題的形式化定義如下：

(23)

C1表示在時(shí)隙t可供智能移動(dòng)設(shè)備選擇的協(xié)同卸載模式?jīng)Q策變量；C2描述了云邊協(xié)同網(wǎng)絡(luò)中切片頻譜資源分配的指示變量；C3指出智能移動(dòng)設(shè)備只能選擇一種卸載方式來完成計(jì)算任務(wù)；C4、C5表示邊緣云上頻譜資源與異構(gòu)算力資源的分配不能超過其資源總量；C6描述了終端設(shè)備分配自身算力資源的限制；C7表示計(jì)算任務(wù)執(zhí)行完成總時(shí)間必須滿足其對(duì)時(shí)延的最低QoS需求，確保不超過最大容忍時(shí)延；C8規(guī)定在終端設(shè)備本地執(zhí)行任務(wù)產(chǎn)生的總能耗不能超過該設(shè)備的可用剩余電量，為任務(wù)順利執(zhí)行提供保證。

2.2 算法描述及其實(shí)現(xiàn)

鑒于任務(wù)卸載與資源分配聯(lián)合優(yōu)化問題P1是復(fù)雜而連續(xù)的動(dòng)作空間問題，本文設(shè)計(jì)了一個(gè)基于多智能體雙延遲深度確定性策略梯度算法來求解該問題。

2.2.1 多智能體合作的馬爾可夫博弈過程

本文將式(23)中表述的NP難問題建模為多智能體場(chǎng)景[14]中的馬爾可夫博弈過程，形式化描述為Ω={N,S,A,P,R,η}。N={1,2,…,|N|}表示智能移動(dòng)設(shè)備集合，代表設(shè)備的Cybertwin是作為訓(xùn)練學(xué)習(xí)的智能體；狀態(tài)空間是全部Cybertwin智能體聯(lián)合環(huán)境的狀態(tài)集S={s1,s2,…,sK}；動(dòng)作空間A=A1×A2×…×AN為多智能體聯(lián)合動(dòng)作集合；狀態(tài)轉(zhuǎn)移概率函數(shù)P(s(t+1)|s(t),a1(t),a2(t),…,aN(t))→[0,1],?s(t)∈S,ai(t)∈Ai,i∈N；聯(lián)合獎(jiǎng)勵(lì)函數(shù)值集合R={R1,R2,…,RN}反饋了任務(wù)卸載與資源分配聯(lián)合優(yōu)化決策的合理性與有效性，其中單個(gè)智能體的獎(jiǎng)勵(lì)函數(shù)表示為ri=Ai×S→R；η是關(guān)于時(shí)間的折扣因子。

(24)

s(t)={O1(t),O2(t),…,ON(t)},?s(t)∈S,t∈[0,+∞)。

(25)

② 動(dòng)作空間：在時(shí)隙t觀察當(dāng)前環(huán)境狀態(tài)s(t)∈S后，Cybertwin智能體i根據(jù)已有策略為當(dāng)前任務(wù)選擇一個(gè)合適的行為動(dòng)作，完成協(xié)同卸載模式，則每個(gè)Cybertwin智能體i的獨(dú)立動(dòng)作空間為

(26)

③ 獎(jiǎng)勵(lì)函數(shù)：在多智能體合作與競(jìng)爭(zhēng)環(huán)境中，每個(gè)Agent可以通過分布式執(zhí)行的方式做出相應(yīng)決策，以最大化聯(lián)合環(huán)境中的獎(jiǎng)勵(lì)回報(bào)，設(shè)計(jì)準(zhǔn)確有效的獎(jiǎng)勵(lì)函數(shù)有利于多智能體快速學(xué)習(xí)最優(yōu)策略[15]。根據(jù)時(shí)隙t觀察到環(huán)境狀態(tài)來為計(jì)算任務(wù)選擇卸載動(dòng)作，則單個(gè)Cybertwin智能體i的獎(jiǎng)勵(lì)函數(shù)定義為

ri(t)=-(αiTi(t)+βiEi(t))+ε(t),?ri(t)∈Ri,t∈[0,+∞)，

(27)

式中：ri(t)表示在智能體i在時(shí)隙t執(zhí)行卸載動(dòng)作后立即獲得的獎(jiǎng)勵(lì)；ε(t)表示時(shí)隙t邊緣云中每個(gè)Cybertwin智能體的任務(wù)執(zhí)行失效懲罰。系統(tǒng)獎(jiǎng)勵(lì)是由所有智能體收到的獎(jiǎng)勵(lì)總和，表述如下：

(28)

2.2.2 基于MATD3的深度強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn)

(29)

式中：Z表示從經(jīng)驗(yàn)重放緩沖區(qū)D中取出的樣本數(shù)據(jù)集合；|Z|是樣本數(shù)量；z是樣本數(shù)據(jù)的索引；yi是目標(biāo)函數(shù)值；λ為折扣因子；μ是添加的動(dòng)作噪聲。Cybertwin智能體i的確定性策略πθi梯度的更新過程表示為

(30)

本文提出的MATD3算法主要分成2個(gè)重要步驟：收集環(huán)境狀態(tài)數(shù)據(jù)和目標(biāo)策略網(wǎng)絡(luò)訓(xùn)練，詳細(xì)的算法步驟如下：

Step1：初始化每個(gè)Cybertwin智能體中Actor網(wǎng)絡(luò)的策略參數(shù)θ、Critic網(wǎng)絡(luò)的評(píng)價(jià)參數(shù)φ1,φ2以及清空經(jīng)驗(yàn)重放緩沖區(qū)D，定義最大訓(xùn)練回合數(shù)Kmax和每個(gè)訓(xùn)練回合內(nèi)的最大時(shí)間步長(zhǎng)Tmax；

Step2：初始化剪切后的高斯噪聲μ用于隨機(jī)動(dòng)作策略探索a(t)=πθ(O(t))+μ，系統(tǒng)內(nèi)全部Cybertwin智能體將自身的部分觀測(cè)值共同組合成云邊端協(xié)同環(huán)境的初始狀態(tài)s0；

Step3：每個(gè)Cybertwin智能體根據(jù)時(shí)隙t的確定性策略π選擇1.1節(jié)中的任務(wù)協(xié)同卸載模式并獲得相應(yīng)回報(bào)，并把當(dāng)前系統(tǒng)狀態(tài)轉(zhuǎn)移信息元組(s,a1,a2,…,aN,r1,r2,…,rN,s′)作為下一輪訓(xùn)練樣本數(shù)據(jù)存儲(chǔ)到經(jīng)驗(yàn)重放緩沖區(qū)D中，此后系統(tǒng)環(huán)境轉(zhuǎn)移到新狀態(tài)s′；

Step4：接著每個(gè)Cybertwin智能體單獨(dú)對(duì)經(jīng)驗(yàn)重放緩沖區(qū)D的數(shù)據(jù)進(jìn)行批量采樣，在樣本數(shù)據(jù)上利用損失函數(shù)(29)更新Critic網(wǎng)絡(luò)的參數(shù)φ1,φ2并延遲d個(gè)時(shí)間步后采用梯度下降法求解，即采用式(30)更新Actor網(wǎng)絡(luò)的策略參數(shù)θ，最后再對(duì)目標(biāo)網(wǎng)絡(luò)的相應(yīng)參數(shù)進(jìn)行軟更新；

Step5：判斷此時(shí)算法是否已經(jīng)達(dá)到當(dāng)前訓(xùn)練回合內(nèi)的最大時(shí)間步長(zhǎng)Tmax，若已經(jīng)達(dá)到則跳轉(zhuǎn)到Step 6執(zhí)行，否則重新返回Step 3執(zhí)行；

Step6：判斷此時(shí)算法是否已經(jīng)達(dá)到最大訓(xùn)練回合數(shù)Kmax，若是則結(jié)束算法并輸出最優(yōu)卸載策略，否則重新返回Step 2繼續(xù)執(zhí)行。

算法中Actor和Critic網(wǎng)絡(luò)分別設(shè)計(jì)成擁有2層和3層隱藏層的全連接神經(jīng)網(wǎng)絡(luò)。根據(jù)文獻(xiàn)[16]可知，對(duì)于隱藏層是由固定數(shù)目神經(jīng)元構(gòu)成的全連接網(wǎng)絡(luò)，其反向傳播算法的計(jì)算復(fù)雜度與輸入維度和輸出維度的乘積成正比。假設(shè)本文設(shè)計(jì)的場(chǎng)景下邊緣云數(shù)量為M，每個(gè)邊緣云服務(wù)范圍內(nèi)智能移動(dòng)設(shè)備總數(shù)為Nm。Cybertwin智能體的Critic網(wǎng)絡(luò)集中化訓(xùn)練的復(fù)雜度為O[M(Nm+M+Nm)]。而對(duì)于Actor網(wǎng)絡(luò)，其分散式執(zhí)行過程的計(jì)算復(fù)雜度為O[Nm(M+Nm)]。因此，本文所提出的MATD3算法的復(fù)雜度為O[Nm(M+Nm)]。

2.3 實(shí)驗(yàn)性能評(píng)估

實(shí)驗(yàn)的硬件環(huán)境：CPU為Intel Core i7-10700 KF、8核心、主頻為3.8 GHz，內(nèi)存為64 GB，顯卡為RTX2070。操作系統(tǒng)為Windows 11，運(yùn)行環(huán)境為Python 3.9與Pytorch 1.10。模擬云邊協(xié)同系統(tǒng)環(huán)境所使用的主要參數(shù)見表1。

表1 系統(tǒng)仿真參數(shù)設(shè)置Tab 1 System simulation parameter setting

為了更直觀地評(píng)估所提出的MATD3優(yōu)化方案的性能，本文將其與以下5種基準(zhǔn)算法進(jìn)行比較：?jiǎn)沃悄荏w雙延遲深度確定性策略梯度算法(TD3)[17]、單智能體深度確定性策略梯度算法(DDPG)[18]、貪心算法(Greedy)、隨機(jī)卸載策略(randomly offloading algorithm，ROA)、本地計(jì)算(local processing，LP)。

MATD3、TD3、DDPG強(qiáng)化學(xué)習(xí)算法的平均獎(jiǎng)勵(lì)曲線如圖2所示。從圖中可見，這3種算法的平均獎(jiǎng)勵(lì)曲線隨著訓(xùn)練回合的增加而逐漸收斂。在0～500個(gè)訓(xùn)練回合中，Cybertwin智能體的平均獎(jiǎng)勵(lì)較小并且隨著訓(xùn)練回合的遞增出現(xiàn)一定幅度的波動(dòng)。這是因?yàn)樵谟?xùn)練初期智能體只進(jìn)行隨機(jī)動(dòng)作探索，經(jīng)驗(yàn)重放緩沖區(qū)中樣本數(shù)據(jù)較少，導(dǎo)致剛開始訓(xùn)練好的模型偏向過擬合狀態(tài)，經(jīng)過2 000個(gè)訓(xùn)練回合充分訓(xùn)練后3種強(qiáng)化學(xué)習(xí)算法均達(dá)到收斂狀態(tài)。與其他2種單智能體基準(zhǔn)算法相比，本文提出的MATD3算法收斂速度最快，經(jīng)過1 500個(gè)訓(xùn)練回合后就已經(jīng)收斂了，而且獎(jiǎng)勵(lì)波動(dòng)范圍較小，平均獎(jiǎng)勵(lì)值最高。

圖2 MATD3、TD3、DDPG的平均獎(jiǎng)勵(lì)曲線Fig.2 Average reward curve for MATD3, TD3, and DDPG

圖3(a)的結(jié)果顯示系統(tǒng)平均成本隨著智能移動(dòng)設(shè)備數(shù)量的增加而逐漸增大的變化趨勢(shì)，但當(dāng)設(shè)備數(shù)越多時(shí)增長(zhǎng)速度減慢。這是因?yàn)榻尤朐O(shè)備數(shù)的增加意味著邊緣云內(nèi)有限多維異構(gòu)資源不能滿足所有用戶設(shè)備需求，部分設(shè)備只能選擇在本地執(zhí)行或者傳輸?shù)胶诵脑埔詧?zhí)行更多的延遲敏感任務(wù)導(dǎo)致平均成本的增加，甚至部分任務(wù)因算力資源不足在時(shí)間到期后被丟棄。從圖3(a)可以看出，隨著設(shè)備數(shù)增加，本文提出的MATD3算法在降低平均成本方面優(yōu)于其他5種算法。當(dāng)智能移動(dòng)設(shè)備數(shù)目為40時(shí)，MATD3與TD3、DDPG、Greedy、ROA和LP等算法對(duì)比分別降低了24.69%、25.61%、35.79%、43.51%和51.58%的平均成本。

由圖3(b)可知隨著任務(wù)數(shù)據(jù)大小的增加，平均成本起始增速較快，隨后趨于平穩(wěn)。因?yàn)橥ㄐ艂鬏敃r(shí)延與任務(wù)數(shù)據(jù)大小成正相關(guān)關(guān)系，任務(wù)數(shù)據(jù)增大代表傳輸時(shí)延成本的增加，進(jìn)而增加了系統(tǒng)平均成本。當(dāng)任務(wù)數(shù)據(jù)大小為20 Mbits時(shí)，MATD3算法與TD3、DDPG、Greedy、ROA和LP等算法相比分別減少了29.31%、32.78%、43.84%、54.44%和60.34%的平均成本?？偟膩碚f，在上述6種算法中，MATD3算法能夠綜合考慮將任務(wù)卸載到不同計(jì)算節(jié)點(diǎn)上的可行性，對(duì)最小化系統(tǒng)總成本和提高QoS實(shí)施策略優(yōu)化，最終得到最低的平均成本。

(a) 智能移動(dòng)設(shè)備數(shù)對(duì)平均成本的影響

(b) 任務(wù)數(shù)據(jù)大小對(duì)平均成本的影響

接著，本文對(duì)這幾種算法的任務(wù)卸載率進(jìn)行比較，而本地計(jì)算(LP)算法只在設(shè)備本地執(zhí)行任務(wù)，即該算法的任務(wù)卸載率為0，所以不在實(shí)驗(yàn)部分進(jìn)行討論。在圖4(a)中，任務(wù)卸載率隨著智能移動(dòng)設(shè)備數(shù)的增加而降低。這是因?yàn)榻尤朐O(shè)備數(shù)的增加將生成更多的異質(zhì)計(jì)算任務(wù)，越來越多沒有被分配到計(jì)算節(jié)點(diǎn)執(zhí)行的任務(wù)只能選擇在本地完成。當(dāng)接入設(shè)備數(shù)為40時(shí)，MATD3與TD3、DDPG、Greedy和ROA等算法相比分別提高了34.34%、39.13%、77.76%和95.12%的任務(wù)卸載率。

圖4(b)對(duì)任務(wù)丟棄率與任務(wù)數(shù)據(jù)大小的關(guān)系進(jìn)行分析。任務(wù)丟棄率反映了智能移動(dòng)設(shè)備與計(jì)算節(jié)點(diǎn)之間通信服務(wù)質(zhì)量以及算力資源的可用性等問題。由圖4(b)可知，任務(wù)丟棄率是隨著任務(wù)數(shù)據(jù)大小的增加而增加。在對(duì)比的6種算法中，MATD3算法的任務(wù)丟棄率最低，原因是所提出的MATD3優(yōu)化方案能夠根據(jù)任務(wù)的服務(wù)質(zhì)量需求有效地綜合利用終端設(shè)備、邊緣云和核心云的空閑資源，從而保證整個(gè)網(wǎng)絡(luò)可以處理盡可能多的業(yè)務(wù)。

(a) 智能移動(dòng)設(shè)備數(shù)對(duì)任務(wù)卸載率的影響

(b) 任務(wù)數(shù)據(jù)大小對(duì)任務(wù)丟棄率的影響

3 總結(jié)與展望

本文中設(shè)計(jì)了一個(gè)基于Cybertwin驅(qū)動(dòng)的云邊協(xié)同計(jì)算框架，能夠高效完成任務(wù)卸載與多維異構(gòu)資源聯(lián)合分配優(yōu)化配置。通過實(shí)驗(yàn)對(duì)比分析，在云邊協(xié)同網(wǎng)絡(luò)中使用本文提出的MATD3算法，能夠最小化任務(wù)卸載總成本，提高了任務(wù)執(zhí)行性能并減少任務(wù)丟棄率，有效保證了終端設(shè)備的用戶體驗(yàn)質(zhì)量。未來，我們將把區(qū)塊鏈、聯(lián)邦計(jì)算與Cybertwin智能服務(wù)相結(jié)合，為分布式跨云環(huán)境中的資源管理和用戶設(shè)備隱私保護(hù)提供更加完善的解決方案。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡