国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力的循環(huán)PPO算法及其應(yīng)用

2024-01-24 09:20:40呂相霖臧兆祥李思博王俊英
關(guān)鍵詞:步數(shù)注意力卷積

呂相霖,臧兆祥,李思博,王俊英

(1.三峽大學(xué) 水電工程智能視覺監(jiān)測湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 宜昌 443002;2.三峽大學(xué) 計(jì)算機(jī)與信息學(xué)院,湖北 宜昌 443002)

0 引 言

未知環(huán)境中的智能決策過程又稱為部分可觀測馬爾可夫決策過程(POMDP),智能體通過掌握局部環(huán)境的觀測信息進(jìn)行問題分析與建模并智能化地做出后續(xù)決策。POMDP問題符合現(xiàn)實(shí)中很多實(shí)際應(yīng)用,并且現(xiàn)已被廣泛用于軍事兵力推演[1-2]、自動駕駛[3-4]、資源調(diào)度[5-6]、機(jī)器人控制[7-11]、游戲[12-13]等領(lǐng)域。

目前在POMDP下構(gòu)建狀態(tài)的方法主要有使用歷史信息、信念狀態(tài)和循環(huán)神經(jīng)網(wǎng)絡(luò)。王學(xué)寧等人[14]提出了基于記憶的強(qiáng)化學(xué)習(xí)算法CPnSarsa(λ),通過對狀態(tài)進(jìn)行重新定義,智能體結(jié)合歷史信息來區(qū)分混淆狀態(tài)。在部分可觀測環(huán)境中,信念狀態(tài)[15](belief,表示隱狀態(tài)的分布)常被認(rèn)為是具有馬爾可夫性,根據(jù)這一特點(diǎn),Egorov[16]使用POMDP任務(wù)的信念狀態(tài)作為DQN輸入對策略進(jìn)行求解。Meng Lingheng等[17]通過將記憶引入TD3算法,提出了基于長短時記憶的雙延遲深度確定性策略梯度算法(LSTM-TD3)。Matthw Hausknecht[18]等通過將長短期記憶與深度Q網(wǎng)絡(luò)相結(jié)合,修改DQN以處理噪聲觀測特征。劉劍鋒等人[19]在DDQN算法中引入對比預(yù)測編碼(CPC)通過顯式地對信念狀態(tài)進(jìn)行建模獲取歷史的地圖編碼信息進(jìn)行訓(xùn)練。耿俊香等人[20]將注意力機(jī)制引入到多智能體DDPG算法的價值網(wǎng)絡(luò)中,有選擇地關(guān)注來自其他智能體的信息,使其在復(fù)雜的環(huán)境中成功實(shí)現(xiàn)智能體間合作、競爭等互動。劉國名等學(xué)者[21]嘗試了將智能體與環(huán)境交互收集到的環(huán)境信息經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)處理后輸入到LSTM神經(jīng)網(wǎng)絡(luò),利用歷史信息引導(dǎo)智能體的探索起到了很好的效果,但在收斂速度上仍存在著不足。在此基礎(chǔ)上,該文提出了一種融合注意力機(jī)制與循環(huán)神經(jīng)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)算法(即ARPPO算法)進(jìn)行POMDP的探索任務(wù)研究。實(shí)驗(yàn)結(jié)果表明ARPPO算法在存在動態(tài)改變的POMDP環(huán)境中有著更強(qiáng)的探索能力與適應(yīng)性,且收斂速度較已有的A2C,LSTM-PPO等算法更快。

1 相關(guān)技術(shù)

1.1 LSTM神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)由于在當(dāng)前時間片會將前一時間片的隱狀態(tài)作為當(dāng)前時間片的輸入,故在時序數(shù)據(jù)的處理上表現(xiàn)優(yōu)異。LSTM神經(jīng)網(wǎng)絡(luò)是一種改進(jìn)的RNN,主要用于解決RNN存在的長期依賴問題。它通過引入3個門控結(jié)構(gòu)和1個長期記憶單元控制信息的流通和損失,從而避免梯度消失和梯度爆炸問題,其結(jié)構(gòu)如圖1所示。

圖1 LSTM網(wǎng)絡(luò)結(jié)構(gòu)

其中,f表示遺忘門,i表示輸入門,o表示輸出門,c表示記憶細(xì)胞狀態(tài)。前一時間的隱狀態(tài)ht-1與序列xt輸入到網(wǎng)絡(luò)中,yt為網(wǎng)絡(luò)最終的輸出結(jié)果,同時更新隱狀態(tài)和記憶細(xì)胞狀態(tài)。其計(jì)算公式如式1~式5所示。

ft=σ(Wfxt+Ufht-1+bf)

(1)

it=σ(Wixt+Uiht-1+bi)

(2)

ot=σ(Woxt+Uoht-1+bo)

(3)

ct=ft?ct-1+it?tanh(Wcxt+Ucht-1+bc)

(4)

ht=ot?tanh(ct)

(5)

其中,Wf,Wi,Wo,Uf,Ui和Uo表示權(quán)重矩陣;bf,bi,bo和bc為偏置向量;σ代表Sigmoid激活函數(shù);?表示哈達(dá)瑪積;tanh為雙曲正切函數(shù)。

1.2 注意力機(jī)制

自注意力機(jī)制利用特征本身固有的信息進(jìn)行注意交互。神經(jīng)網(wǎng)絡(luò)通過引入自注意力機(jī)制,解決了模型信息過載的問題,提高了網(wǎng)絡(luò)的準(zhǔn)確性和魯棒性。自注意力機(jī)制的計(jì)算分為兩個部分,第一部分是計(jì)算輸入的序列信息中任意向量之間的注意力權(quán)重,第二部分是根據(jù)所得注意力權(quán)重計(jì)算輸入序列的加權(quán)平均值,圖2為自注意力機(jī)制原理。

圖2 自注意力機(jī)制原理

其中,X表示輸入的序列數(shù)據(jù),其詳細(xì)計(jì)算公式如式6~式9所示。

Q=XWQ

(6)

K=XWK

(7)

V=XWV

(8)

(9)

其中,Q,K和V分別表示查詢矩陣、鍵矩陣和值矩陣,它們由輸入的X分別與對應(yīng)的權(quán)重矩陣相乘所得,Attention(Q,K,V)由Q與K矩陣的轉(zhuǎn)秩相乘的結(jié)果除以Q,K和V維數(shù)的平方根,然后乘以矩陣V所得。

多頭注意力能夠使模型在多個不同位置上關(guān)注到更多來自不同子空間的信息,最后將各空間所得信息進(jìn)行拼接,能夠更好地對重要信息增加權(quán)重,其計(jì)算公式為式10和式11,WO表示計(jì)算頭部注意力實(shí)例線性變換的矩陣。

(10)

Multi(Q,K,V)=Concat(headi,…,headh)WO

(11)

1.3 近端策略優(yōu)化算法

在深度強(qiáng)化學(xué)習(xí)領(lǐng)域中,通常將無模型的深度強(qiáng)化學(xué)習(xí)算法分為Q值函數(shù)方法和策略梯度算法[22]。近端策略優(yōu)化算法(Proximal Policy Optimization,PPO)屬于策略梯度算法,其原理是將策略參數(shù)化,通過參數(shù)化的線性函數(shù)或神經(jīng)網(wǎng)絡(luò)表示策略。

PPO算法其中的一個核心是重要性采樣,主要目的是用于評估新舊策略的差別有多大,重要性采樣比很大或者很小就會限制新策略,不能讓新策略和舊策略偏離太遠(yuǎn),其公式如式12所示。

(12)

另一個核心是梯度裁剪,PPO算法的目標(biāo)函數(shù)表達(dá)式為:

LCLIP(θ)=E[min(r(θ)A,clip(r(θ)))]

(13)

A=Q(s,a)-V(s,a)

(14)

其中,θ為策略參數(shù),A為優(yōu)勢函數(shù),Q(s,a)代表在狀態(tài)s下采取動作a的累積獎勵值,V(s,a)為狀態(tài)估計(jì)值。clip為裁減函數(shù),梯度裁剪的作用則是使各動作的概率分布保持相近,基于上限1+ε與下限1-ε處進(jìn)行截斷操作,以此避免策略更新出現(xiàn)較大差異。 PPO算法的參數(shù)更新公式如下:

(15)

通過基于優(yōu)勢函數(shù)的Actor-Critic方法進(jìn)行回報值估計(jì),則會產(chǎn)生方差較小而偏差較大的問題。該文采取的PPO算法采用了泛化優(yōu)勢估計(jì)(GAE)權(quán)衡方差和偏差的問題,公式為:

(16)

λ=0時,advantage 的GAE表示退化成時序差分方法(one-step TD);λ=1時,advantage的GAE表示退化成蒙特卡洛方法;λ在(0,1)區(qū)間時,表示在偏差和方差之間做出折衷。

2 融合注意力與LSTM的ARPPO模型

如圖3所示,融合注意力機(jī)制與LSTM網(wǎng)絡(luò)的近端策略優(yōu)化算法主要分為4個模塊,即卷積網(wǎng)絡(luò)模塊、注意力模塊、長短時記憶網(wǎng)絡(luò)模塊和PPO算法模塊。

圖3 ARPPO模型

具體步驟如下:

(1)對智能體與環(huán)境交互獲取的圖像編碼信息進(jìn)行卷積處理后提取特征。

(2)將提取的特征輸入到注意力網(wǎng)絡(luò),捕捉信息的關(guān)聯(lián)性,一定程度上實(shí)現(xiàn)多變量解耦或部分解耦。

(3)將注意力網(wǎng)絡(luò)輸出的數(shù)據(jù)信息,引入LSTM網(wǎng)絡(luò)提取數(shù)據(jù)的時域特性。

(4)分別輸入到強(qiáng)化學(xué)習(xí)的Actor-Critic框架中進(jìn)行策略提升與訓(xùn)練。

卷積網(wǎng)絡(luò)模塊對圖像編碼信息進(jìn)行特征提取,考慮到計(jì)算復(fù)雜度與過擬合問題,設(shè)計(jì)了兩層卷積網(wǎng)絡(luò)提取數(shù)據(jù)的深層多維信息。第一層卷積網(wǎng)絡(luò)輸入通道數(shù)為3,輸出通道數(shù)為32,卷積核大小為4,步長為1。第二層卷積網(wǎng)絡(luò)輸入通道數(shù)為32,輸出通道數(shù)為64,卷積核大小為4。

注意力編碼模塊由多頭注意力網(wǎng)絡(luò)、全連接層、dropout層和batch-norm層組成。多頭注意力網(wǎng)絡(luò)中采用多頭數(shù)為8。第一層全連接網(wǎng)絡(luò)使用64個輸入通道和2 048個輸出通道。第二層全連接網(wǎng)絡(luò)使用2 048個輸入通道和64個輸出通道。卷積輸出的信息進(jìn)入注意力網(wǎng)絡(luò)層進(jìn)行權(quán)重疊加,并使用全連接層進(jìn)行數(shù)據(jù)調(diào)整。兩層norm使用的eps值為10-5。并且模型使用了dropout層防止出現(xiàn)過擬合現(xiàn)象。

PPO算法基于Actor-Critic框架,其中Actor網(wǎng)絡(luò)通過輸入處理后的特征信息獲取當(dāng)前各項(xiàng)動作選取的概率數(shù)組,Critic網(wǎng)絡(luò)對當(dāng)前所處狀態(tài)進(jìn)行評價與估量,返回一個狀態(tài)評估值。Actor網(wǎng)絡(luò)中的第一層全連接層的輸入通道數(shù)為64,輸出通道數(shù)為64。第二層全連接層輸入通道為64,輸出通道為7。Critic網(wǎng)絡(luò)中的第一層全連接層的輸入通道數(shù)為64,輸出通道數(shù)為64。第二層全連接層輸入通道為64,輸出通道為1。

3 實(shí)驗(yàn)設(shè)計(jì)

3.1 實(shí)驗(yàn)環(huán)境

為驗(yàn)證所提出的ARPPO算法基于部分可觀測環(huán)境的訓(xùn)練效果與學(xué)習(xí)情況,采用Gym-Minigrid[23]網(wǎng)格環(huán)境。該環(huán)境中智能體在導(dǎo)航時僅能獲取其朝向方向7×7大小的圖像編碼信息,且無法感知墻壁后方信息。該文基于Minigrid已有的環(huán)境做出改動,設(shè)計(jì)了Empty-16×16-v1和FourRooms-v1兩種不同難度的地圖環(huán)境,旨在驗(yàn)證算法對于動態(tài)變化環(huán)境的性能與表現(xiàn)。

圖4 Empty-16×16-v1

圖4為改進(jìn)的環(huán)境Empty-16×16-v1,智能體在障礙物左上側(cè)位置上隨機(jī)初始化朝向,智能體僅有的視野范圍內(nèi)學(xué)會在相應(yīng)位置保持正確朝向并行進(jìn),且需要在受中間圍墻的視野影響下學(xué)會找到圍墻中間區(qū)域出現(xiàn)的門并且學(xué)會開門動作,獲取圍墻另一側(cè)的環(huán)境信息,最終找到右下方的目標(biāo)點(diǎn)。并且每一回合產(chǎn)生的門位置是隨機(jī)變化的。圖5為改進(jìn)的環(huán)境FourRooms-v1,智能體同樣位于左上角位置朝向隨機(jī),智能體需要在僅有的視野范圍內(nèi)離開左上方的房間并且找到右下角的目標(biāo)點(diǎn), 不同的是該環(huán)境存在更多的動態(tài)變化因素, 每一回合地圖中的四堵墻的缺著口是變化的,這為智能體探索目標(biāo)點(diǎn)帶來了相應(yīng)的困難,該環(huán)境旨在測驗(yàn)算法應(yīng)對動態(tài)環(huán)境的可適用性。

圖5 FourRooms-v1

3.2 獎勵設(shè)計(jì)

獎勵是對每回合智能體與環(huán)境交互產(chǎn)生的回報。該文設(shè)計(jì)了一種隨步數(shù)變化而變化的獎勵函數(shù),旨在引導(dǎo)智能體在一個episode內(nèi)以更少的完成步數(shù)獲取更高的獎勵值,避免出現(xiàn)局部收斂使得智能體停止探索任務(wù)的情況。具體如式17所示。

(17)

3.3 訓(xùn)練過程與結(jié)果分析

實(shí)驗(yàn)采用Ubuntu18.04,Python版本為3.9,基于torch1.13搭建的深度強(qiáng)化學(xué)習(xí)框架。實(shí)驗(yàn)設(shè)備為含有兩張顯存大小為8G的GTX 1080顯卡的服務(wù)器。為驗(yàn)證所提出的ARPPO算法的性能表現(xiàn),設(shè)計(jì)了ARPPO算法的消融實(shí)驗(yàn),證明并非僅因LSTM網(wǎng)絡(luò)或注意力機(jī)制使得算法效果提升。同時也選擇了A2C算法與RA2C算法(A2C-LSTM算法)進(jìn)行對比實(shí)驗(yàn),由于ARA2C算法在實(shí)驗(yàn)過程中表現(xiàn)效果很差,通過實(shí)驗(yàn)測試在兩張地圖上均不能收斂,故不作為該項(xiàng)實(shí)驗(yàn)的比較算法。除特定的注意力編碼器和循環(huán)神經(jīng)網(wǎng)絡(luò)參數(shù)以外,所有算法都共用相同的參數(shù):迭代次數(shù)為4,訓(xùn)練批大小為256,學(xué)習(xí)率為0.001,折扣率為0.99,采用optimizer優(yōu)化器。循環(huán)神經(jīng)網(wǎng)絡(luò)的recurrence參數(shù)設(shè)置為4。

基于Actor-Critic框架的網(wǎng)絡(luò)層采用tanh激活函數(shù),其余使用了激活函數(shù)的網(wǎng)絡(luò)層均為relu激活函數(shù)。三種算法結(jié)構(gòu)均使用相同的幀編碼器,表1總結(jié)了六種算法結(jié)構(gòu)的異同之處。

表1 各算法結(jié)構(gòu)設(shè)置

在Empty-16×16-v1和FourRooms-v1環(huán)境下對六種算法進(jìn)行了訓(xùn)練效果的測試,采用多進(jìn)程的訓(xùn)練方式加快深度強(qiáng)化學(xué)習(xí)算法的收斂。在每個進(jìn)程中生成隨機(jī)種子不同的訓(xùn)練環(huán)境,智能體每與環(huán)境交互128次后將數(shù)據(jù)信息存入經(jīng)驗(yàn)池,然后隨機(jī)從經(jīng)驗(yàn)池中抽取batch-size大小的數(shù)據(jù)信息進(jìn)行參數(shù)更新,采用各進(jìn)程的平均策略損失值與平均價值損失值作為目標(biāo)函數(shù)的loss值項(xiàng)進(jìn)行反向傳播與參數(shù)更新,最終平均獎勵值體現(xiàn)總體的訓(xùn)練效果。六種算法在Empty-16×16-v1環(huán)境下的訓(xùn)練獎勵值變化如圖6(a)所示,橫坐標(biāo)的frames表示智能體與環(huán)境交互的總步數(shù)。由于環(huán)境中隨機(jī)波動因素較小,門的位置僅在圍墻中間部分波動,智能體在五種算法情況下都能成功找到最終目標(biāo)。其中,ARPPO能夠以較快的速度達(dá)到最高獎勵值并完全收斂,得益于該算法采用了注意力機(jī)制,獲取到了更多的重要關(guān)鍵信息,忽略了一些無關(guān)緊要的編碼信息,并且LSTM網(wǎng)絡(luò)對歷史信息編碼,能夠?qū)Ω嗟男畔⑦M(jìn)行充分利用,做出更佳的判斷與決策。值得注意的是,面對存在小部分隨機(jī)因素的環(huán)境,僅融合循環(huán)神經(jīng)網(wǎng)絡(luò)或注意力機(jī)制模塊的PPO算法不能很好地對隨機(jī)變化的因素進(jìn)行判斷與決策。而且A2C算法對于探索該類非固定場景具有良好的表現(xiàn),這是由于A2C算法不存在重要性采樣,策略更新變化幅度大,對于動態(tài)變化因素適應(yīng)力比PPO算法更強(qiáng)。然而參考?xì)v史數(shù)據(jù)信息進(jìn)行訓(xùn)練的LSTM-A2C算法表現(xiàn)效果并不理想,某一地圖場景訓(xùn)練所得的策略參數(shù)很難適用于其他不同場景,訓(xùn)練效果甚至比不上僅用卷積網(wǎng)絡(luò)處理特征信息的A2C算法。

圖6 不同算法的性能對比

具有更多動態(tài)變化因素的FourRooms-v1環(huán)境,每一回合地圖中間的四面墻會隨機(jī)產(chǎn)生一個位置缺口,智能體要學(xué)會在每一回合中找到墻壁缺口并最終找到右下角的目標(biāo)點(diǎn)。六種算法在該環(huán)境的訓(xùn)練表現(xiàn)如圖6(b)所示。表2體現(xiàn)了表現(xiàn)各算法在兩張地圖上的詳細(xì)收斂情況。數(shù)據(jù)表明ARPPO算法綜合收斂速度比表現(xiàn)較好的APPO算法與RPPO算法分別提高了37.96%與37.65%,且從圖5與圖6的每回合的步數(shù)使用情況來看,ARPPO算法在收斂之后的穩(wěn)定性也不錯。綜上表明,ARPPO算法明顯比RPPO算法收斂更快且收斂之后比APPO算法更具有穩(wěn)定性,這是由于LSTM網(wǎng)絡(luò)為樣本數(shù)據(jù)建立時序依賴關(guān)系,而引入注意力機(jī)制則強(qiáng)化了長距離中重要且關(guān)鍵的樣本數(shù)據(jù)之間的依賴關(guān)系,解決了隨著時間跨度增加,前階段所采集的樣本數(shù)據(jù)對后續(xù)的策略選擇與價值估計(jì)的影響呈指數(shù)衰減這一現(xiàn)象。

表2 各算法收斂所用的環(huán)境交互次數(shù)(×106)

為進(jìn)一步驗(yàn)證算法收斂后的穩(wěn)定性,選取了最后30個episode的訓(xùn)練情況作為參考對象,從具體步數(shù)來探究算法收斂后的穩(wěn)定性。各類算法在Empty-16×16-v1與FourRooms-v1的訓(xùn)練情況如圖7所示。

圖7 最后30個回合的算法步數(shù)變化情況。

由圖7中發(fā)現(xiàn),PPO算法與APPO算法收斂后步數(shù)變化幅度較大,對于動態(tài)隨機(jī)因素的適應(yīng)性稍弱,環(huán)境發(fā)生改變時,并不能選取最優(yōu)的探索路徑。RPPO算法與ARPPO算法收斂后的穩(wěn)定性很強(qiáng),對于動態(tài)改變的環(huán)境仍具有較好的適應(yīng)能力。

由于環(huán)境動態(tài)改變的隨機(jī)性,各回合離目標(biāo)點(diǎn)的距離不確定,故僅平均步數(shù)并不能客觀地體現(xiàn)出各算法的穩(wěn)定性,所以還選取了30個episode的步數(shù)標(biāo)準(zhǔn)差作為評估對象。表3中數(shù)據(jù)前項(xiàng)為平均步數(shù),后項(xiàng)為標(biāo)準(zhǔn)差。綜合數(shù)據(jù)體現(xiàn)出ARPPO算法與RPPO算法的穩(wěn)定性最優(yōu),每回合都能采取更優(yōu)的探索路徑完成探索任務(wù)。但在兩種算法穩(wěn)定性相當(dāng)?shù)那闆r下,ARPPO算法的收斂速度比RPPO算法的更快。

表3 各算法最后30個episode的平均步數(shù)與標(biāo)準(zhǔn)差

4 結(jié)束語

針對部分可觀測環(huán)境因缺乏全局信息導(dǎo)致探索困難這一問題,提出了一種基于注意力機(jī)制和循環(huán)神經(jīng)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)算法,即ARPPO算法。該算法引入注意力機(jī)制和LSTM網(wǎng)絡(luò)雖然在計(jì)算量和復(fù)雜度上有一定的增加,但網(wǎng)絡(luò)模型結(jié)構(gòu)設(shè)計(jì)簡單,僅設(shè)計(jì)了一層多注意力模型提高智能體的信息提取能力,相比復(fù)雜的注意力模型而言,計(jì)算量與復(fù)雜度增加相對較小,并且結(jié)合注意力與LSTM網(wǎng)絡(luò)增強(qiáng)了智能體的長時記憶能力,使其能夠在動態(tài)隨機(jī)性強(qiáng)的環(huán)境保持長時記憶,在環(huán)境中獲取重要且關(guān)鍵的信息,從而能夠快速地學(xué)習(xí)到有效的探索策略,使得算法達(dá)到收斂效果,最終完成探索任務(wù)?;贛inigrid設(shè)計(jì)了兩項(xiàng)部分可觀測環(huán)境的探索任務(wù)驗(yàn)證ARPPO算法的效果,實(shí)驗(yàn)結(jié)果表明ARPPO算法在收斂速度方面優(yōu)于已有的RPPO,A2C等算法,同時兼顧了穩(wěn)定性,具有較強(qiáng)的泛化能力。該文為解決部分可觀測環(huán)境的探索問題提供了一種有效的方法,也為未來的研究提出了一些可能的方向,比如在更為復(fù)雜和具有更多動態(tài)變化因素的環(huán)境中測試ARPPO算法,并嘗試使用多層注意力模塊或Bi-LSTM網(wǎng)絡(luò)來進(jìn)一步提升其性能。

猜你喜歡
步數(shù)注意力卷積
速度和步數(shù),哪個更重要
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
楚國的探索之旅
奇妙博物館(2021年4期)2021-05-04 08:59:48
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
微信運(yùn)動步數(shù)識人指南
小演奏家(2018年9期)2018-12-06 08:42:02
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
通山县| 永德县| 清水河县| 郯城县| 米林县| 宜君县| 罗甸县| 武宣县| 浦县| 怀集县| 宜黄县| 菏泽市| 积石山| 利辛县| 淳化县| 巴彦县| 丰顺县| 恩施市| 汝城县| 高台县| 沂水县| 林口县| 阳谷县| 宜都市| 荔浦县| 武隆县| 阿勒泰市| 永胜县| 星子县| 阳泉市| 富源县| 鹤山市| 白沙| 鹤峰县| 九龙城区| 乡城县| 济南市| 革吉县| 盘锦市| 达拉特旗| 平顶山市|