国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自編碼算法的深度學(xué)習(xí)綜述①

2018-09-17 08:48崔廣新李殿奎
關(guān)鍵詞:魯棒性編碼器編碼

崔廣新,李殿奎

(佳木斯大學(xué) 信息電子技術(shù)學(xué)院,佳木斯 154007)

隨著大數(shù)據(jù)時(shí)代的到來(lái),互聯(lián)網(wǎng)的海量資源比較容易獲得.但是,由于“維數(shù)災(zāi)難”的影響,就使得高維數(shù)據(jù)處理變得十分困難,基于深度學(xué)習(xí)的自編碼算法是數(shù)據(jù)降維的一個(gè)新的熱點(diǎn).自編碼算法橫跨計(jì)算機(jī)科學(xué)、數(shù)學(xué)和工程技術(shù)等其他多個(gè)學(xué)科,并且它廣泛的應(yīng)用于經(jīng)濟(jì)、政治、天文、地理等社會(huì)生活領(lǐng)域中.自編碼算法的最大優(yōu)點(diǎn)是模型的表達(dá)能力強(qiáng),它可以很好的處理具有高維稀疏特征的數(shù)據(jù),通過(guò)無(wú)監(jiān)督學(xué)習(xí)可以減少無(wú)關(guān)和冗余數(shù)據(jù),從而降低維數(shù).

1 自編碼算法

自動(dòng)編碼器是Rumelhart于1986年提出的,是一個(gè)典型的三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括輸入層、隱藏層和輸出層[1].

設(shè)輸入層和輸出層的維度為n,隱藏層的維度為m,樣本數(shù)集.

設(shè)編碼函數(shù)為f,編碼過(guò)程指的是從輸入層到隱藏層;設(shè)解碼函數(shù)為g,解碼過(guò)程指的是從隱藏層到輸出層.

自動(dòng)編碼器的編碼部分是利用非線性映射函數(shù)將輸入數(shù)據(jù)映射到隱藏層單元,設(shè)h表示隱藏層的神經(jīng)單元激活,則其數(shù)學(xué)表達(dá)式為:

其中,w表示的是連接輸入層和隱藏層之間的權(quán)值矩陣,Sf表示的是編碼器激活函數(shù),通常取Sigmoid函數(shù),即f(x)=1/(1+e?x).

解碼部分計(jì)算原理與編碼部分類(lèi)似,利用編碼得到的隱藏層重構(gòu)出原始輸入數(shù)據(jù).其解碼函數(shù)的數(shù)學(xué)表示如下:

其中,y表示的是解碼器對(duì)輸入數(shù)據(jù)的重構(gòu),sg表示的是解碼器激活函數(shù),通常取Sigmoid函數(shù)或者恒等函數(shù),w表示的是隱藏層與輸出層之間的權(quán)值矩陣w,并且,自動(dòng)編碼器的參數(shù) θ={w,p,q}.

輸出數(shù)據(jù)y可以看作是對(duì)輸入數(shù)據(jù)x的預(yù)測(cè),如果輸出數(shù)據(jù)y與輸入數(shù)x的接近程度是我們可以接受的,那么該自動(dòng)編碼器就保留了原始數(shù)據(jù)的大部分信息,該自動(dòng)編碼器也就訓(xùn)練好了[2].

用重構(gòu)誤差函數(shù)L(x,y)來(lái)刻畫(huà)y與x的接近程度.

當(dāng)sg為恒等函數(shù)時(shí):

當(dāng)sg為Sigmoid函數(shù)時(shí):

最后重復(fù)使用梯度下降算法迭代計(jì)算JAE(θ)的最小值,就可以求解自編碼網(wǎng)絡(luò)的參數(shù) θ,也就完成了自動(dòng)編碼器的訓(xùn)練.

2 基于自編碼算法的改進(jìn)算法

2.1 稀疏自編碼算法

稀疏自編碼算法與傳統(tǒng)自編碼算法降維特性不同,稀疏自編碼算法試圖學(xué)習(xí)過(guò)完備數(shù)據(jù),通過(guò)適當(dāng)?shù)南∈枵齽t化可以達(dá)到過(guò)完備的效果[3].

一般采用稀疏性限制確定神經(jīng)元是否被激活,如果神經(jīng)元輸出接近1,則說(shuō)明被激活.對(duì)于Sigmoid函數(shù),如果輸出接近0則認(rèn)為神經(jīng)元被抑制;對(duì)于tanh函數(shù),輸出接近–1則認(rèn)為被抑制,通過(guò)使大量神經(jīng)元處于被抑制的條件限制下從而使自動(dòng)編碼器達(dá)到稀疏的目的[4].

2.2 降噪自編碼算法

降噪自編碼算法(Denoising Automatic Encoder,D AE)是自編碼算法的一個(gè)變種,其實(shí)就是在自編碼算法上加入了噪聲魯棒性約束.

降噪自編碼算法的過(guò)程是:首先將原始輸入數(shù)據(jù)x隨機(jī)的添加噪聲干擾,就會(huì)得到受干擾的輸入數(shù)據(jù)x.自動(dòng)編碼器通過(guò)編碼函數(shù)f將x映射到隱藏層,從而就會(huì)獲得隱藏層特征表達(dá)式h,然后自動(dòng)編碼器通過(guò)解碼函數(shù)g將隱藏層的特征表達(dá)式h再映射到輸出層,就會(huì)獲得輸入數(shù)據(jù)的重構(gòu)y.如果最終得到的重構(gòu)數(shù)據(jù)y能夠很好地保持原始輸入數(shù)據(jù)x的信息,那么我們就可以說(shuō)這個(gè)網(wǎng)絡(luò)具有很好的魯棒性.

降噪自編碼算法最重要的就在于為輸入數(shù)據(jù)添加干擾噪聲[5].最常見(jiàn)的方法有兩種,一種是加入additive isotropic Gaussian noise,令即噪聲干擾部分 ε服從標(biāo)準(zhǔn)方差為 σ2的標(biāo)準(zhǔn)正態(tài)分布.另外一種是 binary masking noise,該方法只需要以概率P(A)將輸入向量x的部分分量賦值為0,以1 ?P(A)的概率分量保持不變,這樣就做到了將輸入向量x添加干擾變成了干擾向量x?,參數(shù) σ和P(A)都是用來(lái)控制噪聲強(qiáng)度的.

2.3 收縮自編碼算法

收縮自編碼算法(Contractive Automatic Encoder,CAE)是自編碼算法的一個(gè)變種,其實(shí)就是在自編碼算法上加入了一個(gè)規(guī)則項(xiàng).當(dāng)訓(xùn)練樣本的輸入存在微小擾動(dòng)時(shí),CAE被提出來(lái)保持中間層表示的魯棒性,它主要通過(guò)懲罰輸入數(shù)據(jù)的敏感性來(lái)保持中間層表示的魯棒性[6].該懲罰因子是自動(dòng)編碼器編碼部分的Jacobian矩陣的Frobenius范數(shù).

從幾何角度來(lái)說(shuō),特征表示的魯棒性可以看作是投影到特征空間的輸入數(shù)據(jù)空間,尤其是數(shù)據(jù)生成分布的樣本領(lǐng)域空間的壓縮.從解析的角度來(lái)說(shuō),懲罰因子的限制提高了CAE對(duì)于輸入數(shù)據(jù)中的微小擾動(dòng)的魯棒性,數(shù)據(jù)表示的準(zhǔn)確性較高,且重構(gòu)特征并不受懲罰因子的影響.可以平衡誤差代價(jià)函數(shù)的重構(gòu)誤差與魯棒性.

2.4 棧式自編碼算法

棧式自編碼是一種由多層自編碼構(gòu)成的神經(jīng)網(wǎng)絡(luò)模型.它通常能得到輸入的“層次型分組”或者“部分-整體分解”結(jié)構(gòu).棧式自編碼神經(jīng)網(wǎng)絡(luò)的第一層會(huì)學(xué)習(xí)到原始輸入的一階特征(像圖片里的邊緣),第二層會(huì)學(xué)習(xí)到二階特征,該特征對(duì)應(yīng)一階特征里包含的一些模式(像在構(gòu)成輪廓或者角點(diǎn)時(shí),什么樣的邊緣會(huì)出現(xiàn)),更高層還會(huì)學(xué)到更高階的特征,但耗時(shí)較長(zhǎng).

該深度學(xué)習(xí)模型的訓(xùn)練過(guò)程為:首先,網(wǎng)絡(luò)中的每一層依次通過(guò)逐層貪婪訓(xùn)練法來(lái)訓(xùn)練整個(gè)深度神經(jīng)網(wǎng)絡(luò),即原始輸入用于訓(xùn)練第一層網(wǎng)絡(luò)參數(shù),然后把該隱藏層的輸出作為下一層的輸入,如此反復(fù),依次逐層訓(xùn)練學(xué)習(xí)各層網(wǎng)絡(luò)的參數(shù).在無(wú)監(jiān)督預(yù)訓(xùn)練之后,我們?cè)谧詈笠粋€(gè)自動(dòng)編碼器的編碼層上添加一個(gè)分類(lèi)器,然后使用監(jiān)督學(xué)習(xí)通過(guò)有標(biāo)記樣本來(lái)調(diào)整分類(lèi)器的參數(shù).此外,多層神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)也可以用來(lái)微調(diào)所有層的參數(shù),同時(shí)改善結(jié)果.

2.5 邊緣降噪自編碼算法

邊緣降噪自編碼算法是Chen為克服降噪自編碼算法計(jì)算強(qiáng)度高、處理時(shí)間長(zhǎng)等缺點(diǎn)提出來(lái)的一種衍生算法[7],但控制噪聲強(qiáng)度的參數(shù)不易確定.

2.6 稀疏降噪自編碼算法

通過(guò)研究傳統(tǒng)自編碼算法,提出了一種將稀疏性限制加在降噪自動(dòng)編碼器的隱藏神經(jīng)元上的方法,可以讓較少隱藏層的激活單元表示最有效的特征,但沒(méi)有考慮輸入與輸出的局部近似性.

2.7 稀疏邊緣降噪自編碼算法

稀疏邊緣降噪自編碼算法(Sparse Margin Denoising Auto-Encoder,SMDAE)是自編碼算法的一個(gè)變種,其實(shí)就是將稀疏性約束條件表達(dá)式和邊緣降噪約束條件表達(dá)式添加在隱藏層上面.同時(shí)結(jié)合了稀疏自編碼算法和邊緣降噪自編碼算法的特點(diǎn),噪聲干擾分布和重構(gòu)誤差函數(shù)還可以繼續(xù)改進(jìn).

2.8 卷積自編碼算法

卷積自編碼算法(Convolutional Auto-Encoder)是在自編碼算法基礎(chǔ)上,將普通的矩陣內(nèi)積操作替換為卷積操作.這種操作更適合處理二維輸入數(shù)據(jù),但耗時(shí)較長(zhǎng).

2.9 卷積稀疏自編碼算法

在自編碼算法中加入卷積與反卷積操作構(gòu)成CAE,再加入稀疏化操作,構(gòu)成卷積稀疏自編碼器.使用CSAE-S對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)處理,盡可能實(shí)現(xiàn)初步無(wú)損特征提取,然后使用CSAE-V對(duì)數(shù)據(jù)進(jìn)行降維,實(shí)現(xiàn)低級(jí)特征抽象,再加入Pooling層實(shí)現(xiàn)高級(jí)特征抽象以及提高網(wǎng)絡(luò)泛化性.將CSAE中的卷積編碼部分按CSAE-S、CSAE-V、Pooling順序棧式堆疊,最后加入Full連接層和Softmax分類(lèi)層,則形成CSAENN.

整個(gè)CSAENN的耗時(shí)主要在于權(quán)值稀疏化部分,因此整個(gè)網(wǎng)絡(luò)的時(shí)間復(fù)雜度達(dá)到了 O(n3).CSAENN的另外一個(gè)優(yōu)點(diǎn)就是準(zhǔn)確率有一定的提高.經(jīng)過(guò)稀疏化后的權(quán)值提取出的特征相似性更少,即代表性更強(qiáng),因此可以更好地表示原圖像.增加迭代次數(shù)、增加樣本數(shù)量可獲得更高的準(zhǔn)確率.

3 自編碼算法的應(yīng)用案例

3.1 圖像識(shí)別領(lǐng)域

利用人體生物學(xué)特征已成為獲取相關(guān)信息的重要途徑,徐文瀚等人提出一種運(yùn)用棧式自編碼網(wǎng)絡(luò)進(jìn)行面部年齡識(shí)別的方法[8];針對(duì)傳統(tǒng)人臉表情識(shí)別算法魯棒性差,李江等人提出一種降噪自編碼神經(jīng)網(wǎng)絡(luò)的方法[9];余濤將稀疏自編碼應(yīng)用在手寫(xiě)字的識(shí)別中,與傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)相比,參數(shù)少,對(duì)圖像的平移具有一定的容忍度,不易造成過(guò)擬合[10];針對(duì)網(wǎng)絡(luò)上大量重復(fù)視頻的問(wèn)題,王飛飛將稀疏自編碼用于近重復(fù)視頻檢索[11],取得了較好的檢索精度;王勇將稀疏自編碼應(yīng)用在森林火災(zāi)的圖像分類(lèi)中[12],該方法直接從圖像塊的像素中提取圖像數(shù)據(jù)的特征,提高了森林火災(zāi)與類(lèi)似物體的分類(lèi)準(zhǔn)確率.

3.2 語(yǔ)音識(shí)別領(lǐng)域

馬勇等人提出了一種基于稀疏神經(jīng)網(wǎng)絡(luò)的說(shuō)話人分割方法[13],為了避免網(wǎng)絡(luò)在訓(xùn)練中出現(xiàn)過(guò)擬合問(wèn)題,還采用了dropout技術(shù)提高網(wǎng)絡(luò)的魯棒性;針對(duì)中文語(yǔ)音情感識(shí)別的問(wèn)題,朱芳枚同時(shí)結(jié)合了降噪自編碼算法和稀疏自編碼算法的優(yōu)點(diǎn),提取了具有魯棒性和稀疏性的語(yǔ)音情感二次特征[14];針對(duì)在語(yǔ)音識(shí)別中,傳統(tǒng)徑向基隨機(jī)初始化的問(wèn)題,黃麗霞等人將深度自編碼應(yīng)用在語(yǔ)音識(shí)別噪聲魯棒性的研究中[15];王輝等人采用稀疏自編碼算法來(lái)提取模仿聽(tīng)覺(jué)神經(jīng)的稀疏觸動(dòng)信號(hào),將其作為表征語(yǔ)音信號(hào)[16];在聲學(xué)模型方面,也不斷地嘗試新的深度神經(jīng)網(wǎng)絡(luò),王山海利用深度自編碼算法研究出它的模型參數(shù)對(duì)于孤立詞語(yǔ)音識(shí)別產(chǎn)生的影響[17].

3.3 故障診斷領(lǐng)域

針對(duì)淺層網(wǎng)絡(luò)特征提取能力有限的問(wèn)題,陳仁祥等人提出采用深度自編碼神經(jīng)網(wǎng)絡(luò)的方法對(duì)軸承進(jìn)行識(shí)別[18];溫博文將深度自編碼算法應(yīng)用于飛機(jī)操縱面故障診斷當(dāng)中[19],該方法無(wú)需精準(zhǔn)的飛機(jī)模型,診斷速度快、精度高;為了實(shí)現(xiàn)風(fēng)機(jī)齒輪箱的故障診斷檢測(cè)分析,劉輝海提出了一種深度自編碼網(wǎng)絡(luò)模型[20];針對(duì)在復(fù)雜紋理背景噪聲下傳統(tǒng)路面裂縫檢測(cè)系統(tǒng)檢測(cè)效率低,易造成漏檢、錯(cuò)檢等問(wèn)題,錢(qián)彬等人提出了一種運(yùn)用稀疏自編碼進(jìn)行裂縫自動(dòng)檢測(cè)的方法[21];朱煜奇將棧式降噪自編碼應(yīng)用在故障診斷中,有效的克服了局部極值與梯度消失的問(wèn)題[22].

3.4 其它領(lǐng)域

袁靜等人將稀疏去噪自編碼應(yīng)用在異常行為檢測(cè)中,該方法比傳統(tǒng)的自編碼網(wǎng)絡(luò)在全局異常行為檢測(cè)中更加有效[23];針對(duì)在入侵檢測(cè)中SVM受時(shí)間與空間復(fù)雜度的約束,高妮等人提出一種自編碼神經(jīng)網(wǎng)絡(luò)應(yīng)用于此[24];楊輝華等人采用稀疏降噪自編碼對(duì)真假藥品近紅外光譜數(shù)據(jù)進(jìn)行建模,可以做到真實(shí)有效的鑒別藥品的真?zhèn)涡訹25];針對(duì)常規(guī)毒理學(xué)實(shí)驗(yàn)方法的周期長(zhǎng)、耗資高等問(wèn)題,黎紅等人提出采用降噪自編碼提取隱含毒性化合物的特征,使得有毒化合物的化合物毒性預(yù)測(cè)和活性預(yù)測(cè)都能被實(shí)現(xiàn);魏揚(yáng)威將自動(dòng)編碼器應(yīng)用于英語(yǔ)作文自動(dòng)評(píng)分系統(tǒng),相比于傳統(tǒng)自動(dòng)評(píng)分方法皮爾森相關(guān)系數(shù)高出9.7%,具有非常好的應(yīng)用價(jià)值[26].

4 結(jié)論與展望

對(duì)各算法作對(duì)比分析,如表1.

表1 各算法對(duì)比

自編碼的最大優(yōu)點(diǎn)是模型的表達(dá)能力強(qiáng),它可以很好的處理具有高維稀疏特征的數(shù)據(jù),通過(guò)無(wú)監(jiān)督學(xué)習(xí)可以減少無(wú)關(guān)和冗余數(shù)據(jù),從而降低維數(shù).雖然自編碼算法已經(jīng)在很多領(lǐng)域都取得了令人矚目的成績(jī),但其仍處于起步階段,還面臨諸多問(wèn)題:像如何判定網(wǎng)絡(luò)的隱藏層層數(shù)和隱藏層節(jié)點(diǎn)數(shù);如何改進(jìn)梯度下降法,使得網(wǎng)絡(luò)可以獲得更好的局部極值點(diǎn),甚至是可以獲得全局最優(yōu)點(diǎn);如何評(píng)價(jià)通過(guò)自動(dòng)編碼器所學(xué)到的特征是優(yōu)劣的,并且如何解釋該特征;如何處理大數(shù)據(jù)的大樣本量,高維屬性和多樣性的數(shù)據(jù)類(lèi)型等問(wèn)題.

未來(lái)自編碼的發(fā)展趨勢(shì):在自然語(yǔ)言處理領(lǐng)域,期待利用AE模型的更多新算法,可以更好地理解自然語(yǔ)言中的句子或整個(gè)文檔;在信息檢索領(lǐng)域仍有待突破,期待涌現(xiàn)新的深度結(jié)構(gòu)及其算法;在計(jì)算機(jī)視覺(jué)領(lǐng)域,期待更多的深層結(jié)構(gòu)和算法能夠更好地處理目標(biāo)和行為識(shí)別這類(lèi)復(fù)雜的問(wèn)題.

猜你喜歡
魯棒性編碼器編碼
融合CNN和Transformer編碼器的變聲語(yǔ)音鑒別與還原
生活中的編碼
設(shè)定多圈絕對(duì)值編碼器當(dāng)前圈數(shù)的方法
武漢軌道交通重點(diǎn)車(chē)站識(shí)別及網(wǎng)絡(luò)魯棒性研究
轉(zhuǎn)爐系統(tǒng)常用編碼器選型及調(diào)試
舞臺(tái)機(jī)械技術(shù)與設(shè)備系列談(二)
——編碼器
《全元詩(shī)》未編碼疑難字考辨十五則
荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
子帶編碼在圖像壓縮編碼中的應(yīng)用
Genome and healthcare
白山市| 茌平县| 大石桥市| 岳阳市| 衡阳县| 漳平市| 宣化县| 德庆县| 延庆县| 永德县| 大余县| 红原县| 潞城市| 乐清市| 涪陵区| 红桥区| 德兴市| 措美县| 汾阳市| 阳谷县| 恩施市| 建阳市| 应城市| 饶平县| 郸城县| 莱芜市| 德州市| 沙田区| 思南县| 浮山县| 嘉峪关市| 沈丘县| 锡林浩特市| 呼和浩特市| 江川县| 梅河口市| 商南县| 永嘉县| 扎鲁特旗| 开原市| 天台县|