深度學(xué)習(xí)中先驗(yàn)知識(shí)的應(yīng)用

2015-12-23 01:12:30宣冬梅王菊韻

計(jì)算機(jī)工程與設(shè)計(jì) 2015年11期

關(guān)鍵詞：隱層先驗(yàn)神經(jīng)網(wǎng)絡(luò)

宣冬梅，王菊韻，于華，趙佳

（1.中國(guó)科學(xué)院大學(xué) 工程管理與信息技術(shù)學(xué)院，北京100049；2.中國(guó)傳媒大學(xué) 理學(xué)院，北京100024）

0 引言

Hinton等［1］構(gòu)建的多層深度信念網(wǎng) （deep belief network，DBN）掀起了深度學(xué)習(xí)的浪潮，DBN 的基礎(chǔ)來(lái)自于人工神經(jīng)網(wǎng)絡(luò)。在之前人工神經(jīng)網(wǎng)絡(luò)的研究中，目標(biāo)函數(shù)對(duì)于各層之間的權(quán)重是非凸的優(yōu)化問題，當(dāng)網(wǎng)絡(luò)層數(shù)較多時(shí)，即變量個(gè)數(shù)較多時(shí)，目標(biāo)函數(shù)容易陷入局部最優(yōu)。Hinton等較好地解決了這個(gè)問題。通過(guò)無(wú)監(jiān)督學(xué)習(xí)實(shí)現(xiàn)逐層預(yù)訓(xùn)練（layer－wise pre－training）達(dá)到解決非凸優(yōu)化的局部最優(yōu)問題，實(shí)質(zhì)是利用逐層預(yù)訓(xùn)練給出一個(gè)較好的初始解，然后再利用微調(diào) （fine－tuning）獲得較好的局部最優(yōu)解。另一個(gè)重要的信息是深層人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力，自主學(xué)習(xí)而且學(xué)習(xí)得到的特征能夠更好地刻畫數(shù)據(jù)本身，從而有利于可視化或分類［2］。

本文在介紹了深度學(xué)習(xí)原理的基礎(chǔ)上，將模型進(jìn)行改進(jìn)，引入先驗(yàn)知識(shí)的概念，得到更廣泛的應(yīng)用。

1 深度學(xué)習(xí)

1.1 深度學(xué)習(xí)的發(fā)展及應(yīng)用

深度學(xué)習(xí)與淺層學(xué)習(xí)最大的區(qū)別就是強(qiáng)調(diào)了模型結(jié)構(gòu)的深度［3］，明確了特征學(xué)習(xí)的重要性，而淺層學(xué)習(xí)主要是靠人工經(jīng)驗(yàn)抽取樣本的特征，模型主要是用來(lái)預(yù)測(cè)和分類，雖然一些淺層學(xué)習(xí)方法在互聯(lián)網(wǎng)的應(yīng)用上獲得了一定的成功，但是淺層學(xué)習(xí)方法有很大的局限性。貝葉斯網(wǎng)絡(luò)［4］是一種比較有效的機(jī)器學(xué)習(xí)方法，但是特征需要人工設(shè)定。在應(yīng)用樸素貝葉斯分類器時(shí)，主要涉及兩個(gè)問題，首先要決定怎樣將任意樣本表示為屬性值的形式，其次是要決定如何估計(jì)樸素貝葉斯分類器所需的概率。對(duì)于樸素貝葉斯模型，假設(shè)屬性之間相互獨(dú)立，但這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的，這會(huì)給樸素貝葉斯模型的正確分類帶來(lái)一定的影響，在屬性個(gè)數(shù)比較多或?qū)傩灾g相關(guān)性較大時(shí)，選擇樸素貝葉斯模型的分類效率是很低的。核函數(shù)［5］方法是機(jī)器學(xué)習(xí)中較流行的方法，但其缺陷也是需要人工選擇核函數(shù)，人為地進(jìn)行特征選擇，對(duì)分類結(jié)果的影響比較大。主成分分析［6］（principle component analysis，PCA）作為可以自動(dòng)提取特征的方法之一，但是只能提取線性特征，而現(xiàn)實(shí)問題絕大多數(shù)的特征都存在非線性關(guān)系。

Arel等［7］介紹了主流的深度學(xué)習(xí)以及近十年來(lái)的研究方向，突出了深度學(xué)習(xí)方法的優(yōu)勢(shì)。近年來(lái)深度學(xué)習(xí)方法在工業(yè)界的發(fā)展如火如荼，主要原因在于該方法提高了若干經(jīng)典問題的最好結(jié)果，如語(yǔ)音識(shí)別、圖像識(shí)別等［8，9］。Lee等［10］也驗(yàn)證了深度學(xué)習(xí)網(wǎng)絡(luò)能夠?qū)W習(xí)到更好的特征。與之前的神經(jīng)網(wǎng)絡(luò)的方法的區(qū)別在于隱層個(gè)數(shù)更多［11］，明確突出了特征學(xué)習(xí)的重要性，并且在用反傳算法求局部最優(yōu)解時(shí)給出了較好的初始可行解［5］。深度神經(jīng)網(wǎng)絡(luò)作為多層人工神經(jīng)網(wǎng)絡(luò)，構(gòu)建各層網(wǎng)絡(luò)的方法主要有自動(dòng)編碼（auto－encoder）［12］和RBM［13，14］。自動(dòng)編碼是利用輸入數(shù)據(jù)，人為構(gòu)造帶有參數(shù)的編碼函數(shù)得到上一層的數(shù)據(jù)，再利用上一層的數(shù)據(jù)通過(guò)帶參數(shù)的解碼函數(shù)來(lái)盡量還原輸入數(shù)據(jù)，通過(guò)最小化輸入數(shù)據(jù)與通過(guò)解碼函數(shù)得到的數(shù)據(jù)之間的損失來(lái)調(diào)整參數(shù)，從而達(dá)到預(yù)訓(xùn)練的目的。RBM 作為較常用的構(gòu)建深度網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法，以能量模型為理論基礎(chǔ)，層與層之間的結(jié)構(gòu)類似于雙層神經(jīng)網(wǎng)絡(luò)模型，層內(nèi)的神經(jīng)元互不連接，層間的神經(jīng)元全連接。常用的激活函數(shù)是Sigmoid函數(shù)，它通過(guò)最大化已知數(shù)據(jù)出現(xiàn)的概率達(dá)到調(diào)整參數(shù) （即預(yù)訓(xùn)練）的目的，思想與極大似然估計(jì)有密切關(guān)系。該方法的優(yōu)點(diǎn)是能夠自動(dòng)提取特征，缺點(diǎn)是針對(duì)多分類問題，自動(dòng)提取特征不能更好地將不同種類的樣本分類，這就需要有不斷反復(fù)地調(diào)整結(jié)構(gòu)以及參數(shù)。目前，使用深度學(xué)習(xí)方法時(shí)普遍是在多個(gè)機(jī)器上同時(shí)進(jìn)行，針對(duì)多個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)分別調(diào)整，以便更快的得到更好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)，但是這樣的條件在一般的實(shí)驗(yàn)室是不現(xiàn)實(shí)的。

1.2 先驗(yàn)知識(shí)的提出

本文主要研究的是在多分類問題中，將先驗(yàn)知識(shí)與深度學(xué)習(xí)方法相結(jié)合。先驗(yàn)知識(shí)的應(yīng)用，在多分類問題中有明顯的優(yōu)勢(shì)。①識(shí)別率明顯提高。事實(shí)上，多分類問題中只是在 “邊界”上的樣本比較難分類，而這樣的樣本一般只出現(xiàn)在幾類樣本的 “邊界”上。因此，當(dāng)預(yù)測(cè)某樣本所屬的類別時(shí)，我們可以排除該樣本不可能屬于的一些類，在其余類上對(duì)該樣本進(jìn)行分類，實(shí)際上就相當(dāng)于給這個(gè)樣本一定的先驗(yàn)知識(shí)。例如，當(dāng)你遇到一個(gè)白發(fā)蒼蒼，滿臉皺紋的人時(shí)，要判斷這個(gè)人是老年、中年、青年、少年中的哪一類時(shí)，你肯定不會(huì)認(rèn)為他屬于少年這一類。但是在一般的方法中仍要檢測(cè)他是否屬于少年，這顯然是多余的。將某個(gè)樣本不屬于的那些類去掉相當(dāng)于去掉了若干影響分類效果的類別，這顯然能提高識(shí)別率。②各神經(jīng)元之間連接權(quán)重的絕對(duì)值的降低，決定了深度學(xué)習(xí)方法能更快地收斂到局部最優(yōu)解。這一點(diǎn)在處理實(shí)值輸入時(shí)尤其明顯，因?yàn)閷?duì)于實(shí)值輸入的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)迭代參數(shù)需要設(shè)置的足夠小，否則預(yù)訓(xùn)練的連接權(quán)重將非常大，結(jié)果會(huì)很不穩(wěn)定。我們?cè)趯?shí)驗(yàn)中遇到過(guò)連接權(quán)重非常大的情況（達(dá)到10137數(shù)量級(jí)）。因此，連接權(quán)重變小能節(jié)省大量的運(yùn)行時(shí)間。③先驗(yàn)知識(shí)的有效利用能夠得到更簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，如果需要分類的類別很多時(shí)，有效利用先驗(yàn)可以簡(jiǎn)化模型，便于調(diào)參，提高效率，更容易進(jìn)行參數(shù)調(diào)整以及網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化等細(xì)節(jié)的處理，從而讓條件一般的實(shí)驗(yàn)室也能夠使用深度學(xué)習(xí)方法進(jìn)行大量的分類實(shí)驗(yàn)。

2 深度學(xué)習(xí)中分類問題和先驗(yàn)知識(shí)的獲取

2.1 分類問題

深度學(xué)習(xí)中分類問題一般隱層個(gè)數(shù)較多（通常超過(guò)3層隱層），對(duì)應(yīng)的輸出層分類函數(shù)形式一般為

式中：Oi——輸出層第i個(gè)神經(jīng)元的輸出，n——輸出層神經(jīng)元個(gè)數(shù)，也即待分類的類別數(shù)。

2.2 先驗(yàn)知識(shí)的獲取及表示

一個(gè)樣本有很多特征，根據(jù)某些特征，對(duì)樣本做預(yù)分類，可以判斷它屬于或是不屬于哪些類，得到先驗(yàn)知識(shí)；對(duì)于圖像樣本，根據(jù)訓(xùn)練集中若干像素點(diǎn)的統(tǒng)計(jì)結(jié)果，也可以獲取樣本的先驗(yàn)知識(shí)。以MNIST 數(shù)據(jù)集為例說(shuō)明先驗(yàn)知識(shí)是如何獲取的。對(duì)于0，1，2，...，9 這10 類圖片，如果圖片左邊框的中間部分有黑色像素點(diǎn)的話，我們首先能夠區(qū)分出這張圖片不屬于1，2，7這3類，這就是先驗(yàn)知識(shí)的獲取。選取不同的分類方法，我們可以得到不同的先驗(yàn)知識(shí)。對(duì)于每一個(gè)待分類的樣本，都對(duì)應(yīng)此樣本的一個(gè)先驗(yàn)知識(shí)，來(lái)表示此樣本在沒有其它信息時(shí)所屬類別的概率表示：（p1，p2，p3，…，pn），其中pi表示此樣本屬于第i類的先驗(yàn)概率。在引言中的例子中，假設(shè)一個(gè)樣本的概率表示是（0.4，0.4，0.2，0）表示此樣本是老年人的先驗(yàn)概率是0.4，是中年人的先驗(yàn)概率是0.4，是青年人的概率是0.2，但不可能是少年。

3 先驗(yàn)知識(shí)在分類問題中的應(yīng)用

3.1 深度學(xué)習(xí)中隱層數(shù)目

深度學(xué)習(xí)實(shí)際上是自動(dòng)提取特征的過(guò)程，特征提取的好壞決定了分類的效果。淺層人工神經(jīng)網(wǎng)絡(luò)在很多問題中效果不好的原因是提取的特征不夠好。Minsky認(rèn)為，單層神經(jīng)網(wǎng)絡(luò)不能解決異或問題，即不存在一個(gè)連續(xù)函數(shù)f（x，y），使得：f（0，0）＝1；f（0，1）＝0；f（1，0）＝0；f（1，1）＝1。特征提取的不夠好，在最后一層隱層與輸出層之間就形成單層神經(jīng)網(wǎng)絡(luò)，很可能陷入異或問題的困境。這也是很多問題用淺層神經(jīng)網(wǎng)絡(luò)不能得到很好效果的原因。因此，對(duì)于越復(fù)雜的問題，需要的層數(shù)就越多，層數(shù)越多的神經(jīng)網(wǎng)絡(luò)提取的特征越多，給出的信息也就越多，識(shí)別的準(zhǔn)確性越高，但是層數(shù)越高，特征越多，計(jì)算復(fù)雜度增加，搜索的空間也會(huì)增大，樣本對(duì)應(yīng)的數(shù)值會(huì)越稀疏，數(shù)據(jù)信息損失也就越多，層數(shù)太大可能就無(wú)法分類，如圖1所示。

圖1 兩類正弦曲線加上擾動(dòng)生成的樣本在多層神經(jīng)中的圖例

圖1中，我們生成了正弦曲線加隨機(jī)擾動(dòng)項(xiàng)的兩類樣本，其中的4幅圖分別代表輸入層、第3 隱層、第6 隱層和第9隱層的散點(diǎn)圖。從圖中可以看出在第9隱層中已經(jīng)不可能把樣本分類。

對(duì)于多分類問題，很難想象對(duì)于每一類樣本都能用統(tǒng)一的特征來(lái)進(jìn)行稀疏表示。相反，如果先驗(yàn)知識(shí)較精確，即先驗(yàn)概率分布中分量為0的個(gè)數(shù)較多，則提取的特征可能更精確，分類效果會(huì)更好。

3.2 先驗(yàn)知識(shí)的應(yīng)用

在n－分類問題中，對(duì)于某樣本的先驗(yàn)概率表示（p1，p2，p3，…，pn）以及利用深度學(xué)習(xí)得到的輸出（o1，o2，o3，…，on），我們提出兩種方法利用先驗(yàn)知識(shí)得到較好的分類結(jié)果，如下算法1和算法2。

算法1實(shí)質(zhì)就是將深度學(xué)習(xí)得到的輸出作為給定樣本分類下的條件概率；在算法2中，加入?yún)?shù)ε用以調(diào)整先驗(yàn)知識(shí)，具體體現(xiàn)在算法2的第一步中。經(jīng)過(guò)調(diào)整后的先驗(yàn)知識(shí)會(huì)比原有的先驗(yàn)知識(shí)較為稀疏，從而在第二步中需要分類的類別數(shù)減少，進(jìn)而簡(jiǎn)化需要訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

算法1：加先驗(yàn)知識(shí)的隨機(jī)深度學(xué)習(xí)分類器（RPK）

輸入：給定訓(xùn)練樣本的先驗(yàn)知識(shí)矩陣（p1，p2，p3，…，pn）

輸出：分類結(jié)果

步驟1 應(yīng)用深度學(xué)習(xí)方法得到深度神經(jīng)網(wǎng)絡(luò)的輸出（o1，o2，o3，…，on）；

步驟2 計(jì)算乘積：（r1，r2，r3，…，rn）＝（p1＊o1，p2＊o2，p3＊o3，…，pn＊on）；

步驟3 輸出最大的數(shù)ri的下標(biāo)i。

算法2：加先驗(yàn)知識(shí)的確定型深度學(xué)習(xí)分類器（DPK）

輸入：給定訓(xùn)練樣本的先驗(yàn)知識(shí)矩陣（p1，p2，p3，…，pn）以及參數(shù)ε

輸出：分類結(jié)果

步驟1 如果piε，設(shè)p′i＝pi；若pi≤ε則p′i＝0；

步驟2 當(dāng)p′i0時(shí)，應(yīng)用深度學(xué)習(xí)方法得到深度神經(jīng)網(wǎng)絡(luò)的輸出（o1，o2，o3，…，on）；

步驟3 計(jì) 算乘積：（r1，r2，r3，…，rn）＝（p′1＊o1，p′2＊o2，p′3＊o3，…，p′n＊on）；

步驟4 輸出最大的數(shù)ri的下標(biāo)i。

3.3 帶有先驗(yàn)知識(shí)的多分類算法若干結(jié)果

由于先驗(yàn)知識(shí)對(duì)結(jié)果的影響很大，所以先定義所需的先驗(yàn)知識(shí)。

定義（準(zhǔn)確的先驗(yàn)知識(shí)）屬于第i類的樣本，若pi≥pj對(duì)于任意的j 都成立，我們稱此先驗(yàn)知識(shí)是準(zhǔn)確的。

為此，有下面關(guān)于損失函數(shù)的結(jié)論，這里統(tǒng)一設(shè)定損失函數(shù)為二次損失函數(shù)。

定理1 對(duì)于n－分類問題中的任意樣本以及給定的準(zhǔn)確的先驗(yàn)知識(shí)（p1，p2，p3，…，pn），設(shè)在無(wú)先驗(yàn)知識(shí)的深度神經(jīng)網(wǎng)絡(luò)的輸出是（o1，o2，o3，…，on），而算法1的輸出是（，，，…，），算法2的輸出是，，…），損失函數(shù)是f。則有

證明：不妨設(shè)此樣本屬于第1類，則其真值為（1，0，…，0）。以下分情況討論：

（1）若在無(wú)先驗(yàn)知識(shí)的深度神經(jīng)網(wǎng)絡(luò)的分類結(jié)果是第1類，則有o1≥oi對(duì)任意i成立。由于p1≥pi對(duì)于任意i都成立，故r1＝p1＊oi≥pi＊oi＝ri，r2＝p1＊oi≥pi＊oi＝ri，對(duì)任意i成立，也即算法1和算法2的輸出都是1，此時(shí)損失都為0。

（2）若在無(wú)先驗(yàn)知識(shí)的深度神經(jīng)網(wǎng)絡(luò)的分類結(jié)果是第i類，i≠1，即o1≤oi。由于p1≥pi，oi－o1≥pi＊oip1＊o1，即算法1 和算法2 的分類結(jié)果有可能是第1 類，否則損失與深度神經(jīng)網(wǎng)絡(luò)的損失相同。綜合可知結(jié)論成立。

證畢。

事實(shí)上，準(zhǔn)確的先驗(yàn)知識(shí)不僅可以降低損失，而且對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的簡(jiǎn)化也有很大幫助。對(duì)于某類有一個(gè)很小的先驗(yàn)，按照算法2僅僅需要建立一個(gè)3－分類的神經(jīng)網(wǎng)絡(luò)。顯然，對(duì)于3－分類問題要比4－分類問題簡(jiǎn)單，為了說(shuō)明這個(gè)問題，考慮2－分類問題和3－分類問題的比較。

圖2中，每個(gè)圖例由兩部分組成，每部分對(duì)應(yīng)于一個(gè)神經(jīng)元。假設(shè)使用不帶有隱層的神經(jīng)元，且增加第一個(gè)神經(jīng)元和輸出神經(jīng)元的權(quán)重，將無(wú)法分類b 和c類的樣本。類似地如果增加第二個(gè)神經(jīng)元和輸出神經(jīng)元的權(quán)重，將無(wú)法分類a和c類的樣本，由此可知只用單層神經(jīng)網(wǎng)絡(luò)是無(wú)法處理這樣的問題。然而，若已知某個(gè)樣本不屬于某一類的先驗(yàn)知識(shí)，那么這個(gè)問題就成了二分類問題，此時(shí)只需單層神經(jīng)網(wǎng)絡(luò)就可以了。

圖2 二分類方法簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

深度學(xué)習(xí)是自動(dòng)提取特征的過(guò)程，要分類的類別越少，需要的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也更簡(jiǎn)單。簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)會(huì)給調(diào)參帶來(lái)很大的方便，同時(shí)也意味著輸出的結(jié)果更穩(wěn)定，連接權(quán)重的絕對(duì)值更小。連接權(quán)重的大小直接決定了優(yōu)化算法的迭代步數(shù)，決定了求得滿意解需要的時(shí)間。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 數(shù)據(jù)集

本文使用MNIST 手寫體標(biāo)準(zhǔn)數(shù)據(jù)集，此數(shù)據(jù)集是Le－Cun［15］等搜集并整理的手寫體數(shù)據(jù)集。該數(shù)據(jù)集的訓(xùn)練集有60000張數(shù)字圖像，測(cè)試集有10000張數(shù)字圖像。每張數(shù)字圖像類似如圖3所示的手寫體數(shù)字。

圖3 手寫數(shù)字 ‘0’

4.2 實(shí)驗(yàn)結(jié)果

假設(shè)準(zhǔn)確的先驗(yàn)知識(shí)只有兩個(gè)為0.5，其余全為0的情況，稱此先驗(yàn)為極端先驗(yàn)。表1比較了Hinton等［1］的多分類方法以及類似結(jié)構(gòu)下使用有先驗(yàn)知識(shí)的分類方法得到的識(shí)別率，表2給出了Hinton等使用多分類方法以及使用有先驗(yàn)知識(shí)的分類方法得到的權(quán)重的比較結(jié)果。

表1 多分類方法和有先驗(yàn)知識(shí)的分類方法的部分識(shí)別率比較結(jié)果

表2 多分類方法和根據(jù)先驗(yàn)知識(shí)分類方法的權(quán)重比較結(jié)果

表1中，應(yīng)用先驗(yàn)知識(shí)的分類方法表現(xiàn)最 “好”的是手寫數(shù)字樣本取自’3’和’4’中的樣本，表現(xiàn)最 “差”的是手寫數(shù)字樣本取自’5’和’6’中的樣本（在表中分別用黑體字樣方式標(biāo)出）。從表中可以看出，若知道某些類的一些先驗(yàn)知識(shí)，利用有先驗(yàn)知識(shí)的分類方法能夠提高識(shí)別率。實(shí)驗(yàn)中采用了和Hinton類似的結(jié)構(gòu)，一般情況下，這一結(jié)構(gòu)對(duì)于有先驗(yàn)知識(shí)的分類方法不是最優(yōu)的。對(duì)于不同類別對(duì)的45個(gè)有先驗(yàn)知識(shí)的分類方法模型都采用了類似的結(jié)構(gòu)，卻得到了比Hinton更好的結(jié)果，由此說(shuō)明極端先驗(yàn)在多分類問題中的優(yōu)越性。

為了簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，實(shí)驗(yàn)中，多分類方法使用了3層隱層，如果只考慮’0’類樣本和’1’類樣本時(shí)僅需要1層隱層就可以很好的分類，分類錯(cuò)誤的樣本量為1，總測(cè)試樣本量為2115。顯然比多分類問題的識(shí)別率要好得多。

表2中比較了多分類方法和有先驗(yàn)知識(shí)的分類方法的連接權(quán)重。有先驗(yàn)知識(shí)的分類模型中，使用的是45個(gè)模型中連接權(quán)重絕對(duì)值的最大值。在這種極端情況下，仍然能夠得出普遍比多分類方法好的結(jié)果（除了隱層和輸出層之間的權(quán)重，多分類模型與最壞情況下的二分類模型相差不多）。

5 結(jié)束語(yǔ)

本文以深度學(xué)習(xí)知識(shí)為背景，提出了先驗(yàn)知識(shí)的理論知識(shí)，研究了先驗(yàn)知識(shí)在多分類問題中的應(yīng)用，并通過(guò)實(shí)驗(yàn)驗(yàn)證了在深度學(xué)習(xí)中加入先驗(yàn)知識(shí)能夠提高多分類方法的識(shí)別率，減小連接權(quán)重的絕對(duì)值，且使得學(xué)習(xí)的結(jié)構(gòu)更簡(jiǎn)單。在本文中僅利用了Hinton多分類方法原有的結(jié)構(gòu)就得到比較好的識(shí)別率，如果可以得到更好的先驗(yàn)知識(shí)，分類效果則更好，更能說(shuō)明在多分類問題中加入先驗(yàn)知識(shí)能夠提高識(shí)別率，通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的有效性。

［1］Hinton G，Salakhutdinov R.Reducing the dimensionality of data with neural networks［J］.Science，2006，313 （5786）：504－507.

［2］Ranzato M，Boureau YL，LeCun Y.Sparse feature learning for deep belief networks［C］／／In Advances in Neural Information Processing Systems，2008：1185－1192.

［3］Lee H，Grosse R，Ranganath R，et al.Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations［C］／／Proceedings of the 26th Annual International Conference on Machine Learning.ACM，2009：609－616.

［4］Koller D，F(xiàn)riedman N.Probabilistic graphic model，principles and techniques［M］.USA：MIT Press，2010.

［5］Sebastian Maldonado，Richard Weber，Jayanta Basak.Simultaneous feature selection and classification using kernelpenalized support vector machines ［J］.Information Sciences，2011，181：115－128.

［6］Mohamed Morchid，Richard Dufour，Pierre－Michel Bousquet，et al.Feature selection using principal component analysis for massive retweet detection ［J］.Pattern Recognition Letters，2014，49 （1）：33－39.

［7］Arel I，Rose D，Karnowski T.Deep machine learning－a new frontier in artificial intelligence research ［C］／／Intelligence Magazine，2010，5 （4）：13－18.

［8］Zhou S，Chen Q，Wang X.Discriminate deep belief networks for image classification ［C］／／17th IEEE International Conference on IEEE，2010：1561－1564.

［9］Mohamed A，Sainath TN，Dahl G，et al.Deep belief networks using discriminative features for phone recognition［C］／／In Acoustics，Speech and Signal Processing IEEE International Conference on IEEE，2011：5060－5063.

［10］Lee H，Grosse R，Ranganath R，et al.Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations［C］／／Proceedings of the 26th Annual International Conference on Machine Learning.ACM，2009：609－616.

［11］Bengio Y.Learning deep architectures for AI［J］.Foundations and Trends in Machine Learning，2009，2：1－127.

［12］Yoshua Bengio，Aaron Courville，Pascal Vincent.Unsupervised feature learning and deep learning：A review and new perspectives［R］.US：Cornell University，2012.

［13］Le Roux N，Bengio Y.Representational power of restricted Boltzmann machines and deep belief networks ［J］.Neural Computation，2008，20 （6）：1631－1649.

［14］Nair V，Hinton GE.Rectified linear units improve restricted Boltzmann machines ［C］／／Proceedings of the 27th International Conference on Machine Learning，2010：807－814.

［15］LeCun Yann，Corinna Cortes.“MNIST handwritten digit database.”AT＆T Labs ［EB／OL］.http：／／yann.lecun.com／exdb／mnist／index.html，2010.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡