宣冬梅,王菊韻,于 華,趙 佳
(1.中國(guó)科學(xué)院大學(xué) 工程管理與信息技術(shù)學(xué)院,北京100049;2.中國(guó)傳媒大學(xué) 理學(xué)院,北京100024)
Hinton等[1]構(gòu)建的多層深度信念網(wǎng) (deep belief network,DBN)掀起了深度學(xué)習(xí)的浪潮,DBN 的基礎(chǔ)來(lái)自于人工神經(jīng)網(wǎng)絡(luò)。在之前人工神經(jīng)網(wǎng)絡(luò)的研究中,目標(biāo)函數(shù)對(duì)于各層之間的權(quán)重是非凸的優(yōu)化問題,當(dāng)網(wǎng)絡(luò)層數(shù)較多時(shí),即變量個(gè)數(shù)較多時(shí),目標(biāo)函數(shù)容易陷入局部最優(yōu)。Hinton等較好地解決了這個(gè)問題。通過(guò)無(wú)監(jiān)督學(xué)習(xí)實(shí)現(xiàn)逐層預(yù)訓(xùn)練 (layer-wise pre-training)達(dá)到解決非凸優(yōu)化的局部最優(yōu)問題,實(shí)質(zhì)是利用逐層預(yù)訓(xùn)練給出一個(gè)較好的初始解,然后再利用微調(diào) (fine-tuning)獲得較好的局部最優(yōu)解。另一個(gè)重要的信息是深層人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,自主學(xué)習(xí)而且學(xué)習(xí)得到的特征能夠更好地刻畫數(shù)據(jù)本身,從而有利于可視化或分類[2]。
本文在介紹了深度學(xué)習(xí)原理的基礎(chǔ)上,將模型進(jìn)行改進(jìn),引入先驗(yàn)知識(shí)的概念,得到更廣泛的應(yīng)用。
深度學(xué)習(xí)與淺層學(xué)習(xí)最大的區(qū)別就是強(qiáng)調(diào)了模型結(jié)構(gòu)的深度[3],明確了特征學(xué)習(xí)的重要性,而淺層學(xué)習(xí)主要是靠人工經(jīng)驗(yàn)抽取樣本的特征,模型主要是用來(lái)預(yù)測(cè)和分類,雖然一些淺層學(xué)習(xí)方法在互聯(lián)網(wǎng)的應(yīng)用上獲得了一定的成功,但是淺層學(xué)習(xí)方法有很大的局限性。貝葉斯網(wǎng)絡(luò)[4]是一種比較有效的機(jī)器學(xué)習(xí)方法,但是特征需要人工設(shè)定。在應(yīng)用樸素貝葉斯分類器時(shí),主要涉及兩個(gè)問題,首先要決定怎樣將任意樣本表示為屬性值的形式,其次是要決定如何估計(jì)樸素貝葉斯分類器所需的概率。對(duì)于樸素貝葉斯模型,假設(shè)屬性之間相互獨(dú)立,但這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,這會(huì)給樸素貝葉斯模型的正確分類帶來(lái)一定的影響,在屬性個(gè)數(shù)比較多或?qū)傩灾g相關(guān)性較大時(shí),選擇樸素貝葉斯模型的分類效率是很低的。核函數(shù)[5]方法是機(jī)器學(xué)習(xí)中較流行的方法,但其缺陷也是需要人工選擇核函數(shù),人為地進(jìn)行特征選擇,對(duì)分類結(jié)果的影響比較大。主成分分析[6](principle component analysis,PCA)作為可以自動(dòng)提取特征的方法之一,但是只能提取線性特征,而現(xiàn)實(shí)問題絕大多數(shù)的特征都存在非線性關(guān)系。
Arel等[7]介紹了主流的深度學(xué)習(xí)以及近十年來(lái)的研究方向,突出了深度學(xué)習(xí)方法的優(yōu)勢(shì)。近年來(lái)深度學(xué)習(xí)方法在工業(yè)界的發(fā)展如火如荼,主要原因在于該方法提高了若干經(jīng)典問題的最好結(jié)果,如語(yǔ)音識(shí)別、圖像識(shí)別等[8,9]。Lee等[10]也驗(yàn)證了深度學(xué)習(xí)網(wǎng)絡(luò)能夠?qū)W習(xí)到更好的特征。與之前的神經(jīng)網(wǎng)絡(luò)的方法的區(qū)別在于隱層個(gè)數(shù)更多[11],明確突出了特征學(xué)習(xí)的重要性,并且在用反傳算法求局部最優(yōu)解時(shí)給出了較好的初始可行解[5]。深度神經(jīng)網(wǎng)絡(luò)作為多層人工神經(jīng)網(wǎng)絡(luò),構(gòu)建各層網(wǎng)絡(luò)的方法主要有自動(dòng)編碼(auto-encoder)[12]和RBM[13,14]。自動(dòng)編碼是利用輸入數(shù)據(jù),人為構(gòu)造帶有參數(shù)的編碼函數(shù)得到上一層的數(shù)據(jù),再利用上一層的數(shù)據(jù)通過(guò)帶參數(shù)的解碼函數(shù)來(lái)盡量還原輸入數(shù)據(jù),通過(guò)最小化輸入數(shù)據(jù)與通過(guò)解碼函數(shù)得到的數(shù)據(jù)之間的損失來(lái)調(diào)整參數(shù),從而達(dá)到預(yù)訓(xùn)練的目的。RBM 作為較常用的構(gòu)建深度網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法,以能量模型為理論基礎(chǔ),層與層之間的結(jié)構(gòu)類似于雙層神經(jīng)網(wǎng)絡(luò)模型,層內(nèi)的神經(jīng)元互不連接,層間的神經(jīng)元全連接。常用的激活函數(shù)是Sigmoid函數(shù),它通過(guò)最大化已知數(shù)據(jù)出現(xiàn)的概率達(dá)到調(diào)整參數(shù) (即預(yù)訓(xùn)練)的目的,思想與極大似然估計(jì)有密切關(guān)系。該方法的優(yōu)點(diǎn)是能夠自動(dòng)提取特征,缺點(diǎn)是針對(duì)多分類問題,自動(dòng)提取特征不能更好地將不同種類的樣本分類,這就需要有不斷反復(fù)地調(diào)整結(jié)構(gòu)以及參數(shù)。目前,使用深度學(xué)習(xí)方法時(shí)普遍是在多個(gè)機(jī)器上同時(shí)進(jìn)行,針對(duì)多個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)分別調(diào)整,以便更快的得到更好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),但是這樣的條件在一般的實(shí)驗(yàn)室是不現(xiàn)實(shí)的。
本文主要研究的是在多分類問題中,將先驗(yàn)知識(shí)與深度學(xué)習(xí)方法相結(jié)合。先驗(yàn)知識(shí)的應(yīng)用,在多分類問題中有明顯的優(yōu)勢(shì)。①識(shí)別率明顯提高。事實(shí)上,多分類問題中只是在 “邊界”上的樣本比較難分類,而這樣的樣本一般只出現(xiàn)在幾類樣本的 “邊界”上。因此,當(dāng)預(yù)測(cè)某樣本所屬的類別時(shí),我們可以排除該樣本不可能屬于的一些類,在其余類上對(duì)該樣本進(jìn)行分類,實(shí)際上就相當(dāng)于給這個(gè)樣本一定的先驗(yàn)知識(shí)。例如,當(dāng)你遇到一個(gè)白發(fā)蒼蒼,滿臉皺紋的人時(shí),要判斷這個(gè)人是老年、中年、青年、少年中的哪一類時(shí),你肯定不會(huì)認(rèn)為他屬于少年這一類。但是在一般的方法中仍要檢測(cè)他是否屬于少年,這顯然是多余的。將某個(gè)樣本不屬于的那些類去掉相當(dāng)于去掉了若干影響分類效果的類別,這顯然能提高識(shí)別率。②各神經(jīng)元之間連接權(quán)重的絕對(duì)值的降低,決定了深度學(xué)習(xí)方法能更快地收斂到局部最優(yōu)解。這一點(diǎn)在處理實(shí)值輸入時(shí)尤其明顯,因?yàn)閷?duì)于實(shí)值輸入的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)迭代參數(shù)需要設(shè)置的足夠小,否則預(yù)訓(xùn)練的連接權(quán)重將非常大,結(jié)果會(huì)很不穩(wěn)定。我們?cè)趯?shí)驗(yàn)中遇到過(guò)連接權(quán)重非常大的情況 (達(dá)到10137數(shù)量級(jí))。因此,連接權(quán)重變小能節(jié)省大量的運(yùn)行時(shí)間。③先驗(yàn)知識(shí)的有效利用能夠得到更簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如果需要分類的類別很多時(shí),有效利用先驗(yàn)可以簡(jiǎn)化模型,便于調(diào)參,提高效率,更容易進(jìn)行參數(shù)調(diào)整以及網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化等細(xì)節(jié)的處理,從而讓條件一般的實(shí)驗(yàn)室也能夠使用深度學(xué)習(xí)方法進(jìn)行大量的分類實(shí)驗(yàn)。
深度學(xué)習(xí)中分類問題一般隱層個(gè)數(shù)較多 (通常超過(guò)3層隱層),對(duì)應(yīng)的輸出層分類函數(shù)形式一般為
式中:Oi——輸出層第i個(gè)神經(jīng)元的輸出,n——輸出層神經(jīng)元個(gè)數(shù),也即待分類的類別數(shù)。
一個(gè)樣本有很多特征,根據(jù)某些特征,對(duì)樣本做預(yù)分類,可以判斷它屬于或是不屬于哪些類,得到先驗(yàn)知識(shí);對(duì)于圖像樣本,根據(jù)訓(xùn)練集中若干像素點(diǎn)的統(tǒng)計(jì)結(jié)果,也可以獲取樣本的先驗(yàn)知識(shí)。以MNIST 數(shù)據(jù)集為例說(shuō)明先驗(yàn)知識(shí)是如何獲取的。對(duì)于0,1,2,...,9 這10 類圖片,如果圖片左邊框的中間部分有黑色像素點(diǎn)的話,我們首先能夠區(qū)分出這張圖片不屬于1,2,7這3類,這就是先驗(yàn)知識(shí)的獲取。選取不同的分類方法,我們可以得到不同的先驗(yàn)知識(shí)。對(duì)于每一個(gè)待分類的樣本,都對(duì)應(yīng)此樣本的一個(gè)先驗(yàn)知識(shí),來(lái)表示此樣本在沒有其它信息時(shí)所屬類別的概率表示:(p1,p2,p3,…,pn),其中pi表示此樣本屬于第i類的先驗(yàn)概率。在引言中的例子中,假設(shè)一個(gè)樣本的概率表示是 (0.4,0.4,0.2,0)表示此樣本是老年人的先驗(yàn)概率是0.4,是中年人的先驗(yàn)概率是0.4,是青年人的概率是0.2,但不可能是少年。
深度學(xué)習(xí)實(shí)際上是自動(dòng)提取特征的過(guò)程,特征提取的好壞決定了分類的效果。淺層人工神經(jīng)網(wǎng)絡(luò)在很多問題中效果不好的原因是提取的特征不夠好。Minsky認(rèn)為,單層神經(jīng)網(wǎng)絡(luò)不能解決異或問題,即不存在一個(gè)連續(xù)函數(shù)f(x,y),使得:f(0,0)=1;f(0,1)=0;f(1,0)=0;f(1,1)=1。特征提取的不夠好,在最后一層隱層與輸出層之間就形成單層神經(jīng)網(wǎng)絡(luò),很可能陷入異或問題的困境。這也是很多問題用淺層神經(jīng)網(wǎng)絡(luò)不能得到很好效果的原因。因此,對(duì)于越復(fù)雜的問題,需要的層數(shù)就越多,層數(shù)越多的神經(jīng)網(wǎng)絡(luò)提取的特征越多,給出的信息也就越多,識(shí)別的準(zhǔn)確性越高,但是層數(shù)越高,特征越多,計(jì)算復(fù)雜度增加,搜索的空間也會(huì)增大,樣本對(duì)應(yīng)的數(shù)值會(huì)越稀疏,數(shù)據(jù)信息損失也就越多,層數(shù)太大可能就無(wú)法分類,如圖1所示。
圖1 兩類正弦曲線加上擾動(dòng)生成的樣本在多層神經(jīng)中的圖例
圖1中,我們生成了正弦曲線加隨機(jī)擾動(dòng)項(xiàng)的兩類樣本,其中的4幅圖分別代表輸入層、第3 隱層、第6 隱層和第9隱層的散點(diǎn)圖。從圖中可以看出在第9隱層中已經(jīng)不可能把樣本分類。
對(duì)于多分類問題,很難想象對(duì)于每一類樣本都能用統(tǒng)一的特征來(lái)進(jìn)行稀疏表示。相反,如果先驗(yàn)知識(shí)較精確,即先驗(yàn)概率分布中分量為0的個(gè)數(shù)較多,則提取的特征可能更精確,分類效果會(huì)更好。
在n-分類問題中,對(duì)于某樣本的先驗(yàn)概率表示(p1,p2,p3,…,pn)以及利用深度學(xué)習(xí)得到的輸出(o1,o2,o3,…,on),我們提出兩種方法利用先驗(yàn)知識(shí)得到較好的分類結(jié)果,如下算法1和算法2。
算法1實(shí)質(zhì)就是將深度學(xué)習(xí)得到的輸出作為給定樣本分類下的條件概率;在算法2中,加入?yún)?shù)ε用以調(diào)整先驗(yàn)知識(shí),具體體現(xiàn)在算法2的第一步中。經(jīng)過(guò)調(diào)整后的先驗(yàn)知識(shí)會(huì)比原有的先驗(yàn)知識(shí)較為稀疏,從而在第二步中需要分類的類別數(shù)減少,進(jìn)而簡(jiǎn)化需要訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
算法1:加先驗(yàn)知識(shí)的隨機(jī)深度學(xué)習(xí)分類器 (RPK)
輸入:給定訓(xùn)練樣本的先驗(yàn)知識(shí)矩陣 (p1,p2,p3,…,pn)
輸出:分類結(jié)果
步驟1 應(yīng)用深度學(xué)習(xí)方法得到深度神經(jīng)網(wǎng)絡(luò)的輸出(o1,o2,o3,…,on);
步驟2 計(jì)算乘積:(r1,r2,r3,…,rn)= (p1*o1,p2*o2,p3*o3,…,pn*on);
步驟3 輸出最大的數(shù)ri的下標(biāo)i。
算法2:加先驗(yàn)知識(shí)的確定型深度學(xué)習(xí)分類器 (DPK)
輸入:給定訓(xùn)練樣本的先驗(yàn)知識(shí)矩陣(p1,p2,p3,…,pn)以及參數(shù)ε
輸出:分類結(jié)果
步驟1 如果piε,設(shè)p′i=pi;若pi≤ε則p′i=0;
步驟2 當(dāng)p′i0時(shí),應(yīng)用深度學(xué)習(xí)方法得到深度神經(jīng)網(wǎng)絡(luò)的輸出(o1,o2,o3,…,on);
步 驟3 計(jì) 算 乘 積:(r1,r2,r3,…,rn)= (p′1*o1,p′2*o2,p′3*o3,…,p′n*on);
步驟4 輸出最大的數(shù)ri的下標(biāo)i。
由于先驗(yàn)知識(shí)對(duì)結(jié)果的影響很大,所以先定義所需的先驗(yàn)知識(shí)。
定義 (準(zhǔn)確的先驗(yàn)知識(shí))屬于第i類的樣本,若pi≥pj對(duì)于任意的j 都成立,我們稱此先驗(yàn)知識(shí)是準(zhǔn)確的。
為此,有下面關(guān)于損失函數(shù)的結(jié)論,這里統(tǒng)一設(shè)定損失函數(shù)為二次損失函數(shù)。
定理1 對(duì)于n-分類問題中的任意樣本以及給定的準(zhǔn)確的先驗(yàn)知識(shí)(p1,p2,p3,…,pn),設(shè)在無(wú)先驗(yàn)知識(shí)的深度神經(jīng)網(wǎng)絡(luò)的輸出是(o1,o2,o3,…,on),而算法1的輸出是(,,,…,),算法2的輸出是,,…),損失函數(shù)是f。則有
證明:不妨設(shè)此樣本屬于第1類,則其真值為 (1,0,…,0)。以下分情況討論:
(1)若在無(wú)先驗(yàn)知識(shí)的深度神經(jīng)網(wǎng)絡(luò)的分類結(jié)果是第1類,則有o1≥oi對(duì)任意i成立。由于p1≥pi對(duì)于任意i都成立,故r1=p1*oi≥pi*oi=ri,r2=p1*oi≥pi*oi=ri,對(duì)任意i成立,也即算法1和算法2的輸出都是1,此時(shí)損失都為0。
(2)若在無(wú)先驗(yàn)知識(shí)的深度神經(jīng)網(wǎng)絡(luò)的分類結(jié)果是第i類,i≠1,即o1≤oi。由于p1≥pi,oi-o1≥pi*oip1*o1,即算法1 和算法2 的分類結(jié)果有可能是第1 類,否則損失與深度神經(jīng)網(wǎng)絡(luò)的損失相同。綜合可知結(jié)論成立。
證畢。
事實(shí)上,準(zhǔn)確的先驗(yàn)知識(shí)不僅可以降低損失,而且對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的簡(jiǎn)化也有很大幫助。對(duì)于某類有一個(gè)很小的先驗(yàn),按照算法2僅僅需要建立一個(gè)3-分類的神經(jīng)網(wǎng)絡(luò)。顯然,對(duì)于3-分類問題要比4-分類問題簡(jiǎn)單,為了說(shuō)明這個(gè)問題,考慮2-分類問題和3-分類問題的比較。
圖2中,每個(gè)圖例由兩部分組成,每部分對(duì)應(yīng)于一個(gè)神經(jīng)元。假設(shè)使用不帶有隱層的神經(jīng)元,且增加第一個(gè)神經(jīng)元和輸出神經(jīng)元的權(quán)重,將無(wú)法分類b 和c類的樣本。類似地如果增加第二個(gè)神經(jīng)元和輸出神經(jīng)元的權(quán)重,將無(wú)法分類a和c類的樣本,由此可知只用單層神經(jīng)網(wǎng)絡(luò)是無(wú)法處理這樣的問題。然而,若已知某個(gè)樣本不屬于某一類的先驗(yàn)知識(shí),那么這個(gè)問題就成了二分類問題,此時(shí)只需單層神經(jīng)網(wǎng)絡(luò)就可以了。
圖2 二分類方法簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
深度學(xué)習(xí)是自動(dòng)提取特征的過(guò)程,要分類的類別越少,需要的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也更簡(jiǎn)單。簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)會(huì)給調(diào)參帶來(lái)很大的方便,同時(shí)也意味著輸出的結(jié)果更穩(wěn)定,連接權(quán)重的絕對(duì)值更小。連接權(quán)重的大小直接決定了優(yōu)化算法的迭代步數(shù),決定了求得滿意解需要的時(shí)間。
本文使用MNIST 手寫體標(biāo)準(zhǔn)數(shù)據(jù)集,此數(shù)據(jù)集是Le-Cun[15]等搜集并整理的手寫體數(shù)據(jù)集。該數(shù)據(jù)集的訓(xùn)練集有60000張數(shù)字圖像,測(cè)試集有10000張數(shù)字圖像。每張數(shù)字圖像類似如圖3所示的手寫體數(shù)字。
圖3 手寫數(shù)字 ‘0’
假設(shè)準(zhǔn)確的先驗(yàn)知識(shí)只有兩個(gè)為0.5,其余全為0的情況,稱此先驗(yàn)為極端先驗(yàn)。表1比較了Hinton等[1]的多分類方法以及類似結(jié)構(gòu)下使用有先驗(yàn)知識(shí)的分類方法得到的識(shí)別率,表2給出了Hinton等使用多分類方法以及使用有先驗(yàn)知識(shí)的分類方法得到的權(quán)重的比較結(jié)果。
表1 多分類方法和有先驗(yàn)知識(shí)的分類方法的部分識(shí)別率比較結(jié)果
表2 多分類方法和根據(jù)先驗(yàn)知識(shí)分類方法的權(quán)重比較結(jié)果
表1中,應(yīng)用先驗(yàn)知識(shí)的分類方法表現(xiàn)最 “好”的是手寫數(shù)字樣本取自’3’和’4’中的樣本,表現(xiàn)最 “差”的是手寫數(shù)字樣本取自’5’和’6’中的樣本 (在表中分別用黑體字樣方式標(biāo)出)。從表中可以看出,若知道某些類的一些先驗(yàn)知識(shí),利用有先驗(yàn)知識(shí)的分類方法能夠提高識(shí)別率。實(shí)驗(yàn)中采用了和Hinton類似的結(jié)構(gòu),一般情況下,這一結(jié)構(gòu)對(duì)于有先驗(yàn)知識(shí)的分類方法不是最優(yōu)的。對(duì)于不同類別對(duì)的45個(gè)有先驗(yàn)知識(shí)的分類方法模型都采用了類似的結(jié)構(gòu),卻得到了比Hinton更好的結(jié)果,由此說(shuō)明極端先驗(yàn)在多分類問題中的優(yōu)越性。
為了簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),實(shí)驗(yàn)中,多分類方法使用了3層隱層,如果只考慮’0’類樣本和’1’類樣本時(shí)僅需要1層隱層就可以很好的分類,分類錯(cuò)誤的樣本量為1,總測(cè)試樣本量為2115。顯然比多分類問題的識(shí)別率要好得多。
表2中比較了多分類方法和有先驗(yàn)知識(shí)的分類方法的連接權(quán)重。有先驗(yàn)知識(shí)的分類模型中,使用的是45個(gè)模型中連接權(quán)重絕對(duì)值的最大值。在這種極端情況下,仍然能夠得出普遍比多分類方法好的結(jié)果 (除了隱層和輸出層之間的權(quán)重,多分類模型與最壞情況下的二分類模型相差不多)。
本文以深度學(xué)習(xí)知識(shí)為背景,提出了先驗(yàn)知識(shí)的理論知識(shí),研究了先驗(yàn)知識(shí)在多分類問題中的應(yīng)用,并通過(guò)實(shí)驗(yàn)驗(yàn)證了在深度學(xué)習(xí)中加入先驗(yàn)知識(shí)能夠提高多分類方法的識(shí)別率,減小連接權(quán)重的絕對(duì)值,且使得學(xué)習(xí)的結(jié)構(gòu)更簡(jiǎn)單。在本文中僅利用了Hinton多分類方法原有的結(jié)構(gòu)就得到比較好的識(shí)別率,如果可以得到更好的先驗(yàn)知識(shí),分類效果則更好,更能說(shuō)明在多分類問題中加入先驗(yàn)知識(shí)能夠提高識(shí)別率,通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
[1]Hinton G,Salakhutdinov R.Reducing the dimensionality of data with neural networks[J].Science,2006,313 (5786):504-507.
[2]Ranzato M,Boureau YL,LeCun Y.Sparse feature learning for deep belief networks[C]//In Advances in Neural Information Processing Systems,2008:1185-1192.
[3]Lee H,Grosse R,Ranganath R,et al.Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning.ACM,2009:609-616.
[4]Koller D,F(xiàn)riedman N.Probabilistic graphic model,principles and techniques[M].USA:MIT Press,2010.
[5]Sebastian Maldonado,Richard Weber,Jayanta Basak.Simultaneous feature selection and classification using kernelpenalized support vector machines [J].Information Sciences,2011,181:115-128.
[6]Mohamed Morchid,Richard Dufour,Pierre-Michel Bousquet,et al.Feature selection using principal component analysis for massive retweet detection [J].Pattern Recognition Letters,2014,49 (1):33-39.
[7]Arel I,Rose D,Karnowski T.Deep machine learning-a new frontier in artificial intelligence research [C]//Intelligence Magazine,2010,5 (4):13-18.
[8]Zhou S,Chen Q,Wang X.Discriminate deep belief networks for image classification [C]//17th IEEE International Conference on IEEE,2010:1561-1564.
[9]Mohamed A,Sainath TN,Dahl G,et al.Deep belief networks using discriminative features for phone recognition[C]//In Acoustics,Speech and Signal Processing IEEE International Conference on IEEE,2011:5060-5063.
[10]Lee H,Grosse R,Ranganath R,et al.Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning.ACM,2009:609-616.
[11]Bengio Y.Learning deep architectures for AI[J].Foundations and Trends in Machine Learning,2009,2:1-127.
[12]Yoshua Bengio,Aaron Courville,Pascal Vincent.Unsupervised feature learning and deep learning:A review and new perspectives[R].US:Cornell University,2012.
[13]Le Roux N,Bengio Y.Representational power of restricted Boltzmann machines and deep belief networks [J].Neural Computation,2008,20 (6):1631-1649.
[14]Nair V,Hinton GE.Rectified linear units improve restricted Boltzmann machines [C]//Proceedings of the 27th International Conference on Machine Learning,2010:807-814.
[15]LeCun Yann,Corinna Cortes.“MNIST handwritten digit database.”AT&T Labs [EB/OL].http://yann.lecun.com/exdb/mnist/index.html,2010.