郭淑妮
摘 要:隨著技術(shù)的發(fā)展,人們對機器學(xué)習(xí)予以了關(guān)注,并展開了深入的研究,近年來深度學(xué)習(xí)這一概念被提出,它涉及到數(shù)據(jù)挖掘、智能識別等眾多領(lǐng)域,在底層特征組合的輔助下,用于展示屬性的高層特征可以有效形成,并以分布式的形式展示出來。而降維是深度學(xué)習(xí)的重要組成部分,在提取數(shù)據(jù)特征,提升識別速度與識別率等方面發(fā)揮著不可替代的作用,但與此同時也會不可避免的造成信息損失,對此展開研究有著重要意義。文中將對深度學(xué)習(xí)原理與信息熵原理進行簡述,并探究降維過程中信息損失度量模型的構(gòu)建方法。
關(guān)鍵詞:深度學(xué)習(xí);降維過程;信息損失;度量研究
中圖分類號:G202 文獻標(biāo)志碼:A 文章編號:2095-2945(2017)30-0007-02
深度學(xué)習(xí)根據(jù)對人腦的建立與模擬,實現(xiàn)對深層神經(jīng)網(wǎng)絡(luò)的分析與學(xué)習(xí),通過對人腦思維機制的模擬來分析、理解數(shù)據(jù),降維處理可以使低維編碼借鑒數(shù)據(jù)本質(zhì)的描述,但是此時梯度耗散等問題也較為明顯,此時可以逐層預(yù)訓(xùn)練權(quán)值,最終獲得權(quán)值的初始值,在對網(wǎng)絡(luò)結(jié)構(gòu)予以微調(diào)處理,從而降低耗散的影響,保證深度學(xué)習(xí)的有效實現(xiàn)。對降維信息損失度量問題展開研究是十分必要且重要的。
1 深度學(xué)習(xí)原理與信息熵原理
1.1 深度學(xué)習(xí)
人腦視覺系統(tǒng)是深度學(xué)習(xí)概念提出的依據(jù),人腦中存在方向選擇性細胞,當(dāng)處于眼前的物體,其邊緣指向某一方向,且邊緣被瞳孔捕捉到時,方向選擇性細胞就會呈現(xiàn)出較為活躍的狀態(tài)。此時瞳孔會受到物體的刺激,而神經(jīng)元細胞繼而活躍,最后信息被傳遞到中樞大腦中,這個過程是視覺反應(yīng)的過程,具有不斷抽象、多層傳遞等特點。其中最底層信息即為原始信號,視覺系統(tǒng)會在視覺信號中抽象出基本特征,這些特征能夠構(gòu)成新數(shù)據(jù)層,系統(tǒng)會進一步從這個數(shù)據(jù)層中抽象出物體中可以體現(xiàn)出屬性或類別的特征,使之形成更高數(shù)據(jù)層。這種特征提取的抽象過程是不斷重復(fù)的,當(dāng)大腦將信號準(zhǔn)確辨別出來后,整個過程才算完成。
深度學(xué)習(xí)就是對這個過程的模擬,當(dāng)人工神經(jīng)網(wǎng)絡(luò)被模擬出來后,就可以將原始信號輸入到其中,然后進行分層提取處理,將有效特征抽象出來,與人腦相似,系統(tǒng)中最終輸出的特征信息只是極少數(shù)具有參考價值的數(shù)據(jù)。棧式自動編碼器就是這種模擬結(jié)構(gòu),稀疏自動編碼器通過首尾相接的方式連接到一起,就構(gòu)成了棧式自動編碼器,并形成神經(jīng)網(wǎng)絡(luò)。
1.2 信息熵
熵的概念來源于熱力學(xué),分子狀態(tài)的混亂程度可以用熱熵來表示,在深度學(xué)習(xí)中,信息熵可以用來形容信源的不確定性。在信息論中,事件的信息可以用該事件發(fā)生概率所對應(yīng)的倒數(shù)來表示,可以用i來表示系統(tǒng)所處的某一個狀態(tài),此時該狀態(tài)發(fā)生的概率則可以用Pi來表示,那么信息就可以用如下公式來表示:
2 降維過程中信息損失度量模型的構(gòu)建方法
2.1特征表達與數(shù)據(jù)降維的現(xiàn)實意義
事物通常具有較為復(fù)雜的內(nèi)容與形式,此時需要挖掘事物的本質(zhì),透過表象了解事物的特征,將其具有特征的數(shù)據(jù)抽象出來,而這種特征是事物本身蘊含的多個變量,應(yīng)用特征來展示事物的方式具有完整性與簡潔性。在深度學(xué)習(xí)系統(tǒng)中,特征即為原材料,它對于模型構(gòu)建的結(jié)果有著較為直接的影響。特征表達以及數(shù)據(jù)的選擇會影響到算法的性能,如果數(shù)據(jù)可以被準(zhǔn)確的提取出特征,那么即使模型相對簡單,也可以得到較高的精度,因此在建立模型、構(gòu)建算法以前,一定要對數(shù)據(jù)進行必要的預(yù)處理。與虛擬世界相比,現(xiàn)實世界中的信息數(shù)據(jù)呈現(xiàn)出高維特征,這類數(shù)據(jù)的處理過程具有量大基本特性,首先是維度災(zāi)難,即高維數(shù)據(jù)的處理面臨較多的困難,冗余信息過多,后期數(shù)據(jù)處理內(nèi)容繁多、過程瑣碎;其次是維度福音,高維數(shù)據(jù)中包含的信息是極為豐富且全面的,客觀事物的所有信息都涵蓋在其中,因此問題解決的有效性與可能性會大大的增加。
在現(xiàn)實生活中,雖然事物多呈現(xiàn)出高維狀態(tài),具有較強的復(fù)雜性,但是可以用于處理、支配事物的變量是極為簡單,且數(shù)量較少的,因而事物處理的關(guān)鍵在于如何在復(fù)雜多樣的數(shù)據(jù)中提取出與事物本質(zhì)規(guī)律相關(guān)的因素。以圖像處理領(lǐng)域為例,如果將初級特征設(shè)為原始像素值,那么圖像處理中維度會相對較高,此時必須進行降維處理,這樣才能獲得更為準(zhǔn)確、簡潔的特征要素,傳統(tǒng)降維方法為PCA法,這種方法降維效果并不理想,在深度學(xué)習(xí)中,可通過構(gòu)造模塊展開建模,應(yīng)用稀疏自動編碼器做相應(yīng)處理。
2.2 棧式自動編碼器
自動編碼屬于深度學(xué)習(xí)技術(shù)中的一種,具有無監(jiān)督的特點,高維輸入可以通過神經(jīng)網(wǎng)絡(luò)獲得的低維來表達。傳統(tǒng)線性降維具有一定的局限性,以主成分分析為例,需要在高維數(shù)據(jù)層面上獲得較大方差,只有獲得較大方差所在的軸,才能夠?qū)⑿畔⑤斎氲闹饕较虿东@,繼而實現(xiàn)降維,在這種降維模式中,特征維度受到了極大的限制,而棧式自動編碼器則可以有效克服這一限制,其系統(tǒng)中存在非線性神經(jīng)網(wǎng)絡(luò),模擬人腦的視覺過程對數(shù)據(jù)進行逐層分析,最后實現(xiàn)有效的降維。
2.3 計算圖像信息
圖像處理過程中,為了處理信息量,需要對亮度直方分布圖進行統(tǒng)計,然后找到對應(yīng)的信息熵,使信源特征可以從平均意義上表現(xiàn)出來,而圖像的統(tǒng)計特征則可以利用圖像熵表現(xiàn)出來,圖像的一維熵極為灰度分布統(tǒng)計中蘊含的信息量,一維圖像熵可以用公式表示為:,灰度值為j的像素所占比重即為Pj。再進一步對一維熵中的特征元素進行分析與組合,就可以獲得二元組,即二維熵,可以用(c,d)來表示二元組,其中d為鄰域灰度的平均值,不低于0,不超過255;c則表示灰度值,同樣不低于0,不超過255。在此情況下,在M、N尺度上,Pcd=f(c,d)/(M×N),而二維熵可以用公式表達為:
二維熵可以對圖像的綜合特征進行進一步的分析,此時特征表達的準(zhǔn)確性與精度將進一步增加。
2.4 信息損失量模型的建設(shè)
為了提高分析的準(zhǔn)確性,降低信息耗損,此時可以采用兩種方法對信息損失量進行評測。第一種是利用MES與PSNR來測評,這種方式的優(yōu)點在于物理意義明確、復(fù)雜度低,其應(yīng)用較為廣泛,設(shè)在灰度為8bit的圖像中,像素點數(shù)為n,k點的像素值為fk,降維后k點對應(yīng)的像素值為fk,那么MSE與PSNR分別表示為:MSE=,PSNR=10×log()2。從公式中可以看出,PSNR隨著MSE的降低而增大,降維信息損失隨著MSE的降低而降低。
第二種是利用信息熵對信息損失量進行評測,信息熵的差值可以在一定程度上反映出將為信息的損失情況。一維信息熵降維前后的值分別為H與H,其差為△H=H-H;二維信息熵降維前后的值分別為H1與H1,此時其差值為△H1=H1-H1。降維信息的損失會隨著△H與△H1的降低而降低。雖然信息熵可以在一定程度上反映出信息損失量,但是由于存在圖像不同,圖像熵相同的情況,因此這種計算未必準(zhǔn)確。
3 結(jié)束語
隨著技術(shù)的發(fā)展,人們對深度學(xué)習(xí)的研究愈加深刻,通過模擬人腦的方式處理數(shù)據(jù)信息,可以取得較好的效果,能夠有效挖掘出事物的本質(zhì)信息。但是這個過程會不可避免的造成信息損失,為了保證分析處理的有效性,應(yīng)當(dāng)對降維信息損失情況進行關(guān)注,利用有效方法展開測評。
參考文獻:
[1]石志國,楊志勇.深度學(xué)習(xí)降維過程中的信息損失度量研究[J].小型微型計算機系統(tǒng),2017(07).
[2]王法強.基于度量學(xué)習(xí)的人臉識別方法研究[D].哈爾濱工業(yè)大學(xué),2013.
[3]余凱,賈磊,陳雨強,等.深度學(xué)習(xí)的昨天、今天和明天[J].計算機研究與發(fā)展,2013(9).
[4]王雅思,姚鴻勛,孫曉帥,等.深度學(xué)習(xí)中的自編碼器的表達能力研究[J].計算機科學(xué),2015(9).endprint