來學(xué)偉 三門峽職業(yè)技術(shù)學(xué)院 信息傳媒學(xué)院
深度學(xué)習(xí)啟發(fā)了研究者的建模和算法設(shè)計(jì)的思路。在這許多思路中有一種是結(jié)構(gòu)化概率模型。結(jié)構(gòu)化概率模型作為深度學(xué)習(xí)的一種重要的研究方向,它主要用來說明和描述概率分布中隨機(jī)的變量和變量之間的直接或者間接的互相作用,進(jìn)而描述一個(gè)概率分布[1]。因?yàn)槟P偷慕Y(jié)構(gòu)是由圖來定義和描述的,因此我們使用圖論中圖的概念,正是因?yàn)檫@個(gè)原因,我們通常把這類模型叫為圖模型(graphical model)。
圖模型可供研究的方向非常多,研究人員曾經(jīng)提出了非常多的推斷算法、訓(xùn)練算法及模型。在這篇論文中,我們著重研究圖模型在深度學(xué)習(xí)領(lǐng)域里被公認(rèn)為是有效的。和普通的圖模型的研究者不同的是,深度學(xué)習(xí)領(lǐng)域中的研究者經(jīng)常會(huì)使用完全不一樣的模型結(jié)構(gòu)、推斷過程和學(xué)習(xí)算法。我們分析了這種區(qū)別而且還對(duì)其中的原因進(jìn)行了解釋。最然后分析了構(gòu)建大尺度概率模型所面臨的挑戰(zhàn)。最后我們研究了如何利用一個(gè)圖來描述概率分布的構(gòu)造,即使這個(gè)辦法能夠幫助我們解決許多問題和挑戰(zhàn)。盡管它本身也有很多缺陷。
深度學(xué)習(xí)的目的就是使得機(jī)器可以自主學(xué)習(xí)解決很多人工智能中需要解決的問題和挑戰(zhàn)。這就意味著必須讓機(jī)器可以理解具備豐富數(shù)據(jù)結(jié)構(gòu)的多維數(shù)據(jù)。我們以圖片為例,研究者希望人工智能的算法可以理解自然圖像、語音的聲音信號(hào)級(jí)得到許多詞及標(biāo)點(diǎn)的文檔。
我們可以把來自多維分布的數(shù)據(jù)作為輸入的數(shù)據(jù),接下來用一個(gè)標(biāo)志來描述它,這個(gè)標(biāo)志既可以是圖片中的某一種物品,也可以是一段聲音中的某個(gè)單詞,甚至可以是一段文檔中說明的某一個(gè)話題。在分類時(shí),丟棄了輸入數(shù)據(jù)的大多數(shù)數(shù)據(jù)。接下來給出了一個(gè)單個(gè)值的輸出或者是一個(gè)輸出值的概率分布,這個(gè)分類一般可以忽略輸入數(shù)據(jù)的大部分內(nèi)容。也就是說,當(dāng)我們識(shí)別圖片中某個(gè)物品的時(shí)候,通常可以忽略圖片中的背景及與該物品無關(guān)的東西。
我們也可以利用概率模型實(shí)現(xiàn)其他許多的任務(wù)。這些任務(wù)和分類任務(wù)不同,其中一些任務(wù)需要很多個(gè)輸出。還有一些任務(wù)需要對(duì)整個(gè)數(shù)據(jù)結(jié)構(gòu)進(jìn)行完整的理解,因此并不能舍棄數(shù)據(jù)。包含以下幾個(gè)部分:
(1)估計(jì)密度函數(shù):給一個(gè)輸入數(shù)據(jù)x,機(jī)器自主學(xué)習(xí)系統(tǒng)則返回了一個(gè)對(duì)數(shù)據(jù)生成分布的真實(shí)密度函數(shù) p(x) 的估計(jì)。這種情況僅僅需要一個(gè)輸出,不過它需要徹底完全理解整個(gè)輸入。那怕向量中僅僅一個(gè)元素不太正常,系統(tǒng)也可能會(huì)給它賦予很低的概率值。
(2)去噪:給定一個(gè)有損耗的或者觀察有誤差的輸入數(shù)據(jù) ,機(jī)器自主學(xué)習(xí)系統(tǒng)則會(huì)返回一個(gè)對(duì)原始的真實(shí)x 進(jìn)行的估計(jì)。例如,有時(shí)候我們需要機(jī)器自主學(xué)習(xí)系統(tǒng)能夠從一幅老相片中清除抓痕或者污漬。這個(gè)系統(tǒng)肯定會(huì)產(chǎn)生出多個(gè)輸出(照應(yīng)著估計(jì)的干凈樣本x 的每一個(gè)元素),而且需要我們對(duì)輸入有一個(gè)整體的理解(即使一個(gè)比較嚴(yán)重?fù)p害的區(qū)域也必需要在最后的輸出中恢復(fù))。
(3)缺失值的填補(bǔ):給一個(gè)x 的某些元素作為觀察值,該模型被要求返回一個(gè)x 或者一些或者全部未觀察值的概率分布。此模型返回的同樣是多個(gè)輸出。因?yàn)檫@個(gè)模型需要恢復(fù)x 的每一個(gè)元素,因此它必須理解整個(gè)輸入。
(4)采樣:應(yīng)用模型從分布為 p(x)的概率中抽取新的樣本。語音合成為該應(yīng)用的一部分,也就是說生成了一個(gè)聽起來很像人說話的聲音。該模型同樣需要多個(gè)輸出以及就輸入整體而言的良好建模。哪怕樣本只有一個(gè)從錯(cuò)誤分布中得到的元素,采樣的過程也是錯(cuò)誤的。
就隨機(jī)變量的數(shù)量來說,超過上千甚至是上百萬規(guī)模,不管是從計(jì)算上還是從統(tǒng)計(jì)的意義上來說,都是一個(gè)幾乎無法完成的有挑戰(zhàn)的任務(wù)。如果假設(shè)我們只想對(duì)兩個(gè)值的隨機(jī)變量建立模型,這就是一個(gè)最簡(jiǎn)單的例子[2],但是依然無法實(shí)現(xiàn),就一個(gè)小的32 × 32 像素的彩色(RGB)圖片而言,就有23072 種可能性的二值圖片。這個(gè)數(shù)值比10800 還多,也就是說比宇宙中存在的原子總數(shù)還要多。
一般來講,如果我們想對(duì)某個(gè)包含n 個(gè)離散的隨機(jī)變量進(jìn)行分布建模時(shí),需要能對(duì)每個(gè)隨機(jī)變量都取k 個(gè)值得x 分布,這樣一來最容易的表示為 P(x) 的方法就需要存儲(chǔ)一個(gè)可以用來進(jìn)行查詢的表格。該表格表示了每一種可能的值得概率,這樣就必須記錄kn 個(gè)參數(shù)。
這種方式幾乎是不可行的,主要有以下幾個(gè)原因:
(1) 內(nèi)存:用來存儲(chǔ)變量的開銷。剔除極小的k 和 n 的值的極端情況,其余的情況用表格的形式來描述這樣一個(gè)分布必須一個(gè)非常大的存儲(chǔ)空間。
(2)統(tǒng)計(jì)的高效性:當(dāng)一個(gè)模型中的參數(shù)的數(shù)量增加的時(shí)候,利用隨機(jī)估計(jì)時(shí)用來訓(xùn)練數(shù)據(jù)的數(shù)量也會(huì)需要相對(duì)應(yīng)的增加。由于基于查表的模型一般會(huì)擁有天文數(shù)字級(jí)別的參數(shù),為了精確地模擬,相對(duì)應(yīng)的訓(xùn)練集合的大小也是相同的天文數(shù)字級(jí)別的。不管哪種類似這樣的模型都會(huì)引起嚴(yán)重的過擬合,只有我們向其添加許多額外的假設(shè)來關(guān)聯(lián)表格中的不同元素。
(3)運(yùn)行時(shí)間:推斷的開銷。假如我們需要實(shí)現(xiàn)有關(guān)推斷的一個(gè)任務(wù),其中我們必須需要利用聯(lián)合分布的P(x)來進(jìn)行運(yùn)算某些其它的分布,例如邊緣分布P (x1)或許是條件分布P (X2)Xl)。運(yùn)算如此的分布就必須對(duì)整個(gè)表格中的某些項(xiàng)進(jìn)行完整的求和操作,所以如此的操作就運(yùn)行時(shí)間而言,和上面所描述的高昂的內(nèi)存的開銷是一個(gè)級(jí)別的。
(4)運(yùn)行時(shí)間:采樣的開銷。和推斷的開銷相類似,假如我們想要從如此的模型中采樣。最基本的方法就是從均勻分布中進(jìn)行采樣,接下來對(duì)表格中的元素進(jìn)行累加,一直到和超過該元素u,最終返回最后一個(gè)加上的元素。在最不理想的情況下,這個(gè)如此的操作需要讀取全部表格,因此和其他操作相比,它需要的時(shí)間是指數(shù)級(jí)別的。
就對(duì)表格進(jìn)行操作的方法而言,其最根本的問題是,我們必須顯式的對(duì)每一種有可能的變量的子集上可能產(chǎn)生的所有可能的類型之間的互相作用進(jìn)行建立模型。但是在實(shí)際問題中,我們碰見的概率分布也許遠(yuǎn)遠(yuǎn)比這個(gè)容易的多。一般情況下,這些變量之間的相互作用是間接的。
我們舉個(gè)簡(jiǎn)單的例子來說明,我們想要計(jì)算在接力賽中某個(gè)隊(duì)伍完成比賽所需要的時(shí)間。我們需要對(duì)其進(jìn)行建立模型,假如這個(gè)隊(duì)伍由三名隊(duì)員組成。在剛開始比賽的時(shí)候,由A 跑第一棒,當(dāng)A 跑了一段距離后直至跑完他的路程后。這時(shí)他需要把接力棒傳遞給B,接接下來B 開始跑,同樣跑完子集的路程后,把接力棒給 C,C 跑完最后一棒。這樣一來,根據(jù)我們的分析,我們可以使用連續(xù)的變量來分別建模每個(gè)人完成比賽所需要的時(shí)間。
由于A跑第一棒,因此她并不依賴于其他人而獨(dú)立完成。B則不同,B 跑完所需要的時(shí)間必須和A 的完成時(shí)間相關(guān),原因是B 只能在A跑完后才能開始比賽,假如A 跑的更快,則B 也會(huì)完成的更早。以此類推,C 的完成時(shí)間也同樣一來A 和B,同樣的道理,假如A 跑的非常慢,B 的完成時(shí)間則會(huì)更晚,C 的起步也會(huì)更晚,所以它的完成時(shí)間只能更晚。但是,如果給定了B 得完成時(shí)間,則C 的完成時(shí)間就只受A 的完成時(shí)間的影響了,假如我們已經(jīng)得到了B 的完成時(shí)間,了解了A 得完成時(shí)間對(duì)C 并無任何實(shí)質(zhì)性的幫助。也就是說,我們可以通過兩個(gè)互相作用來對(duì)這個(gè)接力賽建立模型,其中兩個(gè)互相作用分別是A 的完成時(shí)間對(duì)B 的完成時(shí)間的影響以及B 的完成時(shí)間對(duì)C 的完成時(shí)間的影響。也就是時(shí)候,我們可以忽略A 的完成時(shí)間對(duì)C 的完成時(shí)間的影響。
結(jié)構(gòu)化概率模型為隨機(jī)變量之間的直接作用提供了一個(gè)正式的建??蚣?。這種方式大大減少了模型的參數(shù)個(gè)數(shù)以致于模型只需要更少的數(shù)據(jù)來進(jìn)行有效的估計(jì)。這些更輕便的模型在模型存儲(chǔ),模型推斷以及采樣的時(shí)候有著更小的計(jì)算開銷。
就隨機(jī)變量之間的直接作用建立模型框架來說,結(jié)構(gòu)化概率模型提供一個(gè)非常好的解決方案,使用這種模型,可以減少模型中參數(shù)的個(gè)數(shù),進(jìn)而需要更少的數(shù)據(jù)可以做到有效的估計(jì),使用這種更輕便的模型,在模型推斷、采樣及存儲(chǔ)就會(huì)有更小的計(jì)算開銷,從而大大提高了效率。