非結(jié)構(gòu)化建模面臨的挑戰(zhàn)研究

2019-12-04 14:34來學(xué)偉三門峽職業(yè)技術(shù)學(xué)院信息傳媒學(xué)院

數(shù)碼世界 2019年11期

來學(xué)偉三門峽職業(yè)技術(shù)學(xué)院信息傳媒學(xué)院

引言

深度學(xué)習(xí)啟發(fā)了研究者的建模和算法設(shè)計(jì)的思路。在這許多思路中有一種是結(jié)構(gòu)化概率模型。結(jié)構(gòu)化概率模型作為深度學(xué)習(xí)的一種重要的研究方向，它主要用來說明和描述概率分布中隨機(jī)的變量和變量之間的直接或者間接的互相作用，進(jìn)而描述一個(gè)概率分布[1]。因?yàn)槟Ｐ偷慕Y(jié)構(gòu)是由圖來定義和描述的，因此我們使用圖論中圖的概念，正是因?yàn)檫@個(gè)原因，我們通常把這類模型叫為圖模型(graphical model)。

圖模型可供研究的方向非常多，研究人員曾經(jīng)提出了非常多的推斷算法、訓(xùn)練算法及模型。在這篇論文中，我們著重研究圖模型在深度學(xué)習(xí)領(lǐng)域里被公認(rèn)為是有效的。和普通的圖模型的研究者不同的是，深度學(xué)習(xí)領(lǐng)域中的研究者經(jīng)常會(huì)使用完全不一樣的模型結(jié)構(gòu)、推斷過程和學(xué)習(xí)算法。我們分析了這種區(qū)別而且還對(duì)其中的原因進(jìn)行了解釋。最然后分析了構(gòu)建大尺度概率模型所面臨的挑戰(zhàn)。最后我們研究了如何利用一個(gè)圖來描述概率分布的構(gòu)造，即使這個(gè)辦法能夠幫助我們解決許多問題和挑戰(zhàn)。盡管它本身也有很多缺陷。

1 非結(jié)構(gòu)化建模的挑戰(zhàn)

深度學(xué)習(xí)的目的就是使得機(jī)器可以自主學(xué)習(xí)解決很多人工智能中需要解決的問題和挑戰(zhàn)。這就意味著必須讓機(jī)器可以理解具備豐富數(shù)據(jù)結(jié)構(gòu)的多維數(shù)據(jù)。我們以圖片為例，研究者希望人工智能的算法可以理解自然圖像、語音的聲音信號(hào)級(jí)得到許多詞及標(biāo)點(diǎn)的文檔。

我們可以把來自多維分布的數(shù)據(jù)作為輸入的數(shù)據(jù)，接下來用一個(gè)標(biāo)志來描述它，這個(gè)標(biāo)志既可以是圖片中的某一種物品，也可以是一段聲音中的某個(gè)單詞，甚至可以是一段文檔中說明的某一個(gè)話題。在分類時(shí)，丟棄了輸入數(shù)據(jù)的大多數(shù)數(shù)據(jù)。接下來給出了一個(gè)單個(gè)值的輸出或者是一個(gè)輸出值的概率分布，這個(gè)分類一般可以忽略輸入數(shù)據(jù)的大部分內(nèi)容。也就是說，當(dāng)我們識(shí)別圖片中某個(gè)物品的時(shí)候，通常可以忽略圖片中的背景及與該物品無關(guān)的東西。

我們也可以利用概率模型實(shí)現(xiàn)其他許多的任務(wù)。這些任務(wù)和分類任務(wù)不同，其中一些任務(wù)需要很多個(gè)輸出。還有一些任務(wù)需要對(duì)整個(gè)數(shù)據(jù)結(jié)構(gòu)進(jìn)行完整的理解，因此并不能舍棄數(shù)據(jù)。包含以下幾個(gè)部分：

（1）估計(jì)密度函數(shù)：給一個(gè)輸入數(shù)據(jù)x，機(jī)器自主學(xué)習(xí)系統(tǒng)則返回了一個(gè)對(duì)數(shù)據(jù)生成分布的真實(shí)密度函數(shù) p(x) 的估計(jì)。這種情況僅僅需要一個(gè)輸出，不過它需要徹底完全理解整個(gè)輸入。那怕向量中僅僅一個(gè)元素不太正常，系統(tǒng)也可能會(huì)給它賦予很低的概率值。

（2）去噪：給定一個(gè)有損耗的或者觀察有誤差的輸入數(shù)據(jù) ，機(jī)器自主學(xué)習(xí)系統(tǒng)則會(huì)返回一個(gè)對(duì)原始的真實(shí)x 進(jìn)行的估計(jì)。例如，有時(shí)候我們需要機(jī)器自主學(xué)習(xí)系統(tǒng)能夠從一幅老相片中清除抓痕或者污漬。這個(gè)系統(tǒng)肯定會(huì)產(chǎn)生出多個(gè)輸出（照應(yīng)著估計(jì)的干凈樣本x 的每一個(gè)元素），而且需要我們對(duì)輸入有一個(gè)整體的理解（即使一個(gè)比較嚴(yán)重?fù)p害的區(qū)域也必需要在最后的輸出中恢復(fù)）。

（3）缺失值的填補(bǔ)：給一個(gè)x 的某些元素作為觀察值，該模型被要求返回一個(gè)x 或者一些或者全部未觀察值的概率分布。此模型返回的同樣是多個(gè)輸出。因?yàn)檫@個(gè)模型需要恢復(fù)x 的每一個(gè)元素，因此它必須理解整個(gè)輸入。

（4）采樣：應(yīng)用模型從分布為 p(x)的概率中抽取新的樣本。語音合成為該應(yīng)用的一部分，也就是說生成了一個(gè)聽起來很像人說話的聲音。該模型同樣需要多個(gè)輸出以及就輸入整體而言的良好建模。哪怕樣本只有一個(gè)從錯(cuò)誤分布中得到的元素，采樣的過程也是錯(cuò)誤的。

就隨機(jī)變量的數(shù)量來說，超過上千甚至是上百萬規(guī)模，不管是從計(jì)算上還是從統(tǒng)計(jì)的意義上來說，都是一個(gè)幾乎無法完成的有挑戰(zhàn)的任務(wù)。如果假設(shè)我們只想對(duì)兩個(gè)值的隨機(jī)變量建立模型，這就是一個(gè)最簡(jiǎn)單的例子[2]，但是依然無法實(shí)現(xiàn)，就一個(gè)小的32 × 32 像素的彩色（RGB）圖片而言，就有23072 種可能性的二值圖片。這個(gè)數(shù)值比10800 還多，也就是說比宇宙中存在的原子總數(shù)還要多。

一般來講，如果我們想對(duì)某個(gè)包含n 個(gè)離散的隨機(jī)變量進(jìn)行分布建模時(shí)，需要能對(duì)每個(gè)隨機(jī)變量都取k 個(gè)值得x 分布，這樣一來最容易的表示為 P(x) 的方法就需要存儲(chǔ)一個(gè)可以用來進(jìn)行查詢的表格。該表格表示了每一種可能的值得概率，這樣就必須記錄kn 個(gè)參數(shù)。

這種方式幾乎是不可行的，主要有以下幾個(gè)原因：

（1）內(nèi)存：用來存儲(chǔ)變量的開銷。剔除極小的k 和 n 的值的極端情況，其余的情況用表格的形式來描述這樣一個(gè)分布必須一個(gè)非常大的存儲(chǔ)空間。

（2）統(tǒng)計(jì)的高效性：當(dāng)一個(gè)模型中的參數(shù)的數(shù)量增加的時(shí)候，利用隨機(jī)估計(jì)時(shí)用來訓(xùn)練數(shù)據(jù)的數(shù)量也會(huì)需要相對(duì)應(yīng)的增加。由于基于查表的模型一般會(huì)擁有天文數(shù)字級(jí)別的參數(shù)，為了精確地模擬，相對(duì)應(yīng)的訓(xùn)練集合的大小也是相同的天文數(shù)字級(jí)別的。不管哪種類似這樣的模型都會(huì)引起嚴(yán)重的過擬合，只有我們向其添加許多額外的假設(shè)來關(guān)聯(lián)表格中的不同元素。

（3）運(yùn)行時(shí)間：推斷的開銷。假如我們需要實(shí)現(xiàn)有關(guān)推斷的一個(gè)任務(wù)，其中我們必須需要利用聯(lián)合分布的P（x）來進(jìn)行運(yùn)算某些其它的分布，例如邊緣分布P (x1)或許是條件分布P (X2)Xl)。運(yùn)算如此的分布就必須對(duì)整個(gè)表格中的某些項(xiàng)進(jìn)行完整的求和操作，所以如此的操作就運(yùn)行時(shí)間而言，和上面所描述的高昂的內(nèi)存的開銷是一個(gè)級(jí)別的。

（4）運(yùn)行時(shí)間：采樣的開銷。和推斷的開銷相類似，假如我們想要從如此的模型中采樣。最基本的方法就是從均勻分布中進(jìn)行采樣，接下來對(duì)表格中的元素進(jìn)行累加，一直到和超過該元素u，最終返回最后一個(gè)加上的元素。在最不理想的情況下，這個(gè)如此的操作需要讀取全部表格，因此和其他操作相比，它需要的時(shí)間是指數(shù)級(jí)別的。

就對(duì)表格進(jìn)行操作的方法而言，其最根本的問題是，我們必須顯式的對(duì)每一種有可能的變量的子集上可能產(chǎn)生的所有可能的類型之間的互相作用進(jìn)行建立模型。但是在實(shí)際問題中，我們碰見的概率分布也許遠(yuǎn)遠(yuǎn)比這個(gè)容易的多。一般情況下，這些變量之間的相互作用是間接的。

我們舉個(gè)簡(jiǎn)單的例子來說明，我們想要計(jì)算在接力賽中某個(gè)隊(duì)伍完成比賽所需要的時(shí)間。我們需要對(duì)其進(jìn)行建立模型，假如這個(gè)隊(duì)伍由三名隊(duì)員組成。在剛開始比賽的時(shí)候，由A 跑第一棒，當(dāng)A 跑了一段距離后直至跑完他的路程后。這時(shí)他需要把接力棒傳遞給B，接接下來B 開始跑，同樣跑完子集的路程后，把接力棒給 C，C 跑完最后一棒。這樣一來，根據(jù)我們的分析，我們可以使用連續(xù)的變量來分別建模每個(gè)人完成比賽所需要的時(shí)間。

由于A跑第一棒，因此她并不依賴于其他人而獨(dú)立完成。B則不同，B 跑完所需要的時(shí)間必須和A 的完成時(shí)間相關(guān)，原因是B 只能在A跑完后才能開始比賽，假如A 跑的更快，則B 也會(huì)完成的更早。以此類推，C 的完成時(shí)間也同樣一來A 和B，同樣的道理，假如A 跑的非常慢，B 的完成時(shí)間則會(huì)更晚，C 的起步也會(huì)更晚，所以它的完成時(shí)間只能更晚。但是，如果給定了B 得完成時(shí)間，則C 的完成時(shí)間就只受A 的完成時(shí)間的影響了，假如我們已經(jīng)得到了B 的完成時(shí)間，了解了A 得完成時(shí)間對(duì)C 并無任何實(shí)質(zhì)性的幫助。也就是說，我們可以通過兩個(gè)互相作用來對(duì)這個(gè)接力賽建立模型，其中兩個(gè)互相作用分別是A 的完成時(shí)間對(duì)B 的完成時(shí)間的影響以及B 的完成時(shí)間對(duì)C 的完成時(shí)間的影響。也就是時(shí)候，我們可以忽略A 的完成時(shí)間對(duì)C 的完成時(shí)間的影響。

2 總結(jié)

結(jié)構(gòu)化概率模型為隨機(jī)變量之間的直接作用提供了一個(gè)正式的建?？蚣?。這種方式大大減少了模型的參數(shù)個(gè)數(shù)以致于模型只需要更少的數(shù)據(jù)來進(jìn)行有效的估計(jì)。這些更輕便的模型在模型存儲(chǔ)，模型推斷以及采樣的時(shí)候有著更小的計(jì)算開銷。

就隨機(jī)變量之間的直接作用建立模型框架來說，結(jié)構(gòu)化概率模型提供一個(gè)非常好的解決方案，使用這種模型，可以減少模型中參數(shù)的個(gè)數(shù)，進(jìn)而需要更少的數(shù)據(jù)可以做到有效的估計(jì)，使用這種更輕便的模型，在模型推斷、采樣及存儲(chǔ)就會(huì)有更小的計(jì)算開銷，從而大大提高了效率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

非結(jié)構(gòu)化建模面臨的挑戰(zhàn)研究

引言

1 非結(jié)構(gòu)化建模的挑戰(zhàn)

2 總結(jié)