婁錚錚 張朝陽
信息是海量的,信息的載體是數(shù)據(jù)。當我們首次面臨海量的信息數(shù)據(jù)時,在無任何先驗知識的情況下,是無法駕馭這些信息的。此時,海量的信息對于我們來說是無形的、不可控的。人們期望將這些無形的信息變成有形,不可控的信息變成可駕馭的,以便更好地理解、認知數(shù)據(jù)。IB的英文全稱是Information Bottleneck,中文直譯則是“信息瓶頸”。瓶頸一般是指在整體中的關(guān)鍵限制因素。因此,在我們首次看到“信息瓶頸”一詞時,大多數(shù)人可能認為該詞是貶義的,有信息不對稱之嫌。實則不然,IB方法的初衷是將一些無形的信息通過一個“瓶頸”使其變成有形的,從而使我們更好地駕馭這些信息、更好地理解數(shù)據(jù)。因此,IB方法中的“瓶頸”是褒義的。
一、IB方法的壓縮認知與人類認知之關(guān)聯(lián)
IB方法通過將數(shù)據(jù)對象壓縮到一個“瓶頸”變量中來學(xué)習(xí)數(shù)據(jù)中所蘊含的內(nèi)在模式,其學(xué)習(xí)模型如圖所示。在圖中,變量X代表載有海量信息的大數(shù)據(jù),Y是描述數(shù)據(jù)對象的特征變量,而T則是壓縮的“瓶頸”變量。變量X中載有海量的信息,在無任何先驗知識的情況下,這些信息對人類來說是不可駕馭的。然而,“瓶頸”變量T的規(guī)模遠小于X的規(guī)模,相對容易被掌控。變量X到T的壓縮過程中所產(chǎn)生壓縮編碼P(t|x)則為IB方法所發(fā)現(xiàn)的壓縮模式,若一些數(shù)據(jù)對象被壓縮到了同一個t中,這些數(shù)據(jù)對象則被劃分到同一個類中。為使IB方法所得的壓縮編碼P(t|x)可放映數(shù)據(jù)中所蘊含的真實類別,IB方法在對大數(shù)據(jù)進行壓縮的同時,還要求“瓶頸”變量T盡可能的最大化保存特征變量Y中所載有的信息量。在對數(shù)據(jù)進行壓縮時,我們不可能平白無故地對數(shù)據(jù)進行分類,需要依據(jù)數(shù)據(jù)對象自身的特征來對數(shù)據(jù)進行劃分,只有將具有相似特征的數(shù)據(jù)壓縮到同一個類中,所得的壓縮模式才具有意義。特征變量Y客觀地描述了數(shù)據(jù)對象,因此IB方法將特征變量Y作為數(shù)據(jù)壓縮的依據(jù)。
中國古圣先賢老子曾說過:“無名,天地之始。有名,萬物之母?!盜B方法在將數(shù)據(jù)對象壓縮到“瓶頸”變量的過程有為萬物命名之意。當人類還沒有給這個世界的事物命名之時,在人類的認知中這個世界里的一切事物本身與自然是渾然一體的,處在一種人類認知意義上的混沌狀態(tài)中。但一旦我們對事物進行確切的命名之后,即使它們并沒有完全與自然脫離其成為整體的狀態(tài),但在人類的視角里已有了獨立認知的意義,即石頭、山、水、河流、花鳥蟲魚、太陽、月亮……人們可以將某一事物從他原來的混沌狀態(tài)中抽離出來,在人類的世界里建構(gòu)對它的獨特認知。這時候原來的混沌狀態(tài)似乎就一下子瓦解了,整個世界由無數(shù)獨立存在的事物井然有序地構(gòu)成一個統(tǒng)一的整體。由于海量的信息數(shù)據(jù)對我們來說在一定意義上也是混沌的,因此IB方法的思想與上述思想如出一轍。IB方法從混沌的海量信息中壓縮得到的每一個類是對數(shù)據(jù)的一個總結(jié),是數(shù)據(jù)中的一些共性特征,是對數(shù)據(jù)化繁為簡的結(jié)果,是無形信息的有形化結(jié)果。IB方法的壓縮分類就如同對萬物的命名,人類對萬物的命名過程也是一個壓縮認知的過程。
二、順序IB算法學(xué)習(xí)過程與人類學(xué)習(xí)過程之共性
IB方法通過壓縮來認知數(shù)據(jù),屬于機器學(xué)習(xí)領(lǐng)域中的一個無監(jiān)督學(xué)習(xí)方法。機器學(xué)習(xí)是研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。不少機器學(xué)習(xí)領(lǐng)域?qū)<医o出了機器學(xué)習(xí)的定義。蘭利(P. Langley)認為:“機器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗學(xué)習(xí)中改善具體算法的性能?!泵浊袪枺═. M. Mitchell)在其著作《機器學(xué)習(xí)》中談到“機器學(xué)習(xí)”關(guān)注的問題是“計算機程序如何隨著經(jīng)驗積累自動提高自身的性能”,也就是主要指的歸納學(xué)習(xí)。機器學(xué)習(xí)的功能是知識發(fā)現(xiàn),知識發(fā)現(xiàn)是通過學(xué)習(xí)算法實現(xiàn)的。下面結(jié)合一個典型的順序IB算法,來闡述IB方法的壓縮認知過程與人類的學(xué)習(xí)過程之間的關(guān)聯(lián)性。
對于計算機來說,信息就是數(shù)據(jù),因此IB算法以數(shù)據(jù)對象作為輸入,從中學(xué)習(xí)有價值的模式。順序IB算法的主要學(xué)習(xí)過程為:在某一隨機劃分的基礎(chǔ)上,計算機依次讀取每一個數(shù)據(jù)對象,在IB方法目標函數(shù)的指導(dǎo)下將其指派到一個與該數(shù)據(jù)對象擬合度最強的一個劃分中,重復(fù)迭代該步驟,直到劃分指派不再有新的變換為止。
根據(jù)米切爾對機器學(xué)習(xí)的定義,順序IB算法中的經(jīng)驗便是我們能觀測到的數(shù)據(jù)集。在順序IB算法的主循環(huán)中,依次考慮每一個數(shù)據(jù)對象的迭代過程便是從經(jīng)驗中不斷修復(fù)當前所得壓縮模式的過程,從而提高自身識別數(shù)據(jù)的性能,最終達到“物以類聚,人以群分”的目的。試想一下,當我們?nèi)祟惷媾R著海量的數(shù)據(jù)時,也需要通過讀取每一條數(shù)據(jù)對象,得到數(shù)據(jù)中的一些大概劃分模式,然后再綜合考慮每一個數(shù)據(jù)對象與當前劃分模式之間的匹配程度,對所得的劃分模式進行修復(fù)。因此順序IB算法的學(xué)習(xí)過程也可認為是一個循序漸進、歸納總結(jié)、溫故而知新的過程。這和人類的學(xué)習(xí)過程有著異曲同工之處。
另外,在順序IB算法中第一步要求對數(shù)據(jù)做一個隨機初始劃分,在此基礎(chǔ)上, IB算法再循序漸進地從數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)對象間所蘊含的內(nèi)在模式。初始化是一個隨機的過程,一個好的初始劃分往往會得到一個好的壓縮結(jié)果。順序IB算法中的隨機初始劃分就如同人的出身,出身在一定程度上決定人的命運。一個人若出身在一個經(jīng)濟基礎(chǔ)、周邊環(huán)境及家風(fēng)較好的家庭中,這個人成才的概率往往就會比較高。當然境遇不好,但經(jīng)過自身努力拼搏最終成才的人也大有人在。順序IB算法的知識發(fā)現(xiàn)過程是一個隨機性與確定性的辯證統(tǒng)一。
三、機器學(xué)習(xí)與人類學(xué)習(xí)之不同
雖然順序IB算法的學(xué)習(xí)過程與人類的學(xué)習(xí)過程有著異曲同工之處,但機器的學(xué)習(xí)能力是無法完全模擬人類的學(xué)習(xí)能力的,其最根本的原因是計算機無法像人類那樣既具有意向性又具有主觀性。塞爾認為:“計算機程序永遠不可能代替人心,其理由很簡單:計算機程序只是語法的,而心不僅僅是語法的。心是語義的,就是說,人心不僅僅是一個形式結(jié)構(gòu),它是有內(nèi)容的?!庇嬎銠C程序只是以一種形式化、語法化的特征,這種形式化的符號是不具有任何語義的。
“枯藤老樹昏鴉,小橋流水人家,古道西風(fēng)瘦馬,夕陽西下,斷腸人在天涯?!边@是元朝馬致遠的經(jīng)典小令《天凈沙·秋思》,對于中國稍通文墨的人來說都能夠背誦。整個散曲描寫的是一個秋天的下午,一個遠離家鄉(xiāng)的孤獨的旅人,懷念故鄉(xiāng)和親人的那種淡淡的惆悵的情感。這首曲里所點出的一切意象全部都是自然的存在,但這些自然的存在在人類的世界具備豐富的情感意義,并且這些物象的類別即與某一類別的人類情感有效地銜接,當這些物象在詩人的筆下娓娓地敘出時,讀到這類物象的人們就自然生發(fā)出與此相應(yīng)的內(nèi)在情感,從而與詩人、詩中的旅人的內(nèi)在情感強烈地一致!
然而,當計算機程序在讀《天凈沙·秋思》時,所獲取的知識只是枯藤、老樹、昏鴉這類客觀存在的自然界物體,卻無法像人類那樣理解其中的情感。盡管一些人工智能研究者也力圖將某些語義信息融入到機器的學(xué)習(xí)中,然而人對語義的解讀遠遠勝于任何帶有智能的機器。
雖然機器的學(xué)習(xí)能力不能完全模擬人類的學(xué)習(xí)能力,但計算機的特點決定了機器學(xué)習(xí)也有其自身的特點。例如,計算機的記憶力(存儲能力)勝于人腦,計算機在特定領(lǐng)域的計算能力勝于人腦。這些特點可以使機器學(xué)習(xí)方法作為一個輔助的手段來幫助人類學(xué)習(xí)認知世界。例如,海量數(shù)據(jù)的模式分析對于人類來說往往是一件枯燥無味、費時費力的事情,并且在無任何先驗知識、無任何工具的幫助下,對海量數(shù)據(jù)模式的提取并不是輕而易舉的事。此時,可以借助機器學(xué)習(xí)方法,如IB方法,來從數(shù)據(jù)中提取數(shù)據(jù)的模式特征。正是得力于計算機的出色存儲能力、出色計算能力,機器學(xué)習(xí)算法可以在較短的時間內(nèi)為人類提供一個對數(shù)據(jù)的初步認知模式。另外,得益于計算機無情感的特點,計算機在做這些事時才不會像人類那樣感覺枯燥無味。由于機器學(xué)習(xí)的特點與人類學(xué)習(xí)的特點不同,機器學(xué)習(xí)方法或許還會為人類帶來一些意想不到的學(xué)習(xí)結(jié)果,從而幫助人類提高對世界的認知程度。
此時,想起蘇軾的詩:“不識廬山真面目,只緣身在此山中?!碑敂?shù)據(jù)是海量,我們無從下手的時候,或許機器學(xué)習(xí)方法,如IB方法,可以引領(lǐng)我們從廬山中走出去。
四、人類學(xué)習(xí)的研究對機器學(xué)習(xí)研究的指導(dǎo)意義
人類在做事情的時候,自身往往都具備一些先驗知識,并且我們?nèi)祟愡€可將自身已有的知識應(yīng)用到對新事物的學(xué)習(xí)中。我們用一個典故來闡述人類學(xué)習(xí)能力的一個特點。
乾隆曾問紀曉嵐,傳說關(guān)羽忠義,朕且問你,他老婆是何等樣人?這是存心刁難,史書上根本沒有關(guān)夫人的詳細記載,讓人如何回答?可紀曉嵐立刻答道,生何年,歿何月,皆無從考;夫盡忠,子盡孝,豈不謂賢?乾隆大笑,說愛卿真有你的!
在無任何有關(guān)關(guān)夫人的先驗知識下,紀曉嵐的回答則是將有關(guān)關(guān)羽的認知遷移到對關(guān)夫人的評價上。
在現(xiàn)有圖靈機的模式下,計算機對數(shù)據(jù)的語義理解能力遠遠不如人類,因此,計算機所學(xué)習(xí)到的模式劃分往往會與我們?nèi)祟惖恼J知有偏差。此時,我們期望將人類的學(xué)習(xí)模式平移到機器學(xué)習(xí)中,來提高機器的學(xué)習(xí)能力。機器學(xué)習(xí)中的一些熱門研究領(lǐng)域,如監(jiān)督學(xué)習(xí)、深度學(xué)習(xí)、遷移學(xué)習(xí)、多視角學(xué)習(xí)、終身學(xué)習(xí)等,都有與人類學(xué)習(xí)的基本思想一致之處。
人類的學(xué)習(xí)思想可以指導(dǎo)機器的學(xué)習(xí)過程,然而在實施中還需從具體的領(lǐng)域問題中來抽象具體的領(lǐng)域知識,對這些知識進行建模,將人的學(xué)習(xí)思想融入到模型中,并設(shè)計具體的實施算法在計算機上運行。
(作者婁錚錚的單位為鄭州大學(xué)信息工程學(xué)院,張朝陽的單位為鄭州大學(xué)軟件與應(yīng)用科技學(xué)院)