鄭雅菁,余肇飛,2,黃鐵軍,2*
1.北京大學計算機學院視頻與視覺技術(shù)國家工程研究中心,北京 100871; 2.北京大學人工智能研究院,北京 100871
大腦的視覺系統(tǒng)會在復雜的外界環(huán)境中提取出有意義的模式(James等,1890)。如果能夠準確記住食物、危險的標記或是一些重要伙伴的視覺特征,將更有利于生存或繁殖。然而,這些對象在每一時刻的位置、姿勢、對比度、背景以及前景都各不相同,僅利用低級圖像屬性不容易識別(Pinto等,2008)。為解決這個問題,在靈長類動物的視覺系統(tǒng)中,會將外界的圖像輸入轉(zhuǎn)換一個內(nèi)部表達,抽象的高級屬性在這個表達中會被更形象的編碼,以便指導行為(DiCarlo等,2012)。
大腦視覺系統(tǒng)是由一系列解剖學上可區(qū)分但相互連接的區(qū)域組成(Felleman和van Essen,1991;Malach等,2002)。級聯(lián)的每個單獨階段都執(zhí)行比較簡單的神經(jīng)變換,例如輸入的線性加權(quán),或閾值激活和歸一化等非線性變換。然而,復雜的非線性變換可能源于簡單變換的串聯(lián)。由于大腦所接收的輸入通常都是各種數(shù)據(jù)的糾纏,是高度非線性的表達,因此,解碼的過程也是高度非線性的。
大腦神經(jīng)網(wǎng)絡所處理的非線性轉(zhuǎn)換空間非常龐大。因此,理解感知系統(tǒng)的一個主要挑戰(zhàn)是系統(tǒng)識別(system identification)——識別真正的生物回路使用的是哪種轉(zhuǎn)換。雖然生物神經(jīng)回路的轉(zhuǎn)換函數(shù)可能是有用的,例如,感受野(receptive field)的表征。但解決系統(tǒng)識別問題的最終目標是產(chǎn)生一個編碼模型:一種接受任意刺激輸入(例如,任何像素圖)并輸出對該刺激的神經(jīng)反應的正確預測的算法。模型不能局限于解釋一種狹義的現(xiàn)象,例如,面向精心挑選的神經(jīng)元且高度控制和簡化的刺激而定義的。Yamins和Dicarlo(2016)認為能夠接受任意輸入刺激,并且能夠精確預測某一區(qū)域所有神經(jīng)元的反應是大腦感知模型必須滿足的兩個核心標準。此外,一個全面的編碼模型不能僅僅預測一個最終區(qū)域的神經(jīng)元的刺激—反應的關(guān)系,例如(在視覺中)前顳下皮層(inferior temporal, IT)。相反,該模型還必須是可映射的,即具有與中間皮層區(qū)域(例如V4)相對應的可識別組件。模型在每個組成區(qū)域的響應應正確預測相應大腦區(qū)域內(nèi)的神經(jīng)反應模式。
如今,在大量解剖學和生理學證據(jù)的支持下,普遍接受這種分層級組織及其在人類和非人類靈長類動物中的雙通路結(jié)構(gòu):腹側(cè)通路(ventral stream)和背側(cè)通路(dorsal stream)(Markov等,2013;Ungerleider和Haxby,1994;van Essen,2003)。如圖1所示(Gilbert,2013),外界的視覺信息通過兩條平行通路(“視網(wǎng)膜—外側(cè)膝狀體—皮層”)從視網(wǎng)膜流向初級視覺皮層(V1區(qū))。其中,大細胞 (也稱為M細胞,Magno為“大”的拉丁語) 通路傳遞粗略的、基于亮度的空間輸入,對區(qū)域 V1 的第4Cα層具有很強的時間敏感性,星狀神經(jīng)元的特征細胞群立即將信息傳輸?shù)缴婕斑\動和空間處理的更高皮質(zhì)區(qū)域;而細小細胞 (也稱為P細胞,Parvo為“小”的拉丁語) 通路傳遞高空間分辨率但低時間敏感性的輸入,信息通過4Cβ層進入?yún)^(qū)域 V1。這種對顏色敏感的輸入在 V1 的不同層中緩慢流動,然后流向皮層區(qū)域 V2 和參與形式處理的皮層區(qū)域網(wǎng)絡。在這兩條平行的視網(wǎng)膜—LGN—視皮層通路的視覺系統(tǒng)理論中認為(Mishkin等,1983;Milner和Goodale,2008),背側(cè)流專門用于運動感知和視覺場景空間結(jié)構(gòu)的分析,而腹側(cè)流專門用于形成感知,包括對象和人臉識別。
圖1 視覺系統(tǒng)的平行通路:腹側(cè)通路及背側(cè)通路(Gilbert,2013)
自從Hubel 和 Wiesel(1962)發(fā)現(xiàn)初級視覺皮層V1區(qū)域的簡單細胞和復雜細胞以來,對視覺系統(tǒng)神經(jīng)科學的相關(guān)研究表明,大腦通過一系列分層組織的皮層區(qū)域(腹側(cè)視覺流)產(chǎn)生具有不變的對象識別行為(invariant object recognition)。基于Hubel和Wiesel(1962)所提出的開創(chuàng)性工作,許多研究人員已經(jīng)建立了受生物學啟發(fā)的神經(jīng)網(wǎng)絡(Fukushima和Miyake,1982;Riesenhuber和Poggio,1999;Serre等,2007;Haβ等,2008;Bengio, 2009;Pinto等,2009)。隨著時間的推移,人們意識到這些模型是一類更通用的計算框架的例子,稱為分層神經(jīng)網(wǎng)絡(LeCun和Bengio,1998)。分層神經(jīng)網(wǎng)絡是由多層簡單的層堆疊而成的,外界的感知輸入將會被這些串聯(lián)的層依次處理。每一層的結(jié)構(gòu)都比較簡單,但由這些層組成的深層網(wǎng)絡可實現(xiàn)對輸入數(shù)據(jù)的復雜轉(zhuǎn)換,類似于腹側(cè)流中視覺信息的處理。每個神經(jīng)網(wǎng)絡層中的運算也是由傳統(tǒng)生物物理模型——線性—非線性(linear-nonlinear,LN)環(huán)路的啟發(fā)(Sahani和Linden,2003;Machens等,2004;Carandini等,2005)。在線性—非線性模型中主要包含以時空濾波器為主的線性加權(quán)操作,以及以閾值發(fā)放、池化和歸一化等運算為主的非線性變換。
與神經(jīng)元的感受野類似,分層神經(jīng)網(wǎng)絡中的操作基本都在一個固定大小的局部輸入?yún)^(qū)域上進行,該區(qū)域通常小于輸入的完整空間范圍。例如,在 256 × 256 像素的圖像上,網(wǎng)絡層的感受野可能是 7 × 7 像素。由于這些感受野在空間上是重疊的,所以濾波器和池化操作通常是“跨步的”,這意味著輸出僅保留每個空間維度上的一小部分位置,例如步長為2的卷積核在滑動時將每隔一行/列就跳過。此外,每個卷積核在所有空間位置進行權(quán)值共享,即每個位置都會有相同的卷積操作。所以即使物體的空間位置發(fā)生變化,網(wǎng)絡的物體識別結(jié)果也具有不變性。雖然目前腹側(cè)流和其他大腦皮層的生理學結(jié)構(gòu)似乎排除了可以存儲共享模板的主導位置存在,然而,外界環(huán)境中的自然視覺/聽覺統(tǒng)計數(shù)據(jù)在時空域上很大程度上是不變的。因此,大腦中基于經(jīng)驗的學習過程應該傾向于學得不同空間或時間位置的收斂權(quán)重。共享權(quán)重可能是大腦視覺系統(tǒng)中央視野的合理近似,但真實的視覺系統(tǒng)具有很強的中央凹偏差,因此,如果對所有位置都采用不同的感受野,以實現(xiàn)更仿生的視覺信息處理可能會提高模型對神經(jīng)數(shù)據(jù)的擬合度。
由于深度學習技術(shù)的不斷發(fā)展,已經(jīng)出現(xiàn)了許多基于神經(jīng)網(wǎng)絡的精確預測模型,例如基于任務優(yōu)化的深度卷積神經(jīng)網(wǎng)絡(deep convolutional neural network, DCNN)是目前編碼靈長類動物大腦視覺的最精確預測模型。Yamins和Dicarlo (2016)認為這主要是因為DCNN具有以下特性:1)視覺皮層啟發(fā)式的結(jié)構(gòu),即神經(jīng)網(wǎng)絡的拓撲結(jié)構(gòu)與視皮層的信息處理流程相似;2)網(wǎng)絡的訓練/優(yōu)化的目標與動物生存時必須執(zhí)行的行為一致,如物體識別等任務。
除了建模高級視覺皮層的物體識別網(wǎng)絡外,還有許多精確預測初級視覺系統(tǒng)(包括視網(wǎng)膜和V1等)響應的模型,以及模擬視覺皮層背側(cè)通路的神經(jīng)網(wǎng)絡。本文首先描述有關(guān)生物視覺系統(tǒng)預測模型,及人工神經(jīng)網(wǎng)絡的背景知識,再對比不同視覺區(qū)域的神經(jīng)網(wǎng)絡模型。最后總結(jié)基于神經(jīng)網(wǎng)絡視覺計算模型的技術(shù)挑戰(zhàn),并展望未來發(fā)展方向。
在使用分層神經(jīng)網(wǎng)絡對視覺皮層進行建模之前,有許多基于手工設計的模型。從20世紀70年代開始,有許多神經(jīng)計算領(lǐng)域的研究者對初級視覺系統(tǒng)進行建模,例如V1區(qū)域。這些區(qū)域的神經(jīng)元可能可以通過相對較淺的網(wǎng)絡來解釋,例如,基于一個或多個線性感受野的模型可能實現(xiàn)精準預測神經(jīng)元對任意輸入刺激的響應,前提是模型包括控制響應性的非線性機制,基于刺激上下文和歷史,并考慮脈沖生成的非線性。
大多數(shù)初級視覺系統(tǒng)的神經(jīng)元模型都是基于線性感受野的概念。感受野這一概念最初是由Sherrington提出用于描述反射活動,之后由Hartline引入到視覺系統(tǒng)中。視覺系統(tǒng)中的神經(jīng)元感受野定義為光照視網(wǎng)膜時,能改變神經(jīng)元活動的區(qū)域。表1中展示了視網(wǎng)膜中光感受器和神經(jīng)節(jié)細胞,外側(cè)膝狀體的核細胞,V1區(qū)域的簡單細胞、復雜細胞和終端抑制復雜細胞的感受野特性。其中視網(wǎng)膜的神經(jīng)節(jié)細胞和外側(cè)膝狀體中的核細胞感受野都為中心圓狀的感受野,當給定的光源形狀符合感受野特性時,神經(jīng)元才會發(fā)放脈沖信號,反之神經(jīng)元不會發(fā)放脈沖信號。V1區(qū)域的簡單細胞則是對邊緣或者窄條狀的刺激會產(chǎn)生響應,但給定的刺激有明確的“給光”和“撤光”區(qū)域。而復雜細胞則無需明確“給光”及“撤光”區(qū),當符合其朝向的刺激出現(xiàn)時就會產(chǎn)生響應。終端抑制型復雜細胞則是在復雜細胞的基礎上,還會受到邊緣端點的影響,當刺激的光條超過其最佳長度時,神經(jīng)元的響應將會減弱。
表1 不同初級視覺區(qū)域神經(jīng)元的感受野特性
視網(wǎng)膜和外側(cè)膝狀體核(lateral geniculate nucleus,LGN)是視覺系統(tǒng)處理外界信息的始發(fā)站。但這兩種結(jié)構(gòu)在目前很多機器視覺模型中發(fā)揮的作用很大程度上被低估了。目前大多數(shù)的視覺模型都以圖像作為輸入,而不包含生物視覺系統(tǒng)中的視網(wǎng)膜—LGN變換過程。因為忽略了在這些初級視覺區(qū)域上處理的內(nèi)容,人們很容易錯過一些關(guān)鍵屬性,以了解是什么使生物視覺系統(tǒng)能高效率工作。
在視網(wǎng)膜中,入射光被轉(zhuǎn)化為電信號。這種轉(zhuǎn)換最初是通過使用線性系統(tǒng)方法來模擬視網(wǎng)膜圖像的時空過濾進行描述的(Enroth-Cugell和Robson,1984)。最近的研究改變了這種觀點,并且在不同脊椎動物的視網(wǎng)膜中發(fā)現(xiàn)了幾種類似皮層的計算(Kastner和Baccus,2014;Gollisch和Meister,2010)。盡管在不同的空間和時間尺度上工作,但視網(wǎng)膜和皮層水平具有相似的計算原理,這一事實是設計生物視覺模型時需要考慮的重要一點。這種觀點的改變將產(chǎn)生重要的后果。例如,與其考慮皮層電路如何實現(xiàn)視覺處理的高時間精度,不如考慮密集互連的皮層網(wǎng)絡如何保持視網(wǎng)膜對靜態(tài)和運動自然圖像編碼的高時間精度(Field和Chichilnisky,2007),或者微型眼球運動如何塑造其時空結(jié)構(gòu)(Rucci和Victor,2015)。
同樣地,LGN 和其他視覺丘腦核(例如,丘腦核)不應再被視為從視網(wǎng)膜到皮層路徑上的純中繼。例如,貓枕神經(jīng)元表現(xiàn)出一些經(jīng)典歸因于皮層細胞的特性,模式運動選擇性(Merabet等,1998)。猴子 LGN 神經(jīng)元中顯示出強烈的中心環(huán)繞相互作用,這些相互作用受反饋皮質(zhì)丘腦連接的控制 (Jones等,2012)。這些強大的皮質(zhì)原發(fā)性反饋連接可能解釋了為什么平行的視網(wǎng)膜丘腦—皮質(zhì)通路是高度適應性的動態(tài)系統(tǒng)(Briggs和Usrey,2008;Cudeiro和Sillito,2006;Nandy等,2013)。此外,與視網(wǎng)膜只接受外界視覺刺激不同,LGN還接受來自視皮層的反饋信息,代表了視覺通路中皮層自上而下的反饋信號可能影響信息處理的第1階段(O’Connor等,2002)。
關(guān)于初級視覺區(qū)域系統(tǒng)的編碼研究通常與系統(tǒng)辨識方法密切相關(guān)。通過結(jié)合神經(jīng)生物學實驗,系統(tǒng)辨識方法主要通過構(gòu)建模型將視覺場景編碼為神經(jīng)響應,以找到神經(jīng)系統(tǒng)中的計算單元,例如神經(jīng)元的感受野和非線性變換等計算組件。隨著多電極陣列技術(shù)的發(fā)展,人們可以使用各種類型的光學圖像來操縱光學刺激,包括簡單的條形、斑點和光柵,以及復雜的自然圖像和視頻等,同時可以記錄初級視覺區(qū)域細胞群體的響應。在這些實驗技術(shù)的支持下,初級視覺系統(tǒng)的編碼模型迅速發(fā)展。
脈沖激發(fā)平均發(fā)放模型(spike-triggered average model, STA)(Marmarelis和Naka,1972;Chichilnisky,2001)是最早應用于視網(wǎng)膜等初級視覺皮層的模型。該模型可以分析視網(wǎng)膜神經(jīng)節(jié)細胞、LGN和V1細胞的感受野。研究人員(Paninski,2003;Liu和Gollisch,2015)提出了脈沖激發(fā)協(xié)方差模型(spike-triggered covariance model, STC),利用奇異值分解獲得基本的時間空間濾波器。除了分析視網(wǎng)膜感受野濾波器的模型外,還有分析視網(wǎng)膜響應的線性—非線性(LN)模型(Sahani和Linden,2003;Machens等,2004)。在LN模型中,假設神經(jīng)元從接收刺激到?jīng)Q定是否做出響應,其主要經(jīng)歷兩個階段:在第1階段,刺激經(jīng)過時空線性濾波器,這些濾波器描述了神經(jīng)元整合輸入的方式,即描述了神經(jīng)元感受野的特性;在第2階段,LN模型假設原始刺激首先經(jīng)過時空濾波器過濾之后,會經(jīng)過一個非線性的過程,這個非線性是模仿脈沖信號生成機制,以獲得神經(jīng)脈沖信號的輸出。
到目前為止,有許多模型通過改進LN模型的結(jié)構(gòu),從而變得更加復雜,例如線性—非線性泊松模型(linear-nonlinear Poisson model, LNP)(Schwartz等,2006)。LNP模型在LN模型的非線性過程之后增加了一個泊松過程來模擬神經(jīng)元的發(fā)放;Pillow等人(2008)提出了一種廣義線性模型(generalized linear model, GLM)。GLM 模型中增加了更多功能模塊,例如增加歷史脈沖濾波來模擬神經(jīng)元的適應性,增加耦合濾波來模擬相鄰神經(jīng)元之間的相關(guān)性。非線性輸入模型(nonlinear input model, NIM)(McFarland等,2013)利用非線性濾波器來處理輸入信號之間的相關(guān)性。除了這些較為簡單的結(jié)構(gòu),近年來包含子單元組件的模型也越來越多,如線性—非線性級聯(lián)網(wǎng)絡模型(2-layer linear-nonlinear network model, LNLN)(Maheswaranathan等,2018)、脈沖激發(fā)非負矩陣分解模型(spike-triggered non-negative matrix factorization, STNMF)(Liu等,2017)。
根據(jù)Hubel 和 Wiesel(1962) 的經(jīng)驗觀察表明,V1 中的神經(jīng)元類似于 Gabor 小波濾波器,不同的神經(jīng)元對應于不同頻率和方向的邊緣。事實上,早期使用手工設計的 Gabor 濾波器組作為卷積權(quán)重的計算模型在解釋 V1 神經(jīng)反應方面取得了一些成功。后來人們意識到,使用閾值、歸一化和增益控制等非線性可以顯著改進模型。此外,Hubel和Wiesel(1962)也提出了V1中簡單細胞和復雜細胞感受野的形成是由其上游細胞感受野組合而成的觀點。在這個觀點中認為,視覺系統(tǒng)中復雜的感受野結(jié)構(gòu)是由許多輸入以有序的方式會聚而成的。但是,由于視覺皮層中也存在著許多復雜的反饋或者“跳線”連接,如復雜細胞也會接收來自LGN細胞的直接輸入。并且視覺皮層內(nèi)部也普遍存在許多水平連接(Gilbert等,1990;Souihel和Cessac,2021)。盡管如此,Hubel和Wiesel(1962)提出的這種分層組合結(jié)構(gòu),啟發(fā)設計了許多機器視覺模型的產(chǎn)生,如分層最大池化模型(hierarchical max-pooling models,HMAX)(Riesenhuber和Poggio,1999)和深度神經(jīng)網(wǎng)絡(LeCun等,2015)。
Hubel和Wiesel(1962)發(fā)現(xiàn)了V1區(qū)域細胞的感受野特性和視覺皮層的層級處理結(jié)構(gòu),許多研究者在他們的基礎上提出了實現(xiàn)腹側(cè)通路物體識別功能的模型,其中比較經(jīng)典且經(jīng)常被作為基礎模型使用的為VisNet(Rolls和Milward,2000)和HMAX模型(Riesenhuber和Poggio,1999)。
1.3.1 VisNet物體識別模型
大腦視覺系統(tǒng)所解決的主要問題之一是建立視覺信息的表征,使識別相對獨立于大小、對比度、空間頻率、視網(wǎng)膜上的位置、視角等。這種識別性能的泛化性無法由簡單的某個視覺皮層獨立實現(xiàn)。用于物體識別的皮層視覺處理是由腹側(cè)通路中分層連接的皮層區(qū)域完成的。如圖2右側(cè)所示,腹側(cè)通路至少包括 V1、V2、V4、后下顳葉皮層 (posterior inferior temporal cortex,TEO),以及前顳皮層(anterior inferior temporal cortex,TE)。一個區(qū)域的每個小部分都會聚于后續(xù)處理區(qū)域中的一個局部。因此,每個后續(xù)階段的神經(jīng)元的感受野大小都會放大約2.5 倍。如圖2右側(cè)所示,V1 中中央凹區(qū)域的感受野視角約為1.3°,V4 為 8°,TEO 為 20°,下顳葉皮層為 50°(Boussaoud等,1991)。這樣的會聚區(qū)域?qū)⒉粩嘞嗷ブ丿B。不同區(qū)域神經(jīng)元感受野的連通性是實現(xiàn)物體平移不變表示的關(guān)鍵。
圖2 VisNet的結(jié)構(gòu)及對應的腹側(cè)視覺通路(Rolls和Milward,2000)
基于視覺皮層中面向?qū)ο笞R別的不變性,Rolls和Milward(2000)提出了一個完成物體識別任務的模型——VisNet。如圖2左側(cè)所示,VisNet具有4層前饋層次結(jié)構(gòu),并通過使用橫向抑制連接提供每層內(nèi)神經(jīng)元之間的競爭機制。神經(jīng)元間權(quán)重是根據(jù)赫布規(guī)則的擴展版本調(diào)整,即當輸入軸突可以使得輸出神經(jīng)元強烈發(fā)放時,它們之間的突觸權(quán)重將增強,反之,與不活躍的輸入軸突將減弱。
1.3.2 HMAX模型
HMAX模型曾經(jīng)是模擬視覺皮層腹側(cè)流最好的模型,該模型由Riesenhuber 和 Poggio 于 1999 年首次提出(Riesenhuber和Poggio,1999)。該模型的關(guān)鍵元素是一組位置和尺度不變特征檢測器。使用了一種非線性最大池化(max pooling)機制,該機制能夠為識別雜亂情況提供更穩(wěn)健的響應。
圖3展示了HMAX模型的結(jié)構(gòu)圖。模型采用多層簡單—復雜細胞的交疊結(jié)構(gòu),模擬腹側(cè)通路中各個視覺皮層提取從簡單到抽象特征的過程。HMAX模型最后一層的視角調(diào)諧細胞(view-tuned cell)可表示高度抽象的特征。
圖3 HMAX模型的結(jié)構(gòu)(Riesenhuber和Poggio,1999)
1.3.3 卷積神經(jīng)網(wǎng)絡
受神經(jīng)科學研究的啟發(fā)(Hassabis等,2017),典型的卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)由層次結(jié)構(gòu)組成,其中每個卷積層最重要的屬性之一是可以使用卷積濾波器作為特征檢測器提取來自輸入圖像的有用信息(Krizhevsky等,2012;Simonyan和Zisserman,2015)。因此,經(jīng)過訓練,卷積核中的濾波器具有一定的語義。這些濾波器捕獲的特征可以在原始自然圖像中表示(Zeiler和Fergus,2014)。通常,一個典型特征與訓練集里的某些圖像塊有一些相似之處。而這些相似性是通過使用大量具有標簽數(shù)據(jù)的圖像來獲得的,所以卷積核所學得的特征對于一類物體來說具有通用性,有利于識別。然而,由于自然圖像的復雜統(tǒng)計結(jié)構(gòu)(Simoncelli和Olshausen,2001),它也導致了可視化或解釋卷積核的意義時存在困難。因此,卷積神經(jīng)網(wǎng)絡中的神經(jīng)元的意義也通常不易于解釋(Zeiler等,2011)。
視覺處理始于視網(wǎng)膜和外側(cè)膝狀體核 (LGN),目前很多機器視覺模型中,這兩種結(jié)構(gòu)所發(fā)揮的作用很大程度上被低估了。目前的大多數(shù)視覺模型都將圖像作為輸入,而不包含生物視覺系統(tǒng)中的視網(wǎng)膜—LGN變換過程。它們并不僅僅是視覺刺激與大腦之間的一個傳輸中繼站,如視網(wǎng)膜細胞中還具備運動選擇性等特征,而LGN中的細胞則有增益控制(gain control)的功能,可以有效減少眼動或者頭部移動時伴隨的視覺信息的劇烈變化。
傳統(tǒng)生物物理模型在研究初級視覺系統(tǒng)對簡單人造刺激圖像非常有效,但是對于自然場景,包括自然圖像和自然視頻,卻存在許多問題,例如模型參數(shù)量過大時難以擬合。近年來,深度學習發(fā)展迅速,在對象識別和分類方面取得的效果優(yōu)于人類的水平。因此,有許多研究者也開始關(guān)注如何使用人工神經(jīng)網(wǎng)絡對初級視覺區(qū)域的編碼過程進行建模(Maheswaranathan等,2018;Batty等,2017;Vance等,2018;Yan等,2020)。
初級視覺系統(tǒng)中的神經(jīng)元電路組織相對清晰和簡單,可以使用卷積神經(jīng)網(wǎng)絡進行建模。另一方面,機器視覺的研究者們也期望這些神經(jīng)元回路的知識可以為 CNN 提供有用且重要的驗證。近年來,一些神經(jīng)科學領(lǐng)域的研究者將 CNN 及其變體應用于初級視覺系統(tǒng),例如視網(wǎng)膜(McIntosh等,2016;Batty等,2017;Vance等,2018;Maheswaranathan等,2018;Yan等,2020)、V1(Vintch等,2015;Antolík等,2016;Kindel等,2017;Cadena等,2019;Klindt等,2017;Whiteway等,2018;Ukita等,2018) 和 V2(Rowekamp和Sharpee,2017)。這些研究的目標大多數(shù)是通過使用前饋和遞歸神經(jīng)網(wǎng)絡,或結(jié)合兩者來實現(xiàn)更好的神經(jīng)反應預測。與傳統(tǒng)的線性/非線性模型相比,這些新方法復雜性的增加提高了對視覺系統(tǒng)的辨識能力(McFarland等,2013;Chichilnisky,2001;Liu和Gollisch,2015)。其中一些研究還重構(gòu)所訓練的網(wǎng)絡中隱層計算單元的細節(jié),以對比它們是否與生物神經(jīng)元的功能及結(jié)構(gòu)相對應(Maheswaranathan等,2018;Klindt等,2017)。
與其他初級視覺皮層系統(tǒng)(如V1,LGN)等相比,目前對視網(wǎng)膜的解剖結(jié)構(gòu)了解較為清楚(Gollisch和Meister,2010)。如圖4所示,視網(wǎng)膜可簡化為一個3層的網(wǎng)絡,分別為光感受器、雙極細胞和神經(jīng)節(jié)細胞。在這3層網(wǎng)絡之間穿插著抑制性水平細胞和無長突細胞等結(jié)構(gòu)。視網(wǎng)膜神經(jīng)節(jié)細胞(retinal ganglion cells,RGCs)作為視網(wǎng)膜的最終層輸出神經(jīng)元,通過視束和丘腦將視覺信息發(fā)送到皮層區(qū)域進行高級認知。每個神經(jīng)節(jié)細胞會接受一些興奮性雙極細胞(bipolar cells,BCs)的輸入,并產(chǎn)生脈沖信號。需要強調(diào)的是,哺乳類動物的視網(wǎng)膜是一個由至少60種不同結(jié)構(gòu)和特性的神經(jīng)元組成的縱橫交錯的復雜神經(jīng)網(wǎng)絡(Gollisch和Meister,2010),上述的3層神經(jīng)網(wǎng)絡是一個極為簡單的計算模型。
圖4 視網(wǎng)膜的生理結(jié)構(gòu)(Yan等,2020)
Yan等人(2020)也使用3層的卷積神經(jīng)網(wǎng)絡建模單個視網(wǎng)膜神經(jīng)節(jié)的編碼過程,其模型結(jié)構(gòu)如圖5(b)所示。他們對單個細胞在不同刺激及不同細胞上的遷移學習實驗,揭示了一個3層的卷積神經(jīng)網(wǎng)絡是在學習一個神經(jīng)節(jié)細胞所需的基本運算。在一個細胞上訓練好的卷積神經(jīng)網(wǎng)絡,可以較好地在不同刺激上進行遷移,但在不同細胞上遷移時性能具有較大的差異。最近的一些研究也探索了循環(huán)連接在視網(wǎng)膜編碼中發(fā)揮的作用,Batty等人(2017)使用循環(huán)神經(jīng)網(wǎng)絡 (recurrent neural network, RNN) 對神經(jīng)元群體內(nèi)的共享特征空間進行建模。然而,這種方法的性能主要取決于對神經(jīng)元初始位置的估計。
圖5 基于3層CNN的視網(wǎng)膜編碼模型
雖然卷積神經(jīng)網(wǎng)絡已成功應用于建模簡單和靜態(tài)場景的視網(wǎng)膜系統(tǒng),然而,當學習大規(guī)模視網(wǎng)膜神經(jīng)節(jié)細胞對復雜自然場景視頻的編碼過程時,基于卷積神經(jīng)網(wǎng)絡的編碼模型會隨著所編碼 RGC 數(shù)量的增多而參數(shù)量陡然上升,因而難以得到有效的編碼模型。為解決這個問題,Zheng等人(2021a)提出了用于學習群體視網(wǎng)膜神經(jīng)節(jié)細胞編碼外界動態(tài)視頻刺激的卷積循環(huán)神經(jīng)網(wǎng)絡(convolutional recurrent neural network, CRNN)。圖6中展示了CRNN的結(jié)構(gòu),實驗結(jié)果揭示了網(wǎng)絡的循環(huán)連接結(jié)構(gòu)是影響視網(wǎng)膜編碼的關(guān)鍵因素,可高精度地預測大規(guī)模視網(wǎng)膜神經(jīng)節(jié)細胞對動態(tài)自然場景的響應,并可以同時學習出各個神經(jīng)節(jié)細胞的感受野。Zheng等人(2021a)所提出的卷積循環(huán)編碼網(wǎng)絡除了在結(jié)構(gòu)上更加接近視網(wǎng)膜,還可以使用更少的參數(shù)學習出精度更高的編碼模型。
圖6 CRNN模型架構(gòu)圖例(Zheng等,2021a)
此外,即使目前對V1神經(jīng)元的感受野已比較了解,但傳統(tǒng)的預測模型也很難預測它們對自然圖像刺激的反應。為了填補這一空白,Kindel等人(2017)訓練深度卷積神經(jīng)網(wǎng)絡來預測 V1 神經(jīng)元對自然圖像刺激的響應。他們所提出的網(wǎng)絡良好預測了V1神經(jīng)元對自然圖像刺激響應,并且網(wǎng)絡中模擬V1神經(jīng)元的節(jié)點經(jīng)過分析,可得到具有中心環(huán)繞狀和Gabor 小波的感受野,甚至是具有更高級別紋理特征的復雜感受野。Kindel等人(2017)的網(wǎng)絡結(jié)構(gòu)如圖7所示。
圖7 基于CNN的V1細胞編碼模型(Kindel等,2017)
在接受外界視覺刺激時,有不同類型的神經(jīng)元在視野的不同位置執(zhí)行相似的計算。傳統(tǒng)的神經(jīng)系統(tǒng)識別方法沒有區(qū)分神經(jīng)元感受野的位置和形狀特性。而卷積神經(jīng)網(wǎng)絡中,卷積核在多個位置的權(quán)值共享,但架構(gòu)設計需要考慮數(shù)據(jù)限制:雖然新的實驗技術(shù)能夠記錄數(shù)千個神經(jīng)元,但實驗時間有限,因此只能對每個神經(jīng)元響應空間的一小部分進行采樣。Klindt等人(2017)認為使用卷積神經(jīng)網(wǎng)絡擬合神經(jīng)數(shù)據(jù)的一個主要瓶頸是對單個感受野位置的估計。因此,他們提出了一個帶有稀疏讀出層的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu),其可以同時重構(gòu)出神經(jīng)元感受野的空間和特征維度。Klindt等人(2017)提出的網(wǎng)絡可以很好地擴展到數(shù)千個神經(jīng)元和簡短的記錄,并且可以進行端到端的訓練。
除了這種直接訓練網(wǎng)絡預測神經(jīng)元對輸入的響應的數(shù)據(jù)驅(qū)動模型外,還有以物體識別為任務訓練一個多層網(wǎng)絡后,對網(wǎng)絡的淺層網(wǎng)絡使用V1神經(jīng)元數(shù)據(jù)進行遷移學習。Cadena等人(2019)測試了這兩種方法預測清醒猴子 V1 神經(jīng)元對自然圖像脈沖響應的能力。他們發(fā)現(xiàn)以物體識別任務訓練的VGG-19(Visual Geometry Group)網(wǎng)絡(Simonyan和Zisserman,2015)經(jīng)過遷移學習后,與數(shù)據(jù)驅(qū)動方法的表現(xiàn)相似,并且都優(yōu)于基于 V1 理論的經(jīng)典線性—非線性泊松模型(LNP模型)和基于小波的特征表示(gabor-filter bank,GFB模型)。Cadena等人(2019)所使用的網(wǎng)絡結(jié)構(gòu)及對應V1的選擇層如圖8所示。
圖8 VGG-19網(wǎng)絡遷移學習的V1細胞編碼模型(Cadena等,2019)
值得注意的是,使用預訓練的特征空間進行遷移學習時,可使用較少的實驗時間就實現(xiàn)相同的預測性能。Cadena等人(2019)的實驗結(jié)果表明,多層卷積神經(jīng)網(wǎng)絡為預測靈長類動物 V1 中對自然圖像的神經(jīng)反應奠定了新的技術(shù)水平,并且比傳統(tǒng)濾波器組合成的模型,以對象識別任務為目標的網(wǎng)絡學得的特征可以更好地解釋 V1 細胞的特性。這一發(fā)現(xiàn)強化了V1 模型中具備多重非線性的必要性,并驗證了高級功能目標(如物體識別)可影響早期視覺皮層的表征。圖9中展示了傳統(tǒng)V1模型LNP、GFB、V1數(shù)據(jù)驅(qū)動的淺層卷積網(wǎng)絡和以物體識別任務訓練的大規(guī)模VGG網(wǎng)絡對V1神經(jīng)元的可解釋性。
圖9 不同編碼模型對真實V1神經(jīng)元的可解釋性(Cadena等,2019)
除了分別訓練視網(wǎng)膜和初級視覺皮層的網(wǎng)絡外, Lindsey等人(2019)還提出了一個同時模擬視網(wǎng)膜和腹側(cè)視覺通路的聯(lián)合網(wǎng)絡。該網(wǎng)絡結(jié)構(gòu)如圖10所示。將在CIFAR-10數(shù)據(jù)集(Krizhevsky,2009)上訓練的深度卷積神經(jīng)網(wǎng)絡作為視覺系統(tǒng)的模型,并且認為這種感受野的差異可能是視網(wǎng)膜和皮層網(wǎng)絡上不同神經(jīng)資源限制的直接結(jié)果。其中關(guān)鍵的限制是模擬視網(wǎng)膜的網(wǎng)絡中輸出的神經(jīng)元數(shù)量減少。此外,如圖10所示,對于簡單的下游皮層VVS(ventral visual system)網(wǎng)絡,視網(wǎng)膜輸出的視覺表征表現(xiàn)為非線性和有損特征檢測器,而對于更復雜的VVS皮層網(wǎng)絡,視網(wǎng)膜表現(xiàn)為視覺場景的簡單線性編碼器。該結(jié)果預測小型脊椎動物(例如蠑螈、青蛙)的視網(wǎng)膜應該執(zhí)行復雜的非線性計算,提取與行為直接相關(guān)的特征。而大型動物(例如靈長類動物)的視網(wǎng)膜應該主要對視覺場景進行線性編碼,并對更廣泛的范圍做出反應的刺激。這些結(jié)果表明,脊椎動物的視網(wǎng)膜表征取決于分配給其視覺系統(tǒng)的神經(jīng)資源,從而決定它們的視網(wǎng)膜表征目標——執(zhí)行特征提取或?qū)ψ匀粓鼍暗母咝Ь幋a。
圖10 模擬視網(wǎng)膜與腹側(cè)視覺通路的聯(lián)合網(wǎng)絡結(jié)構(gòu)(Lindsey等,2019)
除了以電生理驅(qū)動的神經(jīng)網(wǎng)絡編碼模型,研究人員也采用深度神經(jīng)網(wǎng)絡來研究神經(jīng)科學的核心問題(Kriegeskorte,2015;Yamins和Dicarlo,2016)。例如,深度卷積神經(jīng)網(wǎng)絡已用于模擬實現(xiàn)視覺對象識別的腹側(cè)視覺通路(Yamins等,2013,2014;Khaligh-Razavi和Kriegeskorte,2014;Yamins和Dicarlo,2016)。結(jié)果證明,物體識別任務驅(qū)動訓練的深度神經(jīng)網(wǎng)絡中,網(wǎng)絡隱層的計算節(jié)點可以精確預測神經(jīng)元的響應。然而,這種網(wǎng)絡模型的最終輸出代表了在許多層中進行的密集計算,這可能與大腦中信息處理的生物學基礎相關(guān),也可能不相關(guān)。鑒于 IT 皮層部分位于人類視覺系統(tǒng)的更高級別,因此很難理解 CNN 的這些網(wǎng)絡組件。
通過訓練大量自然圖片,多層卷積神經(jīng)網(wǎng)絡(hierarchical convolutional neural network, HCNNs)所完成的視覺對象識別可達到人類相當?shù)男阅?Zeiler和Fergus,2014;LeCun等,2015)。圖11中展示了Yamins和Dicarlo(2016)用于建模腹側(cè)視覺通路的HCNN模型結(jié)構(gòu)。近期的研究工作表明,基于任務優(yōu)化的多層卷積神經(jīng)網(wǎng)絡HCNNs是靈長類動物大腦視覺編碼的精準量化模型(Yamins等,2014;Khaligh-Razavi和Kriegeskorte,2014;Gü?lü和van Gerven,2015)。
圖11 以物體識別任務學習的HCNN編碼模型(Yamins和Dicarlo,2016)
目前,與其他計算模型類別相比,在ImageNet數(shù)據(jù)集上以物體識別任務訓練的HCNNs可以更好地預測視覺系統(tǒng)中神經(jīng)元的平均時間響應(temporally-averaged response)。訓練好的網(wǎng)絡中底層、中層和高層的卷積層的模型單元分別精準預測初級(Khaligh-Razavi和Kriegeskorte,2014;Cadena等,2019)(V1 區(qū))、中級(Yamins等,2014)(V4 區(qū))和更高的視覺皮層區(qū)域(Khaligh-Razavi和Kriegeskorte,2014;Yamins等,2014)(下顳葉皮質(zhì),即 IT 區(qū))。這些模型并沒有使用真實的生理數(shù)據(jù)進行擬合,而是直接以高級視覺任務(目標識別)進行訓練,它們能夠達到目前視覺信息編碼任務的最高性能(state-of-the-art)。如在圖12中,HCNN模型可以在獲得最佳的物體識別預測性能的同時,精確預測視覺皮層神經(jīng)元的響應。
圖12 物體識別任務訓練的HCNN模型可精確預測高級視覺皮層的神經(jīng)元響應(Yamins和Dicarlo,2016)
在HCNNs模型的訓練中,選擇變化多端、場景比較具有挑戰(zhàn)性數(shù)據(jù)集,以及更加貼近現(xiàn)實生活的視覺任務也很重要,如在種類繁多的ImageNet數(shù)據(jù)集上進行物體識別任務的訓練效果會比較好。研究人員(Khaligh-Razavi和Kriegeskorte,2014;Hong等,2016)認為使用較簡單、種類較少的數(shù)據(jù)集進行目標識別任務的無監(jiān)督訓練模型(圖像自編碼器),無法精確預測神經(jīng)元對圖像的響應,尤其是高級視皮層。這也意味著對靈長類動物來說,捕捉外界環(huán)境不計其數(shù)的視覺刺激特性對構(gòu)建一個穩(wěn)健的視覺系統(tǒng)非常關(guān)鍵。HCNNs模型的最終輸出表示的是先前許多的卷積層中進行的密集的計算,這與大腦中的信息處理的神經(jīng)科學基礎有關(guān)與否并不確定,所以需要理解HCNNs計算單元與高級視覺神經(jīng)系統(tǒng)這些組件的對應關(guān)系。
雖然HCNNs能夠在預測視皮層的平均響應上取得傲人的成績,但靈長類動物的視覺系統(tǒng)的解剖結(jié)構(gòu)中除了現(xiàn)有HCNNs中的前饋連接,還有別的連接結(jié)構(gòu)。這些結(jié)構(gòu)包括每個皮層區(qū)域內(nèi)密集的局部循環(huán)連接以及不同區(qū)域間的遠程連接,例如從視覺層次的較高級區(qū)域到初級部分的反饋(Gilbert,2013)。靈長類動物大腦的視覺系統(tǒng)中循環(huán)結(jié)構(gòu)的功能尚未得到充分研究。有研究(Spoerer等,2017;Michaelis等,2018;Linsley等,2018)認為循環(huán)結(jié)構(gòu)可自動填補缺失數(shù)據(jù),如被其他物體遮擋住的物體部分;有研究(Gilbert,2013;Lindsay,2015;McIntosh等,2018;Li等,2018;Kar等,2019)認為循環(huán)結(jié)構(gòu)通過自上而下的注意力特征的細化銳化了表征,以便對特定的刺激因素或特定任務的性能進行解碼;有研究(Rao和Ballard,1999;Lotter等,2017;Issa等,2018)認為循環(huán)結(jié)構(gòu)允許大腦預測未來的刺激信號(如電影的幀);而也有研究(Liao和Poggio,2016;Zamir等,2017;Leroux等,2018)認為循環(huán)擴展了前饋計算,這意味著展開的循環(huán)網(wǎng)絡等價于通過多次重復變換來保存神經(jīng)元(和可學習參數(shù))的更深層前饋網(wǎng)絡。
現(xiàn)有的神經(jīng)生理數(shù)據(jù)無法排除這些可能性,而計算模型可能有助于對這些假設進行評估。研究人員(Spoerer等,2017;Lotter等,2017)將添加了循環(huán)結(jié)構(gòu)的增強 CNN 用于解決相對簡單的遮擋變形和預測未來的任務,但這些模型既無法泛化到前饋 CNN 執(zhí)行的較困難任務(如識別 ImageNet 數(shù)據(jù)集中的目標),也無法像在ImageNet上優(yōu)化的 HCNN 一樣對神經(jīng)響應做出解釋。在ImageNet中進行目標識別是已知僅有可以產(chǎn)生與視覺皮層神經(jīng)元激活模式相仿的 HCNN 激活模式的任務 (Khaligh-Razavi和Kriegeskorte,2014;Yamins等,2014;Cadena等,2019)。但事實上,由于多樣性和復雜性,ImageNet中包含許多可以根據(jù)上述假設(例如嚴重遮擋、出現(xiàn)多個前景目標等)利用循環(huán)結(jié)構(gòu)的圖像數(shù)據(jù)。此外,一些針對 ImageNet的最有效方法(如 ResNet 模型(He等,2016))是在多個層上重復相同的架構(gòu)模式,這說明它們可能與較淺的循環(huán)網(wǎng)絡的展開近似(Liao和Poggio,2016)。McIntosh等人(2018)將 HCNN 的輸出作為 RNN 的輸入來解決目標分割等視覺任務。而Nayebi等人(2018)則認為使用傳統(tǒng)人工神經(jīng)網(wǎng)絡中的循環(huán)結(jié)構(gòu)(例如,樸素RNN、長短期記憶網(wǎng)絡(long short-term memory,LSTM)(Elman,1990;Hochreiter和Schmidhuber,1997))并不能提高計算模型在ImageNet上的識別性能,因此他們直接在卷積單元上引入了循環(huán)結(jié)構(gòu),提出了稱為ConvRNN(convolutional recurrent neural networks)的模型結(jié)構(gòu),其結(jié)構(gòu)如圖13所示。ConvRNN中主要引入了既帶有旁路(bypass),也實現(xiàn)了類似于LSTM的長短時程記憶功能的門控單元。這種基于目標識別任務訓練的模型能夠預測高級視皮層區(qū)域(V4和IT)的神經(jīng)動力學響應,并且能達到很高的識別準確率。
圖13 ConvRNN模型(Nayebi等,2018)
此外, Kar等人(2019)認為網(wǎng)絡層次較多的純HCNN網(wǎng)絡與淺層的帶循環(huán)結(jié)構(gòu)的CNN結(jié)構(gòu)功能等價。然而, Spoerer等人(2017)認為在HCNNs網(wǎng)絡中加入循環(huán)結(jié)構(gòu)后可提高網(wǎng)絡訓練的收斂速度,即使在與HCNNs同等參數(shù)量的情況下也能達到較高的目標識別準確率。
雖然以物體識別任務有監(jiān)督地訓練網(wǎng)絡,可以獲得目前最精確的視覺皮層腹側(cè)通路的神經(jīng)編碼模型,但是許多研究者認為,這種有監(jiān)督式的任務驅(qū)動模型不具備生理可解釋性。因為大腦需要處理的任務很多,需要在多種任務中都取得較好的性能以生存,而不僅僅是專門處理物體識別等固定任務的網(wǎng)絡。例如,目前深度神經(jīng)網(wǎng)絡常用的ImageNet數(shù)據(jù)集中(Krizhevsky等,2012),含有上百萬張帶標簽數(shù)據(jù)。若使用同樣規(guī)模的數(shù)據(jù)訓練一個嬰兒學會識別,并且以5 s一次的頻率指定樣本,需要消耗一千多個小時。而人類并不是機器,無法不停機地重復訓練這一項任務,因此人類顯然不是以這種大規(guī)模數(shù)據(jù)樣本的形式識別物體。同樣,對于其他靈長類動物,這種大規(guī)模標簽數(shù)據(jù)的訓練模式也顯然不可行。因此,尋找更具生物可行性的神經(jīng)編碼模型仍是一個亟須解決的問題。
近年來,許多研究者開始嘗試以無監(jiān)督學習(Hastie等,2009)的方式訓練深度神經(jīng)網(wǎng)絡編碼模型。而目前的無監(jiān)督網(wǎng)絡通常具有以下幾種形式:1)無監(jiān)督學習:旨在表示數(shù)據(jù)分布或?qū)崿F(xiàn)數(shù)據(jù)降維,例如變分自動編碼器(variational autoencoder,VAE)(Kingma和Welling,2019);2)自監(jiān)督學習(self-supervised learning)(LeCun和Misra,2021):旨在通過從輸入的任意部分預測其其他部分的任務來找到好的數(shù)據(jù)表示,例如,對于一幅帶遮擋的圖像,企圖從其不帶遮擋的部分預測出缺省的部分;或是從輸入序列的過去預測其將來的輸入;3)對比學習(contrastive learning):是自監(jiān)督訓練模型的一種特例(Jaiswal等,2020)。預測樣本時只需區(qū)分其是正例還是負例,因此稱為對比學習。常見的網(wǎng)絡有MoCo(momentum contrast)(Chen等,2020b), SimCLR(Chen等,2020a)和CPC(contrastive predictive coding)(Kharitonov等,2021)等;4)多模態(tài)學習(multimodal learning)(Ramachandram和Taylor,2017):旨在通過相互預測或預測一個公共子空間來尋找不同模態(tài)(例如視覺、文本和音頻等)的公共子空間。目前常見的多模態(tài)學習網(wǎng)絡為OPEN AI在2021年提出的CLIP(contrastive language-image pre-training)模型(Radford等,2021)。
Zhuang等人(2021)最近發(fā)現(xiàn)使用無監(jiān)督或自監(jiān)督的方式訓練網(wǎng)絡,可以獲得與腹側(cè)視覺通路神經(jīng)元(例如圖14中的V1、V4和IT)類似的表達形式。實驗結(jié)果表明,無監(jiān)督學習的最新進展在很大程度上彌補了深度網(wǎng)絡與腹側(cè)視覺通路的生理可解釋差距。并且,發(fā)現(xiàn)最近的無監(jiān)督訓練網(wǎng)絡,例如SimCLR和其他對比學習網(wǎng)絡,在腹側(cè)流中的預測精度等于或超過當今最佳的有監(jiān)督模型。這些結(jié)果說明了可用無監(jiān)督學習來模擬大腦系統(tǒng),并為生物學上合理的神經(jīng)編碼網(wǎng)絡模型提供了強有力的候選者。Konkle和Alvarez(2021)也探索了能否用無監(jiān)督的方式獲得與腹側(cè)視覺通路類似的表達。他們的實驗結(jié)果與Zhuang等人(2021)的發(fā)現(xiàn)類似,不同的是他們并不是對比單個神經(jīng)元的表達,而是將模型應用在人腦的功能性磁共振成像(functional magnetic resonance imaging, fMRI)數(shù)據(jù)上。他們發(fā)現(xiàn)模型對ImageNet 分類準確度與 fMRI數(shù)據(jù)匹配度之間沒有太大的聯(lián)系。此外, Konkle和Alvarez(2021)還討論了大腦如何實現(xiàn)自我監(jiān)督的學習方式。他們認為視網(wǎng)膜扭曲、眼跳、效應復制以及基于海馬體的緩沖機制是自我監(jiān)督學習方式的實例化。
圖14 以物體識別任務無監(jiān)督學習的HCNN編碼模型(Zhuang等,2021)
除了將無監(jiān)督方式應用在靈長類動物的腹側(cè)通路建模外,還有一些研究者將無監(jiān)督方式成功應用在背側(cè)視覺通路、小鼠視覺皮層,及大腦海馬體中概念細胞的建模。例如, Mineault等人(2021)探索了編碼運動的神經(jīng)元特性。他們首先嘗試了一些有監(jiān)督3D卷積神經(jīng)網(wǎng)絡來學習背側(cè)通路中不同區(qū)域的神經(jīng)元響應,但是發(fā)現(xiàn)這些網(wǎng)絡并不能用以解釋非人靈長類的單個神經(jīng)元的響應。然后作者建立了一個智能體,并加入先驗——在世界上移動的個體必須根據(jù)落在視網(wǎng)膜上的圖像模式來確定其自我運動的參數(shù)。由此先驗限定的網(wǎng)絡訓練之后的結(jié)果從定性和定量上看都很接近背側(cè)視覺通路。而Bakhtiari等人(2021)使用對比學習網(wǎng)絡CPC(Kharitonov等,2021)同時建模了小鼠的腹側(cè)通路和背側(cè)通路。Nayebi等人(2021)也探索了小鼠視覺皮層的神經(jīng)編碼過程。使用小鼠視覺皮層對靜態(tài)圖像刺激的數(shù)據(jù),并將其與不同結(jié)構(gòu)的監(jiān)督網(wǎng)絡和自我監(jiān)督網(wǎng)絡進行比較。實驗結(jié)果發(fā)現(xiàn)具有平行分支的淺層網(wǎng)絡更好地解釋了老鼠的數(shù)據(jù)。這也證實了Bakhtiari等人(2021)的發(fā)現(xiàn)。老鼠的視覺大腦是一種淺層的“通用”視覺機器,可較好地在各種任務之間切換。不像靈長類大腦中的深度神經(jīng)網(wǎng)絡高度專一于子任務。這些觀點非常符合不同的大腦適應不同的生態(tài)環(huán)境這一觀點。Conwell等人(2021)也將視覺轉(zhuǎn)換器(transformer)、多層感知器(multilayer perceptron,MLP)混合器、任務編碼器和自我監(jiān)督模型應用在小鼠視覺皮層的數(shù)據(jù)中,實驗結(jié)果與Bakhtiari等人(2021)和Nayebi等人(2021)類似。
Geirhos等人(2021)發(fā)現(xiàn)在對圖像失真(旋轉(zhuǎn)、對比度變化等)的魯棒性方面,新型的自監(jiān)督和多模態(tài)模型現(xiàn)在已與人類不相上下,例如CLIP模型。Choksi等人(2021)還發(fā)現(xiàn)多模態(tài)學習模型可以學習出與大腦海馬體中概念細胞類似的表達——會對概念或圖像的文本表示做出反應。Higgins等人(2020)發(fā)現(xiàn)無監(jiān)督的深度神經(jīng)網(wǎng)絡可以解耦I(lǐng)T皮層中的數(shù)據(jù)表達,例如,IT中的一個神經(jīng)元可能編碼了影響面孔外觀的多種因素(膚色、亮度和年齡等)。Storrs等人(2021)發(fā)現(xiàn)變分自編碼器可以學習出人類感知表面的潛在因素。變分自編碼器自然地解開了不同的因素,而且與人類的感知非常吻合。然而,他們發(fā)現(xiàn)監(jiān)督網(wǎng)絡在這項任務上的表現(xiàn)不是很理想。
生物視覺研究一直是計算機視覺算法設計的重要靈感來源。有許多計算機視覺算法與生物視覺研究具有不同程度的對應關(guān)系,包括從純粹的功能啟發(fā)到利用主要用于解釋生物觀察的模型的方法。從視覺神經(jīng)科學向計算機視覺界傳達的生物視覺處理的經(jīng)典觀點是視覺皮層分層層次處理的結(jié)構(gòu)。
隨著新的實驗和分析技術(shù)的出現(xiàn),在克服學科交叉研究的技術(shù)障礙方面取得了重大進展。腦科學中正在出現(xiàn)大量多尺度功能分析和連接組學信息。令人鼓舞的是,視覺系統(tǒng)的研究在這一快速發(fā)展中處于領(lǐng)先地位(None,2013)。例如,現(xiàn)在可以通過結(jié)合功能和結(jié)構(gòu)成像來識別選擇性神經(jīng)元群體并在突觸水平上剖析它們的電路。應用此類技術(shù)的第一系列研究側(cè)重于了解視網(wǎng)膜(Helmstaedter等,2013)和皮質(zhì)(Bock等,2011)水平的視覺回路。在更廣泛的范圍內(nèi),對皮層區(qū)域之間連接模式的定量描述現(xiàn)在變得可用,并且視覺皮層網(wǎng)絡的研究再次具有開創(chuàng)性(Markov等,2013)。因此,現(xiàn)在可以使用詳細的大規(guī)模視覺網(wǎng)絡模型來研究多個時間和空間尺度上信息處理的神經(jīng)生物學基礎(Chaudhuri等,2015;Kim等,2014;Potjans和Diesmann,2014)。隨著國際研究計劃(例如 BRAIN 和 HBP(hurnan brain project) 項目、艾倫研究所)的出現(xiàn),我們無疑正處于腦科學重大變革的潮流中。與此同時,計算機體系結(jié)構(gòu)的進展也使得模擬大規(guī)模模型成為可能。例如,多核架構(gòu)的出現(xiàn)(Eichner等,2009)、集群上的并行計算(Plesser等,2007)、GPU 計算(Pinto和Cox,2012)和神經(jīng)形態(tài)硬件的可用性(Temam和Héliot,2011),促進了真正仿生視覺系統(tǒng)的探索(Merolla等,2014)。然而,計算機和腦科學的這些技術(shù)進步需要大力推動理論研究。
各個領(lǐng)域遇到的理論困難需要一種新的跨學科方法來理解如何處理、表示和使用視覺信息。例如,目前尚不清楚皮質(zhì)區(qū)域的密集網(wǎng)絡如何充分分析外部世界的結(jié)構(gòu),部分問題可能來自使用一系列關(guān)于中級和高級視覺的框架問題(Cox,2014;Gur,2015;Kubilius等,2014)。我們不能只過分關(guān)注于某項具體的任務(如人臉、物體識別等),而忽視了視覺系統(tǒng)對整個外部世界的認知過程。協(xié)調(diào)生物視覺和計算機視覺是解決這些挑戰(zhàn)的關(guān)鍵。
在技術(shù)和工程領(lǐng)域,主要目標是創(chuàng)造能正確預測特定結(jié)果的產(chǎn)品,可解釋性通常排在第2位(Boon和Knuuttila,2009)。雖然有許多研究者認為深度學習仍不具備解釋生理的價值,但是他們還是認可其建模的準確性。高預測準確率對建模生物視覺系統(tǒng)也具有科學意義及應用價值(Cichy和Kaiser,2019),例如:1)醫(yī)療應用:利用DNN的預測能力制作神經(jīng)假體,替換患者受損的視覺皮層或視網(wǎng)膜,模仿視覺皮層的完整神經(jīng)動力學和物體識別行為(Rajalingham等,2018;Hong等,2016;Yu等,2020);2)大腦的非侵入式實驗控制(Yamins和Dicarlo,2016):通過使用深度網(wǎng)絡合成圖像,操縱視覺皮層V1(Walke等,2018)和V4(Bashivan等,2019)的神經(jīng)元達到預定的期望狀態(tài);3)神經(jīng)形態(tài)視覺芯片的研發(fā):通過模仿生物視覺系統(tǒng)加工處理信息的過程,以獲得與神經(jīng)元類似的脈沖響應,以啟發(fā)設計具備低時延、高動態(tài)范圍的神經(jīng)形態(tài)視覺傳感器,例如事件相機(Steffen等,2019)與脈沖相機(Huang等,2022;Zheng等,2021b)。
隨著學科交叉研究的不斷推進,現(xiàn)在已有許多神經(jīng)計算的研究者用各種深度學習的工具模擬大腦中各個腦區(qū),深度神經(jīng)網(wǎng)絡模型對生物視覺皮層的響應/行為的預測能力可以幫助解釋生物視覺系統(tǒng)(Khaligh-Razavi和Kriegeskorte,2014;Yamins等,2014;Cichy等,2016;Schrimpf等,2020)。Schrimpf等人(2020)啟動了一個名為BrainScore的開源項目,收集和提供了許多視覺皮層神經(jīng)元對各類視覺刺激的響應。無論是神經(jīng)計算還是人工神經(jīng)網(wǎng)絡的研究者,都可以通過上傳模型與平臺中其他模型對比對神經(jīng)元的相似性。
BrainScore提供了一個可量化對比基于神經(jīng)網(wǎng)絡的生物視覺系統(tǒng)編碼模型,通過這個排行榜,可以便于了解適用于不同視覺/行為任務的模型,從而找到最精確的模型來用于預測神經(jīng)元的響應,并應用于醫(yī)學輔助、神經(jīng)假體的研制。除了這種實際的經(jīng)濟及工程效益外,模型排行榜的形成也有助于相關(guān)領(lǐng)域的研究者,通過對比各種可行的模型與自己提出的模型,揭示何種結(jié)構(gòu)或組件有助于成功預測/建模神經(jīng)元對視覺刺激的響應。
除了預測能力外,神經(jīng)網(wǎng)絡對認知科學和生物視覺系統(tǒng)的建模同樣具備一定的可解釋性:1)模型可解釋的本質(zhì)是目的論的(Yamins等,2014;Marblestone等,2016):深度神經(jīng)網(wǎng)絡中神經(jīng)元的表現(xiàn)是為了做出響應后,可以履行它在啟用整個系統(tǒng)要完成的特定目標,例如,物體識別。2)網(wǎng)絡訓練的設置是由先驗決定的,且有具體意義的:雖然神經(jīng)網(wǎng)絡模型的訓練過程是非透明的,但是其架構(gòu)和目標函數(shù)都涉及具體任務/現(xiàn)象(Cichy等,2016;Kietzmann等,2018),與傳統(tǒng)的數(shù)學理論模型相同。3)精確的神經(jīng)網(wǎng)絡模型參數(shù)具有巨大的解釋潛力:通過可視化、文本描述或?qū)ふ掖韺嵗姆椒?Samek等,2017;Zhou等,2015;van der Maaten和Hinton,2008;Mahendran和Vedaldi,2015;Yosinski等,2015;Simonyan等,2014;Mordvintsev等,2015;Zhou等,2019;Girshick等,2016;Xu等,2018),可以使得DNN模型變得透明且具有生理可解釋性(Scholte,2018)。
自然科學的理想化觀點是,從理論中得出假設并在實驗中檢驗。但是,如果缺少成熟且令人信服的理論,就需要為新理論探索創(chuàng)造起點(Steinle,1997;Burian,1997)。這意味著模型從作為預測工具或類似于解釋理論的視角轉(zhuǎn)變?yōu)樘剿餍吕碚摰墓ぞ?Gelfert,2016)。
觀察科學實驗表明,探索是一種無所不在的策略。通過構(gòu)建和操作模型來學習模型,探索它們的行為方式并為觀察獲得新理論(Kisiel,1973)。神經(jīng)網(wǎng)絡可作為生物視覺系統(tǒng)的探索工具:1)原理驗證演示,即通過創(chuàng)建解決問題/完成目標的人工制品來展示特定方案的可行性。例如,第3節(jié)中在基于對象分類任務訓練的前饋神經(jīng)網(wǎng)絡,在特定對象識別任務上達到了與人類相似的性能水平,并且它們準確地預測了與對象相關(guān)的大腦活動(Khaligh-Razavi和Kriegeskorte,2014;Cichy等,2016;Yamins等,2014)。網(wǎng)絡模型的成功激發(fā)了進一步的研究,探索純自下而上的方法是否可用于解釋生物視覺系統(tǒng)。2)在不完全成熟的理論中,實驗和理論概念的發(fā)展是相互交織進行的(Feest,2012)。理論概念可能根據(jù)實驗結(jié)果進行改進和修改。建模可以具有與實驗相同的效果(Sterrett,2014;Waters,2007),它可能改變我們對生物視覺系統(tǒng)的傳統(tǒng)概念。Hong等人(2016)探索了受過對象分類訓練的 DNN如何預測不同的對象屬性。正如預期的那樣,對象類別在 DNN 的處理層次結(jié)構(gòu)中得到了越來越好的預測。鑒于成功的對象識別需要容忍類別正交屬性(例如位置或大小)的變化,假設這種正交對象屬性的預測沿著處理層次遞減似乎是合理的。令人驚訝的是,作者發(fā)現(xiàn)了相反的結(jié)果:DNN 預測的類別正交對象屬性隨著網(wǎng)絡的處理層次越來越好。這導致了一個挑戰(zhàn)當前物體視覺神經(jīng)理論的假設:靈長類動物的下顳 (IT) 皮層(被認為代表跨觀察條件的物體類別)也可能代表這種類別的正交屬性。模型探索和隨后的電生理數(shù)據(jù)分析證實,研究導致了大腦視覺系統(tǒng)的經(jīng)典雙流假設的重要改進(Hong等,2016)。
雖然目前有關(guān)深度神經(jīng)網(wǎng)絡的理論知識還較為缺乏,但是不可否認,人工神經(jīng)網(wǎng)絡近年來的發(fā)展提高了對生物神經(jīng)元響應的預測能力,并且探索、設計工作方式相仿的人工神經(jīng)網(wǎng)絡可以幫助解釋生物視覺系統(tǒng)中結(jié)構(gòu)/組件的工作原理,甚至探索新的生物視覺理論。另一方面,通過結(jié)合生物視覺系統(tǒng)的知識,可以幫助了解深度網(wǎng)絡的可解釋性與意義,幫助促進網(wǎng)絡模型的設計。人工神經(jīng)網(wǎng)絡的研發(fā)與對大腦功能及結(jié)構(gòu)的探索之間可以相輔相成,為實現(xiàn)新一代的通用人工智能帶來更多的啟發(fā)。
致 謝本綜述的論文整理得到了北京大學視頻與視覺技術(shù)國家工程研究中心多位成員的幫助,在此表示衷心感謝。