韓叢耀
摘 要:本項(xiàng)構(gòu)想擬通過對(duì)生物視覺信息共軛關(guān)系的研究,提取基于生物視覺物理和生理機(jī)制的系譜軸(Paradigm)和毗鄰軸(Syntagm)特征,用數(shù)學(xué)語言描述各特征的主要參數(shù),運(yùn)用遺傳程序設(shè)計(jì)的編碼方法和多目標(biāo)優(yōu)化算法計(jì)算優(yōu)化這些參數(shù),構(gòu)建相應(yīng)的生物視覺信息處理機(jī)制模型,并運(yùn)用到實(shí)際的中華藝術(shù)視覺信息數(shù)據(jù)庫建設(shè)中。
關(guān)鍵詞:視覺信息 數(shù)據(jù)庫 計(jì)算機(jī)視覺
中圖分類號(hào):G203文獻(xiàn)標(biāo)識(shí)碼:B 文章編號(hào):1673-8454(2009)17-0047-04
一、本項(xiàng)構(gòu)想的理論依據(jù)
現(xiàn)代科學(xué)研究表明,信息的產(chǎn)生、獲取、儲(chǔ)存、傳播和處理等都是可以被數(shù)學(xué)語言描述的,Claude Shannon和Warren Weaver早在1949年出版的著作The Mathematical Theory of Communication中即有論述,生物視覺信息也不例外。近年來在數(shù)學(xué)語言基礎(chǔ)上發(fā)展起來的計(jì)算機(jī)視覺技術(shù)為視覺信息的數(shù)字化奠定了基礎(chǔ)。
計(jì)算機(jī)視覺是一門充滿艱難但又發(fā)展迅速的學(xué)科。20世紀(jì)80年代初Marr等人提出了“視覺是可以計(jì)算的”,這一創(chuàng)造性的觀點(diǎn)引發(fā)了激烈的討論和全世界計(jì)算機(jī)視覺研究的熱潮。對(duì)于人類視覺來說,它是從視網(wǎng)膜感知到的二維圖像中提取出有關(guān)場(chǎng)景中的三維物體的形狀和空間位置等的定量信息;而計(jì)算機(jī)視覺是研究如何使機(jī)器具有類似人類視覺的功能,屬于人工智能的重要組成部分,其研究具有雙重意義:一方面是為了建立圖像理解系統(tǒng)以自動(dòng)描述真實(shí)的圖像場(chǎng)景,使計(jì)算機(jī)等智能系統(tǒng)具有“看”的能力;另一方面也為了進(jìn)一步理解生物性視覺,運(yùn)用計(jì)算機(jī)視覺的計(jì)算模擬結(jié)果促進(jìn)對(duì)人類自身視覺機(jī)理的認(rèn)識(shí),提升人類視覺認(rèn)知水平。
計(jì)算機(jī)視覺技術(shù)現(xiàn)在已經(jīng)被應(yīng)用到各種智能系統(tǒng)中,如制造業(yè)、檢驗(yàn)、文檔分析、醫(yī)療診斷和軍事等。一些發(fā)達(dá)國家,如美國,把計(jì)算機(jī)視覺的研究列為對(duì)經(jīng)濟(jì)、科技有著廣泛影響的科學(xué)和工程中的重大基本問題,即所謂的重大挑戰(zhàn)。
目前計(jì)算機(jī)視覺主要在以下幾個(gè)方面得到應(yīng)用:
(1)計(jì)算機(jī)與人之間的交互。正在興起的語音識(shí)別和字符識(shí)別使得傳統(tǒng)的交互方式正在發(fā)生變革;
(2)自動(dòng)導(dǎo)航。三維計(jì)算機(jī)視覺獲取外界環(huán)境的位置、形狀和運(yùn)動(dòng)速度,可以用于導(dǎo)彈的末端制導(dǎo);
(3)生產(chǎn)自動(dòng)化。裝配焊接或者其他作業(yè)的機(jī)器人在配有視覺系統(tǒng)后具有更高的作業(yè)精度和對(duì)環(huán)境的適應(yīng)能力;
(4)醫(yī)學(xué)應(yīng)用。計(jì)算機(jī)輔助外科手術(shù)等;
(5)三維場(chǎng)景建模與顯示。近年來計(jì)算機(jī)視覺和圖形學(xué)的發(fā)展產(chǎn)生了基于圖像的建模和真實(shí)感繪制技術(shù);
(6)空間探測(cè)。NASA噴推實(shí)驗(yàn)室研制的視覺系統(tǒng)已經(jīng)成功應(yīng)用到火星探測(cè)機(jī)器人等。
在計(jì)算機(jī)視覺得到應(yīng)用的同時(shí),目前的發(fā)展還面臨著一些困難,進(jìn)展也比較緩慢。與計(jì)算機(jī)視覺的應(yīng)用需求相比,計(jì)算機(jī)視覺的建模和模擬研究尚處在初級(jí)階段,雖然計(jì)算機(jī)視覺經(jīng)過30余年的發(fā)展已經(jīng)建立了一套獨(dú)立的計(jì)算理論和算法,但是它離生物視覺系統(tǒng)的仿真要求還有很大的差距。這也大大制約了其應(yīng)用,反過來也約束了計(jì)算機(jī)視覺的發(fā)展。分析原因有如下幾點(diǎn):
第一,幾十年來,雖然神經(jīng)生物學(xué)、心理學(xué)和認(rèn)知科學(xué)對(duì)生物視覺系統(tǒng)從解剖學(xué)、電生理過程和信息處理等不同角度進(jìn)行了大量的卓有成效的研究,但是對(duì)視覺認(rèn)知過程的認(rèn)識(shí)還遠(yuǎn)遠(yuǎn)不夠,尤其是對(duì)大腦皮層中各層次視覺信息處理的認(rèn)識(shí)還較為膚淺。
第二,研究表明,大腦神經(jīng)細(xì)胞構(gòu)成一個(gè)極其復(fù)雜的巨大的互連網(wǎng)絡(luò),這種神經(jīng)網(wǎng)絡(luò)在體系結(jié)構(gòu)上與當(dāng)前計(jì)算機(jī)體系結(jié)構(gòu)有很大差別,要實(shí)現(xiàn)大量的人工神經(jīng)元的互連網(wǎng)絡(luò),目前在技術(shù)上仍很困難。
第三,在許多應(yīng)用場(chǎng)合,視覺系統(tǒng)要觀察的環(huán)境比較簡(jiǎn)單,如最早的計(jì)算機(jī)視覺系統(tǒng)實(shí)驗(yàn)源于上世紀(jì)60年代,其環(huán)境被限制在所謂的積木世界,即周圍的物體都是一些多面體,需要識(shí)別的目標(biāo)都是簡(jiǎn)單的點(diǎn)、線、面的組合。在此基礎(chǔ)上開展的計(jì)算機(jī)視覺研究顯然不需要復(fù)雜的建模,這也導(dǎo)致大量的研究仍被局限在某些特定場(chǎng)合。
基于這樣的原因,很多計(jì)算機(jī)視覺學(xué)者認(rèn)為,只要從信息轉(zhuǎn)換的角度真正理解了視覺信息處理過程并發(fā)展出一套信息處理的計(jì)算理論,用哪種體系結(jié)構(gòu)去實(shí)現(xiàn)它是次要的。絕大多數(shù)學(xué)者的研究集中于計(jì)算機(jī)視覺的人工智能符號(hào)論方面,從理論計(jì)算機(jī)科學(xué)的角度去理解和研究計(jì)算機(jī)視覺,研究成果大都體現(xiàn)為某種具體的算法或者某個(gè)具體的應(yīng)用,它們能夠?qū)δ硞€(gè)特定的圖像類型或者某些特定的場(chǎng)合起到良好的識(shí)別效果,但是普適性不足。究其原因,主要是絕大多數(shù)學(xué)者忽略了生物視覺本身的生理和心理特點(diǎn),僅僅從視覺圖像的物理特征去認(rèn)知計(jì)算機(jī)視覺,這必然會(huì)導(dǎo)致研究的局限性。
我們認(rèn)為通過幾億年進(jìn)化來的生物視覺系統(tǒng)必然有其先進(jìn)性和合理性。從現(xiàn)有的神經(jīng)生理學(xué)、生物學(xué)、心理學(xué)、腦科學(xué)和認(rèn)知科學(xué)對(duì)生物視覺系統(tǒng)的研究成果出發(fā),結(jié)合計(jì)算機(jī)等現(xiàn)代科技工具,利用現(xiàn)有的如圖像處理和模式識(shí)別等理論和算法,找出生物視覺的機(jī)理,才是計(jì)算機(jī)視覺科學(xué)發(fā)展的真正方向。
腦科學(xué)研究表明:眼睛的晶狀體將看到的物象聚焦并上下顛倒呈現(xiàn)在眼球后的視網(wǎng)膜上,如圖1所示,在視網(wǎng)膜上散布著許多視桿細(xì)胞(Rod)和視錐細(xì)胞(Cone)將感知到的物象轉(zhuǎn)換成信息進(jìn)入到視神經(jīng),如圖2所示。經(jīng)圖像轉(zhuǎn)換(The Switchboard)、知覺視神經(jīng)傳導(dǎo),如圖3所示,初級(jí)視皮層(Primary Visual Cortex)和大腦許多其他的視覺區(qū)域繼續(xù)對(duì)視覺信息加以細(xì)致的分析,顏色(Color)、運(yùn)動(dòng)(Motion)、形狀(Form)和深度(Depth)的特性被強(qiáng)化分析,如圖4所示。但大腦的識(shí)別記憶更為簡(jiǎn)約化,如圖5所示,只有兩點(diǎn):顳葉皮層(Temporal Cortex)的神經(jīng)細(xì)胞對(duì)形狀敏感:是什么;頂壁皮層(Parietal Cortex)的神經(jīng)細(xì)胞對(duì)位置敏感:在哪里。我們的理論出發(fā)點(diǎn)是遵從生物視覺信息的客觀規(guī)律,對(duì)初級(jí)視皮層處的顏色、運(yùn)動(dòng)、形狀和深度進(jìn)行仿真,即使用計(jì)算機(jī)數(shù)字語言進(jìn)行描述。
Marr立足于計(jì)算機(jī)科學(xué)的視覺計(jì)算理論,系統(tǒng)地概括了心理生理學(xué)和神經(jīng)生理學(xué)等方面取得的重要成果,依然是目前計(jì)算機(jī)視覺研究中較為完善的理論。它使計(jì)算機(jī)視覺研究有了一個(gè)比較明確的體系,并且大大推動(dòng)了計(jì)算機(jī)視覺研究的發(fā)展。按照Marr的理論,視覺過程可以分為三個(gè)階段:早期、中期和后期。對(duì)應(yīng)著三個(gè)視覺過程,產(chǎn)生了計(jì)算機(jī)視覺中的三個(gè)層次研究?jī)?nèi)容:
(1)低層次視覺:表示二維圖像中的重要信息,主要是圖像中的亮度變化、位置及其幾何分布和組織結(jié)構(gòu);
(2)中間層次視覺:以觀察者為中心的坐標(biāo)系中,表示可見表面的方向、深度值和不連續(xù)的輪廓;
(3)高層次視覺:以物體為中心的坐標(biāo)系中,用由體積基元和面積基元構(gòu)成的模塊化多層次表示,描述形狀及其空間組織形式。
目前,大量的研究集中在處理輸入原始圖像的低層次視覺領(lǐng)域,發(fā)展了大量的圖像處理技術(shù)和算法,如圖像濾波、圖像增強(qiáng)、邊緣檢測(cè)、線條檢測(cè)、角點(diǎn)檢測(cè)等,這一過程還包含了各種圖像變換、圖像紋理檢測(cè)和圖像運(yùn)動(dòng)檢測(cè)等。對(duì)中高層次視覺的研究相對(duì)要少得多,而對(duì)生物視覺處理機(jī)制建模更是鮮見。
作為人類感知系統(tǒng)的組成之一,視覺可以被看作是一種元語言(元語言具有言語的自然屬性;語言更多地具有人為屬性。元語言也可以被看作是一種生物性圖像,具有可被量化的表征形態(tài))。對(duì)視覺語言的這種“概念”的形成,并不表現(xiàn)在整個(gè)的形體上,而只是在某一視覺構(gòu)成元素上有強(qiáng)烈的暗示性,但組織這種語言的過程基本是視覺的。為容易使用建立的一種視覺語言模式或建立的一種視覺傳播模式,對(duì)運(yùn)行的程序要加以諸多的限制或僅限于視覺界面(或稱生物性圖像)的共軛關(guān)系討論,這種限制越具體,越容易找到這種函數(shù)關(guān)系。
在對(duì)人類視覺元語言的解構(gòu)中,Marr曾建構(gòu)過一個(gè)三維的模式,從這里我們可以清晰地看到圍繞著他建立的軸心轉(zhuǎn)動(dòng),是對(duì)視覺的和語言的理解,同時(shí)又形成概念。概念既存在于頭腦中,也凸現(xiàn)于視覺中;既是一種理性的要求,也是一種感性的認(rèn)識(shí)。如圖6所示。
圖6中的“意識(shí)域”類似于我們將要討論的視覺共軛界面,“意識(shí)域”能清晰地剖析視覺語言的結(jié)構(gòu),它是建構(gòu)語言的邏輯起點(diǎn)。但是,我們也發(fā)現(xiàn),“意識(shí)域”只能夠部分說明視覺語言,卻無法在此基礎(chǔ)上建構(gòu)視覺語言,因?yàn)檫@個(gè)“意識(shí)”仍是視覺語言之外的——文字語言的范疇。這里,我們必須強(qiáng)調(diào)指出:如果借用其他語言元素作為建構(gòu)另一種新語言的基礎(chǔ)或稱邏輯起點(diǎn),本身就是一個(gè)邏輯錯(cuò)誤。
Marr這種建構(gòu)從生物視覺語言的角度來看是有一定不足的,但在“界面”的另一側(cè)確又使我們獲得了豐滿的理解,因?yàn)楦拍顚?duì)于觀察者來講是作為一個(gè)整體來理解的,這也正應(yīng)驗(yàn)了Jackendoff的觀點(diǎn):“一切概念性整體,都具有其視覺組成部分”。因此,選擇“概念”作為對(duì)形式與內(nèi)容的研究視角是可以成立的,因?yàn)楦拍钤谀撤N意義上就是一種視覺構(gòu)成。研究視覺界面,首先要研究視覺圖像的構(gòu)成,通過這條途徑有可能使問題簡(jiǎn)化,從而約簡(jiǎn)出最小公分母,使得討論變得簡(jiǎn)單。下面就讓我們看看構(gòu)成視覺元語言(生物視覺信息)的視覺諸元。
每一個(gè)物理元素都能產(chǎn)生一種或幾種心理效能,諸種元素構(gòu)成了視覺主體,圖像中有了視覺主體就可能去表達(dá)主題(內(nèi)容)了,有了這種主題,概念的表達(dá)就變得容易了。圖7是物理元素、視覺諸元構(gòu)成視覺圖像(畫面文本)的效果。
這樣一種構(gòu)成關(guān)系似乎變得較為清楚,也容易被人們接受。從這里可以看出,在“物理源”與“心理場(chǎng)”之間確實(shí)存在著一個(gè)共軛界面,它是物理元素與視覺元素轉(zhuǎn)換的關(guān)節(jié)點(diǎn)?!拔锢碓础迸c“心理場(chǎng)”如圖8所示。
對(duì)于視覺語言來講,圖像的構(gòu)成形式是極其重要的,構(gòu)成視覺語言的物理元素都在圖像的構(gòu)成形式上——點(diǎn)、線、色彩、影調(diào)等,如圖9所示。沒有這些物理元素,視覺語言就無從談起。沒有這樣的“物理源”,其視覺之后的“心理場(chǎng)”就無法獲得,甚至連“視覺”也產(chǎn)生不了,我們?cè)噲D尋找的視覺共軛界面就只能是假設(shè)。
至此,我們可以清晰地感知到視覺界面的存在,但還無力將其用科學(xué)的方法從感覺中托舉出來。我們好像走入了19世紀(jì)藝術(shù)批評(píng)家約翰·羅斯金的“感情誤置”的理論中:任何一種被我們歸結(jié)為外部事物的性質(zhì),但又無法得到科學(xué)證明的東西,實(shí)際上都只不過是我們內(nèi)在情感的反映。約翰·羅斯金這句話表明外部事物的性質(zhì)可以歸結(jié)為我們“內(nèi)在情感的反映”,因此,上文所推論的視覺元語言共軛界面就一定實(shí)實(shí)在在地存在著;既然情感可以被概念化——概念也可以由物理元素構(gòu)成——構(gòu)成元素可以引起我們的心理效能,那么,引起視覺語言的“物理源”就一定存在著。如果“心理場(chǎng)”和“物理源”都存在著,就一定會(huì)有共軛的反應(yīng)機(jī)制,不管這種反映多么龐大和雜亂,如果用自然科學(xué)的方法,有耐心,善于發(fā)現(xiàn),就一定能夠從中一點(diǎn)點(diǎn)地剝離,最終逼近視覺界面,將其一一對(duì)應(yīng)的關(guān)系建立起來,將其共軛的函數(shù)關(guān)系建立起來。
視覺界面具有與生俱來的生物特性,又兼?zhèn)淞宋锢砼c心理的雙重表征特性。視覺界面語言既有指涉性、象征性、類比性特征,又具有痕跡性特征。世界上每一種事物都有其固定不變的物理成分,都有其凸顯本質(zhì)特征的因子。如果將研究的視點(diǎn)錨固在生成生物視覺信息的元素上,通過對(duì)視覺界面的量化研究,就可以約簡(jiǎn)出構(gòu)成視覺元素的最小公分母。因?yàn)槿魏紊镆曈X信息都有其共軛的物象,而共軛關(guān)系是可以建模討論的。最嚴(yán)密的科學(xué)研究應(yīng)是任何人都無法對(duì)其自身的特征提出異議,而只能考慮其可能性。本研究就是確定可能性和不可能性之極限。人文科學(xué)和自然科學(xué)的基礎(chǔ)都在于感官的認(rèn)知,通過建立其表述生物視覺特征的顏色(Color)、運(yùn)動(dòng)(Motion)、形狀(Form)和場(chǎng)深(Depth)等軸向數(shù)值,可以將其轉(zhuǎn)換成數(shù)字式的分析量值,在定性的前提下取得定量的表征數(shù)據(jù),取精用宏、盡微至廣。通過建立視覺界面系譜軸和輔助的毗鄰軸,我們可以構(gòu)建一個(gè)生物視覺中高層次識(shí)別的模型,為計(jì)算機(jī)視覺應(yīng)用奠定基礎(chǔ)。
具體思路就是:以量化視覺界面系譜軸和毗鄰軸為基礎(chǔ),運(yùn)用遺傳程序設(shè)計(jì)的編碼方法和多目標(biāo)優(yōu)化算法,計(jì)算優(yōu)化量化目標(biāo)的各項(xiàng)參數(shù),構(gòu)建相應(yīng)的生物視覺信息處理機(jī)制模型。
系譜軸和毗鄰軸的基本模型如圖10所示。