人類社會的發(fā)展就是不斷發(fā)現(xiàn)、理解與創(chuàng)造的過程。原始社會利用工具解決生活問題,發(fā)現(xiàn)現(xiàn)象并理解現(xiàn)象背后的規(guī)律,進(jìn)而改造甚至創(chuàng)造這個世界,這就是人類社會發(fā)展的脈絡(luò)。
1946年至今不到百年,計算機的發(fā)展為人類帶來了巨大的價值。
人工智能參與理解與改造世界
人工智能時代出現(xiàn)了3位深度學(xué)習(xí)的奠基人,也是2019年的圖靈獎獲得者。第一是Geoffrey Hinton(杰弗里·辛頓),反向傳播算法的代表人物;第二是Yann LeCun(楊立昆),卷積神經(jīng)網(wǎng)絡(luò)的代表人物;第三是Yoshua Bengio(約書亞·本吉奧),序列概率模型的代表人物。
那么人工智能將如何參與理解和改造世界?王恩東院士曾有一問,人類怎么預(yù)測蛋白質(zhì)的作用?諸如此類的復(fù)雜問題,靠人類的預(yù)測是無法做到的。以深度學(xué)習(xí)為代表的人工智能推動了例如科技、醫(yī)療、電子、金融等行業(yè)的快速發(fā)展,正如習(xí)近平總書記說的,人工智能具有賦能作用很強的頭雁效應(yīng)。
同時,我們更應(yīng)看到人工智能的局限性。
其一,自動駕駛領(lǐng)域中人工智能的相關(guān)應(yīng)用,已經(jīng)凸顯了其在魯棒性、遷移性及能效比等方面的問題;
其二,在醫(yī)療領(lǐng)域中的應(yīng)用凸顯了人工智能算法自適應(yīng)能力的局限,清華大學(xué)跟301醫(yī)院合作,用20萬條男性50歲的腦卒數(shù)據(jù)做訓(xùn)練,但在做預(yù)測時發(fā)現(xiàn)對女性腦卒疾病的預(yù)測準(zhǔn)確度并不高;
其三,人工智能可解決一定的問題,但其工作原理還沒有明確的可解釋性。
還有一個經(jīng)典案例——莫拉維克悖論。這臺波士頓動力的機器人能翻跟頭、跳舞和干很多復(fù)雜的事,但讓它把一個物體放到有障礙物的桌子上去,它做不到,這就是人工智能的問題所在——難以理解場景與對象間的關(guān)系,人工智能能干成年人干的活,但理解能力不如一歲的孩子。
新一代人工智能發(fā)展與腦科學(xué)
由此可見,人工智能還有很多瓶頸問題要解決。怎么解決呢?就需要追根溯源。我們發(fā)現(xiàn),深度網(wǎng)絡(luò)的發(fā)展很大程度上受到了腦科學(xué)的啟發(fā),僅僅是視覺聽覺部分腦功能的發(fā)現(xiàn),就極大推進(jìn)了人工智能的發(fā)展。如果有機會了解全腦,那會為人工智能帶來多大的變化?
我們來看深度學(xué)習(xí)和人類視覺的不同:生物視覺是宏觀和微觀回環(huán)交互的。比如畫畫首先畫輪廓,再畫細(xì)節(jié);人眼看東西也是,先看全場景,再聚焦某個小場景、某個小目標(biāo),是一個回環(huán)交互的過程,即高級視覺的抽象和初級視覺的邊緣檢測存在回環(huán)交互。但計算機視覺只能從微觀到宏觀,不能從宏觀到微觀,這就是人工智能的困惑。舉個例子,一頭熊照片的碎片,人眼看到一點點邊緣時,就知道這是一頭熊;而人工智能缺乏宏觀與微觀的交互,只能通過不斷地學(xué)習(xí)才知道是一頭熊。
可見,對場景當(dāng)中復(fù)雜關(guān)系的理解,是人工智能非常重要的部分。以前的人工智能針對小場景、少對象、簡單關(guān)系,用微觀圖像訓(xùn)練一個模型,設(shè)計一個算法,讓它去理解大場景的時候就無能為力了。未來的人工智能應(yīng)該具備對大場景、多對象、復(fù)雜關(guān)系的精準(zhǔn)理解,這樣才能夠彌補現(xiàn)有人工智能的不足和發(fā)展。
腦科學(xué)與新一代人工智能發(fā)展
腦科學(xué)研究人類如何思考,圖靈獎關(guān)注的是機器如何思考,這是兩條平行線。人工智能專家往往將腦科學(xué)的部分現(xiàn)象和模型應(yīng)用到人工智能里面去。這就給了我們一個啟發(fā):能不能在腦科學(xué)和人工智能之間架起一座橋梁,這座橋梁就是認(rèn)知計算。支撐這座橋梁的兩個橋墩,是多模態(tài)回路觀測及多層次認(rèn)知模型。通過解決微觀、宏觀的回環(huán)交互問題,來創(chuàng)造新一代人工智能。
該怎樣去做這些研究呢?通過觀測可以看到,小鼠有億級的神經(jīng)元,恒河猴有百億級的神經(jīng)元,人類有千億級的神經(jīng)元,神經(jīng)元的多少代表了聰明的程度。斑馬魚只有80萬~100萬個神經(jīng)元,它就可以工作。麻省理工學(xué)院(MIT)去年研究構(gòu)建了一款只有18個神經(jīng)元的機器人,它就能夠?qū)崿F(xiàn)自動駕駛。
2016年美國高級情報研究計劃署(IARPA)做了MICrONS項目,稱為“阿波羅腦計劃”,花費1億美元,研究1立方毫米大腦皮層10萬個神經(jīng)元是怎么連接的,參與項目的有美國卡耐基·梅隆大學(xué)(CMU)的Tai Sing Lee、哈佛大學(xué)的David Cox、貝勒醫(yī)學(xué)院的教授,這是個交叉的大項目。前兩位科學(xué)家都來過清華,專門討論10萬個神經(jīng)元活動到底怎么構(gòu)建,討論神經(jīng)元活動連接和機器學(xué)習(xí)算法如何建立關(guān)系。
清華開發(fā)了多維多尺度高分辨光學(xué)顯微成像系統(tǒng)(RUSH-II)來觀察小鼠、大鼠全腦神經(jīng)元的連接和它行為的變化。這是世界上最大視場、數(shù)據(jù)通量最高的高分辨光學(xué)顯微鏡,視場大小是1平方厘米,分辨率達(dá)到0.4微米,就是400納米,意味著不僅是神經(jīng)元,用來在神經(jīng)元之間傳遞信息的軸突和樹突的連接都可以看清楚。目前正在觀測獼猴的全腦神經(jīng)元活動,這是更接近人類的靈長類動物?,F(xiàn)在我們正在開展新的工作,將腦機和觀測儀器相結(jié)合,不但看神經(jīng)元連接,還要看放電過程,這樣能夠揭示意識是如何轉(zhuǎn)移的。
新一代人工智能按照這樣的路徑,不僅要做微觀觀測,還要做宏觀觀測。將CT核磁共振、全腦高分辨率光學(xué)觀測、多模態(tài)觀測結(jié)合起來,才能理解神經(jīng)元之間傳遞了什么信息。我們也在跟數(shù)學(xué)家討論,并構(gòu)建新型的網(wǎng)絡(luò)模型,包含了記憶環(huán)路、生物機制、物理的熵平衡原理,來推導(dǎo)新型的神經(jīng)網(wǎng)絡(luò)模型。我們需要考慮生物化學(xué)機制的發(fā)覺,數(shù)學(xué)物理機制的約束,短期記憶、長期記憶的過程,新一代神經(jīng)網(wǎng)絡(luò)推理的自增強等很多方面,這是我們從腦科學(xué)到人工智能做的事情。
大場景多對象智能理解
人工智能能夠拓展人類發(fā)現(xiàn)、理解與創(chuàng)造的能力。人眼的感知能力會受到空間、時間、波長等多個維度的限制。人工智能可以具備超越人類的感知能力,利用仿生光學(xué)復(fù)現(xiàn)鷹眼、貓眼、果蠅等的感知能力;同時大量的信息凸顯了人類自身的處理能力不足,必須交給機器來繼續(xù)感知。
人眼感知視覺的像素數(shù)不到6億,但是機器視覺可以達(dá)10億甚至百億像素,感知能力更強,帶來豐富的信息。對大場景范圍中多動態(tài)目標(biāo)之間復(fù)雜關(guān)系的理解,就需要構(gòu)建新一代人工智能模型,讓它看得全、看得清、看得準(zhǔn),要做一個大場景多對象數(shù)據(jù)平臺。但寬視場和高分辨的矛盾難以解決,這是物理上面臨的挑戰(zhàn)。因此我們提出了非結(jié)構(gòu)化的概念和原型系統(tǒng),很多相機長得不一樣,可以自調(diào)整,魯棒性非常高。以此為基礎(chǔ)構(gòu)建數(shù)據(jù)平臺,是10億像素的大場景多對象數(shù)據(jù)視頻平臺PANDA,假設(shè)這是清華主樓門口,非常多的人群在邁步走,我們可以對這些對象實時識別和理解;再假設(shè)這是馬拉松比賽中的萬人人臉識別,就是如何處理和解決大場景、多對象、復(fù)雜關(guān)系。目前在CVPR、ICCV還有2021全球人工智能技術(shù)大會上做了數(shù)據(jù)的公開并且比賽,有6000多支隊伍參加了這場比賽。剛才我還跟王恩東院士討論,我們是不是可以建一個大的數(shù)據(jù)平臺,來解決復(fù)雜場景中復(fù)雜關(guān)系的理解問題。
從感知智能怎樣走向認(rèn)知智能,第一個要解決模型問題,第二個要解決數(shù)據(jù)問題。認(rèn)知智能能夠促進(jìn)大范圍動態(tài)場景時空關(guān)聯(lián)建模分析,支撐數(shù)字城市構(gòu)建與理解,可以構(gòu)建物理世界的孿生數(shù)字城市。目前我們正在杭州開展工作,做一個數(shù)字孿生的城市形態(tài),希望為智慧城市作出貢獻(xiàn)。
總之,我們要從腦科學(xué)出發(fā),來構(gòu)建新一代人工智能的理論、方法和技術(shù),同時構(gòu)建一個大的數(shù)據(jù)平臺來驗證理論和模型的可行性。在未來,新一代人工智能需要大場景、多對象的數(shù)據(jù)平臺,大到能夠從物理城市構(gòu)建孿生的數(shù)字城市,最后構(gòu)建智慧城市,這樣一來,我們新一代的人工智能理論、模型和算法就初具雛形了。
(內(nèi)容來源于戴瓊海院士在2021人工智能計算大會上的主題演講)
專家簡介
戴瓊海,1964年出生,自動控制學(xué)家,上海市人?,F(xiàn)任清華大學(xué)教授。長期致力于立體視覺、計算攝像學(xué)和人工智能等領(lǐng)域的基礎(chǔ)理論和關(guān)鍵技術(shù)創(chuàng)新,近年來主要從事國際交叉前沿——腦科學(xué)與新一代人工智能理論的研究,包括多維多尺度計算攝像儀器、光電認(rèn)知計算的理論架構(gòu)、算法與芯片等。主持承擔(dān)原“973”項目、國家自然科學(xué)基金重大儀器項目等國家級重大科研項目,以第一完成人在立體視頻重建與顯示、新一代立體視覺理論與關(guān)鍵技術(shù)等方面獲得突破性成果,分別在2016年度獲國家科技進(jìn)步獎二等獎、2012年度獲國家技術(shù)發(fā)明獎一等獎和2008年度獲國家技術(shù)發(fā)明獎二等獎。被中共北京市委、市政府授予2017—2018年度“首都精神文明建設(shè)獎”。