任紅雨
對于圍棋人機(jī)大戰(zhàn),很多人折服于AlphaGo的精準(zhǔn)、聰明和大局意識。AlphaGo的技術(shù)架構(gòu)采用的是模仿人類大腦神經(jīng)的模式,通過深度學(xué)習(xí)把人工神經(jīng)網(wǎng)絡(luò)的層級大大增加,提升了計算能力。AlphaGo的勝利,讓如今已經(jīng)很火的深度學(xué)習(xí)益發(fā)成為人工智能領(lǐng)域的焦點。
對于圍棋人機(jī)大戰(zhàn),很多人折服于AlphaGo的精準(zhǔn)、聰明和大局意識。人們問AlphaGo為什么如此厲害,工程師給出的答案是它有“兩個大腦”:一個輸入了3000萬盤人類頂級棋手對弈數(shù)據(jù),通過“自我對戰(zhàn)”來進(jìn)行增強(qiáng)學(xué)習(xí),改善此前的決策網(wǎng)絡(luò);另一個通過價值網(wǎng)絡(luò)來進(jìn)行整體局面判斷,決策網(wǎng)絡(luò)與價值網(wǎng)絡(luò)協(xié)作決定落子位置。
AlphaGo的技術(shù)架構(gòu)采用的是模仿人類大腦神經(jīng)的模式,通過深度學(xué)習(xí)把人工神經(jīng)網(wǎng)絡(luò)的層級大大增加,提升了計算能力。AlphaGo的勝利,讓如今已經(jīng)很火的深度學(xué)習(xí)益發(fā)成為人工智能領(lǐng)域的焦點。
人工神經(jīng)網(wǎng)絡(luò)起伏
2011年,谷歌X實驗室的研究人員從YouTube視頻中抽取了1000萬張靜態(tài)圖片,把它“喂”給谷歌大腦,在這些圖片中尋找重復(fù)出現(xiàn)的模式。谷歌大腦就是一個采用了深度學(xué)習(xí)技術(shù)的大型神經(jīng)網(wǎng)絡(luò)模型,由1000臺電腦組成。三天后,谷歌大腦在沒有人類幫助的情況下,從這些圖片中發(fā)現(xiàn)了“貓”。這在人工智能界引起了很大轟動,被認(rèn)為是深度學(xué)習(xí)復(fù)興的里程碑。
簡單地說,人工神經(jīng)網(wǎng)絡(luò)是一種從信息處理角度對人腦神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象,按不同的連接方式組成不同網(wǎng)絡(luò)的算法數(shù)學(xué)模型。它由一層一層的神經(jīng)元構(gòu)成,層數(shù)越多就越深。而所謂深度學(xué)習(xí)就是用多層神經(jīng)元構(gòu)成的神經(jīng)網(wǎng)絡(luò),以達(dá)到機(jī)器學(xué)習(xí)的功能。這些多層的電腦網(wǎng)絡(luò)像人類大腦一樣,可以收集信息,并基于收集到的信息產(chǎn)生相應(yīng)的行為,也就是“認(rèn)識”事物,并做出行動。
人工智能的發(fā)展和人們對大腦的認(rèn)知水平相輔相成。1943年,神經(jīng)生理學(xué)家沃倫·麥卡洛克(Warren McCulloch)與精通數(shù)學(xué)的學(xué)生沃爾特·皮茨(Walter Pitts)合作,一起提出了神經(jīng)元網(wǎng)絡(luò)模型,沿著圖靈關(guān)于通用計算機(jī)的論述,他們認(rèn)為人類神經(jīng)元具有計算機(jī)1和0那樣的邏輯功能,指出了神經(jīng)元的數(shù)學(xué)描述和網(wǎng)絡(luò)結(jié)構(gòu)。數(shù)學(xué)概念的介入,為人類理解并創(chuàng)造智能提供了途徑,開啟了人工神經(jīng)網(wǎng)絡(luò)時代。
在上世紀(jì)四五十年代,計算機(jī)還是一個新鮮產(chǎn)物,第一代人工智能研究者急切地幻想成熟的人工智能技術(shù)近在眼前。但當(dāng)研究者發(fā)現(xiàn)實際的知識里蘊含著巨大復(fù)雜度時,他們漸漸不再樂觀,尤其是遇到一個感知問題,比如說人臉與面具或猴子臉的區(qū)別到底在哪里。許多研究者與學(xué)者花了幾十年時間對計算機(jī)識別物體所必備的不同特征的規(guī)則進(jìn)行手動編程。但是找出特征是件難事,耗費很多時間,并且需要專業(yè)知識,急需研究者找到更好的解決方法。
當(dāng)時有位叫馬文·明斯基(Marvin Minsky)的科學(xué)家,在1951年建造了第一臺神經(jīng)網(wǎng)絡(luò)機(jī)SNARC,后來被譽(yù)“人工智能之父”。
1957年,康奈爾大學(xué)的實驗心理學(xué)家弗蘭克·羅森布拉特(Frank Rosenblatt)在一臺IBM-704計算機(jī)上模擬實現(xiàn)了一種他發(fā)明的叫“感知器”的神經(jīng)網(wǎng)絡(luò)模型,依據(jù)的原理是當(dāng)時人們理解的學(xué)習(xí)機(jī)制:當(dāng)一個神經(jīng)元反復(fù)激活另一個神經(jīng)元,細(xì)胞就提高了它們的連接效率。
感知器占據(jù)了整個實驗室,它包括三層結(jié)構(gòu),運作機(jī)制并不復(fù)雜。感知器的一端,400個光傳感器模擬視網(wǎng)膜;傳感器多次連接一組512個電子觸發(fā)器,當(dāng)它通過一個特定的可調(diào)節(jié)的興奮閾值時就會像神經(jīng)元一樣激發(fā)。這些觸發(fā)器連接到最后一層,當(dāng)一個物體與感知器受訓(xùn)見過的對象相互匹配時,它就會發(fā)出信號。這個模型可以完成一些簡單的視覺處理任務(wù)。
1958年夏,羅森布拉特和他的贊助方美國海軍舉行新聞發(fā)布會?!都~約時報》報道說:“海軍透露了一種電子計算機(jī)的雛形,它將能夠走路、說話、看、寫、自我復(fù)制并感知到自己的存在……據(jù)預(yù)測,不久以后,感知器將能夠識別出人并叫出他們的名字,立即把演講內(nèi)容翻譯成另一種語言并寫下來?!?/p>
明斯基于1969年出版了《感知器》一書,暗示感知器具有重大局限,不能解決人工智能的問題。這本書的殺傷力是巨大的,隨即神經(jīng)網(wǎng)絡(luò)研究便因為聯(lián)結(jié)主義的式微被打入冷宮,所有原來的政府資助機(jī)構(gòu)也逐漸停止對神經(jīng)網(wǎng)絡(luò)的研究。1971年,羅森布拉特43歲生日那天因游船事故去世,有傳言他是自殺。后來神經(jīng)網(wǎng)絡(luò)得勢后,當(dāng)時受壓迫的科學(xué)家認(rèn)為明斯基不可原諒,紛紛對其口誅筆伐。美國電氣電子工程師協(xié)會(IEEE)于2004年設(shè)立了羅森布拉特獎,以獎勵在神經(jīng)網(wǎng)絡(luò)領(lǐng)域的杰出研究。
上世紀(jì)80年代初,加州理工生物物理教授霍普菲爾德(Hopfield)提出了一種新的神經(jīng)網(wǎng)絡(luò),可以解決一大類模式識別問題,還可以給出一類組合優(yōu)化問題的近似解。一幫早期神經(jīng)網(wǎng)絡(luò)研究的幸存者,在DNA雙螺旋結(jié)構(gòu)發(fā)現(xiàn)者弗朗西斯·克里克(Francis Crick)和認(rèn)知科學(xué)家唐·諾曼(Don Norman)的鼓勵下,以加州大學(xué)圣地亞哥分校為基地開始了“聯(lián)結(jié)主義”運動,領(lǐng)導(dǎo)者是兩位心理學(xué)家外加一位計算機(jī)科學(xué)家杰夫·辛頓(Geoffrey Hinton)。
在學(xué)術(shù)上,人工智能有三種學(xué)派:符號主義、聯(lián)結(jié)主義和行為主義。符號主義認(rèn)為人工智能源于數(shù)理邏輯,行為主義認(rèn)為人工智能源于控制論,而聯(lián)結(jié)主義認(rèn)為人工智能源于仿生學(xué),特別是對人腦模型的研究,人工神經(jīng)網(wǎng)絡(luò)是這一理論的殺手锏。人類大腦的思維分為抽象(邏輯)思維、形象(直觀)思維和靈感(頓悟)思維三種方式。20世紀(jì)80年代,在符號主義學(xué)派影響下,許多人工智能的專家系統(tǒng)被制造出來。它們的抽象思維異常強(qiáng)大,在解決邏輯性強(qiáng)的專業(yè)問題上,速度比人類快很多,比如醫(yī)療診斷、礦產(chǎn)勘探等問題。但是這類人工智能欠缺人類最基本的感知能力,連貓和狗都區(qū)別不開,人工神經(jīng)網(wǎng)絡(luò)有機(jī)會展示出它解決機(jī)器形象思維的能力。
起初,辛頓等人的研究并不順利,但是他們相信,計算能力的增強(qiáng)以及數(shù)字?jǐn)?shù)據(jù)爆炸將會再次推動人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,自己的算法將給世界帶來驚奇。
2006年,辛頓在《科學(xué)》雜志上發(fā)表了有關(guān)深度學(xué)習(xí)的論文,重新審視深度學(xué)習(xí)方法,將深度學(xué)習(xí)的性能提升到了一個新的臺階。
2009年,辛頓小組獲得了意外成功,他們的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在語音識別應(yīng)用中取得了重大突破,轉(zhuǎn)換精度突破世界紀(jì)錄,錯誤率比以前少了25%。有評論說,辛頓小組的研究讓語音識別領(lǐng)域縮短了至少10年的時間。他們的突破吸引了各大公司的注意,蘋果公司把研究成果應(yīng)用到了Siri語音識別系統(tǒng)上。從此,深度學(xué)習(xí)的流行便一發(fā)不可收。
2010年,美國國防部DARPA計劃首次資助深度學(xué)習(xí)項目,參與方有斯坦福大學(xué)、紐約大學(xué)和NEC美國研究院。2012年,深度學(xué)習(xí)技術(shù)在圖像識別領(lǐng)域取得驚人的成果,在ImageNet評測上將錯誤率從26%降低到15%。同年,制藥公司將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于藥物活性預(yù)測問題取得世界范圍內(nèi)最好結(jié)果。2013年4月,麻省理工學(xué)院《技術(shù)評論》雜志將深度學(xué)習(xí)列為2013年十大突破性技術(shù)之首。
研究人員認(rèn)為,深度學(xué)習(xí)是個很好的解決方案。它能從抓取的數(shù)據(jù)中生成自己的規(guī)則,提供一種采用受大腦啟發(fā)機(jī)制的對稱性來完成類大腦功能。這種策略需要模擬神經(jīng)元并將之組織成多個層次。拿人臉識別來說,當(dāng)系統(tǒng)面對一張圖片時,學(xué)習(xí)系統(tǒng)的第一層僅能簡單區(qū)分其中的明暗像素點。下一層就能意識到某些像素點構(gòu)成了邊界,再往下一層就能區(qū)別水平和垂直線條。最后一層能識別出眼睛,并且認(rèn)識到人臉中通常有的兩只眼睛。
如今,神經(jīng)網(wǎng)絡(luò)研究如日中天。由于擅長處理語音、視覺以及其他復(fù)雜人機(jī)交互,神經(jīng)網(wǎng)絡(luò)已經(jīng)被谷歌、Facebook、微軟、百度等技術(shù)先驅(qū)欣然采納。在這些公司里,神經(jīng)網(wǎng)絡(luò)已經(jīng)證明了一種有效的可以吸收大量數(shù)據(jù)并從中進(jìn)行有價值預(yù)測的處理方式,比如怎樣讓你的數(shù)據(jù)中心更高效節(jié)能、此用戶之后有買車的意愿嗎?科技公司對每一位擅長神經(jīng)網(wǎng)絡(luò)的程序員展開了激烈角逐,重金聘用人才,不惜到研究機(jī)構(gòu)去挖角。后來,辛頓和兩個學(xué)生開創(chuàng)了一家專注深度學(xué)習(xí)的公司DNNresearch。沒多久,谷歌和微軟就對這家公司動了收購的念頭,后來百度也加入競標(biāo),最終2013年谷歌出了幾千萬美元收購了這家只有3名員工的公司。此次收購不如說是收編更準(zhǔn)確,谷歌把包括辛頓在內(nèi)的3位人才收歸麾下。
有人問,人工神經(jīng)網(wǎng)絡(luò)起起伏伏,為何會復(fù)興于這個時代?神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)大量實例,就像小孩收集現(xiàn)實世界的信息一樣。上世紀(jì)80年代到90年代,由于沒有太多的數(shù)字信息可用,計算機(jī)要花費很長的時間去確定有些什么信息。因此,這一時期的技術(shù)應(yīng)用非常少,其中一個是由深度學(xué)習(xí)的大佬之一燕樂存(Yann LeCun)開發(fā)的技術(shù),現(xiàn)在被銀行用于手寫支票識別。
當(dāng)我們將超大規(guī)模的訓(xùn)練數(shù)據(jù)喂給深度學(xué)習(xí)模型的時候,這些具備深層次結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)就搖身一變,成為擁有感知和學(xué)習(xí)能力的大腦,表現(xiàn)出了遠(yuǎn)遠(yuǎn)好于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力。
業(yè)內(nèi)人士描述深度學(xué)習(xí)和大數(shù)據(jù)的關(guān)系,就像火箭和燃料一樣:火箭雖然厲害,但是沒有大數(shù)據(jù)這個燃料也只是一堆廢鐵。而且這個模型對原始數(shù)據(jù)來者不拒,無論屬于圖像識別、語言識別、NLP、生物醫(yī)藥等哪個領(lǐng)域,都可以“喂”給神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)處理。而且,喂給它的數(shù)據(jù)越多,它就變得能力越強(qiáng)、越聰明,并且只會吃不飽,不會消化不良。這和大腦的工作原理很相似,大腦用同一套算法解決視覺、聽覺、嗅覺等感知問題。因為大數(shù)據(jù)的必不可少,我們也看到深度學(xué)習(xí)做得最好的地方是我們熟知的那些擁有大量數(shù)據(jù)的IT巨頭。
如今,深度學(xué)習(xí)似乎無孔不入:深度學(xué)習(xí)識別出患有自閉癥風(fēng)險的基因;深度學(xué)習(xí)為圖片和視頻自動添加標(biāo)題;深度學(xué)習(xí)識別大型強(qiáng)子對撞機(jī)中的粒子;使用深度學(xué)習(xí)來制造無人駕駛汽車和機(jī)器人。
即便如此,深度學(xué)習(xí)也不是萬能的。人工智能包括三個方面。第一是感知,就是知道周圍環(huán)境是什么,知道和對方交互的時候?qū)Ψ皆谡f什么,要表達(dá)什么意思,感知不是感覺但包含感覺。第二是認(rèn)知,在感知的基礎(chǔ)上去理解。比如機(jī)器已經(jīng)能識別人類的語言,但它能不能聽懂意思、理解人類的話?第三是決策,依據(jù)理解做出行動。
目前,感知和決策智能已取得巨大進(jìn)步,甚至在某些方面已經(jīng)超越人類,但是在認(rèn)知方面還有很大的差距,機(jī)器依然聽不懂人的意思。機(jī)器學(xué)習(xí)不是萬能的模型,將來還會出現(xiàn)更好的解決方式。
模擬人腦
既然深度學(xué)習(xí)模型成功的秘訣之一就在于它模仿了人類大腦的深層體系結(jié)構(gòu),那么我們?yōu)槭裁床恢苯幽M人類的大腦呢?事實上,科學(xué)家們已經(jīng)行動起來了。
例如,德國海德堡大學(xué)的FACETS計劃就是一個利用硬件來模擬大腦部分功能的項目。他們采用數(shù)以千計的芯片,創(chuàng)造出一個包含10億神經(jīng)元和1013突觸的回路的人工腦,復(fù)雜程度相當(dāng)于人類大腦的十分之一。與此對應(yīng),由瑞士洛桑理工學(xué)院和IBM公司聯(lián)合發(fā)起的“藍(lán)腦計劃”則是通過軟件來模擬人腦的實踐。他們計劃2020年左右制造出科學(xué)史上第一臺會“思考”的機(jī)器,將可能擁有感覺、痛苦、愿望甚至恐懼感。
然而,這類研究計劃也有很大的局限性。其中最大的問題就在于,迄今為止,我們對大腦的結(jié)構(gòu)以及動力學(xué)的認(rèn)識還相當(dāng)初級,尤其是神經(jīng)元活動與生物體行為之間的關(guān)系還遠(yuǎn)遠(yuǎn)沒有建立。盡管科學(xué)家早在30年前就已經(jīng)弄清楚了秀麗隱桿線蟲302個神經(jīng)元之間的連接方式,但到現(xiàn)在仍然不清楚這種低等生物的生存方式,比如進(jìn)食和交配是如何產(chǎn)生的。盡管科學(xué)家已經(jīng)做過諸多嘗試,但是還不足以解釋不斷變化的電信號是如何產(chǎn)生特定認(rèn)知過程的。
于是,為了進(jìn)一步深入了解大腦的運行機(jī)制,一些大科學(xué)項目先后啟動。2013年1月,奧巴馬政府宣布“腦計劃”啟動,該計劃在2014年的啟動資金為1億多美元,致力于開發(fā)能記錄大群神經(jīng)元甚至是整片腦區(qū)電活動的新技術(shù)。
同年4月,歐盟也發(fā)起了“人類大腦計劃”,這一計劃為期10年,耗資16億美元,致力于構(gòu)建能真正模擬人腦的超級計算機(jī)。2014年10月,日本發(fā)起了本國的大腦研究計劃,主要是通過對狨猴大腦的研究來加快對人類大腦疾病,如老年性癡呆和精神分裂癥的研究。
中國不甘落后,“十三五”規(guī)劃綱要草案已經(jīng)把腦科學(xué)和類腦研究列入國家重大科技項目,主要有兩個研究方向:以探索大腦秘密、攻克大腦疾病為導(dǎo)向的腦科學(xué)研究,以及以建立和發(fā)展人工智能技術(shù)為導(dǎo)向的類腦研究。
這似乎讓人們想到了第二次世界大戰(zhàn)后的情景,各國爭相發(fā)展大科學(xué)項目:核武器、太空探索、計算機(jī)等等。腦科學(xué)的時代已經(jīng)來臨,人工智能能否借助腦科學(xué)的發(fā)展,獲得下一步的飛躍?