顧險峰
紐約州立大學(xué)石溪分校計算機系,紐約 11794
人工智能的歷史回顧和發(fā)展現(xiàn)狀
顧險峰?
紐約州立大學(xué)石溪分校計算機系,紐約 11794
簡略地回顧了人工智能的歷史和發(fā)展現(xiàn)狀。分析比較了人工智能兩大領(lǐng)域:符號主義和連接主義,同時介紹了各個領(lǐng)域的主要原理和方法。著重回顧了深度學(xué)習(xí)的歷史、復(fù)興的原因和主要的應(yīng)用。
人工智能;連接主義;符號主義;深度學(xué)習(xí);圖像識別;語音識別;神經(jīng)網(wǎng)絡(luò)
最近,谷歌的阿爾法狗擊敗了圍棋九段李世石,舉世震驚。有為人工智能的發(fā)展歡呼雀躍者,也有為人類前途命運憂心忡忡者;有對機器蠻力不屑一顧者,也有對人類失去優(yōu)越感而沮喪彷徨者。目前,人工智能的浪潮洶涌澎湃,在視覺圖像識別、語音識別、文本處理等諸多方面人工智能已經(jīng)達到或超越人類水平,在視覺藝術(shù)、程序設(shè)計方面也開始嶄露頭角,令人驚嘆不已。人們已經(jīng)相信,在個人電腦時代、網(wǎng)絡(luò)時代、手機時代之后,整個社會已經(jīng)進入人工智能時代。
這里,我們考察人工智能發(fā)展的簡要歷史、目前的局限和未來的潛力,特別是將人類腦神經(jīng)認知和人工神經(jīng)網(wǎng)絡(luò)認知進行對比,從而對人工智能有一個公正客觀,而又與時俱進的認識。
從歷史上看,人類的智能主要包括歸納總結(jié)和邏輯演繹,對應(yīng)著人工智能中的聯(lián)結(jié)主義(如人工神經(jīng)網(wǎng)絡(luò))和符號主義(如吳文俊方法)。人類大量的視覺聽覺信號的感知處理都是下意識的,是基于大腦皮層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法;大量的數(shù)學(xué)推導(dǎo)、定理證明是有強烈主觀意識的,是基于公理系統(tǒng)的符號演算方法。
古希臘人將歐幾里得幾何歸納整理成歐幾里得公理體系,整個宏偉的理論大廈奠基于幾條不言自明的公理,整個大廈完全由邏輯構(gòu)造出來,美輪美奐,無懈可擊。這為整個人類科學(xué)發(fā)展提供了一套標(biāo)準(zhǔn)的范式。后來,牛頓編撰他的鴻篇巨著《自然哲學(xué)的數(shù)學(xué)原理》也遵循公理體系的范式,由公理到定義、引理、定理再到推論。人類的現(xiàn)代數(shù)學(xué)和物理知識最終都被系統(tǒng)化整理成公理體系,比如愛因斯坦的廣義相對論也是遵循公理體系的范式。當(dāng)然也存在例外。例如,雖然量子理論已經(jīng)為人類科技帶來天翻地覆的革命,但是量子理論的公理體系目前還沒有建立起來。符號主義的主要思想就是應(yīng)用邏輯推理法則,從公理出發(fā)推演整個理論體系。
人工智能中,符號主義的一個代表就是機器定理證明,吳文俊先生創(chuàng)立的吳文俊方法是其巔峰之一。目前基于符號計算的機器定理證明的理論根基是希爾伯特定理:多元多項式環(huán)中的理想都是有限生成的。我們首先將一個幾何命題的條件轉(zhuǎn)換成代數(shù)多項式,同時把結(jié)論也轉(zhuǎn)換成多項式,然后證明條件多項式生成的根理想包含結(jié)論對應(yīng)的多項式,即將定理證明轉(zhuǎn)換為根理想成員判定問題。一般而言,多項式理想的基底并不唯一,Groebner基方法和吳方法可以生成滿足特定條件的理想基底,從而都可以自動判定理想成員問題。因此理論上代數(shù)范疇的機器定理證明可以被完成,但是實踐中這種方法有重重困難。
首先,從哲學(xué)層面上講,希爾伯特希望用公理化方法徹底嚴(yán)密化數(shù)學(xué)基礎(chǔ)。哥德爾證明了對于任何一個包含算術(shù)系統(tǒng)的公理體系,都存在一個命題,其真?zhèn)螣o法在此公理體系中判定。換言之,這一命題的成立與否都與此公理體系相容。一方面,這意味著我們無法建立包羅萬象的公理體系,無論如何,總存在真理游離在有限公理體系之外;另一方面,這也意味著對于真理的探索過程永無止境。
其次,從計算角度而言,Groebner基方法和吳方法所要解決的問題的本質(zhì)復(fù)雜度都是超指數(shù)級別的,即便對于簡單的幾何命題,其機器證明過程都可能引發(fā)存儲空間的指數(shù)爆炸,這揭示了機器證明的本質(zhì)難度。吳方法的成功有賴于大多數(shù)幾何定理所涉及的代數(shù)計算問題是有結(jié)構(gòu)的,因而可以快速求解。
第三,能夠用理想生成的框架證明的數(shù)學(xué)命題,其本身應(yīng)該是已經(jīng)被代數(shù)化了。如所有的歐幾里得幾何命題,初等的解析幾何命題。微分幾何中許多問題的代數(shù)化,本身就非常具有挑戰(zhàn)性。例如黎曼流形的陳省身-高斯-博內(nèi)定理:流形的總曲率是拓撲不變量。如果沒有嘉當(dāng)發(fā)明的外微分和活動標(biāo)架法,這一定理的證明就無法被代數(shù)化。拓撲學(xué)中的許多命題的代數(shù)化本身也是非常困難的,比如眾所周知的布勞威爾不動點定理:我們用咖啡勺緩慢均勻攪拌咖啡,然后抽離咖啡勺,待咖啡靜止后,必有一個分子,其攪拌前和攪拌后的位置重合。這一命題的嚴(yán)格代數(shù)化是一個非常困難的問題。吳先生的高足高小山研究員突破性的微分結(jié)式理論,系統(tǒng)地將這種機器證明方法從代數(shù)范疇推廣到微分范疇[1]。
最后,機器定理證明過程中推導(dǎo)出的大量符號公式,人類無法理解其內(nèi)在的幾何含義,無法建立幾何直覺。而幾何直覺和審美,實際上是指導(dǎo)數(shù)學(xué)家在幾何天地中開疆拓土的最主要的原則。機器無法抽象出幾何直覺,也無法建立審美觀念,因此雖然機器定理證明經(jīng)常對于已知的定理給出令人匪夷所思的新穎證明方法,但是迄今為止,機器并沒有自行發(fā)現(xiàn)深刻的未知數(shù)學(xué)定理。
比如,人類借助計算機完成了地圖四色定理的證明,但是對于這一證明的意義一直富有爭議。首先,這種暴力證明方法沒有提出新的概念、新的方法;其次,這個證明沒有將這個問題和其他數(shù)學(xué)分支發(fā)生深刻內(nèi)在的聯(lián)系。數(shù)學(xué)中,命題猜測的證明本身并不重要,真正重要的是證明所引發(fā)的概念思想、內(nèi)在聯(lián)系和理論體系。因此,許多人認為地圖四色定理的證明實際上“驗證”了一個事實,而非“證明”了一個定理。目前,機器定理證明的主流逐漸演變成機器驗證。因此,和人類智慧相比,人工智能的符號主義方法依然處于相對幼稚的階段。
即便如此,人工智能在某些方面的表現(xiàn)已經(jīng)超越人類。例如,基于符號主義的人工智能專家系統(tǒng)IBM的沃森,在電視知識競賽Jeopardy中表現(xiàn)出色,擊敗人類對手,贏得冠軍。目前,IBM進一步發(fā)展沃森認知計算平臺,結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)后獲得了更強的數(shù)據(jù)分析與挖掘能力,在某些細分疾病領(lǐng)域已能達到頂級醫(yī)生的醫(yī)療診斷水平。
人工智能中的聯(lián)結(jié)主義的基本思想是模擬人類大腦的神經(jīng)元網(wǎng)絡(luò)。David Hunter Hubel 和Torsen Wiesel(圖1)共同獲得了1981年的諾貝爾生理學(xué)或醫(yī)學(xué)獎。1959年,Hubel和Wiesel在麻醉的貓的視覺中樞上插入了微電極,然后在貓的眼前投影各種簡單模式,同時觀察貓的視覺神經(jīng)元的反應(yīng)。他們發(fā)現(xiàn):貓的視覺中樞中有些神經(jīng)元對于某種方向的直線敏感,另外一些神經(jīng)元對于另外一種方向的直線敏感;某些初等的神經(jīng)元對于簡單模式敏感,而另外一些高級的神經(jīng)元對于復(fù)雜模式敏感,并且其敏感度和復(fù)雜模式的位置與定向無關(guān)。這證明了視覺中樞系統(tǒng)具有由簡單模式構(gòu)成復(fù)雜模式的功能,也啟發(fā)了計算機科學(xué)家發(fā)明人工神經(jīng)網(wǎng)絡(luò)。
圖1 1981年的諾貝爾生理學(xué)或醫(yī)學(xué)獎得主David Hunter Hubel 和Torsen Wiesel
后來通過對猴子的視覺中樞的解剖,將猴子的大腦皮層曲面平展在手術(shù)臺表面上,人們發(fā)現(xiàn)從視網(wǎng)膜到第一級視覺中樞的大腦皮層曲面的映射(retinotopic mapping)是保角映射 (conformal mapping)[2]。保角變換的最大特點是局部保持形狀,但是忽略面積大小(圖2)。這說明視覺處理對于局部形狀非常敏感。
圖2 三維曲面到平面的保角映射
人們逐步發(fā)現(xiàn),人類具有多個視覺中樞,并且這些視覺中樞是階梯級聯(lián),具有層次結(jié)構(gòu)。人類的視覺計算是一個非常復(fù)雜的過程。在大腦皮層上有多個視覺功能區(qū)域(v1 至 v5等),低級區(qū)域的輸出成為高級區(qū)域的輸入。低級區(qū)域識別圖像中像素級別的局部的特征,例如邊緣折角結(jié)構(gòu),高級區(qū)域?qū)⒌图壧卣鹘M合成全局特征,形成復(fù)雜的模式,模式的抽象程度逐漸提高,直至語義級別。
如圖3所示,畢加索的名畫《格爾尼卡》(Guernica)中充滿了抽象的牛頭馬面、痛苦嚎哭的人臉、扭曲破碎的肢體。我們卻可以毫不費力地辨認出這些夸張的幾何形體。其實,盡管圖中大量信息丟失,但是提供了足夠的整體模式。由此可見,視覺高級中樞忽略色彩、紋理、光照等局部細節(jié),側(cè)重整體模式匹配和上下文關(guān)系,并可以主動補充大量缺失信息。
圖3 畢加索的名畫《格爾尼卡》
這啟發(fā)計算機科學(xué)家將人工神經(jīng)網(wǎng)絡(luò)設(shè)計成多級結(jié)構(gòu),低級的輸出作為高級的輸入。最近,深度學(xué)習(xí)技術(shù)的發(fā)展,使得人們能夠模擬視覺中樞的層級結(jié)構(gòu),考察每一級神經(jīng)網(wǎng)絡(luò)形成的概念。圖4顯示一個用于人臉識別的人工神經(jīng)網(wǎng)絡(luò)經(jīng)過訓(xùn)練后習(xí)得的各層特征。底層網(wǎng)絡(luò)總結(jié)出各種邊緣結(jié)構(gòu),中層網(wǎng)絡(luò)歸納出眼睛、鼻子、嘴巴等局部特征,高層網(wǎng)絡(luò)將局部特征組合,得到各種人臉特征。這樣,人工神經(jīng)網(wǎng)絡(luò)佐證了視覺中樞的層次特征結(jié)構(gòu)。
圖4 深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)經(jīng)學(xué)習(xí)得到的不同層次的特征 (作圖: Andrew Ng)
人工神經(jīng)網(wǎng)絡(luò)在20世紀(jì)80年代末和90年代初達到巔峰,隨后迅速衰落,其中一個重要原因是因為神經(jīng)網(wǎng)絡(luò)的發(fā)展嚴(yán)重受挫。人們發(fā)現(xiàn),如果網(wǎng)絡(luò)的層數(shù)加深,那么最終網(wǎng)絡(luò)的輸出結(jié)果對于初始幾層的參數(shù)影響微乎其微,整個網(wǎng)絡(luò)的訓(xùn)練過程無法保證收斂。同時,人們發(fā)現(xiàn)大腦具有不同的功能區(qū)域,每個區(qū)域?qū)iT負責(zé)同一類的任務(wù),例如視覺圖像識別、語音信號處理和文字處理等等。而且,在不同的個體上,這些功能中樞在大腦皮層上的位置大致相同。在這一階段,計算機科學(xué)家為不同的任務(wù)發(fā)展出不同的算法。例如:為了語音識別,人們發(fā)展了隱馬爾科夫鏈模型;為了人臉識別,發(fā)展了Gabor濾波器、SIFT特征提取算子、馬爾科夫隨機場的圖模型。因此,在這個階段人們傾向于發(fā)展專用算法。
但是,腦神經(jīng)科學(xué)的幾個突破性進展使人們徹底改變了看法。在2000年,Jitendra Sharma在《自然》上撰文[3],匯報了他們的一個令人耳目一新的實驗。Sharma把幼年鼬鼠的視覺神經(jīng)和聽覺神經(jīng)剪斷,交換后接合,眼睛接到了聽覺中樞,耳朵接到了視覺中樞。鼬鼠長大后,依然發(fā)展出了視覺和聽覺。這意味著大腦中視覺和聽覺的計算方法是通用的。在2009年,Vuillerme和Cuisinier為盲人發(fā)明了一套裝置[4],將攝像機的輸出表示成二維微電極矩陣,放在舌頭表面。盲人經(jīng)過一段時間的學(xué)習(xí)訓(xùn)練,可以用舌頭“看到”障礙物。在2011年,人們發(fā)現(xiàn)許多盲人獨自發(fā)展出一套“聲納”技術(shù),他們可以通過回聲來探測并規(guī)避大的障礙物。Thaler等人的研究表明,他們的“聲納”技術(shù)用的并不是聽覺中樞,而是原來被廢置的視覺中樞。
種種研究表明,大腦實際上是一臺“萬用學(xué)習(xí)機器”(universal learning machine),同樣的學(xué)習(xí)機制可以用于完全不同的應(yīng)用。人類的DNA并不提供各種用途的算法,而只提供基本的普適的學(xué)習(xí)機制。人的思維功能主要是依賴于學(xué)習(xí)所得,而后天的文化和環(huán)境決定了一個人的思想和能力。換句話而言,學(xué)習(xí)的機制人人相同,但是學(xué)習(xí)的內(nèi)容決定了人的思維(mind)。
人的大腦具有極強的可塑性,許多功能取決于后天的訓(xùn)練。例如,不同民族語言具有不同的元音和輔音,阿拉伯語最為復(fù)雜,日語相對簡單。出生不久的嬰兒可以辨別聽出人類能夠發(fā)出的所有元音和輔音,但是在5歲左右,日本幼兒已經(jīng)聽不出很多阿拉伯語中的音素了。同樣,歐洲人可以非常容易地辨認本民族面孔,但是非常容易混淆亞洲人面孔。人們發(fā)現(xiàn),如果大腦某個半球的一個區(qū)域受損并產(chǎn)生功能障礙,隨著時間流逝,另一半球的對稱區(qū)域就會“接替”受損區(qū)域,掌管相應(yīng)功能。這些都表明大腦神經(jīng)網(wǎng)絡(luò)具有極強的可塑性。
大腦學(xué)習(xí)算法的普適性和可塑性一直激勵著計算機科學(xué)家不懈地努力探索。歷史性的突破發(fā)生在2006年左右,計算機科學(xué)家GeoffreyHinton、Yann Lecun和Yoshua Bengio突破深度學(xué)習(xí)的技術(shù)瓶頸,進而引領(lǐng)深度學(xué)習(xí)的浪潮。
與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,深度學(xué)習(xí)的最大特色在于神經(jīng)網(wǎng)絡(luò)的層數(shù)大為增加。深度網(wǎng)絡(luò)難以收斂的技術(shù)瓶頸最終被打破,主要的技術(shù)突破在于以下幾點:首先是計算能力的空前增強。目前深度網(wǎng)絡(luò)動輒上百層,聯(lián)接參數(shù)數(shù)十億,訓(xùn)練樣本經(jīng)常數(shù)千萬直至上億,訓(xùn)練算法需要在大規(guī)模計算機集群上運行數(shù)月。這些訓(xùn)練過程需要非常龐大的計算資源。計算機計算能力的提升,特別是GPU的迅猛發(fā)展,為深度學(xué)習(xí)提供了強有力的硬件保障。其次是數(shù)據(jù)的積累。特別是互聯(lián)網(wǎng)的大規(guī)模普及,智能手機的廣泛使用,使得規(guī)模龐大的圖像數(shù)據(jù)集能夠被采集,上傳到云端,集中存儲處理。深度學(xué)習(xí)需要使用越來越大的數(shù)據(jù)集,大數(shù)據(jù)的積累提供數(shù)據(jù)保障。再就是深度學(xué)習(xí)網(wǎng)絡(luò)初始化的選擇。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)隨機初始化,學(xué)習(xí)過程漫長,并且容易陷入局部最優(yōu)而無法達到性能要求。目前的方法使用非監(jiān)督數(shù)據(jù)來訓(xùn)練模型以達到特征自動提取,有針對性地初始化網(wǎng)絡(luò),加速了學(xué)習(xí)過程的收斂,提高了學(xué)習(xí)效率。更為關(guān)鍵的是優(yōu)化方法的改進。目前的技術(shù)采用更加簡單的優(yōu)化方法,特別是隨機梯度下降方法的應(yīng)用提高了收斂速率和系統(tǒng)穩(wěn)定性。
4.1 第一次浪潮
在1943年,科學(xué)家Warren McCulloch 和Walter Pitts提出了神經(jīng)網(wǎng)絡(luò)作為一個計算模型的理論。1957年,康內(nèi)爾大學(xué)教授 Frank Rosenblatt提出了“感知器” (perceptron)模型。感知器是第一個用算法來精確定義的神經(jīng)網(wǎng)絡(luò),第一個具有自組織自學(xué)習(xí)能力的數(shù)學(xué)模型,是日后許多新的神經(jīng)網(wǎng)絡(luò)模型的始祖。感知器的技術(shù)在20世紀(jì)60年代帶來人工智能的第一個高潮。
1969 年,Marvin Minsky 和 Seymour Papert[5]在出版的《感知器:計算幾何簡介》一書中強烈地批判了感知器模型:首先,單層的神經(jīng)網(wǎng)絡(luò)無法解決不可線性分割的問題,典型例子如異或門;其次,當(dāng)時的計算能力低下無法支持神經(jīng)網(wǎng)絡(luò)模型所需的計算量。此后的十幾年,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的人工智能研究進入低潮。
4.2 第二次浪潮
Minsky提出的尖銳問題后來被逐步解決。傳統(tǒng)的感知器用所謂“梯度下降”的算法糾錯時,其運算量和神經(jīng)元數(shù)目的平方成正比,因而計算量巨大。1986年7月,Hinton 和 David Rumelhart[6]合作在《自然》發(fā)表論文,系統(tǒng)地提出了應(yīng)用反向傳播算法,把糾錯的運算量下降到只和神經(jīng)元數(shù)目成正比。同時,通過在神經(jīng)網(wǎng)絡(luò)里增加一個所謂隱層 (hidden layer),反向傳播算法同時也解決了感知器無法解決的異或門難題。
Hinton的博士后Yann Lecun于1989年發(fā)表了論文《反向傳播算法在手寫郵政編碼上的應(yīng)用》[7]。他用美國郵政系統(tǒng)提供的近萬個手寫數(shù)字的樣本來訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng),在獨立的測試樣本中錯誤率低至5%,達到實用水準(zhǔn)。他進一步運用“卷積神經(jīng)網(wǎng)絡(luò)” (convoluted neural networks) 的技術(shù),開發(fā)出商業(yè)軟件,用于讀取銀行支票上的手寫數(shù)字,這個支票識別系統(tǒng)在20世紀(jì)90年代末占據(jù)了美國接近20%的市場。
貝爾實驗室的Vladmir Vapnik在1963年提出了支持向量機 (support vector machine,SVM) 的算法。在數(shù)據(jù)樣本線性不可分的時候,支持向量機使用所謂“核機制”(kernel trick) 的非線性映射算法,將線性不可分的樣本轉(zhuǎn)化到高維特征空間 (high-dimensional feature space),使其線性可分。作為一種分類算法,從20世紀(jì)90年代初開始,SVM在圖像和語音識別上找到了廣泛的用途。在手寫郵政編碼的識別問題上,SVM技術(shù)在1998年錯誤率降至0.8%,2002年最低達到了0.56%,遠遠超越同期的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)。
這時,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的反向傳播算法遇到了本質(zhì)難題——梯度消失(vanishing gradient problem)。這個問題在1991年被德國學(xué)者 Sepp Hochreiter第一次清晰提出并闡明原因。簡單地說,就是成本函數(shù) (cost function)從輸出層反向傳播時,每經(jīng)過一層,梯度衰減速度極快,學(xué)習(xí)速度變得極慢,神經(jīng)網(wǎng)絡(luò)很容易停滯于局部最優(yōu)解而無法自拔。同時,算法訓(xùn)練時間過長會出現(xiàn)過度擬合(overfit),把噪音當(dāng)成有效信號。SVM理論完備、機理簡單、容易重復(fù),從而得到主流的追捧。SVM技術(shù)在圖像和語音識別方面的成功使得神經(jīng)網(wǎng)絡(luò)的研究重新陷入低潮。
4.3 第三次浪潮
(1) 改進算法
2006年,Hinton 和合作者[8]發(fā)表論文《深信度網(wǎng)絡(luò)的一種快速算法》。在這篇論文里,Hinton 在算法上的核心是借用了統(tǒng)計力學(xué)里的“玻爾茲曼分布”的概念,使用所謂的“限制玻爾茲曼機” (RBM)來學(xué)習(xí)(圖5)。
圖5 波爾茲曼機與限制波爾茲曼機
RBM 相當(dāng)于一個兩層網(wǎng)絡(luò),可以對神經(jīng)網(wǎng)絡(luò)實現(xiàn)“沒有監(jiān)督的訓(xùn)練” (unsupervised training)。深信度網(wǎng)絡(luò)就是幾層 RBM 疊加在一起,RBM可以從輸入數(shù)據(jù)中進行預(yù)先訓(xùn)練,自行發(fā)現(xiàn)重要特征,對神經(jīng)網(wǎng)絡(luò)連接的權(quán)重進行有效的初始化。經(jīng)過RBM 預(yù)先訓(xùn)練初始化后的神經(jīng)網(wǎng)絡(luò),再用反向傳播算法微調(diào),效果得到大幅度提升。
2011 年,加拿大的蒙特利爾大學(xué)學(xué)者Xavier Glorot和Yoshua Bengio發(fā)表論文《深而稀疏的修正神經(jīng)網(wǎng)絡(luò)》[9]。論文的算法中使用一種稱為“修正線性單元”(rectified linear unit,RELU) 的激勵函數(shù)。和使用別的激勵函數(shù)的模型相比,RELU識別錯誤率更低,而且其有效性對于神經(jīng)網(wǎng)絡(luò)是否進行“預(yù)先訓(xùn)練”并不敏感。RELU 的導(dǎo)數(shù)是常數(shù),非零即一,不存在傳統(tǒng)激勵函數(shù)在反向傳播計算中的“梯度消失問題”。由于統(tǒng)計上約一半的神經(jīng)元在計算過程中輸出為零,使用 RELU 的模型計算效率更高,而且自然而然地形成了所謂“稀疏表征” (sparse representation),用少量的神經(jīng)元可以高效、靈活、穩(wěn)健地表達抽象復(fù)雜的概念。
2012年7月,Hinton發(fā)表論文《通過阻止特征檢測器的共同作用來改進神經(jīng)網(wǎng)絡(luò)》[10]。為了解決過度擬合的問題,論文中采用了一種新的被稱為“丟棄” (dropout) 的算法。丟棄算法的具體實施是在每次培訓(xùn)中給每個神經(jīng)元一定的幾率(比如 50%),假裝它不存在,計算中忽略不計。使用丟棄算法的神經(jīng)網(wǎng)絡(luò)被強迫用不同的、獨立的神經(jīng)元的子集來接受學(xué)習(xí)訓(xùn)練。這樣網(wǎng)絡(luò)更強健,避免了過度擬合,不會因為外在輸入的很小噪音導(dǎo)致輸出質(zhì)量的很大差異(圖6)。
圖6 標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)(a)與使用丟棄算法后的神經(jīng)網(wǎng)絡(luò)(b)
(2) 使用GPU提高計算能力
2009年6月,斯坦福大學(xué)的Rajat Raina 和吳恩達(Andrew Ng)[11]合作發(fā)表論文《用GPU大規(guī)模無監(jiān)督深度學(xué)習(xí)》,論文模型里的參數(shù)總數(shù)(就是各層不同神經(jīng)元之間鏈接的總數(shù))達到1億。與之相比,Hinton在2006年的論文里用到的參數(shù)數(shù)目只有170萬。論文結(jié)果顯示,使用GPU的運行速度和用傳統(tǒng)雙核CPU相比,最快時要快近70倍。在一個四層、1億個參數(shù)的深信度網(wǎng)絡(luò)上,使用GPU把程序運行時間從幾周降到一天。
2010年瑞士學(xué)者 Dan Ciresan和合作者發(fā)表論文《Deep big simple neural nets excel on handwritten digit recognition》[12],其中使用的還是20世紀(jì)80年代的反向傳播計算方法,但是計算搬移到GPU 上實現(xiàn),在反向傳播計算時速度比傳統(tǒng) CPU 快了 40 倍。
2012 年還在斯坦福大學(xué)做研究生的黎越國(Quoc Viet Le) 領(lǐng)銜,和他的導(dǎo)師吳恩達,以及眾多谷歌的科學(xué)家聯(lián)合發(fā)表論文《用大規(guī)模無監(jiān)督學(xué)習(xí)建造高層次特征》[13]。黎越國的文章中使用了九層神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的參數(shù)數(shù)量高達10億,是Ciresan 2010年論文中的模型的100倍,是2009年Raina 論文模型的10倍。
(3) 海量的訓(xùn)練數(shù)據(jù)
在黎越國文章中,用于訓(xùn)練這個神經(jīng)網(wǎng)絡(luò)的圖像都是從谷歌的錄像網(wǎng)站youtube上截屏獲得。1 000萬個原始錄像,每個錄像只截取一張圖片,每張圖片有4萬個像素。與之相比,先前大部分論文使用的訓(xùn)練圖像,原始圖像的數(shù)目大多在10萬以下,圖片的像素大多不到1 000。黎越國的計算模型分布式地在1 000臺機器 (每臺機器有16個CPU內(nèi)核)上運行,花了三天三夜才完成培訓(xùn)?;ヂ?lián)網(wǎng)的大規(guī)模普及,智能手機的廣泛使用,使得規(guī)模龐大的圖像數(shù)據(jù)集能夠被采集,并在云端集中存儲處理。大數(shù)據(jù)的積累為深度學(xué)習(xí)提供了數(shù)據(jù)保障。
5.1 圖像識別
2009年,普林斯頓大學(xué)計算機系的華人學(xué)者 (第一作者為Jia Deng)發(fā)表論文《ImageNet: A large scale hierarchical image database》,宣布建立第一個超大型圖像數(shù)據(jù)庫供計算機視覺研究者使用[14]。2010 年,以 ImageNet 為基礎(chǔ)的大型圖像識別競賽ImageNet Large Scale Visual Recognition Challenge 2010 (ILSVRC2010) 第一次舉辦。競賽最初的規(guī)則是以數(shù)據(jù)庫內(nèi)120萬個圖像為訓(xùn)練樣本,這些圖像從屬于1 000多個不同的類別,都被手工標(biāo)志。經(jīng)過培訓(xùn)過的程序,再用于5萬個測試圖像評估,看看它對圖像的分類是否準(zhǔn)確。
2012年,Hinton 教授和他的兩個研究生Alex Krizhevsky、Illya Sutskever將深度學(xué)習(xí)的最新技術(shù)用到 ImageNet 的問題上。他們的模型是一個總共八層的卷積神經(jīng)網(wǎng)絡(luò),有65萬個神經(jīng)元,6 000萬個自由參數(shù)。這個神經(jīng)網(wǎng)絡(luò)使用了前面兩篇文章介紹過的丟棄算法和修正線性單元(RELU)的激勵函數(shù)。Hinton 教授的團隊使用兩個GPU,讓程序接受120萬個圖像訓(xùn)練,花了接近6天時間。經(jīng)過訓(xùn)練的模型,面對15萬個測試圖像,預(yù)測的頭五個類別的錯誤率只有 15.3%,在有30個團體參與的2012年 ImageNet的競賽中,測試結(jié)果穩(wěn)居第一。排名第二的來自日本團隊的模型,相應(yīng)的錯誤率則高達 26.2%。這標(biāo)志著神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域大幅度超越其他技術(shù),成為人工智能技術(shù)突破的一個轉(zhuǎn)折點。
2015 年12月的Imagenet圖像識別的競賽中,來自微軟亞洲研究院(Microsoft Research Asia, MSRA)的團隊奪冠。網(wǎng)絡(luò)深度增加,學(xué)習(xí)的效率反而下降。為了解決有效信息在層層傳遞中衰減的問題,MSRA團隊嘗試了一種稱為“深度殘余學(xué)習(xí)” (Deep Residual Learning) 的算法。MSRA 的深度殘余學(xué)習(xí)模型,使用深達 152層的神經(jīng)網(wǎng)絡(luò),頭五個類別的識別錯誤率創(chuàng)造了 3.57%的新低,這個數(shù)字已經(jīng)低于一個正常人的大約 5% 的錯誤率。
5.2 語音識別
RNN (recurrent neural network)也稱循環(huán)神經(jīng)網(wǎng)絡(luò)或多層反饋神經(jīng)網(wǎng)絡(luò),則是另一類非常重要的神經(jīng)網(wǎng)絡(luò)。本質(zhì)上,RNN 和前饋網(wǎng)絡(luò)的區(qū)別是,它可以保留一個內(nèi)存狀態(tài)的記憶來處理一個序列的輸入,這對手寫字的識別、語音識別和自然語言處理尤為重要。
2012年10月,Geoffrey Hinton、鄧力和其他幾位代表四個不同機構(gòu) (多倫多大學(xué)、微軟、谷歌、IBM) 的研究者,聯(lián)合發(fā)表論文《深度神經(jīng)網(wǎng)絡(luò)在語音識別的聲學(xué)模型中的應(yīng)用:四個研究小組的共同觀點》[15]。研究者們借用了Hinton使用的“限制玻爾茲曼機” (RBM) 的算法對神經(jīng)網(wǎng)絡(luò)進行了“預(yù)培訓(xùn)”。深度神經(jīng)網(wǎng)絡(luò)模型(DNN)被用來估算識別文字的幾率。在谷歌的一個語音輸入基準(zhǔn)測試中,單詞錯誤率 (word error rate) 最低達到了 12.3%。
2013年3月,多倫多大學(xué)的 Alex Graves 領(lǐng)銜發(fā)表論文《深度循環(huán)神經(jīng)網(wǎng)絡(luò)用于語音識別》[16]。論文中使用 RNN/LSTM 的技術(shù)——一個包含三個隱層、430萬個自由參數(shù)的網(wǎng)絡(luò),在一個叫做 TIMIT 的基準(zhǔn)測試中“音位錯誤率”達到17.7%,優(yōu)于同期的其他所有技術(shù)的表現(xiàn)水準(zhǔn)。
2015年5月谷歌宣布依靠 RNN/LSTM 相關(guān)的技術(shù),谷歌語音 (Google Voice) 的單詞錯誤率降到了8% (正常人大約 4%)。
2015年12月,百度 AI 實驗室的 Dario Amodei領(lǐng)銜發(fā)表論文《英語和漢語的端對端的語音識別》[17]。論文的模型使用的是 LSTM 的一個簡化的變種,叫做“封閉循環(huán)單元” (gated recurrent unit)。百度的英文語音識別系統(tǒng)接受了將近12 000小時的語音訓(xùn)練,在 16個GPU上完成訓(xùn)練需要 3~5 天。在一個叫 WSJ Eval'92 的基準(zhǔn)測試中,其單詞錯誤率低至3.1%,已經(jīng)超過正常人的識別能力(5%)。在另外一個小型漢語基準(zhǔn)測試中,機器的識別錯誤率只有3.7%,而一個五人小組的集體識別錯誤率則為4%。
依照這個趨勢,機器在語音識別的各種基準(zhǔn)測試上的準(zhǔn)確度很快將全面趕上并且超過普通人了。這是在圖像識別之后人工智能即將攻克的另一個難關(guān)。
循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)的本質(zhì)是可以處理一個長度變化的序列的輸出和輸入 (多對多)。廣義地看,如果傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)做的事,是對一個函數(shù)的優(yōu)化 (比如圖像識別),那么循環(huán)神經(jīng)網(wǎng)絡(luò)做的事,則是對一個程序的優(yōu)化,應(yīng)用空間寬闊得多。
5.3 藝術(shù)創(chuàng)作
很久以來,人們傾向于認為機器可以理解人類的邏輯思維,卻無法理解人類的豐富感情,更無法理解人類的美學(xué)價值,當(dāng)然機器也就無法產(chǎn)生具有美學(xué)價值的作品。事實勝于雄辯,阿爾法狗對局李世石下出石破天驚的一步,棋圣聶衛(wèi)平先生向阿爾法狗的下法脫帽致敬,這說明深度學(xué)習(xí)算法已經(jīng)能夠自發(fā)創(chuàng)造美學(xué)價值。許多棋手在棋盤方寸間縱橫一生,所追尋的就是美輪美奐的神機妙手。如此深邃優(yōu)美,玄奧抽象,一夜間變成了枯燥平淡的神經(jīng)元參數(shù),這令許多人心生幻滅。
其實,在視覺藝術(shù)領(lǐng)域,人工神經(jīng)網(wǎng)絡(luò)已經(jīng)可以將一幅作品的內(nèi)容和風(fēng)格分開,同時向藝術(shù)大師學(xué)習(xí)藝術(shù)風(fēng)格,并把藝術(shù)風(fēng)格轉(zhuǎn)移到另外的作品中,用不同藝術(shù)家的風(fēng)格來渲染同樣的內(nèi)容(圖7)[18]。
這意味著人工神經(jīng)網(wǎng)絡(luò)可以精確量化原本許多人文科學(xué)中模糊含混的概念,例如特定領(lǐng)域中的“藝術(shù)風(fēng)格”,博弈中的“棋風(fēng)”,并且使這些只可意會、無法言傳的技巧風(fēng)格變得樸實無華,容易復(fù)制和推廣。
5.4 其他方面
在游戲博弈方面,谷歌DeepMind團隊開發(fā)的深度Q-網(wǎng)絡(luò)DQN在49種Atari像素游戲中,29種達到乃至超過人類職業(yè)選手的水平。阿爾法狗更是完勝人類圍棋頂級高手。
2016 年5月,來自谷歌的 AI 實驗室報道,研究者用2 865部英文言情小說培訓(xùn)機器,讓機器學(xué)習(xí)言情小說的敘事和用詞風(fēng)格。從程序的演化過程看,機器模型先領(lǐng)悟了單詞之間的空格的結(jié)構(gòu),然后慢慢認識了更多單詞,由短到長,標(biāo)點符號的規(guī)則也慢慢掌握,一些有更多長期相關(guān)性的語句結(jié)構(gòu),慢慢地也被機器掌握。
2016年5月,谷歌的DeepMind團隊撰文他們開發(fā)了一個“神經(jīng)編程解釋器”(NPI),這個神經(jīng)網(wǎng)絡(luò)能夠自己學(xué)習(xí)并且編輯簡單的程序,可以取代部分初級程序員的工作了。
Hinton 教授和他的兩個研究生Alex Krizhevsky和 Ilya Sutskever于2012 年底成立了一個名叫“深度神經(jīng)網(wǎng)絡(luò)研究”(DNN research)的公司,3個月后就被谷歌以500萬美元收購。 Hinton從此一半時間留在多倫多大學(xué),另外一半時間在硅谷。兩位研究生則成為谷歌的全職雇員。原來在紐約大學(xué)教書的Yann Lecun, 2013 年底被臉書(Facebook)聘請為人工智能研究院的總管。曾在斯坦福大學(xué)和谷歌工作的吳恩達,2012年創(chuàng)立了網(wǎng)上教育公司 Coursera,2014年5月被百度聘任為首席科學(xué)家負責(zé)百度大腦的計劃。
2015年,谷歌公布開源機器學(xué)習(xí)平臺TensorFlow;FaceBook打造其專屬機器學(xué)習(xí)平臺FBLearnerFlow,大幅提高員工效率;2015年5月,特斯拉創(chuàng)立開源人工智能系統(tǒng)OpenAI。其他工業(yè)巨頭也紛紛斥巨資推動人工智能的發(fā)展,例如IBM的沃森系統(tǒng)、百度大腦計劃、微軟的同聲翻譯等等。
圖7 神經(jīng)網(wǎng)絡(luò)能夠自動學(xué)習(xí)藝術(shù)風(fēng)格并用不同的風(fēng)格渲染同樣的內(nèi)容
2016年的IBM正在率先推動全球人工智能的第一次商業(yè)化浪潮與核心業(yè)務(wù)轉(zhuǎn)型。目前,深度學(xué)習(xí)的研究熱點正在迅速轉(zhuǎn)向基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體檢測與定位/分割能力,其突破將推動人工智能的實際應(yīng)用與產(chǎn)業(yè)發(fā)展。目前研究熱點是將深度卷積神經(jīng)網(wǎng)絡(luò)通過監(jiān)督學(xué)習(xí)獲得的表達,即所謂概念向量(thought vector)與推理、注意力、規(guī)劃與記憶進行有機整合,涉及推理/規(guī)劃、注意力、短期/長期記憶、知識學(xué)習(xí)、知識蒸餾和知識遷移,小樣本概念學(xué)習(xí)以及基于監(jiān)督和再勵學(xué)習(xí)的大數(shù)據(jù)病歷或棋譜的自動閱讀與自主知識學(xué)習(xí)。
隨著人工智能與大數(shù)據(jù)、云平臺、機器人、移動互聯(lián)網(wǎng)及物聯(lián)網(wǎng)等的深度融合,人工智能技術(shù)與產(chǎn)業(yè)開始扮演著基礎(chǔ)性、關(guān)鍵性和前沿性的核心角色。智能機器正逐步獲得更多的感知與決策能力,變得更具自主性,環(huán)境適應(yīng)能力更強;其應(yīng)用范圍也從制造業(yè)不斷擴展到家庭、娛樂、教育、軍事等專業(yè)服務(wù)領(lǐng)域。通過將大數(shù)據(jù)轉(zhuǎn)化為商業(yè)直覺、智能化業(yè)務(wù)流程和差異化產(chǎn)品/服務(wù),人工智能開始逐步占據(jù)醫(yī)療、金融、保險、律師、新聞、數(shù)字個人助理等現(xiàn)代服務(wù)業(yè)的核心地位,并且不斷滲入人們的日常生活。
雖然人工智能取得了突破性進展,但是它還是在嬰幼兒時期。聯(lián)結(jié)主義的方法雖然摧枯拉朽、無堅不摧,但是依然沒有堅實的理論基礎(chǔ)。通過仿生學(xué)和經(jīng)驗積累得到的突破,依然無法透徹理解和預(yù)測。簡單的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)機制加上機器蠻力,能否真正從量變到質(zhì)變,這需要時間檢驗。如何通過小樣本進行學(xué)習(xí),特別是從周圍環(huán)境自主學(xué)習(xí)(增強型學(xué)習(xí)),增加學(xué)習(xí)的泛化能力,這些都是人工智能研究的熱點問題。
目前來看,人工智能在圖像識別、語音識別、文本處理、游戲博弈、藝術(shù)美學(xué)、軟件設(shè)計等諸多方面全面趕超人類。人工智能開始逐步占據(jù)醫(yī)療、金融、保險、律師、新聞、數(shù)字個人助理等現(xiàn)代服務(wù)業(yè)的核心地位,并且不斷滲入人們的日常生活。
我們相信人工智能的發(fā)展將會為人類社會帶來又一次技術(shù)革命,人工智能的浪潮正在洶涌澎湃!
(2016年5月10日收稿)
[1] GAO X S, LI W, YUAN C M. Intersection Theory in differential algebraic geometry: generic intersections and the differential chow form [J]. Trans Amer Math Soc, 2013, 365(9): 4575-4632.
[2] BREWER A A, LIU J J, WADE A R, et al. Visual field maps and stimulus selectivity in humanventral occipital cortex [J]. Nature Neuroscience, 2005, 8(8): 1102-1109.
[3] SHARMAJ, ANGELUCCI A, SUR M. Induction of visual orientationmodules in auditory cortex [J]. Nature, 2000, 404: 841-847.
[4] VUILLERME N, CUISINIER R. Sensory supplementation through tongue electrotactile stimulation to preserve head stabilization in space in the absence of vision [J]. Investigative Ophthalmology & Visual Science, 2008, 50(1): 476-81.
[5] MINSKY M, PAPERT S. Perceptrons: an introduction to computational geometry [M]. 1st ed. Cambridge: The MIT Press, 1969.
[6] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back propagating errors [J]. Nature, 1986, 323(6088): 533-536.
[7] YANN L C, BOSER B E, DENKER J, et al. Backpropagation applied to handwritten zip code recognition [J]. Neural Computation, 1989, 1(4): 541-551.
[8] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural Comput, 2006, 18(7): 1527-1554.
[9] GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks [J]. Journal of Machine Learning Research, 2011, 15: 315-323.
[10] HINTON G E, SRIVASTAVA N, KRIZHEVSKY, et al. Improving neural networks by preventing co-adaptation of feature detectors [J]. Computer Science, 2012, 3(4): 212-223.
[11] RAINA R, MADHAVAN A, NG A Y. Large-scale deep unsupervised learning using graphics processors[C]//Proceedings of 26th International Conference on Machine Learning, Montreal, 2009: 873-880.
[12] DAN C C, MEIER U, GAMBARDELLA L M, et al. Deep big simple neural nets excel on handwritten digit recognition [J]. Corr, 2010, 22(12): 3207-3220.
[13] LE Q V, RANZATO M A, MONGA R, et al. Building high-level features using large scale unsupervised learning [C]//Proceedings of the 29th International Conferenceon Machine Learning, Edinburgh, Scotland, UK, 2012.
[14] DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database [M]//Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. Miami: IEEE, 2009: 248-255.
[15] HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modelling in speech recognition: The shared views of four research groups [J]. IEEE Signal Processing Magazine, 29(6): 82-97.
[16] GRAVES A, MOHAMED A R, HINTON G. Speech recognition with deep recurrent neural networks [J]. 2013. arXiv:1303.5778v1 [cs.NE].
[17] AMODEI D, ANUBHAI R, BATTENBERG E, et al. Deep speech 2: end-to-end speech recognition in English and Mandarin[J]. Computer Science, 2015. arXiv:1512.02595v1 [cs.CL].
[18] GATYS L A, ECKER A S, BETHGE M. Neural-style [EB/OL].[2016-05-10]. https://github.com/jcjohnson/neural-style.
(編輯:段艷芳)
Historical review and current development of artificial intelligence
GU Xianfeng
Department of Computer Science, State University of New York at Stony Brook, NY 11794
This work gives a brief review of the history of arti fi cial intelligence, and analyzes the current status of the fi eld. The main principles and methodologies of the major branches in AI included symbolism and connectionism. Furthermore, the history, and booming reasons and major applications of deep learning are introduced as well.
arti fi cial intelligence, connectionism, symbolism, deep learning, image recognition, speech recognition, neuron network
10.3969/j.issn.0253-9608.2016.03.001
?通信作者,顧險峰與丘成桐先生等合作開創(chuàng)了計算共形幾何這一交叉學(xué)科,他們合著出版了該領(lǐng)域的權(quán)威專著《計算共形幾何》(Computational Conformal Geometry)。E-mail: gu@cs.stonybrook.edu