張冬冬
它是未來的一部分,
我們才剛剛開始。
3年前,美國加利福尼亞州山景城神秘的谷歌X實驗室的研究人員從YouTube視頻中提取了1000萬個靜態(tài)圖像,并將其輸入“谷歌大腦”——由1000臺計算機(jī)構(gòu)成的網(wǎng)絡(luò),從而試圖像一個蹣跚學(xué)步的孩子一樣吸收這個世界的信息。經(jīng)過3天尋找重復(fù)出現(xiàn)的模式后,谷歌大腦憑自身判斷,它可以識別一些特定的重復(fù)類別:人類面孔和人類身體,甚至是貓。
谷歌大腦發(fā)現(xiàn)互聯(lián)網(wǎng)上到處都是關(guān)于貓的視頻,這還曾引起一連串的笑話。不過,谷歌大腦是深度學(xué)習(xí)復(fù)興的一個里程碑。深度學(xué)習(xí)是一項有著30年歷史的技術(shù),其中大量數(shù)據(jù)和強(qiáng)大的處理能力幫助計算機(jī)破解那些人類幾乎可以憑直覺就可解決的難題——從識別人臉到理解語言。
深度學(xué)習(xí)本身是對神經(jīng)網(wǎng)絡(luò)這個更老的想法的復(fù)興。這些系統(tǒng)的靈感大多來自于大腦中緊密連接的神經(jīng)元,通過改變模擬神經(jīng)連接的強(qiáng)度來模擬人腦學(xué)習(xí)。谷歌大腦擁有約100萬個模擬神經(jīng)元和10億個模擬連接,比之前任何深度神經(jīng)網(wǎng)絡(luò)強(qiáng)度都要高10倍。該項目建立者Andrew Ng目前是加州斯坦福大學(xué)人工智能實驗室的負(fù)責(zé)人,他的開發(fā)已經(jīng)使深度學(xué)習(xí)系統(tǒng)的強(qiáng)度又提高了10倍。
人工智能(AI)領(lǐng)域取得的這些激動人心的進(jìn)步試圖讓電腦像人類一樣思考。紐約大學(xué)數(shù)據(jù)科學(xué)中心主任、深度學(xué)習(xí)領(lǐng)域先驅(qū)Yann LeCun說:“人工智能已經(jīng)失敗了無數(shù)次,其間只有少許的進(jìn)步。如今它實現(xiàn)了一次超越?!?/p>
“在未來幾年,我們將看到一種瘋狂的情況:很多人會跟隨深度學(xué)習(xí)的潮流?!奔又荽髮W(xué)伯克利分校從事圖像識別研究的Jitendra Malik表示同意。但是從長遠(yuǎn)看,深度學(xué)習(xí)并不占上風(fēng),一些研究人員正在尋求其他有前景的技術(shù)。“我是不可知論者?!盡alik說,“隨著時間的推移,人們會決定不同領(lǐng)域的最佳技術(shù)。”
初出茅廬
Malik稱,初期的深度學(xué)習(xí)程序并不比其他更簡單的系統(tǒng)有更好的表現(xiàn)。另外,它們還很難處理?!吧窠?jīng)網(wǎng)絡(luò)管理一直是一種精妙的藝術(shù),其中有一些黑魔法?!痹摼W(wǎng)絡(luò)需要從豐富的事例來源中進(jìn)行學(xué)習(xí),就像一個嬰兒從世界收集信息一樣。在二十世紀(jì)八九十年代,并沒有太多可用的數(shù)字信息,而且計算機(jī)消化這些存在的信息需要很長時間。當(dāng)時的相關(guān)應(yīng)用很少,LeCun開發(fā)的技術(shù)是為數(shù)不多的應(yīng)用之一,現(xiàn)在還被銀行用于讀取手寫支票。
然而到了21世紀(jì),像LeCun和其前任主管、加拿大多倫多大學(xué)計算機(jī)科學(xué)家Geoffrey Hinton這樣的提倡者確信,計算能力的提高和數(shù)字?jǐn)?shù)據(jù)的爆炸意味著是時候重新推動這一技術(shù)了。Hinton現(xiàn)在的學(xué)生George Dahl說:“我們想向世界展示,這些深度神經(jīng)網(wǎng)絡(luò)真的很有用,并能提供真正的幫助?!?/p>
在開始時,Hinton、Dahl和其他一些人解決了語音識別中對商業(yè)應(yīng)用很重要的一些難題。2009年,研究人員報告稱,通過典型數(shù)據(jù)集的練習(xí),他們的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)已經(jīng)打破了將口語轉(zhuǎn)化為文本的精度紀(jì)錄。
巨大飛躍
當(dāng)谷歌在其安卓系統(tǒng)的智能手機(jī)操作系統(tǒng)中采用基于深度學(xué)習(xí)的語音識別技術(shù)時,它的文字錯誤率下降了25%?!叭藗儽緛砥诖?0年后才能達(dá)到這種下降程度?!盚inton表示,“這相當(dāng)于實現(xiàn)了10項突破?!?/p>
同時,Ng說服谷歌,讓自己使用其數(shù)據(jù)和計算機(jī),谷歌大腦由此產(chǎn)生。該項目指認(rèn)貓的能力是對無監(jiān)督學(xué)習(xí)的有力證明,無監(jiān)督學(xué)習(xí)是最困難的學(xué)習(xí)任務(wù),因為其輸入中不包含任何像名字、標(biāo)題或者類別等解釋性信息。
不過Ng很快就遇到了麻煩,谷歌公司之外很少有研究人員擁有進(jìn)行深度學(xué)習(xí)研究的設(shè)備。因此Ng在回到斯坦福大學(xué)后,開始使用圖像處理單元(GPUs)研發(fā)更大、更便宜的深度學(xué)習(xí)網(wǎng)絡(luò)。
Ng說:“使用價值約10萬美元的硬件,我們可以用64個GPUs建立一個有著110億個連接的網(wǎng)絡(luò)?!?/p>
勝利之后
不過,要想說服計算機(jī)視覺領(lǐng)域的科學(xué)家還需要更多努力:他們希望看到標(biāo)準(zhǔn)測試中的收獲。Malik認(rèn)為,在國際知名的ImageNet競賽中取得勝利將會達(dá)到理想的結(jié)果。
在該競賽中,各團(tuán)隊基于大約含有100萬個圖像、屬于同類別的一個數(shù)據(jù)集開發(fā)計算機(jī)項目。2012年,Hinton的實驗室成為首個使用深度學(xué)習(xí)的競爭者,其錯誤率只有15%。這一次的勝利使Hinton在谷歌獲得了兼職工作,而2013年5月,谷歌公司使用該程序更新了其圖像搜索軟件。
Malik被說服了。他說:“在科學(xué)上,你必須接受經(jīng)驗證據(jù),而這正是明顯的證據(jù)?!敝?,他使用該技術(shù)在另一個視覺識別比賽中打破了紀(jì)錄。很多其他團(tuán)隊也跟隨這一趨勢,2013年,ImageNet比賽的參與團(tuán)隊都使用了深度學(xué)習(xí)技術(shù)。
隨著深度學(xué)習(xí)技術(shù)在圖像和語音識別方面取得勝利,人們越來越有興趣將其應(yīng)用于自然語言理解(例如,充分理解人類話語來改述或者回答問題)或者翻譯語言。同樣,這些工作目前可以通過使用手工編碼規(guī)則和對已知文本的統(tǒng)計分析來實現(xiàn),例如谷歌翻譯。眾包專家Luis von Ahn說:“深度學(xué)習(xí)技術(shù)將有機(jī)會比現(xiàn)在使用的技術(shù)做得更好?!彼墓綝uolingo位于賓夕法尼亞州匹茲堡市,依賴于人,而不是計算機(jī)進(jìn)行文本翻譯?!懊總€人都認(rèn)為,是時候嘗試一些不同的東西了?!?/p>
與此同時,深度學(xué)習(xí)技術(shù)被證明可用于完成各種科學(xué)任務(wù)。2012年,默克制藥公司為那些可以幫助預(yù)測有用候選藥物的最佳項目提供了獎金。Dahl和同事使用深度學(xué)習(xí)系統(tǒng)贏得了2.2萬美元。
盡管深度學(xué)習(xí)技術(shù)取得了不少成
功,但它仍處于起步階段。“它是未來的一部分?!盌ahl稱,“我們才剛剛開始?!保▉碓矗骸吨袊茖W(xué)報》,2014-01-14 )endprint