曼弗雷德·德沃夏克 鄢俊
在識別圖像時,遇到一種彩色的小斑點,人工智能就會出現(xiàn)識別錯誤。這種斑點很閃亮,內(nèi)部雜亂無章,像一個至幻至美的棒棒糖。一個來自谷歌公司的研究團隊發(fā)現(xiàn),在它面前,計算機仿佛被催眠了一樣,失去了自動識別圖像的能力。此時,所有圖像在計算機面前都被誤認(rèn)為是烤面包機,無論是一堆香蕉、一間浴室,還是德國總理默克爾。
實驗表明,彩色小斑點正是靠著這種伎倆蒙混過關(guān)。只要它出現(xiàn)在相機捕捉到的圖像里,無論在什么位置,都能讓計算機不知不覺中邪。為什么會這樣?研究人員解釋道,對于人工智能識別,這個圖案就像一個無法抗拒的誘餌。在這個斑點中,計算機能夠非常輕易地識別出一臺烤面包機。于是,斑點里的其他圖案就變得無關(guān)緊要,直接被計算機忽視了。
計算機這么容易被欺騙,這確實讓人意想不到。但其實這并非計算機上當(dāng)受騙的第一例,研究人員早已發(fā)現(xiàn)了圖像識別的這一奇怪弱點。他們將數(shù)碼相片的像素做了肉眼幾乎不可見的微小調(diào)整,計算機就突然把一輛校車識別成了一只鴕鳥。甚至三維打印的物體也出現(xiàn)過類似情況:一只三維打印出來的烏龜看起來惟妙惟肖,卻被識別成了一把步槍。一只愛好和平的爬行動物,怎么會變成一把用于射擊的武器?然而對此,計算機卻絲毫不感到困擾,反而非常堅信自己的判斷。
人工智能如何被欺騙?雖然到目前為止,這個問題主要是由相關(guān)專家來研究,但操作的方法和手段卻越來越能夠為普通人所輕易掌握。任何人都可以下載并打印這個具有催眠作用的彩色斑點,再加上一些專業(yè)知識,就可以繪制出除烤面包機外其他具有欺騙性的圖案,如三輪車、手雷或者金色倉鼠。研究人員相信,互聯(lián)網(wǎng)很快就能為人工智能計算機調(diào)制出種類繁多的致幻劑。對于黑客和惡作劇者來說這極具誘惑力,對于那些倡導(dǎo)反政府監(jiān)督的人士來說,這也不失為一個良好的對抗手段。比如,將這種圖案貼在額頭上,就無法被監(jiān)控攝像機辨認(rèn)出身份,就像貼了一個隱身符咒一樣。可以預(yù)見,在未來,監(jiān)控攝像頭會捕捉到許許多多臺“烤面包機”在街上示威游行。匹茲堡卡內(nèi)基·梅隆大學(xué)的研究人員已經(jīng)開發(fā)出了一款帶有這種圖案的可打印眼鏡框,人們可以用它掩蓋自己的真實身份。也就是說,任何人戴上這個鏡框,都能被識別為電影明星拉塞爾·克勞。
這對于人工智能未來的發(fā)展絕不是件好事。實際上,在過去這些年,自動圖像識別在很多領(lǐng)域都已經(jīng)發(fā)展得很好了。要不是這些奇怪的錯誤,人工智能幾乎已經(jīng)能與人腦相媲美。出現(xiàn)這種問題的原因與計算機的學(xué)習(xí)模式有關(guān)——它總是按照既定的模板來尋找圖像。簡單來說,就是每個圖像都應(yīng)該被歸入一個相應(yīng)的 “抽屜”里——所有的烏龜在一個,所有的步槍又在另一個。在識別過程中,人工智能所做的只是猜測。但在每次驗證結(jié)果后,計算機都能進一步提升它的識別準(zhǔn)確度。經(jīng)過無數(shù)次努力,它顯然學(xué)到了一些東西,最終把大部分烏龜都?xì)w入了正確的“抽屜”。
然而,人們很難弄清計算機是如何做出它的判斷的。只有一點可以確定:人眼可識別的很重要的特征,人工智能卻往往捕捉不到,如圓圓的龜殼以及仿佛長滿魚鱗的龜腿。否則,它也不會把一只爬行動物標(biāo)注成一把步槍。很顯然,它完全沒理解自己所看到的事物。這是目前計算機自主學(xué)習(xí)方面的最大謎團:為什么計算機如此擅長學(xué)習(xí),卻又如此容易犯錯誤?研究人員不斷尋找計算機的弱點,希望能對此找出一個合理的解釋。目前,這已經(jīng)成為了一個很興旺的學(xué)科。不斷有新的“攻擊”得到測試,每隔幾天都有新的問題被發(fā)現(xiàn)。
2013年底,谷歌公司的研究人員宣布,他們對人工智能計算機進行了第一次成功的“攻擊”。自那以后,研究人員還相繼進行過多次類似的“攻擊”。只是這些“攻擊”針對的都是數(shù)碼相片的識別,危害相對較小。然而,研究工作循序漸進,而現(xiàn)實世界卻飛速發(fā)展。雖然目前這個問題更多的還只是停留在理論層面上,但是很快這些“攻擊”也會發(fā)生在現(xiàn)實世界中。比如交通標(biāo)志的篡改,只要有人對停車指示牌稍微做一點手腳,就能讓監(jiān)控電腦誤以為是限速標(biāo)識牌。
此外,研究還表明,不只圖像會被弄混和認(rèn)錯,自動語音識別也存在缺陷——有時計算機完全誤解了人們所說的話?;祀s在語音文本中的干擾信號極其微弱,人耳很難分辨,卻能夠輕易使計算機上當(dāng)受騙。這種情況不僅出現(xiàn)在一般錄音中,也出現(xiàn)在實時錄音中。甚至在音樂里,也隱藏著這些秘密的干擾信號。因此,當(dāng)一個毫無戒心的音樂愛好者在視頻網(wǎng)站上錄制一場音樂會時,他的話筒很可能已經(jīng)悄悄地向室內(nèi)所有可接收信息的電腦發(fā)送了一些不為人知的信息。
人工智能語音識別還有很大的發(fā)展空間。像亞馬遜的Alexa那樣聰明的語音助手已經(jīng)走入了千家萬戶,時刻聽從著主人的差遣。幾乎可以確定,在不久的將來,語音指令將左右我們一半的生活。到那時,如果有人企圖使壞,情況就糟糕了。因為他只需要將全智能房屋的燈突然關(guān)掉,或者在全家人面前用Alexa的聲音開一個下流的玩笑就能得逞。
人工智能越是深入到人們的日常生活,其容易失誤這一缺點就體現(xiàn)得越為明顯。為此,無人駕駛的發(fā)展引發(fā)了諸多爭議。汽車供應(yīng)商博世的一個研究團隊發(fā)現(xiàn),理論上講,即使是主控計算機,也能被刻意干擾。實驗中,被干擾的計算機就像昏了頭一樣,無法辨識在汽車前面經(jīng)過的行人。
到目前為止,針對這樣的“攻擊”能采取的措施很少。用已知的迷惑性圖案和干擾雜音來訓(xùn)練人工智能,使它不那么容易掉入陷阱,這有一定的作用。但是,這樣的訓(xùn)練并不能擔(dān)保它不受未知種類的“攻擊”。在出現(xiàn)新的突破之前,凡是在安全至上的地方,自主學(xué)習(xí)的人工智能計算機都將會是一個難以估算的風(fēng)險點。
對于人工智能的發(fā)展而言,這是一個發(fā)人深省的問題。很多研究人員都曾希望他們的人工智能計算機會隨著時間的推移而變得越來越聰明。一臺能夠在無數(shù)張照片中正確識別出桌子的計算機,久而久之就該知道構(gòu)成一張桌子的要素是什么——一個有底座的平面,常常被幾把椅子所環(huán)繞,上面偶爾放著幾把早餐餐具、幾個家庭作業(yè)本或者一個棋盤?,F(xiàn)在,這個希望幾乎已經(jīng)破滅。計算機無法理解所有桌子的共性是什么,也無法理解桌子的用途。把一個斑點圖案打印出來放在桌子上,就足以讓計算機把桌子認(rèn)成一臺烤面包機了。
實際上真正令人驚嘆的是,即便人工智能無法理解事物,卻仍然能夠達到目前的認(rèn)知水平。
那么,它究竟是如何識別出桌子的呢?針對這個問題,來自蒙特利爾大學(xué)的人工智能專家約書亞·本吉奧經(jīng)研究得出一個結(jié)論。照片有一個詭異的特點,同一種類的圖像,如車水馬龍的街景,即使采取截然不同的方法拍攝,在算法上來說,也存在很多共同之處。也就是說,它們共享一個隱藏的編碼。決定這個編碼的因素包括:圖像表面的顏色怎么分布,其對比度是怎樣的,是以光滑的表面還是以內(nèi)部結(jié)構(gòu)為主。這只是純粹的統(tǒng)計數(shù)據(jù),對人類而言并沒有多大意義,但對于人工智能而言,卻能提供海量的信息。比如,汽車的圖像與瀑布、摩天大樓、動物等其他物體的圖像有著不同的編碼,計算機僅憑這些像數(shù)學(xué)模型一樣的編碼,就能夠知道一張圖片所顯示的內(nèi)容,壓根兒不需要“看”。本吉奧在最近的一次實驗中證明,人工智能就是用這種數(shù)字游戲來完成圖像識別的。對于圖像所展示的真正內(nèi)容,它只有一個最基本的概念。這至少在某種程度上解釋了為什么人工智能在識別圖像時那么容易弄混淆,以及為什么它無法通過自主學(xué)習(xí)取得真正的進步。
本吉奧認(rèn)為,“簡單的解決辦法是不存在的”。只有創(chuàng)立一種新的學(xué)習(xí)模式,由人類刻意訓(xùn)練人工智能去理解圖片的內(nèi)容,人工智能才會也去學(xué)習(xí)圖片中的物體到底是什么,以及它們在現(xiàn)實世界中是如何互相關(guān)聯(lián)的。到目前為止,它識別圖像的過程還只是按圖索驥。要實現(xiàn)這個目標(biāo),人工智能必須能從抽象概念的層面去理解事物:桌子怎樣才算桌子?烏龜怎樣才算烏龜?對此,谷歌公司的人工智能研究員弗朗索瓦·喬萊特卻持懷疑態(tài)度。他認(rèn)為讓人工智能學(xué)會理解抽象的事物太難。“這是人工智能最大的問題,”他在推特中這樣簡短地寫道,“沒有人知道該怎么辦?!?/p>
可以預(yù)見,與此相關(guān)的研究在未來數(shù)年還會繼續(xù)進行下去,并且會更加深入。但與此同時,人工智能也將遇到越來越多的“攻擊”。
[譯自德國《明鏡周刊》]