計算機科學(xué)和密碼學(xué)的先驅(qū)艾倫·麥席森·圖靈在1950年撰寫了《計算機器與智能》一文,提出了一項經(jīng)典的測試:如果一臺機器與人類展開對話,超過30%的測試人類誤以為在和人類說話而非機器,那么就可以說這臺機器具有智能。這就是人工智能行業(yè)知名的“圖靈測試”,圖靈預(yù)言在20世紀末一定會有電腦通過這項測試,但事實上直到2014年,人工智能軟件“尤金·古斯特曼”才第一個通過了圖靈測試。這也從側(cè)面反映出一個事實:雖然早在70多年前就已經(jīng)有科學(xué)家進行了猜想,但賦予機器人“靈魂”,卻仍然任重道遠。那么問題來了,目前的人工智能處于相對高速的發(fā)展階段,我們有哪些能讓機器人與我們交互呢?
作為地球上最有智慧的生物,人類獲取信息的渠道83%來自視覺、11%來自聽覺、3.5%來自嗅覺,而1.5%來自觸覺、1%來自味覺,而既然要模擬人類的思維方式,其核心就是讓機器通過深度學(xué)習(xí),根據(jù)所收集的數(shù)據(jù)信息做出相應(yīng)的反饋,考慮到我們大部分信息的來源都是視覺,所以,讓機器人“看到”物體和場景,進而對圖像內(nèi)容給予解釋就成了機器人靈魂的核心。
目前隨著人工智能視覺技術(shù)的不斷進化,包括物體識別、目標追蹤、導(dǎo)航、避障已成為各類智能設(shè)備的前端通用技術(shù),我們在工業(yè)生產(chǎn)自動化、流水線控制、汽車自動駕駛、安防監(jiān)控、遙感圖像分析、無人機、農(nóng)業(yè)生產(chǎn)以及機器人等各個方面都能找到很多案例。
而對于移動機器人來說,就需要使用多種不同傳感器來實現(xiàn)環(huán)境感知,比如大家在飯店餐館可能會看到自動傳菜機器人,抑或是在工廠里很常見的運輸機器人,它們會通過搭載激光雷達、立體視覺攝像頭、紅外以及超寬頻傳感器來“分辨”環(huán)境并構(gòu)建地圖,從而擁有識別、感知、理解、判斷及行動能力。
環(huán)境感知能力是機器人最基本的功能,這意味著這類機器人更適用于服務(wù)型工作,目前來看這類機器人還可以通過模塊化裝備,完成人員異常行為監(jiān)測、人員檢測及記錄、異常高溫或火災(zāi)報警、環(huán)境數(shù)據(jù)異常報警等功能,甚至通過遠程監(jiān)控模塊,可以代替人員進入危險場所,完成勘察任務(wù)。
人形雙臂機器人通過攝像頭識別和算法精準定位匹配,可實現(xiàn)擰瓶蓋等操作
工廠里最常見的機器人也同樣有著豐富的感知傳感器
看似簡單的對話,卻蘊含了多個解析步驟
如果只是通過環(huán)境感知來完成工作,這樣的機器人算得上“聰明”么?站在人類的角度來看不過也都是自動化的工具而已,離咱們想象中電影里那樣的智能化機器人有著非常明顯的差距,其實很大程度上產(chǎn)生這種感覺的原因在于,服務(wù)型機器人大多都不會與人進行交互,而我們?nèi)祟惤换サ暮诵姆绞骄褪钦f話聊天。70多年前提出的圖靈測試還是通過文字形式來驗證,而現(xiàn)在如果要重新定義的話,語音交互應(yīng)該是必考項目,比爾·蓋茨就曾說“人類自然形成的與自然界溝通的認知習(xí)慣和形式必定是人機交互的發(fā)展方向”。
人機交互技術(shù)主要包含語音識別、語義理解、人臉識別、圖像識別、體感/手勢交互等技術(shù),其中語音人機交互過程中包含信息輸入和輸出、語音處理、語義分析、智能邏輯處理以及知識和內(nèi)容的整合。
就目前來看,人工智能語音技術(shù)可以分為近場語音和遠場語音兩個分類,近場語音基本上是為了滿足一些輔助使用需求,比如蘋果Siri和微軟小冰就是近場語音產(chǎn)品,而很多智能音箱則可以實現(xiàn)遠場語音,用戶能在5米外的距離語音指示它控制智能家居設(shè)備。這些看起來似乎很簡單的工作,事實上對準確性的要求非常高,從處理過程來看先要通過聲學(xué)處理我們的聲音和周圍環(huán)境,再通過語音識別技術(shù)將聽到的聲音翻譯成文字,語義理解技術(shù)則會分析這些文字的意義,最后機器去執(zhí)行用戶的指令或者通過語音合成技術(shù)把要表達的內(nèi)容合成語音。
但在真實環(huán)境下,受噪聲等環(huán)境因素影響,機器仍然無法完全準確識別自然語言,機器將聽到的語音翻譯成文字時,重音、口音模糊、語法模糊等又很影響成功率,而且人類語言太復(fù)雜,受到單詞邊界模糊、多義詞、句法模糊、上下文理解等影響,再加上中文存在大量的方言,語義理解是一個巨大的障礙。
所以,現(xiàn)階段的人工智能語音系統(tǒng)更多用在垂直使用場景,比如汽車的車載智能語音系統(tǒng)、兒童娛樂和教育軟件、人工智能客服等等。尤其是人工智能客服,很多人應(yīng)該都接到過銀行或金融機構(gòu)的智能客服電話,大多數(shù)情況下它的表現(xiàn)都跟真人沒有太大差別,但嚴重缺乏變通能力,只能在相對狹窄的范圍內(nèi)進行溝通,準確率也并不高,但它一則可以實現(xiàn)客戶需求的快速響應(yīng),二來在一定程度上能夠節(jié)約時間和人工成本,所以在未來也一定會隨著滲透率的不斷加深而繼續(xù)進化。
機器人的語義理解能力目前仍處于較低水平
機器人抓取姿態(tài)判別深度學(xué)習(xí)方案
姿態(tài)識別也是機器人視覺學(xué)習(xí)的關(guān)鍵點之一
既然我們說到了機器人的智能進化,可能有讀者朋友會問:那它是怎樣進化的呢?最知名的方法就是深度學(xué)習(xí),早在2011年,谷歌一家實驗室的研究人員就從視頻網(wǎng)站中抽取了1000萬張靜態(tài)圖片,把它“喂”給谷歌大腦,目標是從中尋找重復(fù)出現(xiàn)的圖片,而在足足3天后,谷歌大腦才完成了這一挑戰(zhàn),而谷歌大腦就是一個由1000臺電腦、16000顆處理器組成的10億神經(jīng)單元深度學(xué)習(xí)模型。
深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,本質(zhì)上是構(gòu)建含有多隱層的機器學(xué)習(xí)架構(gòu)模型,通過大規(guī)模數(shù)據(jù)進行訓(xùn)練,得到大量更具代表性的特征信息,從而對樣本進行分類和預(yù)測,提高分類和預(yù)測的精度。比如抓取姿態(tài)判別,對于人類來說,想要拿起一個東西只需要看幾眼就知道該用怎樣的手勢去拿,而對機器人來說這卻是一個不小的挑戰(zhàn),涉及到的研究包括智能學(xué)習(xí)、抓取位姿判別、機器人運動規(guī)劃與控制等,而且還需要根據(jù)抓取物體的材料性質(zhì)來隨機應(yīng)變,調(diào)整抓取姿勢和力度。
不過,創(chuàng)造一個強大的神經(jīng)網(wǎng)絡(luò)需要更多處理層,這就需要很強的數(shù)據(jù)處理能力,所以深度學(xué)習(xí)的背后往往都有上游硬件大佬的“撐腰”,這些年圖形處理器、超級計算機和云計算的迅猛發(fā)展,讓深度學(xué)習(xí)脫穎而出,NVIDIA、英特爾、AMD等芯片巨頭都站到了人工智能學(xué)習(xí)的舞臺中央。
深度學(xué)習(xí)技術(shù)建立在大量實例基礎(chǔ)上,給它學(xué)習(xí)的數(shù)據(jù)越多,它就越聰明。因為大數(shù)據(jù)的不可或缺,所以目前深度學(xué)習(xí)做得最好的基本是擁有大量數(shù)據(jù)的IT巨頭,如谷歌、微軟、百度等。與此同時,深度學(xué)習(xí)技術(shù)在語音識別、計算機視覺、語言翻譯等領(lǐng)域,均戰(zhàn)勝傳統(tǒng)的機器學(xué)習(xí)方法,甚至在人臉驗證、圖像分類上還超過人類的識別能力,比如短視頻時代很熱門的人工智能“換臉”,就是將原視頻里的人臉逐幀導(dǎo)出,再通過大量想要替換的人臉照片來進行模型訓(xùn)練,訓(xùn)練的過程你會直觀看到替換的人臉從模糊逐漸變得清晰,根據(jù)電腦配置的不同,在訓(xùn)練數(shù)小時甚至數(shù)十小時后就能得到一個相當(dāng)不錯的替換結(jié)果,這就是深度學(xué)習(xí)的典型過程。
對于機器人來說,深度學(xué)習(xí)的應(yīng)用面除了圖像識別之外還有很多,比如工業(yè)或安防機器人需要用到的復(fù)雜環(huán)境路線規(guī)劃和室內(nèi)導(dǎo)航,教育機器人識別學(xué)生坐姿、舉手、摔倒的人體姿態(tài)判斷等。在未來,計算方法可能更趨向于與大數(shù)據(jù)、云計算相結(jié)合,使機器人利用云平臺更好地存儲資源和自主學(xué)習(xí),同時在大數(shù)據(jù)環(huán)境下,數(shù)量龐大的機器人共同分享學(xué)習(xí)內(nèi)容,疊加學(xué)習(xí)模型,更有效地分析和處理海量數(shù)據(jù),從而提高學(xué)習(xí)和工作效率,發(fā)展智能機器人的潛力。
當(dāng)然,這些發(fā)展還存在很多隱藏的問題,比如在機器人與云平臺相結(jié)合時,因為技術(shù)還不夠成熟,在資源分配、系統(tǒng)安全、可靠有效的通信協(xié)議,以及如何打通各大上游廠商之間的技術(shù)壁壘等都是下一步研究中需要關(guān)注的問題。