在過去的2016年里,人工智能時(shí)代便已開啟。這一年,AlphaGo圍棋勝了人類;微軟報(bào)告ASR語音識(shí)別結(jié)果好過專業(yè)速記員;日本NHK電視報(bào)道,IBM機(jī)器Watson只花10分鐘完成41名病人的診斷,這通常是醫(yī)生兩周的工作;它讀取大量資料和病人DNA后,救了一位醫(yī)者束手無策的白血病人……機(jī)器人正慢慢進(jìn)入我們的生活。
不過,這些機(jī)器人在上崗工作前,也要接受一番培訓(xùn)學(xué)習(xí)的!
樣本數(shù)據(jù)是機(jī)器人的智商
首先我們得明白,人類之所以生下來就具有學(xué)習(xí)的能力是因?yàn)槿擞兄巧?,事?shí)上,任何一個(gè)有學(xué)習(xí)能力的動(dòng)物也都是具有智商的。這一點(diǎn)對(duì)于機(jī)器人來說也不例外,想要學(xué)習(xí),就得有智商。那么,機(jī)器人的智商從何而來呢?答案是:樣本數(shù)據(jù)。
在機(jī)器人的“大腦”中,通常有這樣一個(gè)數(shù)學(xué)模型,其中包括了大量的數(shù)值規(guī)律和類別模式。這些規(guī)律和模式通常都是由線性函數(shù)來組成的,這些線性函數(shù)的參數(shù)數(shù)量巨大,少的有幾萬,多的則有可能上百億。
如此看來,這樣的數(shù)學(xué)模型其實(shí)并不復(fù)雜困難,不過,由于參數(shù)數(shù)量的巨大,看似簡單的模型卻足以涵蓋各種預(yù)測(cè)和辨別情況。而在數(shù)學(xué)上,這種調(diào)整模型參數(shù)及應(yīng)用模型的計(jì)算機(jī)制,都是精確有效的。
這個(gè)時(shí)候我們就可以回答什么是機(jī)器學(xué)習(xí)了。簡單地說,機(jī)器學(xué)習(xí)就是計(jì)算機(jī)利用輸入的大量樣本數(shù)據(jù),調(diào)整表示規(guī)律和分類通用數(shù)學(xué)模型的參數(shù),然后以調(diào)好的模型作答。樣本的數(shù)據(jù)里潛藏著大量的信息,通過訓(xùn)練給予了機(jī)器知識(shí),讓機(jī)器表現(xiàn)出判斷和預(yù)測(cè)的智能。
機(jī)器學(xué)習(xí)基本分成無監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)兩類。無監(jiān)督學(xué)習(xí)是從樣本數(shù)據(jù)分布中,按它們的聚集來分類,例如用大量的人民幣硬幣尺寸和重量作為樣本的數(shù)據(jù),它們?cè)?維空間的分布聚集在幾個(gè)地方。人們看后,知道它們是分成幾類,依此知識(shí)判斷新給的硬幣類別。機(jī)器可以通過數(shù)據(jù)點(diǎn)間距離的計(jì)算(K-means),自動(dòng)將聚類分成幾組。得到各組的中心和分布范圍后,再以此判別新輸入硬幣所對(duì)應(yīng)的組別。
許多事物看來雜亂無章,其實(shí)分屬不同類別,例如學(xué)生潛力,繪畫風(fēng)格,只要用足夠多的特征屬性來描述就可以把它們區(qū)分。但對(duì)于許多的特征屬性,人類需要研究歸納抽取出能理解其含義的少量特征,很難利用非常多的特征屬性來分類,機(jī)器卻很容易做到。在你現(xiàn)在的工作中,也可能應(yīng)用現(xiàn)成的N維自動(dòng)分類程序,在已經(jīng)擁有數(shù)據(jù)中發(fā)現(xiàn)潛藏的分類。
無監(jiān)督學(xué)習(xí)就像無師自通的領(lǐng)悟,效率較差。有老師教學(xué)就會(huì)快得多。監(jiān)督學(xué)習(xí)是最廣泛最成功應(yīng)用的機(jī)器學(xué)習(xí),用我們知識(shí)來標(biāo)記樣本,去“教”機(jī)器學(xué)會(huì)回答問題。這個(gè)問答在數(shù)學(xué)上,是從問題的屬性空間映射到答案空間的一個(gè)函數(shù)。機(jī)器學(xué)習(xí)的基本算法是從一組候選函數(shù)中,比如說線性函數(shù),通過計(jì)算選取出與預(yù)測(cè)樣本標(biāo)記誤差最小的函數(shù)。這個(gè)選取多是通過迭代法,沿著減小誤差的梯度方向,不斷修正候選函數(shù)的參數(shù)來實(shí)現(xiàn)。這個(gè)過程稱為訓(xùn)練。
深度學(xué)習(xí)才是亮點(diǎn)
大量的樣本數(shù)據(jù)能夠讓簡單的模型覆蓋各種預(yù)測(cè)和辨別情況,但有一個(gè)缺點(diǎn),那就是因?yàn)樽兞總€(gè)數(shù)的巨大,使得這樣的工作方式難以分析歸納成像物理規(guī)律那樣簡單明晰的因果性機(jī)制,無法從人腦邏輯推演的角度來理解。這就導(dǎo)致了機(jī)器人的學(xué)習(xí)很難提升到更高的深度。
所謂深度學(xué)習(xí),就是用多層神經(jīng)元構(gòu)成的神經(jīng)網(wǎng)絡(luò),以達(dá)到機(jī)器學(xué)習(xí)的功能。這些多層的電腦網(wǎng)絡(luò)像人類大腦一樣,可以收集信息,并基于收集到的信息產(chǎn)生相應(yīng)的行為。簡單地講,深度學(xué)習(xí)技術(shù)是對(duì)人腦的一種模擬,因而可以完成很多人腦所具有的功能。
深度學(xué)習(xí)最為人所熟知的是視覺功能。我們的相機(jī)可以像眼睛一樣看到這個(gè)世界,卻不能像大腦一樣看懂這個(gè)世界,深度學(xué)習(xí)恰恰補(bǔ)上了這個(gè)短板。有了深度學(xué)習(xí),百度識(shí)圖可以準(zhǔn)確識(shí)別照片中的物體類別,并對(duì)照片進(jìn)行自動(dòng)歸類或搜索。有了深度學(xué)習(xí),我們可以很方便地刷臉付款。有了深度學(xué)習(xí),特制機(jī)器可以檢測(cè)一定空間內(nèi)所有人員、車輛的行蹤,并對(duì)可疑和危險(xiǎn)事件及時(shí)報(bào)警。
傳統(tǒng)的機(jī)器學(xué)習(xí)方法一般只能挖掘簡單的線性關(guān)系,如1+1等于2。然而,大千世界并不是這種簡單關(guān)系所能描述的,如收入與年齡、性別、職業(yè)、學(xué)歷的關(guān)系。深度學(xué)習(xí)的出現(xiàn)改變了這種現(xiàn)狀,它的靈感來源于模仿人類大腦神經(jīng)網(wǎng)絡(luò)。
科學(xué)家發(fā)現(xiàn),人類大腦皮質(zhì)不是直接對(duì)視網(wǎng)膜傳遞過來的數(shù)據(jù)進(jìn)行特征提取處理,而是讓接收到的刺激信號(hào)通過一個(gè)復(fù)雜的網(wǎng)絡(luò)模型進(jìn)行篩選。這種層級(jí)結(jié)構(gòu)大大降低了視覺系統(tǒng)處理的數(shù)據(jù)量,并最終保留了有用的信息。
如果要想讓機(jī)器人像人一樣學(xué)習(xí),那么就要讓機(jī)器人擁有一個(gè)類似“人腦”的神經(jīng)網(wǎng)絡(luò),創(chuàng)造這樣一個(gè)神經(jīng)網(wǎng)絡(luò)需要強(qiáng)大的硬件支撐,早期的人工智能智能創(chuàng)造出2到3個(gè)神經(jīng)層。不過由于近年來GPU(圖形處理器)、超級(jí)計(jì)算機(jī)和云計(jì)算的迅猛發(fā)展,讓深度學(xué)習(xí)有了很大的發(fā)展。
2011年,谷歌大腦用了1000臺(tái)機(jī)器、16000個(gè)CPU處理的深度學(xué)習(xí)模型大概有10億個(gè)神經(jīng)元。而現(xiàn)在,我們只需幾個(gè)GPU便可以完成同樣的計(jì)算了。
專家預(yù)計(jì),再過幾年,我們口袋里的手機(jī)也可以運(yùn)行像人腦一樣復(fù)雜的神經(jīng)網(wǎng)絡(luò)了。
Alphago的學(xué)習(xí)過程
去年3月份,Alphago3:1戰(zhàn)勝李世石,名聲大噪。今年1月初, Alphago升級(jí)版Master在網(wǎng)上對(duì)陣全球各大圍棋高手,再次以60連勝的傲人成績叫人目瞪口呆。Alphago成了當(dāng)下人工智能界里最“紅”的大明星。
Alphago的學(xué)習(xí)總體上包含了離線學(xué)習(xí)和在線對(duì)弈兩個(gè)過程。
離線學(xué)習(xí)過程分為三個(gè)訓(xùn)練階段。第一階段:利用3萬多幅專業(yè)棋手對(duì)局的棋譜來訓(xùn)練兩個(gè)網(wǎng)絡(luò);第二階段:利用第t輪的策略網(wǎng)絡(luò)與先前訓(xùn)練好的策略網(wǎng)絡(luò)互相對(duì)弈,利用增強(qiáng)式學(xué)習(xí)來修正第t輪的策略網(wǎng)絡(luò)的參數(shù),最終得到增強(qiáng)的策略網(wǎng)絡(luò);第三階段:先利用普通的策略網(wǎng)絡(luò)來生成棋局的前U-1步(U是一個(gè)屬于[1, 450]的隨機(jī)變量),然后利用隨機(jī)采樣來決定第U步的位置(這是為了增加棋的多樣性,防止過擬合)。
這樣,通過大量的自我對(duì)弈,AlphaGo產(chǎn)生了3000萬盤棋局,用作訓(xùn)練學(xué)習(xí)價(jià)值網(wǎng)絡(luò)。不過,由于圍棋的搜索空間太大,3000萬盤棋局也不能幫AlphaGo完全攻克圍棋問題。
而在線對(duì)弈則分為5個(gè)步驟:根據(jù)當(dāng)前盤面已經(jīng)落子的情況提取相應(yīng)特征;利用策略網(wǎng)絡(luò)估計(jì)出棋盤其他空地的落子概率;根據(jù)落子概率來計(jì)算此處往下發(fā)展的權(quán)重,初始值為落子概率本身(如0.18)。利用價(jià)值網(wǎng)絡(luò)和快速走棋網(wǎng)絡(luò)分別判斷局勢(shì),兩個(gè)局勢(shì)得分相加為此處最后走棋獲勝的得分;利用第四步計(jì)算的得分來更新之前那個(gè)走棋位置的權(quán)重(如從0.18變成了0.12);此后,從權(quán)重最大的0.15那條邊開始繼續(xù)搜索和更新。
不過,Alphago仍有很多缺點(diǎn)。首先,如果對(duì)手(人類)建立比較復(fù)雜的棋局,每步棋都牽連很多個(gè)不同的局部棋變化,那么這時(shí)候Alphago的搜索空間急劇增大,精度就會(huì)大打折扣。
其次,Alphago能夠戰(zhàn)勝這么多高手,跟它的價(jià)值網(wǎng)絡(luò)有很大的關(guān)系,有專家甚至稱如果沒有了價(jià)值網(wǎng)絡(luò),Alphago的真實(shí)水平就只有3段左右。但Alphago的價(jià)值網(wǎng)絡(luò)有時(shí)候還不能完全避免一些怪異、甚至錯(cuò)誤的判斷。這樣的不穩(wěn)定因素也是Alphago的一大缺點(diǎn)。(編輯/有慶)