機(jī)器人是怎么學(xué)習(xí)的？

2017-03-02 18:27

大眾科學(xué) 2017年2期

在過去的2016年里，人工智能時(shí)代便已開啟。這一年，AlphaGo圍棋勝了人類；微軟報(bào)告ASR語音識(shí)別結(jié)果好過專業(yè)速記員；日本NHK電視報(bào)道，IBM機(jī)器Watson只花10分鐘完成41名病人的診斷，這通常是醫(yī)生兩周的工作；它讀取大量資料和病人DNA后，救了一位醫(yī)者束手無策的白血病人……機(jī)器人正慢慢進(jìn)入我們的生活。

不過，這些機(jī)器人在上崗工作前，也要接受一番培訓(xùn)學(xué)習(xí)的！

樣本數(shù)據(jù)是機(jī)器人的智商

首先我們得明白，人類之所以生下來就具有學(xué)習(xí)的能力是因?yàn)槿擞兄巧?，事?shí)上，任何一個(gè)有學(xué)習(xí)能力的動(dòng)物也都是具有智商的。這一點(diǎn)對(duì)于機(jī)器人來說也不例外，想要學(xué)習(xí)，就得有智商。那么，機(jī)器人的智商從何而來呢？答案是：樣本數(shù)據(jù)。

在機(jī)器人的“大腦”中，通常有這樣一個(gè)數(shù)學(xué)模型，其中包括了大量的數(shù)值規(guī)律和類別模式。這些規(guī)律和模式通常都是由線性函數(shù)來組成的，這些線性函數(shù)的參數(shù)數(shù)量巨大，少的有幾萬，多的則有可能上百億。

如此看來，這樣的數(shù)學(xué)模型其實(shí)并不復(fù)雜困難，不過，由于參數(shù)數(shù)量的巨大，看似簡單的模型卻足以涵蓋各種預(yù)測(cè)和辨別情況。而在數(shù)學(xué)上，這種調(diào)整模型參數(shù)及應(yīng)用模型的計(jì)算機(jī)制，都是精確有效的。

這個(gè)時(shí)候我們就可以回答什么是機(jī)器學(xué)習(xí)了。簡單地說，機(jī)器學(xué)習(xí)就是計(jì)算機(jī)利用輸入的大量樣本數(shù)據(jù)，調(diào)整表示規(guī)律和分類通用數(shù)學(xué)模型的參數(shù)，然后以調(diào)好的模型作答。樣本的數(shù)據(jù)里潛藏著大量的信息，通過訓(xùn)練給予了機(jī)器知識(shí)，讓機(jī)器表現(xiàn)出判斷和預(yù)測(cè)的智能。

機(jī)器學(xué)習(xí)基本分成無監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)兩類。無監(jiān)督學(xué)習(xí)是從樣本數(shù)據(jù)分布中，按它們的聚集來分類，例如用大量的人民幣硬幣尺寸和重量作為樣本的數(shù)據(jù)，它們?cè)?維空間的分布聚集在幾個(gè)地方。人們看后，知道它們是分成幾類，依此知識(shí)判斷新給的硬幣類別。機(jī)器可以通過數(shù)據(jù)點(diǎn)間距離的計(jì)算（K-means），自動(dòng)將聚類分成幾組。得到各組的中心和分布范圍后，再以此判別新輸入硬幣所對(duì)應(yīng)的組別。

許多事物看來雜亂無章，其實(shí)分屬不同類別，例如學(xué)生潛力，繪畫風(fēng)格，只要用足夠多的特征屬性來描述就可以把它們區(qū)分。但對(duì)于許多的特征屬性，人類需要研究歸納抽取出能理解其含義的少量特征，很難利用非常多的特征屬性來分類，機(jī)器卻很容易做到。在你現(xiàn)在的工作中，也可能應(yīng)用現(xiàn)成的N維自動(dòng)分類程序，在已經(jīng)擁有數(shù)據(jù)中發(fā)現(xiàn)潛藏的分類。

無監(jiān)督學(xué)習(xí)就像無師自通的領(lǐng)悟，效率較差。有老師教學(xué)就會(huì)快得多。監(jiān)督學(xué)習(xí)是最廣泛最成功應(yīng)用的機(jī)器學(xué)習(xí)，用我們知識(shí)來標(biāo)記樣本，去“教”機(jī)器學(xué)會(huì)回答問題。這個(gè)問答在數(shù)學(xué)上，是從問題的屬性空間映射到答案空間的一個(gè)函數(shù)。機(jī)器學(xué)習(xí)的基本算法是從一組候選函數(shù)中，比如說線性函數(shù)，通過計(jì)算選取出與預(yù)測(cè)樣本標(biāo)記誤差最小的函數(shù)。這個(gè)選取多是通過迭代法，沿著減小誤差的梯度方向，不斷修正候選函數(shù)的參數(shù)來實(shí)現(xiàn)。這個(gè)過程稱為訓(xùn)練。

深度學(xué)習(xí)才是亮點(diǎn)

大量的樣本數(shù)據(jù)能夠讓簡單的模型覆蓋各種預(yù)測(cè)和辨別情況，但有一個(gè)缺點(diǎn)，那就是因?yàn)樽兞總€(gè)數(shù)的巨大，使得這樣的工作方式難以分析歸納成像物理規(guī)律那樣簡單明晰的因果性機(jī)制，無法從人腦邏輯推演的角度來理解。這就導(dǎo)致了機(jī)器人的學(xué)習(xí)很難提升到更高的深度。

所謂深度學(xué)習(xí)，就是用多層神經(jīng)元構(gòu)成的神經(jīng)網(wǎng)絡(luò)，以達(dá)到機(jī)器學(xué)習(xí)的功能。這些多層的電腦網(wǎng)絡(luò)像人類大腦一樣，可以收集信息，并基于收集到的信息產(chǎn)生相應(yīng)的行為。簡單地講，深度學(xué)習(xí)技術(shù)是對(duì)人腦的一種模擬，因而可以完成很多人腦所具有的功能。

深度學(xué)習(xí)最為人所熟知的是視覺功能。我們的相機(jī)可以像眼睛一樣看到這個(gè)世界，卻不能像大腦一樣看懂這個(gè)世界，深度學(xué)習(xí)恰恰補(bǔ)上了這個(gè)短板。有了深度學(xué)習(xí)，百度識(shí)圖可以準(zhǔn)確識(shí)別照片中的物體類別，并對(duì)照片進(jìn)行自動(dòng)歸類或搜索。有了深度學(xué)習(xí)，我們可以很方便地刷臉付款。有了深度學(xué)習(xí)，特制機(jī)器可以檢測(cè)一定空間內(nèi)所有人員、車輛的行蹤，并對(duì)可疑和危險(xiǎn)事件及時(shí)報(bào)警。

傳統(tǒng)的機(jī)器學(xué)習(xí)方法一般只能挖掘簡單的線性關(guān)系，如1+1等于2。然而，大千世界并不是這種簡單關(guān)系所能描述的，如收入與年齡、性別、職業(yè)、學(xué)歷的關(guān)系。深度學(xué)習(xí)的出現(xiàn)改變了這種現(xiàn)狀，它的靈感來源于模仿人類大腦神經(jīng)網(wǎng)絡(luò)。

科學(xué)家發(fā)現(xiàn)，人類大腦皮質(zhì)不是直接對(duì)視網(wǎng)膜傳遞過來的數(shù)據(jù)進(jìn)行特征提取處理，而是讓接收到的刺激信號(hào)通過一個(gè)復(fù)雜的網(wǎng)絡(luò)模型進(jìn)行篩選。這種層級(jí)結(jié)構(gòu)大大降低了視覺系統(tǒng)處理的數(shù)據(jù)量，并最終保留了有用的信息。

如果要想讓機(jī)器人像人一樣學(xué)習(xí)，那么就要讓機(jī)器人擁有一個(gè)類似“人腦”的神經(jīng)網(wǎng)絡(luò)，創(chuàng)造這樣一個(gè)神經(jīng)網(wǎng)絡(luò)需要強(qiáng)大的硬件支撐，早期的人工智能智能創(chuàng)造出2到3個(gè)神經(jīng)層。不過由于近年來GPU（圖形處理器）、超級(jí)計(jì)算機(jī)和云計(jì)算的迅猛發(fā)展，讓深度學(xué)習(xí)有了很大的發(fā)展。

2011年，谷歌大腦用了1000臺(tái)機(jī)器、16000個(gè)CPU處理的深度學(xué)習(xí)模型大概有10億個(gè)神經(jīng)元。而現(xiàn)在，我們只需幾個(gè)GPU便可以完成同樣的計(jì)算了。

專家預(yù)計(jì)，再過幾年，我們口袋里的手機(jī)也可以運(yùn)行像人腦一樣復(fù)雜的神經(jīng)網(wǎng)絡(luò)了。

Alphago的學(xué)習(xí)過程

去年3月份，Alphago3：1戰(zhàn)勝李世石，名聲大噪。今年1月初， Alphago升級(jí)版Master在網(wǎng)上對(duì)陣全球各大圍棋高手，再次以60連勝的傲人成績叫人目瞪口呆。Alphago成了當(dāng)下人工智能界里最“紅”的大明星。

Alphago的學(xué)習(xí)總體上包含了離線學(xué)習(xí)和在線對(duì)弈兩個(gè)過程。

離線學(xué)習(xí)過程分為三個(gè)訓(xùn)練階段。第一階段：利用3萬多幅專業(yè)棋手對(duì)局的棋譜來訓(xùn)練兩個(gè)網(wǎng)絡(luò)；第二階段：利用第t輪的策略網(wǎng)絡(luò)與先前訓(xùn)練好的策略網(wǎng)絡(luò)互相對(duì)弈，利用增強(qiáng)式學(xué)習(xí)來修正第t輪的策略網(wǎng)絡(luò)的參數(shù)，最終得到增強(qiáng)的策略網(wǎng)絡(luò)；第三階段：先利用普通的策略網(wǎng)絡(luò)來生成棋局的前U-1步（U是一個(gè)屬于[1， 450]的隨機(jī)變量），然后利用隨機(jī)采樣來決定第U步的位置（這是為了增加棋的多樣性，防止過擬合）。

這樣，通過大量的自我對(duì)弈，AlphaGo產(chǎn)生了3000萬盤棋局，用作訓(xùn)練學(xué)習(xí)價(jià)值網(wǎng)絡(luò)。不過，由于圍棋的搜索空間太大，3000萬盤棋局也不能幫AlphaGo完全攻克圍棋問題。

而在線對(duì)弈則分為5個(gè)步驟：根據(jù)當(dāng)前盤面已經(jīng)落子的情況提取相應(yīng)特征；利用策略網(wǎng)絡(luò)估計(jì)出棋盤其他空地的落子概率；根據(jù)落子概率來計(jì)算此處往下發(fā)展的權(quán)重，初始值為落子概率本身（如0.18）。利用價(jià)值網(wǎng)絡(luò)和快速走棋網(wǎng)絡(luò)分別判斷局勢(shì)，兩個(gè)局勢(shì)得分相加為此處最后走棋獲勝的得分；利用第四步計(jì)算的得分來更新之前那個(gè)走棋位置的權(quán)重（如從0.18變成了0.12）；此后，從權(quán)重最大的0.15那條邊開始繼續(xù)搜索和更新。

不過，Alphago仍有很多缺點(diǎn)。首先，如果對(duì)手（人類）建立比較復(fù)雜的棋局，每步棋都牽連很多個(gè)不同的局部棋變化，那么這時(shí)候Alphago的搜索空間急劇增大，精度就會(huì)大打折扣。

其次，Alphago能夠戰(zhàn)勝這么多高手，跟它的價(jià)值網(wǎng)絡(luò)有很大的關(guān)系，有專家甚至稱如果沒有了價(jià)值網(wǎng)絡(luò)，Alphago的真實(shí)水平就只有3段左右。但Alphago的價(jià)值網(wǎng)絡(luò)有時(shí)候還不能完全避免一些怪異、甚至錯(cuò)誤的判斷。這樣的不穩(wěn)定因素也是Alphago的一大缺點(diǎn)。（編輯/有慶）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

機(jī)器人是怎么學(xué)習(xí)的？

機(jī)器人是怎么學(xué)習(xí)的？