国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能算法梳理及解析

2018-05-03 10:01:45王蘊韜
信息通信技術(shù) 2018年1期
關(guān)鍵詞:機(jī)器聚類深度

王蘊韜

中國信息通信研究院北京100037

當(dāng)前,伴隨網(wǎng)絡(luò)及計算機(jī)技術(shù)的長足發(fā)展,人工智能隨著深度學(xué)習(xí)技術(shù)應(yīng)用的突破取得極大進(jìn)展,各種落地應(yīng)用及概念產(chǎn)品層出不窮,人們對其在生產(chǎn)生活中的革命性創(chuàng)新充滿期待。捋順人工智能算法脈絡(luò),解析基本算法應(yīng)用場景,可使我們對人工智能技術(shù)有一個更為理性深入和全面的理解及思考。

1 人工智能技術(shù)理解

縱觀人工智能技術(shù)發(fā)展歷史,人工智能在實現(xiàn)上可歸類為六種途徑,即符號主義、連接主義、學(xué)習(xí)主義、行為主義、進(jìn)化主義和群體主義[1]。六種途徑并非涇渭分明,它們只是從不同的角度提出了解決方案,如學(xué)習(xí)主義就用到了人工神經(jīng)網(wǎng)絡(luò)來實現(xiàn)。目前流行的機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)算法實際上是符號主義、連接主義以及行為主義理論的進(jìn)一步拓展。

對于機(jī)器學(xué)習(xí)的理解,筆者認(rèn)為可以從三個問題入手,即學(xué)什么、怎么學(xué)、做什么。首先,機(jī)器學(xué)習(xí)需要學(xué)習(xí)的內(nèi)容是能夠表征此項任務(wù)的函數(shù),即能夠?qū)崿F(xiàn)人們需要的輸入和輸出的映射關(guān)系,從信息論的角度來看,其學(xué)習(xí)的目標(biāo)是確定兩個狀態(tài)空間內(nèi)所有可能取值之間的關(guān)系,使得熵盡可能最低[2]。其次,機(jī)器怎么學(xué)。要實現(xiàn)學(xué)習(xí)目標(biāo),就要教給機(jī)器一套評判的方法,而不同于告訴機(jī)器每個具體步驟如何操作的傳統(tǒng)方法,這需要對機(jī)器描述過程演進(jìn)為對機(jī)器描述結(jié)果。從數(shù)學(xué)角度來看,就是為機(jī)器定義一個合適的損失函數(shù),能夠合理量化真實結(jié)果和訓(xùn)練結(jié)果的誤差,并將之反饋給機(jī)器繼續(xù)作迭代訓(xùn)練。最后,機(jī)器學(xué)習(xí)究竟要做什么,其實主要做三件事,即分類(Classification)、回歸(Regression)和聚類(Clustering),其中分類和回歸屬于監(jiān)督學(xué)習(xí)的范疇,而聚類則屬于非監(jiān)督學(xué)習(xí)的范疇。目前多數(shù)人工智能落地應(yīng)用的背后,都是通過對現(xiàn)實問題抽象成相應(yīng)的數(shù)學(xué)模型,分解為這三類基本任務(wù)的有機(jī)組合,并對其進(jìn)行建模求解的過程。

2 機(jī)器學(xué)習(xí)算法分類

這里,我們首先討論當(dāng)前的三大最常見的機(jī)器學(xué)習(xí)任務(wù)及其常用算法[3]。

首先是回歸?;貧w是一種用于連續(xù)型數(shù)值變量預(yù)測和建模的監(jiān)督學(xué)習(xí)算法;回歸任務(wù)的特征是具有數(shù)值型目標(biāo)變量的標(biāo)注數(shù)據(jù)集。回歸算法有很多種,其中最為常用的算法主要有四種:第一是(正則化)線性回歸,它最簡的形式是用一個連續(xù)的超平面來擬合數(shù)據(jù)集;第二是回歸樹(集成方法),該方法又稱為決策樹,通過將數(shù)據(jù)集重復(fù)分割成不同的分支來最大化每次分離的信息增益,從而讓回歸樹很自然地學(xué)到非線性關(guān)系,集成方法包括隨機(jī)森林(RF)或梯度提升樹(GBM);除此之外,還有最鄰近算法和深度學(xué)習(xí)。

第二是分類。分類算法用于分類變量建模及預(yù)測的監(jiān)督學(xué)習(xí)算法,許多回歸算法都有其對應(yīng)的分類形式,分類算法往往適用于類別(或其可能性)的預(yù)測,而非數(shù)值。其中最為常用的算法主要有五種。1)(正則化)邏輯回歸。邏輯回歸通過邏輯函數(shù)將預(yù)測映射到0到1的區(qū)間,因此預(yù)測值可被視為某一類別的概率。2)分類樹(集成方法)。對應(yīng)于回歸樹的分類算法是分類樹。通常,它們都是指決策樹,更為嚴(yán)謹(jǐn)?shù)恼f法是“分類回歸樹”,也就是非常有名的CART算法。3)支持向量機(jī)。支持向量機(jī)使用一個名為核函數(shù)的技巧,來將非線性問題變換為線性問題,其本質(zhì)是計算兩個觀測數(shù)據(jù)的距離。支持向量機(jī)算法所尋找的是能夠最大化樣本間隔的決策邊界,因此又被稱為大間距分類器。4)樸素貝葉斯。基于條件概率和計數(shù)的簡單算法,其本質(zhì)是一個概率表,通過訓(xùn)練數(shù)據(jù)來更新其中的概率。它預(yù)測新觀察值的過程,就是根據(jù)樣本的特征值在概率表中來尋找最為可能的類別。被稱為“樸素”的原因是其核心的特征條件獨立性假設(shè)(例如,每一項輸入特征都相互獨立)在現(xiàn)實中幾乎是不成立的。5)深度學(xué)習(xí)方法。

第三是聚類[4]。聚類算法基于數(shù)據(jù)內(nèi)部結(jié)構(gòu)來尋找樣本自然族群(集群)的無監(jiān)督學(xué)習(xí)任務(wù),使用案例包括用戶畫像、電商物品聚類、社交網(wǎng)絡(luò)分析等。其中最為常用的算法主要有五種。1)K均值?;跇颖军c間的幾何距離來度量聚類的通用目的算法。由于集群圍繞在聚類中心,結(jié)果會接近于球狀并具有相似的大小。2)仿射傳播?;趦蓚€樣本點之間的圖形距離來確定集群,其結(jié)果傾向于更小且大小不等的集群。3)分層/層次。主要完成層次聚類的目標(biāo)。4)DBSCAN?;诿芏鹊木垲愃惴ǎ鼘颖军c的密集區(qū)域組成集群;其最新進(jìn)展是HDBSCAN,它允許集群的密度可變。

在機(jī)器學(xué)習(xí)領(lǐng)域內(nèi),兩個最為重要的概念是維度及特征選取。其中“維度(Dimensionality)”通常指數(shù)據(jù)集中的特征數(shù)量(即輸入變量的個數(shù))。而特征選取是從你的數(shù)據(jù)集中過濾掉不相關(guān)或冗余的特征。

特征選取(Feature Selection)[5]主要包括四種方法。1)方差閾值。摒棄掉觀測樣本那些觀測值改變較小的特征(即,它們的方差小于某個設(shè)定的閾值)。這樣的特征價值極小。2)相關(guān)性閾值。去掉那些高度相關(guān)的特征(這些特征的特征值變化與其他特征非常相似),它們提供的是冗余信息。3)遺傳算法??捎糜诓煌蝿?wù)的一大類算法的統(tǒng)稱。它們受進(jìn)化生物學(xué)與自然選擇的啟發(fā),結(jié)合變異與交叉,在解空間內(nèi)進(jìn)行高效的遍歷搜索。4)逐步搜索。逐步搜索是一個基于序列式搜索的監(jiān)督式特征選取算法。它有兩種形式:前向搜索和反向搜索。

值得注意的是,特征選取與特征提取不同,其關(guān)鍵區(qū)別在于:特征選取是從原特征集中選取一個子特征集,而特征提取則是在原特征集的基礎(chǔ)上重新構(gòu)造出一些(一個或多個)全新的特征。

特征提取(Feature Extraction)主要用來創(chuàng)造一個新的、較小的特征集,但仍能保留絕大部分有用的信息,主要包括三種方法。1)主成分分析。非監(jiān)督式算法,它用來創(chuàng)造原始特征的線性組合。新創(chuàng)造出來的特征他們之間都是正交的,也就是沒有關(guān)聯(lián)性。具體來說,這些新特征是按它們本身變化程度的大小來進(jìn)行排列的。第一個主成分代表了你的數(shù)據(jù)集中變化最為劇烈的特征,第二個主成分代表了變化程度排在第二位的特征,以此類推。 2)線性判別分析。監(jiān)督式學(xué)習(xí)方式,它必須使用有標(biāo)記的數(shù)據(jù)集。3)自編碼機(jī)。人工神經(jīng)網(wǎng)絡(luò),它是用來重新構(gòu)建原始輸入的。關(guān)鍵是在隱含層搭建比輸入層和輸出層更少數(shù)量的神經(jīng)元。這樣,隱含層就會不斷學(xué)習(xí)如何用更少的特征來表征原始圖像。

機(jī)器學(xué)習(xí)還包括密度估計(Density Estimation)和異常檢測(Abnormal Detection)的任務(wù),在此略過??偟膩碚f歸類機(jī)器學(xué)習(xí)算法一向都非常棘手,由于其背后實現(xiàn)原理、數(shù)學(xué)原理等存在差異,其分類標(biāo)準(zhǔn)存在多個維度,而常見的分類標(biāo)準(zhǔn)主要包括:生成/判別、參數(shù)/非參數(shù)、監(jiān)督/非監(jiān)督等。

3 深度學(xué)習(xí)產(chǎn)生動因淺析

筆者認(rèn)為,深度學(xué)習(xí)在機(jī)器學(xué)習(xí)算法中獨樹一幟取得長足發(fā)展的原因主要有三點。

第一,深度學(xué)習(xí)算法能夠在可實現(xiàn)算力內(nèi)完成相關(guān)計算任務(wù)。傳統(tǒng)機(jī)器學(xué)習(xí)算法在語音識別、物體識別方面無法有效展開應(yīng)用,其重要原因之一就是這類算法無法使用語音及圖像的高維度數(shù)據(jù)(Highdimensional Data)在高維空間學(xué)習(xí)復(fù)雜的函數(shù),這類高維空間通常也意味著對算力的極大消耗,即使算力極為豐富的現(xiàn)階段也無法有效滿足其算力需求;因此,深度學(xué)習(xí)方法應(yīng)運而生。傳統(tǒng)機(jī)器學(xué)習(xí)算法所面臨的問題被稱作維度詛咒(Curse of Dimensionality),高維度數(shù)據(jù)的參數(shù)設(shè)置需求隨著變量的增加呈指數(shù)型增長,對計算能力提出了極大挑戰(zhàn),近乎無法完成。而深度學(xué)習(xí)采用多層調(diào)參,層層收斂的方式,將參數(shù)數(shù)量始終控制在一個較為合理的水平,使得原本不可計算的模型可運算了,其理解如圖1所示。

第二,深度神經(jīng)網(wǎng)絡(luò)具有完備性。從理論上來說,深度神經(jīng)網(wǎng)絡(luò)可以表征任何函數(shù)[6],因此深度神經(jīng)網(wǎng)絡(luò)可以通過不同的參數(shù)及網(wǎng)絡(luò)結(jié)構(gòu)對任意函數(shù)進(jìn)行擬合,排除了其無法學(xué)習(xí)到復(fù)雜函數(shù)的可能性。

第三,深度學(xué)習(xí)的特征選取完備。深度學(xué)習(xí)具有自動學(xué)習(xí)特征的能力,這也是深度學(xué)習(xí)又叫無監(jiān)督特征學(xué)習(xí)(Unsupervised Feature Learning)的原因。從深度學(xué)習(xí)模型中選擇某一神經(jīng)層的特征后就可以用來進(jìn)行最終目標(biāo)模型的訓(xùn)練,而不需要人為參與特征選取。

4 深度學(xué)習(xí)算法及其應(yīng)用

4.1 算法

人工智能算法從專家系統(tǒng)至特征工程到深度學(xué)習(xí)這個過程中,人工參與在逐漸減少,而機(jī)器工作在逐漸增加,深度學(xué)習(xí)算法由于其優(yōu)異表現(xiàn)得到了主流認(rèn)可,在多方應(yīng)用中得到長足發(fā)展。而其背后的算法主要包括兩個方面[7]。

圖1 深度學(xué)習(xí)網(wǎng)絡(luò)層層收斂可計算

一是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)。卷積神經(jīng)網(wǎng)絡(luò)是近年發(fā)展起來,并引起廣泛重視的一種高效識別方法?,F(xiàn)在,CNN已經(jīng)成為眾多科學(xué)領(lǐng)域的研究熱點之一,K.Fukushima在1980年提出的新識別機(jī)是卷積神經(jīng)網(wǎng)絡(luò)的第一個實現(xiàn)網(wǎng)絡(luò)。隨后,更多的科研工作者對該網(wǎng)絡(luò)進(jìn)行了改進(jìn)。其中,具有代表性的研究成果是Alexander和Taylor提出的“改進(jìn)認(rèn)知機(jī)”,該方法綜合了各種改進(jìn)方法的優(yōu)點并避免了耗時的誤差反向傳播。

一般地,CNN的基本結(jié)構(gòu)包括兩層。1)特征提取層。每個神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其它特征間的位置關(guān)系也隨之確定下來。2)特征映射層。網(wǎng)絡(luò)的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。此外,由于一個映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中的每一個卷積層都緊跟著一個用來求局部平均與二次提取的計算層,這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率。

CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測層通過訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),所以在使用CNN時,避免了顯示的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí);再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以網(wǎng)絡(luò)可以并行學(xué)習(xí),這也是卷積網(wǎng)絡(luò)相對于神經(jīng)元彼此相連網(wǎng)絡(luò)的一大優(yōu)勢。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在語音識別和圖像處理方面有著獨特的優(yōu)越性,其布局更接近于實際的生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度。

第二是遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。在實際應(yīng)用中,我們會遇到很多的多序列形數(shù)據(jù),如自然語言處理問題中的單詞、語音處理中每幀的聲音信號、每天股票價格的時間序列數(shù)據(jù)等。為了建模序列問題,RNN引入了隱狀態(tài)h(hidden state)的概念。一個RNN網(wǎng)絡(luò)中可以存在一個或多個隱狀態(tài),計算時每一步使用的參數(shù)都是一樣的,即每個步驟的參數(shù)都是共享的,這是RNN的重要特點之一。同時需要注意的是,RNN網(wǎng)絡(luò)的輸入和輸出序列必須是等長的。由于這個限制的存在,經(jīng)典RNN的試用范圍比較小,但也有一些問題適合經(jīng)典的RNN結(jié)構(gòu)建模,如計算視頻中每一幀的分類標(biāo)簽。因為要對每一幀進(jìn)行機(jī)選,一次輸入和輸出序列等長;又如輸入為字符,輸出為下一個字符的概率,著名的用于生成文章、詩歌甚至是代碼的Char RNN(The Unreasonable Effectiveness of Recurrent Neural Networks)就是一個很好的例子。

當(dāng)我們要處理的問題輸入是一個序列,輸出是一個單獨的值而不是序列的時候,需要對RNN網(wǎng)絡(luò)中最后一個h進(jìn)行輸出變化即可完成。這種結(jié)構(gòu)通常用來處理序列分類問題。如輸入一段文字判別它所屬的類別,輸入一個句子判斷其情感傾向,輸入一段視頻并判斷它的類別等等。對于輸入不是序列而輸出為序列的情況,只需要在序列開始時進(jìn)行輸入計算或把輸入信息作為每個階段的輸入即可。這種網(wǎng)絡(luò)結(jié)構(gòu)可以處理的問題包括兩方面,一是從圖像生成文字,此時輸入的是圖像的特征,而輸出的序列是一段句子,二是從類別生成語音或音樂等。

RNN最重要的一個變種是N輸入M輸出,這種結(jié)構(gòu)又叫做Encoder-Decoder模型,也可稱之為Seq2Seq模型。實際生產(chǎn)生活中我們遇到的大部分問題序列都是不等長的,如機(jī)器翻譯中源語言和目標(biāo)語言中的句子往往沒有相同的長度。為此Encoder-Decoder結(jié)構(gòu)會先將輸入數(shù)據(jù)編碼成一個上下文向量C,得到C的方式有多種,最簡單的方法就是把Encoder的最后一個隱狀態(tài)賦值給C,還可以對最后的隱狀態(tài)做一個變換得到C,也可以對所有的隱狀態(tài)做變換。在得到C后,就用另一個RNN網(wǎng)絡(luò)對其解碼,這部分RNN網(wǎng)絡(luò)被稱為Decoder。具體做法就是將C當(dāng)做之前的初始狀態(tài)輸入到Decoder網(wǎng)絡(luò)中。

由于這種Encoder-Decoder結(jié)構(gòu)不限制輸入和輸出的序列長度,因此應(yīng)用范圍廣泛,常見應(yīng)用包括:1)機(jī)器翻譯,Encoder-Decoder的最經(jīng)典應(yīng)用是在機(jī)器翻譯領(lǐng)域最先提出的;2)文本摘要,輸入是一段文本序列,輸出是這段文本序列的摘要序列;3)閱讀理解,將輸入的文章和問題分別編碼,再對其進(jìn)行解碼得到問題的答案;4)語音識別,輸入是語音信號序列,輸出是文字序列。

在Encoder-Decoder結(jié)構(gòu)中,Encoder把所有的輸入序列都編碼成一個統(tǒng)一的語義特征C再解碼,因此,C中必須包含原始序列中的所有信息,它的長度就成了限制模型性能的瓶頸。如機(jī)器翻譯問題,當(dāng)需要翻譯的句子較長時,一個C可能存不下那么多信息,就會造成翻譯精度的下降。而Attention機(jī)制通過在每個時間輸入不同的C來解決這個問題,每一個C會自動去選取與當(dāng)前所要輸出的結(jié)果最合適的上下文信息。

4.2 不足

以上簡要介紹了深度學(xué)習(xí)CNN及RNN兩類網(wǎng)絡(luò)的基本原理及應(yīng)用場景,雖然其在多種識別、感知任務(wù)中表現(xiàn)優(yōu)異,但筆者認(rèn)為也存在著以下三方面的不足[8]。

1)數(shù)據(jù)基礎(chǔ)問題。我們在實際生產(chǎn)生活中所收集到的數(shù)據(jù)往往都是小數(shù)據(jù),而不是大數(shù)據(jù)。比如說,我們手機(jī)上的個人數(shù)據(jù),在教育、醫(yī)療、基因的檢測與實驗、學(xué)生測驗、客服問答上的數(shù)據(jù),都是小數(shù)據(jù)。所以只有實現(xiàn)從大數(shù)據(jù)向小數(shù)據(jù)遷移的通用模型,才能真正幫助更多的領(lǐng)域用上人工智能,這是人工智能的普及性問題,但基于大數(shù)據(jù)迭代的深度學(xué)習(xí)模型無法勝任小數(shù)據(jù)場景業(yè)務(wù)。

2)模型可靠性問題。深度學(xué)習(xí)模型非常脆弱,稍加移動、離開現(xiàn)有的場景數(shù)據(jù),它的效果就會降低;因此深度學(xué)習(xí)模型的可靠性是一個重要問題。對機(jī)器學(xué)習(xí)來說,由于訓(xùn)練數(shù)據(jù)和實際應(yīng)用數(shù)據(jù)存在區(qū)別,訓(xùn)練出來的模型被用于處理它沒有見過的數(shù)據(jù)時,效果就會大打折扣。而緩解這一問題的辦法,正是遷移學(xué)習(xí),它能把可靠性提升一個臺階。

3)應(yīng)用上的問題,特別是機(jī)器學(xué)習(xí)模型在應(yīng)用個性化方面的問題。比如在手機(jī)上,在推薦信息、服務(wù)的時候,它要適用于個人的行為。因為任何個人的數(shù)據(jù)都是小數(shù)據(jù),個性化的問題就是如何把云端的通用模型適配到終端的小數(shù)據(jù)上,讓它也能工作。這就是遷移學(xué)習(xí)比較適合的事情,幫助機(jī)器學(xué)習(xí)從云端往移動端遷移。

5 人工智能技術(shù)發(fā)展趨勢展望

結(jié)合第四部分分析可以看出,人工智能技術(shù)未來重要發(fā)展方向之一就是遷移學(xué)習(xí),而深度學(xué)習(xí)雖然在當(dāng)前已經(jīng)大放異彩,但未來仍存在很大的提升空間。

遷移學(xué)習(xí)存在天然優(yōu)勢[9]。深度學(xué)習(xí)的特點是用非線性的方法把原始特征從低層轉(zhuǎn)化成高層,這個過程很復(fù)雜,它的好處有目共睹,但副產(chǎn)品是特征分層。這對于遷移學(xué)習(xí)卻是具有優(yōu)勢的,優(yōu)勢之一就是能夠?qū)w移學(xué)習(xí)的效果進(jìn)行量化。也就是在不同的遷移目標(biāo)下,知識從一個領(lǐng)域到另一個領(lǐng)域,不同的層次能遷移多少是可以定量描述的。當(dāng)然,這里并非所有的參數(shù)都能遷移,有一部分知識可以遷移,一部分參數(shù)和特征是可以共享的。在深度學(xué)習(xí)模型中,有些參數(shù)負(fù)責(zé)描述一個領(lǐng)域的內(nèi)容,有些參數(shù)負(fù)責(zé)描述一個領(lǐng)域的結(jié)構(gòu);結(jié)構(gòu)的概念比較抽象,內(nèi)容的概念比較具體,那么描述結(jié)構(gòu)這部分的參數(shù)就特別適合遷移。所以人們現(xiàn)在還在尋找一種能把結(jié)構(gòu)和內(nèi)容區(qū)分開的模型,一種類似于深度學(xué)習(xí)的模型,從而把可遷移部分和不可遷移部分定量地分開。

多任務(wù)學(xué)習(xí)取得相當(dāng)進(jìn)展。當(dāng)幾個不同的任務(wù)一起來學(xué)習(xí)的時候,往往會取得很多優(yōu)異結(jié)果,這就是多任務(wù)學(xué)習(xí)。多任務(wù)學(xué)習(xí)會發(fā)現(xiàn)不同領(lǐng)域所共有的知識,因此也更容易抽象出高層的知識,從而使得表達(dá)不同領(lǐng)域之間的共性更為容易。所以,多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí)的目標(biāo)是一致的,都是要實現(xiàn)比較穩(wěn)定的知識表達(dá),殊途而同歸。

綜上,關(guān)于人工智能技術(shù)發(fā)展需求及方向,筆者認(rèn)為主要包括兩方面。第一是快,深度學(xué)習(xí)的訓(xùn)練現(xiàn)在還存在效率低效果差等問題,而解決這些問題除了使用新的算法,還需要在系統(tǒng)架構(gòu)上實現(xiàn)突破。如參數(shù)服務(wù)器、底層服務(wù)器架構(gòu)等方向目前均在快速發(fā)展。在計算速度、訓(xùn)練速度上如何加快將是非常重要的一個問題。第二是可靠性,如本文第四部分闡述的觀點,遷移學(xué)習(xí)對于人工智能技術(shù)能否合理地推廣應(yīng)用到小數(shù)據(jù)領(lǐng)域十分重要;多任務(wù)學(xué)習(xí)雖然發(fā)展?jié)摿薮螅捎诟鱾€領(lǐng)域基本要素不同,如圖像領(lǐng)域的基本結(jié)構(gòu)是像素,語音領(lǐng)域的基本結(jié)構(gòu)就是聲波頻率,自然語言領(lǐng)域則很難界定其基本要素[10],因此一個通用的人工智能系統(tǒng)現(xiàn)階段還是不具有實際意義的,人工智能的落地一定是場景強相關(guān)的,場景對一個垂直型的機(jī)器學(xué)習(xí)非常重要。

6 結(jié)語

人工智能技術(shù)經(jīng)過六十余年發(fā)展,相關(guān)知識沉淀浩如煙海,本文僅針對人工智能技術(shù)中機(jī)器學(xué)習(xí)、深度學(xué)習(xí)常用算法進(jìn)行了簡要的梳理解析,希望能更為客觀謹(jǐn)慎地看待人工智能技術(shù)發(fā)展。當(dāng)前深度學(xué)習(xí)算法及網(wǎng)絡(luò)發(fā)展日新月異,相關(guān)觀點及技術(shù)新舊更替極快,本文談及的算法及觀點難免存在疏漏和偏差,懇望同仁指正。

[1]劉峽壁.人工智能導(dǎo)論:方法與系統(tǒng)[M].北京:國防工業(yè)出版社,2008

[2]深層學(xué)習(xí)為何要“Deep”[EB/OL].[2018-02-05].https://zhuanlan.zhihu.com/p/24245040

[3]Christopher M Bishop.Pattern Recognition and machine learning[M].Singapore:Springer,2006

[4]孫吉貴,劉杰,趙連宇.聚類算法研究[J].Journal of Software,2008,19(1):48-61

[5]Khalid S,Khalil T,Nasreen S.A survey of feature selection and feature extraction techniques in machine learning[C]//2014 Science and Information Conference,London,2014:372-378

[6]Michael Nielsen.Neural Network and deep learning[EB/OL].[2017-12-28].http://neuralnetworksanddeeplearning.com/

[7]Ian Goodfellow,Yoshua Bengio,Aaron Courville.Deep Learning[M].MIT Press,2016

[8]楊強.深度學(xué)習(xí)的遷移模型[C]//中國人工智能大會,杭州,2017

[9]Pan S J,Yang Q.A Survey on Transfer Learning[J].IEEE Transactions on Knowledge & Data Engineering.2010,22(10):1345-1359

[10]宗成慶.統(tǒng)計自然語言處理(第2版)[M].北京:清華大學(xué)出版社,2008

猜你喜歡
機(jī)器聚類深度
機(jī)器狗
機(jī)器狗
深度理解一元一次方程
深度觀察
深度觀察
未來機(jī)器城
電影(2018年8期)2018-09-21 08:00:06
深度觀察
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于改進(jìn)的遺傳算法的模糊聚類算法
無敵機(jī)器蛛
渭南市| 新泰市| 错那县| 湟中县| 贺州市| 塔河县| 沅江市| 长治市| 城市| 义马市| 牙克石市| 会东县| 苏尼特左旗| 璧山县| 赞皇县| 蒙阴县| 武隆县| 营山县| 垦利县| 华安县| 锡林浩特市| 象山县| 万荣县| 阿克陶县| 张掖市| 钟祥市| 鄄城县| 高要市| 沁源县| 三台县| 通州区| 增城市| 阿鲁科尔沁旗| 股票| 衡山县| 万山特区| 如东县| 平顶山市| 中牟县| 闸北区| 泰州市|