大數(shù)據(jù)技術發(fā)展的十個前沿方向（下）

2015-03-17 03:32吳甘沙

大數(shù)據(jù) 2015年4期

Ten Fronties for Big Data Technologies (Part C)

吳甘沙，男，現(xiàn)任英特爾中國研究院院長。2000年加入英特爾，先后在編程系統(tǒng)實驗室與嵌入式軟件實驗室承擔了技術與管理職位，期間參與或主持的研究項目有受控運行時、XScale微架構、眾核架構、數(shù)據(jù)并行編程及高生產(chǎn)率嵌入設備驅動程序開發(fā)工具等。2011年晉升為首席工程師，共同領導了公司的大數(shù)據(jù)中長期技術規(guī)劃，主持大數(shù)據(jù)方面的研究，工作重點為大數(shù)據(jù)內存分析與數(shù)據(jù)貨幣化。在英特爾工作期間，發(fā)表了10余篇學術論文，有23項美國專利（10余項成為國際專利），14項專利進入審核期。

10 前沿方向八：精益求精，提升精度

精度是衡量機器學習（人工智能）算法好壞的重要指標。傳統(tǒng)上，精度概念包括正確率、識別率、召回率等。在大數(shù)據(jù)時代，精度被賦予了更多的含義。

10.1 傳統(tǒng)機器學習的模型不適應大數(shù)據(jù)

首先是數(shù)據(jù)規(guī)模。傳統(tǒng)的機器學習模型無法支持超大規(guī)模的訓練數(shù)據(jù)集，當數(shù)據(jù)超過一定規(guī)模時，傳統(tǒng)模型將面臨計算量爆炸和精度提升停滯兩大難題。關于計算量爆炸，通過分布式優(yōu)化的方式來加速計算（假設計算資源的擴展能夠趕上計算量的增加）或者通過采樣、近似等方式減少計算量。關于后者，周志華老師在中國計算機學會大數(shù)據(jù)學術會議上介紹了一個經(jīng)典的案例：很多機器學習算法采用AUC（area under ROC curve）作為評估函數(shù)，但它需要做兩兩配對（pairwise）的計算，計算量大且數(shù)據(jù)無法裝入內存，而采用了Least Square Loss函數(shù)進行逼近后，極大地減少了計算復雜度。

當然，還有一種選擇是采用相對“簡單”的模型。無論模型是簡單還是復雜，必須具備高可變（high variance）的特性，這樣才能隨著數(shù)據(jù)量增大獲得精度提升。高可變的“簡單”模型雖然計算復雜度不高，但多具有較大的特征空間，更多的數(shù)據(jù)能夠提升其收益。相比而言，“高偏差（high bias）”的簡單模型不具有大數(shù)據(jù)帶來的邊際效益。

其次是數(shù)據(jù)的復雜性和維度。高維和非結構化數(shù)據(jù)（圖片、影音等）的爆發(fā)推動了復雜模型的廣泛應用。無參、非線性、生成性的復雜模型，能夠在數(shù)據(jù)量爆炸時得到可觀的性能提升。復雜模型的典型代表就是深度學習，在實際應用中，上百億參數(shù)、20多層的神經(jīng)網(wǎng)絡很常見。

通過對多種簡單模型的組合（ensemble）來獲得新的復雜模型，這種方式被證明是提升精度的有效方法。當然，選擇簡單模型組合時盡量要選擇相互間相關性弱的模型。另一種混合模型的方式是參數(shù)模型和無參模型的組合使用，可以有效處理大規(guī)模的高維度數(shù)據(jù)，特別是在其不同維度的稀疏情況不一致時有奇效：參數(shù)模型用于小維度數(shù)據(jù)，無參模型用于較大維度的數(shù)據(jù)，兩者組合就可以有效地處理大規(guī)模、高維度的數(shù)據(jù)。同樣，線性模型和非線性模型也可以采用類似的方法進行組合應用。

隨著數(shù)據(jù)規(guī)模和模型復雜度的同時增加，計算量急速增大，優(yōu)化算法的重要性也日益凸顯。在機器學習中，數(shù)據(jù)、模型以及優(yōu)化算法都會對最終結果產(chǎn)生重要影響。傳統(tǒng)上習慣用非常復雜的算法找到“最優(yōu)”的答案，但在近年的商業(yè)實踐中，“足夠好”的算法正逐漸成為主流。有時候模型組合可能會導致計算復雜度過高，而缺乏實用性。一個顯著的案例就是，Netflix因為數(shù)據(jù)大賽獲獎算法復雜度過高，所以未能將其投入實際應用，而獲獎算法恰恰是通過組合多種次優(yōu)算法的方式得到的。

伴隨數(shù)據(jù)規(guī)模和數(shù)據(jù)維度的爆發(fā)，需要探索新的機器學習算法，目標是提升大數(shù)據(jù)時代下的機器學習應用的邊際收益。

10.2 傳統(tǒng)的機器學習忽略了數(shù)據(jù)的長尾特征

互聯(lián)網(wǎng)的核心價值是解決信息不對稱、交易成本苛刻和服務目標覆蓋長尾末端的特殊要求。傳統(tǒng)的機器學習方法，比如LDA做主題模型，只能發(fā)現(xiàn)高頻主題，因為具有指數(shù)分布的假設，而指數(shù)分布“割掉”了長尾，掩蓋了低頻的聲音和豐富的隱含語義。從互聯(lián)網(wǎng)經(jīng)濟大潮中成長起來的大數(shù)據(jù)分析，必須發(fā)現(xiàn)長尾人群的微弱聲音。因此，大數(shù)據(jù)分析的首要問題就是優(yōu)化和強化長尾效應。在新的商業(yè)需求下，基于指數(shù)假設的機器學習模型（如PCA、LDA、pLSA等）需要演進，比如騰訊公司的Peacock改進了LDA，以適應百萬級別的主題?？傮w來說，改進的辦法如下：基于更復雜的模型（如深度神經(jīng)網(wǎng)絡或Google Rephil這樣的深度有向無環(huán)圖模型）、模型的組合以及前文所述的混合模型，更好地探測數(shù)據(jù)中隱藏的信號。

10.3 精度是一個動態(tài)變量

引用海森堡的測不準理論，在大數(shù)據(jù)的世界里，觀測行為會引起被觀測現(xiàn)象的改變。很多大數(shù)據(jù)事實上也是測不準的，比如Google流感的預測，在2013年1月份，Google公司預計的流感情況遠高于疾控中心實際測到的數(shù)目，所以《科學》和《自然》就對此發(fā)表了看法，《自然》認為大數(shù)據(jù)測不準，《科學》說這是大數(shù)據(jù)的傲慢。通常說舍恩伯格的大數(shù)據(jù)三大理念：要全集不要采樣；擁抱混雜性、無需精確性；要相關性、不必有因果性。這些理念適合大方向思考，但是分析師不能把它們當作絕對真理。在流感預測案例中，即使是Google公司也把握不到全量的數(shù)據(jù)。縱然考慮了混雜性，Google公司融合了關鍵詞和疾控中心的數(shù)據(jù)來調整模型，數(shù)據(jù)還是不能足夠精確。

雖然無法完全解決“測不準”的問題，機器學習算法仍然希望能盡快抓住客觀世界的快速變化。因此，在線學習和流式學習是大數(shù)據(jù)時代重要的辦法。大數(shù)據(jù)的早期表現(xiàn)形式是批處理或離線的數(shù)據(jù)處理，同樣，機器學習的主流方法也是離線訓練、在線識別。當機器學習與大數(shù)據(jù)相遇，訓練出來的模型所逼近的是過去的世界，而無法感知世界最新的變化。因此，在線學習或基于增量數(shù)據(jù)的學習變得非常重要，一邊使用生產(chǎn)環(huán)境中的舊模型，一邊納入新的數(shù)據(jù)進行增量訓練，快速更新模型并且部署到生產(chǎn)環(huán)境，不停頓地完成訓練—驗證—識別—再訓練的閉環(huán)。

鑒于此，當前企業(yè)紛紛從數(shù)據(jù)倉庫轉為EDH（enterprise data hub）或DL（data lake）。因為傳統(tǒng)數(shù)據(jù)倉庫基于一個確定的問題定義進行數(shù)據(jù)的搜集和組織，并且把數(shù)據(jù)轉變成相應的格式保存下來。一旦問題發(fā)生變化，再對數(shù)據(jù)結構做調整太困難、太昂貴。EDH是先把各種原始數(shù)據(jù)送進來，然后不斷地提問題，相應地改變數(shù)據(jù)表示；不停地嘗試更好的分析方法，相應地改變數(shù)據(jù)結構。

關于模型的選擇，統(tǒng)計學大師George Box說：“所有模型都是錯的，但是有些是有用的，關鍵是選擇什么樣的模型”。

必須指出，大數(shù)據(jù)不是簡單的體量大，它的另一個主要思想是采用多源數(shù)據(jù)，在數(shù)據(jù)特征不多的前提下往往傳統(tǒng)的簡單模型也非常有效。比如常見的流感預測或者票房預測，簡單的線性回歸模型就能工作得很好。貝葉斯模型在很多場景被廣泛地應用?！缎盘柵c噪聲》的作者Nathan Silver多次成功地預測美國大選結果、奧斯卡獲獎者，就是把貝葉斯模型用到了極致，證明了傳統(tǒng)技術在大數(shù)據(jù)時代還有用武之地。

Isaiah Berlin有個比喻，有一種人是刺猬，一招鮮吃遍天，還有一種人是狐貍，一把鑰匙開一把鎖，以更開放的態(tài)度處理分析，選擇最合適的模型。在更多的大數(shù)據(jù)場景中，還是需要根據(jù)問題選擇合適的模型和方法。

模型的復雜度必須與問題匹配。這就是所謂的奧卡姆剃刀原理，當有多種模型能解釋數(shù)據(jù)時，選擇最簡單的一個。如前所述，當數(shù)據(jù)量較小時，模型不能過于復雜，尤其是當模型的特征空間跟訓練集規(guī)模相仿時，容易形成過擬合。另一方面，如果數(shù)據(jù)已經(jīng)非常大，而模型過于簡單，那么增加的數(shù)據(jù)量就無法帶來效益的提升。

最后，把分析工作推向社會分工是獲得更高精度的方法。如社會化分析平臺Kaggle通過競賽和眾包的方式與數(shù)十萬人的參與，往往能夠獲得最佳的模型。為了支持大規(guī)模的協(xié)作分析，學術界在基礎設施上已經(jīng)有所創(chuàng)新。比如DataHub加入了數(shù)據(jù)的版本控制和多語言支持，美國加州大學伯克利分校教授Joe Hellerstein最近提出，需要一個開放和廠商中立的元數(shù)據(jù)服務，從而提供跨組織邊界協(xié)作分析的生產(chǎn)力。

11 前沿方向九：人機的角色變化

在機器學習/人工智能發(fā)展歷程中，人機角色分工一直朝著使機器更加容易使用、更加廣泛應用的目的發(fā)展前進，進而把稀缺的專業(yè)技能變?yōu)榇蟊娖占暗幕A服務。

11.1 機器所承擔角色的提升

computer這個詞最早出現(xiàn)在19世紀末的哈佛天文臺，指一些負責精細計算的人，而現(xiàn)在這個概念已經(jīng)被機器——計算機取代。人跟機器的關系一直在此消彼長，越來越多的人的職責和能力范圍的任務開始由機器完成。傳統(tǒng)意義上的數(shù)據(jù)分析流程，往往基于預先給定的假設和模型，由此出發(fā)采集數(shù)據(jù)樣本、細化模型，再用測試樣本進行驗證，然后修正假設模型，重新開始循環(huán)。數(shù)據(jù)分析應用的成功與否，常常依賴于預定的假設模型，依賴于人。而在大數(shù)據(jù)場景下，數(shù)據(jù)是全集的或者接近全集的，預先的假設模型的作用被極大弱化甚至消失；相反，在全集數(shù)據(jù)中通過機械的數(shù)據(jù)挖掘窮舉所有數(shù)據(jù)相關性，用相關性來取代主觀假設。理想情況下，數(shù)據(jù)自己找到線索，相關性主動找到應用。

傳統(tǒng)意義上的機器學習模型擅長做結構化的數(shù)據(jù)分析，做語義分析的案例很少。大數(shù)據(jù)分析能夠超越抽象語義的限制?！赌颍∕oneyball）》是數(shù)據(jù)分析與體育（棒球）跨界融合的典型案例，其宣揚的理念是可以用很低的成本找到最合適的隊員，獲得很高的勝率。然而真實故事里有“不足為外人道”之處，他們花了更多的錢來請高水平球探，對球員的心理能力（如抗壓能力和意志力水平）做評估，而這些屬性是客觀數(shù)據(jù)無法描述的。這些“球探”代表了超越計算機的領域專業(yè)知識。現(xiàn)在機器語義分析能力增強，能夠部分取代人的經(jīng)驗推理。

傳統(tǒng)上的數(shù)據(jù)分析和可視化非常依賴分析專家的個人天賦和職業(yè)技能，只有少數(shù)數(shù)據(jù)科學家可以直觀展示出大量數(shù)據(jù)中蘊含的各種規(guī)律。而領域專家和普通技術人員常常對錯綜復雜的數(shù)據(jù)束手無策。最新發(fā)展趨勢是機器降低人的專業(yè)能力門檻的要求。比如MLBase[28]可以自動地找到最好的機器學習模型，VizDeck[29]則通過機器學習找到最好的可視化方式，Scorpion[30]通過可視化自動找出數(shù)據(jù)中的outliers，并且推知導致outliers的數(shù)據(jù)記錄。

隨著工具變得更為人性化，普通從業(yè)人員能夠更好地從數(shù)據(jù)中提取價值。以數(shù)據(jù)可視化為例，出現(xiàn)了很多可視化的工具、庫和框架，能夠幫助用戶專注于數(shù)據(jù)理解本身，輕松對各類數(shù)據(jù)（包括文本、網(wǎng)絡/圖數(shù)據(jù)、時空數(shù)據(jù)和多維數(shù)據(jù)）進行表現(xiàn)手段豐富的可視化。幫助用戶關注數(shù)據(jù)的內容而擺脫手段的羈絆。同時，數(shù)據(jù)可視化也從靜態(tài)展示發(fā)展成動態(tài)交互過程。一次可視化從對單一視圖的展示發(fā)展成對新問題的探索過程，形成新的領域——可視化分析，這歸功于實時可視化技術的發(fā)展。在可視化的界面、交互組件的設計上越來越人性化，實時地、自然地實現(xiàn)多側面、多分辨率和多焦點的交互。在一些商業(yè)領域的決策過程中通過對海量數(shù)據(jù)進行處理，實現(xiàn)了數(shù)據(jù)可視化、決策討論、動作發(fā)生、再可視化的閉環(huán)式應用。

工具對人的增強更多體現(xiàn)在基礎設施層面，尤其是基礎設施的社會化對大數(shù)據(jù)的普及起到了關鍵的作用。目前，Apache Hadoop的生態(tài)環(huán)境日趨復雜（由于各個不同組件往往用動物作為吉祥物，業(yè)內把Hadoop生態(tài)戲稱為動物園），大數(shù)據(jù)基礎環(huán)境部署的困難常常為人詬病。云計算把數(shù)據(jù)存儲、計算甚至是機器學習的流水線做成了公共基礎設施，而創(chuàng)業(yè)公司可以不懂分布式計算、容錯、Hadoop或Spark，只要具有數(shù)據(jù)思維，就可以利用云上的基礎設施完成數(shù)據(jù)應用的創(chuàng)新。一些很有創(chuàng)意的創(chuàng)業(yè)公司（如Decide.com、Prismatic）開始由幾個算法工程師組建而成，而基礎設施的事情Amazon公司替他們解決了。Spark的商業(yè)化領導者Databricks的愿景是讓小數(shù)據(jù)的使用者很容易切換到大數(shù)據(jù)，Databricks Cloud正是其實現(xiàn)戰(zhàn)略意圖的核心。

11.2 人在機器學習過程中的作用

人本來是機器學習中最重要的角色。

機器學習首先需要高質量的數(shù)據(jù)標記，特別是對于監(jiān)督學習，其學習的基礎是高質量的標記數(shù)據(jù)。在機器學習這個領域，好的標記數(shù)據(jù)集能夠極大地推動研究的整體進展，比如當前計算機視覺的研究受益于ImageNet。高質量的數(shù)據(jù)標記需要大量的人力，有時甚至是專業(yè)人士。以前的做法是外包至低成本國家，而現(xiàn)在眾包（比如土耳其機器人）成為更通用的做法。有一些眾包平臺開始考慮游戲化機制，比如ESP Game讓人們邊玩游戲邊完成對圖像的標記。

無論是外包還是眾包，仍然需要人來做。但是一些新的機器學習方法減少了對數(shù)據(jù)標記的依賴，從而弱化了人的初始作用。深度學習讓無監(jiān)督學習得到了更多的重視，因為它不需要標記數(shù)據(jù)；半監(jiān)督學習在過去幾年中有了長足的發(fā)展，它結合了少量的標記數(shù)據(jù)和較多的無標記數(shù)據(jù)；轉移學習（transfer learning）采用了舉一反三的思想，為另一個目的而標記的數(shù)據(jù)可以轉而用于這個目的，從而彌補相關標記數(shù)據(jù)的不足。

特征工程（feature engineering）是機器學習中另一個需要大量專業(yè)人力的環(huán)節(jié)。往往模型工作好與壞的關鍵在于特征的選取，而人的經(jīng)驗非常重要，尤其是一些好的特征（golden feature）依賴于領域知識。所以，一支特征工程團隊在項目的早期階段有很好的效益，但是長期的邊際效應越來越趨向于零?，F(xiàn)在自動化特征抽取得到了長足的進步，非監(jiān)督學習具有自動學習特征的能力。在信息維度異常豐富的數(shù)據(jù)中，可能具備幾十億、幾百億的特征，這是人力窮舉無法完成的。深度學習很好地解決了這個問題，它的非監(jiān)督學習能夠逐層提取巨量的特征。有意思的是，這些特征不只是用于深度的神經(jīng)元網(wǎng)絡，還能夠作為淺層學習的特征。

機器學習工具越來越易于使用，參與數(shù)據(jù)分析的人不再是傳統(tǒng)意義上的專業(yè)數(shù)據(jù)科學家、工程師。非專業(yè)人士、領域專家越來越能夠成為數(shù)據(jù)分析的主宰者、數(shù)據(jù)價值的提取者。傳統(tǒng)機器學習里面的很多“黑魔法”開始被標準化、具備高易用性的工具取代。而工具發(fā)展的趨勢是機器學習全流水線。scikit-learn最早做了有益的嘗試，通過簡單的腳本在一個分析環(huán)境中完成端到端的所有工作。后來Spark等主流平臺跟進，并且引入了一些新的非常有效的工具，如KeystoneML語言標準化對多種數(shù)據(jù)類型的處理，Volex對模型的迭代和生命周期進行管理。

11.3 人仍在閉環(huán)中（human in the loop）

雖然看到了機器角色的增強和人作用的弱化，但是相信在相當長的一段時間內，人仍將在整個分析閉環(huán)中起到重要的作用。

比如，在數(shù)據(jù)準備（清洗、治理）階段，人的作用是不可或缺的?，F(xiàn)在的很多工具都在如何引入人的干預上做創(chuàng)新，從而保證數(shù)據(jù)準備的目的是準確的，清洗的程度是合適的，數(shù)據(jù)表示是符合未來的分析的。

又如，現(xiàn)在雖然可以使用機械的方法發(fā)現(xiàn)海量數(shù)據(jù)中的相關性，但在無數(shù)的相關性中發(fā)現(xiàn)真正的線索，就需要數(shù)據(jù)分析師的直覺。直覺就是在潛意識里自動完成的邏輯推理。怎么訓練直覺？可以通過學習大量偵探小說和懸疑小說里面的推理過程。這樣的推理過程不只是建立模型，還需要數(shù)據(jù)，則需要很多先驗的知識。這些知識怎么來？可以通過廣泛的閱讀，跨界思想的碰撞，還需要獲得上下文的知識，將其融入業(yè)務應用中。數(shù)據(jù)分析師深入業(yè)務部門，和業(yè)務人員融入到一起，這才能防止數(shù)據(jù)采集和分析脫鉤、數(shù)據(jù)分析和業(yè)務應用脫節(jié)，這些過程不能用機器實現(xiàn)。美國加州大學伯克利分校教授郁彬認為數(shù)據(jù)科學是SDC3（statistics、domain knowledge、computing、collaboration、communication），這里說的正是D和后兩個C。此外，communication還反映在分析結果的藝術化展現(xiàn)和精彩的故事講述將使分析事半功倍?，F(xiàn)在分析師所學的內容要從STEM到STEAM，STEM是科學（science）、技術（technology）、工程（engineering）、數(shù)學（mathematics），STEAM多出的“A”是藝術（art），這一點上機器短期內很難取代人。另外，藝術不只是這種優(yōu)雅美觀的可視化，還有一個很重要的就是講故事，有了分析結果之后怎么用更具親和力的方式表達出來。比如啤酒加尿布的故事，就符合了講故事的3D：戲劇性（drama）、細節(jié)（detail）、參與這個對話的感覺（dialogue）。雖然這個案例是編纂的故事，但是它的易傳播性和啟發(fā)性使得更多人愿意去投入數(shù)據(jù)分析。前文所述《魔球》也是這樣，對故事做適當?shù)募庸?，用一個精彩的、抑揚起伏的故事講述數(shù)據(jù)分析怎么改變棒球運動。這種源于生活、高于生活的拔高是機器望塵莫及的。

另外，人的大規(guī)模協(xié)作分析或人類計算（human computing），能夠完成大量機器所不能完成的任務。

· 在數(shù)據(jù)庫里有個所謂DB-hard的問題，即自然語言表述的不唯一性和歧義性給數(shù)據(jù)治理帶來了挑戰(zhàn)，美國加州大學伯克利分校AMBLab的CrowdDB通過眾包解決了數(shù)據(jù)字段規(guī)范化的問題。

· 機器學習可以看作模型表示+評價函數(shù)+優(yōu)化方法，而優(yōu)化方法是尋找最佳模型的必要步驟。Kaggle將企業(yè)和科研中海量的數(shù)據(jù)分析問題與其20萬注冊數(shù)據(jù)分析師進行對接，通過懸賞和海選的方法完成了優(yōu)化過程。

· Duolingo[31]是另一個有趣的案例。如果Google翻譯是集中化的、權威數(shù)據(jù)主導的分析過程，Duolingo則是社會化、民主化、普通人主導的大規(guī)模協(xié)作翻譯過程，所獲得的效果甚至優(yōu)于Google翻譯。在Duolingo平臺上，用戶學習目標語言過程中必須完成大量的翻譯題目，而這些題目來自互聯(lián)網(wǎng)，因此其學習的過程同時也是對互聯(lián)網(wǎng)翻譯的過程，其驚人的規(guī)模效應和積累效用從下例中可見一斑：100萬用戶通過80 h的學習就能把整個維基百科從英語翻譯成為西班牙語。

總之，human-in-the-loop machine learning或active learning已經(jīng)成為業(yè)界的一個熱點問題。

12 前沿方向十：智能之爭

人工智能在近年成為流行詞匯，它代表著生物智能和機器智能的一種博弈。這個博弈的一邊是生物智能，生物智能擅長的是模式匹配。人的認知過程就是不停地進行匹配、識別、聯(lián)想，從記憶中提取數(shù)據(jù)。而機器智能則是通過計算完成，大量的計算是機器擅長的，比如在大的搜索空間尋找最優(yōu)解（國際象棋戰(zhàn)勝人類世界冠軍）、海量信息的檢索（沃森電腦在Jeopardy的知識問答中戰(zhàn)勝人類）、從計算中總結隱藏的規(guī)律等。因此，人工智能也分成了幾個派別。

第一個派別認為機器智能并不一定要學習人的生物構造，機器有機器的特點。他們經(jīng)常引用的一個例子是，當萊特兄弟不試圖模仿鳥類的翅膀，而是開始研究空氣動力學的時候，人類才有了飛上藍天的機會。所以機器智能并不一定要學習生物智能，它可以通過更擅長的計算、更完美的數(shù)學模型實現(xiàn)智能。這里有很多大師，如統(tǒng)計學大師Michael Jordan、老派的Peter Norvig、新派的邢波。Jordan認為統(tǒng)計是大數(shù)據(jù)的基礎，炒作那些沒有數(shù)學基礎的“新方法”將使大數(shù)據(jù)進入“寒冬期”。

第二個派別認為必須要了解人腦是怎么工作的。通過各種各樣的腦計劃繪制出人腦的機理地圖，了解人們思維（mind）的工作方式，然后把計算架構往上演進。這個派別有很多生物學家，還有一些老派的科學家，如侯世達（《集異璧》作者）、彭羅斯（數(shù)學家，《皇帝的新腦》作者），還有一些民間代表，如雷·庫茲韋爾。

第三個派別——計算智能（computational intelligence）方興未艾。計算智能是上述兩個派別之間的折中，他們認為可以用生物認識作為約束和啟發(fā)，但還是以計算理論為基礎來實現(xiàn)智能，比如人工神經(jīng)網(wǎng)絡、演化計算、模糊邏輯、人工免疫系統(tǒng)和群體智能等。人工免疫系統(tǒng)[32]其實就是模仿人體內的分布式免疫系統(tǒng)，即不同位置的淋巴結能夠識別不同細菌病毒的特征，從而進行分布式的殺滅?，F(xiàn)在主流的神經(jīng)網(wǎng)絡、深度學習科學家都屬于這一類。這里不得不提Palm Computer的創(chuàng)始人Jeff Hawkins，他雖然不是科班出身，但贊助和支持了很多有益的工作，他提出的HTM（hierarchical temporal memory）模型[33]得到了美國DARPA-Cortical Processor項目的支持。

下面簡略介紹一些現(xiàn)今國際上正在熱烈討論爭論的問題。

第一，深度學習是否有可能包打天下？樂觀者認為深度學習能夠把所有的問題都解決了。以卷積神經(jīng)網(wǎng)絡（CNN）和遞歸神經(jīng)網(wǎng)絡（RNN）為代表的深度學習技術陸續(xù)在計算機視覺、語音識別和自然語言處理方面取得了突破。ImageNet取消object classification的比賽，標志著視覺方面的飛躍；百度公司最新宣布基于LSTM（long short term memory）和CTC（connectionist temporal classification）的漢語語音識別在安靜環(huán)境下達到了97%的識別率；而在自然語言方面，深度學習開始把問答和自然語言對話系統(tǒng)作為下一個突破點。

除了上述認知計算領域的進展，深度學習也開始解決人類不能勝任的非認知問題，如百度公司用其提升搜索質量、廣告推薦的質量，取得了一定的效果。下一個有望受益于深度學習的是醫(yī)療健康領域，從醫(yī)學影像分析到藥物的研發(fā)，都可望獲得突破?？梢哉f，深度學習雖然一定程度上受到了過多的炒作，但其廣泛的應用價值已經(jīng)確保人工智能的另一個冬天不會到來。

但是質疑者說深度學習沒有一個理論基礎，缺乏機器學習算法的可解釋性，是一些莫名其妙的手段的堆砌。包括Google公司自己發(fā)現(xiàn)深度學習可能存在一些內在缺陷[34]，比如兩張圖片人眼看起來是完全一模一樣的，其中有一些細微的像素差別，但是深度學習只能認出一張，不能認出另外一張。為此，現(xiàn)在深度學習的大師們正在試圖發(fā)展出一些理論，嘗試從計算理論、生物隱喻上解釋。比如Google公司的Geoffrey Hinton，提出了膠囊理論（capsules theory），模仿人類大腦中的皮質柱，如果將人的大腦皮質想象成一個有6層細胞厚度的皮層，它是由一個個圓柱體構成的。他希望用這個隱喻來改進深度學習每一層完全非結構化的問題，把每一層的神經(jīng)元進行分組、功能化。另外，學術界開始探討如何解決深度學習的知識表示問題。

第二，智能的未來是否一定就是類腦計算？目前這一領域的進展主要在兩個方面：一方面是通過腦計劃繪制大腦的數(shù)字機理地圖，通過對思維的研究、對記憶的研究進一步了解人腦工作機制；另一方面是人工神經(jīng)網(wǎng)絡和Sparse Coding等“大腦啟發(fā)計算（brain inspired computing）”技術的不斷改進。比如反饋，人腦在從輸入到結果的過程中，前向連接是后向連接（從處理到輸入）的十分之一，也就意味著回路是前向連接的10倍之多。現(xiàn)在的人工神經(jīng)網(wǎng)絡還是前向多、回路少（即使有回路，如反向傳播算法，也只發(fā)生在訓練階段）。另外，要增加時間因素?，F(xiàn)在的很多人工神經(jīng)網(wǎng)絡沒有時間因素，但是人是不斷地在學習，其所見所想是有時間因素的，因此需要在線學習能力的提升。

第三，是否需要發(fā)明專為類腦計算的計算架構。人工智能研究的先驅Hans Moravec曾經(jīng)提出Moravec Paradox：成年人才能做的高階任務（如推理和規(guī)劃），現(xiàn)有的計算架構綽綽有余；而一兩歲孩童就運用嫻熟的低階任務（如感知和協(xié)調運動），需要的計算能力遠遠超過了馮諾依曼架構的能力。舉一個未必確切的比喻：天河2號1 800萬瓦，5億億次（浮點）計算每秒，而人腦據(jù)估計是10億億次操作每秒，只耗電20 W（每天只需100多毫克的葡萄糖）。因此，針對特定的負載，人們希望能夠實現(xiàn)低功耗的具有識別、聯(lián)想、推理能力的新計算架構。新的架構也有不同路線：一類是傳統(tǒng)人工神經(jīng)網(wǎng)絡的加速器，如中國科學院計算技術研究所的電腦、大電腦、普電腦，Yann LeCun的NeuFlow；另一類是更接近生物神經(jīng)網(wǎng)絡的處理器，被稱為神經(jīng)擬態(tài)（neuromorphic）架構，如IBM公司的TrueNorth、高通公司的Zeroth。前者的識別精度高，但沒有在線學習能力；后者目前精度低，但能夠在線學習，也許未來有不錯的前景。當然，目前來說，所有這些架構都面臨可編程性差的問題，因此，在較近的一段時間內，F(xiàn)PGA、GPU和眾核可能是更實用的計算架構。

所有這些問題是當前在智能之爭上面討論的問題。

13 結束語

目前來看，協(xié)作、開放的計算機科學（collaborative open computer science）已成為當今世界的主流。大數(shù)據(jù)在所有熱門技術中具有最開放的技術生態(tài)，開源框架（如Theano、PyLearn2和Caffe）極大地加速了深度學習的普及，未來像GitXiv這樣集合GitHub（開放源代碼）、arXiv（公開研究方法）以及學術論壇的平臺，將極大地促進計算機科學的發(fā)展。

英特爾公司一直在推動開放、協(xié)作的創(chuàng)新，資助、跟蹤大學的研究，注重在10個前沿方向推動技術的發(fā)展。英特爾公司在全球范圍內與大學有多個聯(lián)合研究項目，在美國有9個研究中心，世界范圍內有多家（包括在中國與清華大學、東南大學和中國科學技術大學聯(lián)合建立的移動網(wǎng)絡和計算英特爾協(xié)作創(chuàng)新中心，專注于5G網(wǎng)絡和計算研究）。其中，一些大數(shù)據(jù)研究中心取得了很好的成績。例如，卡內基梅隆的云計算中心，Spark是該中心早期自主的項目（研究主體在美國伯克利），還貢獻了GraphLab、Petuum。在MIT的大數(shù)據(jù)中心的領導者之一就是新科圖靈獎得主Michael Stonebraker，MIT中心的很多工作圍繞新一代的DBMS，如內存數(shù)據(jù)庫H-Store、流數(shù)據(jù)庫S-Store、科學計算數(shù)據(jù)庫SciDB、原位計算可視化、支持協(xié)作分析的DataHub等。美國斯坦福的大數(shù)據(jù)中心主要做可視化，由Pat Hanrahan教授領導，他是Tableau的創(chuàng)始人之一。還有，以色列的計算智能中心，對深度學習有很多貢獻。這些中心的很多工作已經(jīng)開源。

英特爾公司希望能夠通過這些協(xié)作研究，了解大數(shù)據(jù)發(fā)展的前沿。同時，也能夠使英特爾的架構更好地跟隨大數(shù)據(jù)算法和系統(tǒng)的發(fā)展。

[28] Pan X H, Sparks E R, Wibisono A. MLbase: Distributed Machine Learning Made Easy. Dept. Computer Science, UC Berkeley, 2013

[29] Key A, Howe B, Perry D,et al. Vizdeck: self-organizing dashboards for visual analytics. Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data, Scottsdale, USA, 2012

[30] Wu E, Madden S. Scorpion: explaining away outliers in aggregate queries. Proceedings of the VLDB Endowment, 2013, 6(8)

[31] Luis V A. Duolingo: learn a language for free while helping to translate the web. Proceedings of the 2013 International Conference on Intelligent User Interface, Santa Monica, USA, 2013

[32] Hofmeyr S A, Forrest S A. Architecture for an artificial immune system. Evolutionary Computation, 2000, 8(4): 443～473

[33] Hawkins J, George D. Hierarchical Temporal Memory Mdash; Concepts, Theory and Terminology. Numenta Inc, 2006

[34] Szegedy C, Zaremba W, Sutskever I,et al. Intriguing properties of neural networks. Proceedings of International Conference on Learning Representations, Banff, Canada, 2014 □

10.11959/j.issn.2096-0271.2015044

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大數(shù)據(jù)技術發(fā)展的十個前沿方向（下）

10 前沿方向八：精益求精，提升精度

11 前沿方向九：人機的角色變化

12 前沿方向十：智能之爭

13 結束語

10 前沿方向八：精益求精，提升精度