大數(shù)據(jù)技術發(fā)展的十個前沿方向(下)
Ten Fronties for Big Data Technologies (Part C)
吳甘沙,男,現(xiàn)任英特爾中國研究院院長。2000年加入英特爾,先后在編程系統(tǒng)實驗室與嵌入式軟件實驗室承擔了技術與管理職位,期間參與或主持的研究項目有受控運行時、XScale微架構、眾核架構、數(shù)據(jù)并行編程及高生產(chǎn)率嵌入設備驅動程序開發(fā)工具等。2011年晉升為首席工程師,共同領導了公司的大數(shù)據(jù)中長期技術規(guī)劃,主持大數(shù)據(jù)方面的研究,工作重點為大數(shù)據(jù)內存分析與數(shù)據(jù)貨幣化。在英特爾工作期間,發(fā)表了10余篇學術論文,有23項美國專利(10余項成為國際專利),14項專利進入審核期。
精度是衡量機器學習(人工智能)算法好壞的重要指標。傳統(tǒng)上,精度概念包括正確率、識別率、召回率等。在大數(shù)據(jù)時代,精度被賦予了更多的含義。
10.1 傳統(tǒng)機器學習的模型不適應大數(shù)據(jù)
首先是數(shù)據(jù)規(guī)模。傳統(tǒng)的機器學習模型無法支持超大規(guī)模的訓練數(shù)據(jù)集,當數(shù)據(jù)超過一定規(guī)模時,傳統(tǒng)模型將面臨計算量爆炸和精度提升停滯兩大難題。關于計算量爆炸,通過分布式優(yōu)化的方式來加速計算(假設計算資源的擴展能夠趕上計算量的增加)或者通過采樣、近似等方式減少計算量。關于后者,周志華老師在中國計算機學會大數(shù)據(jù)學術會議上介紹了一個經(jīng)典的案例:很多機器學習算法采用AUC(area under ROC curve)作為評估函數(shù),但它需要做兩兩配對(pairwise)的計算,計算量大且數(shù)據(jù)無法裝入內存,而采用了Least Square Loss函數(shù)進行逼近后,極大地減少了計算復雜度。
當然,還有一種選擇是采用相對“簡單”的模型。無論模型是簡單還是復雜,必須具備高可變(high variance)的特性,這樣才能隨著數(shù)據(jù)量增大獲得精度提升。高可變的“簡單”模型雖然計算復雜度不高,但多具有較大的特征空間,更多的數(shù)據(jù)能夠提升其收益。相比而言,“高偏差(high bias)”的簡單模型不具有大數(shù)據(jù)帶來的邊際效益。
其次是數(shù)據(jù)的復雜性和維度。高維和非結構化數(shù)據(jù)(圖片、影音等)的爆發(fā)推動了復雜模型的廣泛應用。無參、非線性、生成性的復雜模型,能夠在數(shù)據(jù)量爆炸時得到可觀的性能提升。復雜模型的典型代表就是深度學習,在實際應用中,上百億參數(shù)、20多層的神經(jīng)網(wǎng)絡很常見。
通過對多種簡單模型的組合(ensemble)來獲得新的復雜模型,這種方式被證明是提升精度的有效方法。當然,選擇簡單模型組合時盡量要選擇相互間相關性弱的模型。另一種混合模型的方式是參數(shù)模型和無參模型的組合使用,可以有效處理大規(guī)模的高維度數(shù)據(jù),特別是在其不同維度的稀疏情況不一致時有奇效:參數(shù)模型用于小維度數(shù)據(jù),無參模型用于較大維度的數(shù)據(jù),兩者組合就可以有效地處理大規(guī)模、高維度的數(shù)據(jù)。同樣,線性模型和非線性模型也可以采用類似的方法進行組合應用。
隨著數(shù)據(jù)規(guī)模和模型復雜度的同時增加,計算量急速增大,優(yōu)化算法的重要性也日益凸顯。在機器學習中,數(shù)據(jù)、模型以及優(yōu)化算法都會對最終結果產(chǎn)生重要影響。傳統(tǒng)上習慣用非常復雜的算法找到“最優(yōu)”的答案,但在近年的商業(yè)實踐中,“足夠好”的算法正逐漸成為主流。有時候模型組合可能會導致計算復雜度過高,而缺乏實用性。一個顯著的案例就是,Netflix因為數(shù)據(jù)大賽獲獎算法復雜度過高,所以未能將其投入實際應用,而獲獎算法恰恰是通過組合多種次優(yōu)算法的方式得到的。
伴隨數(shù)據(jù)規(guī)模和數(shù)據(jù)維度的爆發(fā),需要探索新的機器學習算法,目標是提升大數(shù)據(jù)時代下的機器學習應用的邊際收益。
10.2 傳統(tǒng)的機器學習忽略了數(shù)據(jù)的長尾特征
互聯(lián)網(wǎng)的核心價值是解決信息不對稱、交易成本苛刻和服務目標覆蓋長尾末端的特殊要求。傳統(tǒng)的機器學習方法,比如LDA做主題模型,只能發(fā)現(xiàn)高頻主題,因為具有指數(shù)分布的假設,而指數(shù)分布“割掉”了長尾,掩蓋了低頻的聲音和豐富的隱含語義。從互聯(lián)網(wǎng)經(jīng)濟大潮中成長起來的大數(shù)據(jù)分析,必須發(fā)現(xiàn)長尾人群的微弱聲音。因此,大數(shù)據(jù)分析的首要問題就是優(yōu)化和強化長尾效應。在新的商業(yè)需求下,基于指數(shù)假設的機器學習模型(如PCA、LDA、pLSA等)需要演進,比如騰訊公司的Peacock改進了LDA,以適應百萬級別的主題??傮w來說,改進的辦法如下:基于更復雜的模型(如深度神經(jīng)網(wǎng)絡或Google Rephil這樣的深度有向無環(huán)圖模型)、模型的組合以及前文所述的混合模型,更好地探測數(shù)據(jù)中隱藏的信號。
10.3 精度是一個動態(tài)變量
引用海森堡的測不準理論,在大數(shù)據(jù)的世界里,觀測行為會引起被觀測現(xiàn)象的改變。很多大數(shù)據(jù)事實上也是測不準的,比如Google流感的預測,在2013年1月份,Google公司預計的流感情況遠高于疾控中心實際測到的數(shù)目,所以《科學》和《自然》就對此發(fā)表了看法,《自然》認為大數(shù)據(jù)測不準,《科學》說這是大數(shù)據(jù)的傲慢。通常說舍恩伯格的大數(shù)據(jù)三大理念:要全集不要采樣;擁抱混雜性、無需精確性;要相關性、不必有因果性。這些理念適合大方向思考,但是分析師不能把它們當作絕對真理。在流感預測案例中,即使是Google公司也把握不到全量的數(shù)據(jù)。縱然考慮了混雜性,Google公司融合了關鍵詞和疾控中心的數(shù)據(jù)來調整模型,數(shù)據(jù)還是不能足夠精確。
雖然無法完全解決“測不準”的問題,機器學習算法仍然希望能盡快抓住客觀世界的快速變化。因此,在線學習和流式學習是大數(shù)據(jù)時代重要的辦法。大數(shù)據(jù)的早期表現(xiàn)形式是批處理或離線的數(shù)據(jù)處理,同樣,機器學習的主流方法也是離線訓練、在線識別。當機器學習與大數(shù)據(jù)相遇,訓練出來的模型所逼近的是過去的世界,而無法感知世界最新的變化。因此,在線學習或基于增量數(shù)據(jù)的學習變得非常重要,一邊使用生產(chǎn)環(huán)境中的舊模型,一邊納入新的數(shù)據(jù)進行增量訓練,快速更新模型并且部署到生產(chǎn)環(huán)境,不停頓地完成訓練—驗證—識別—再訓練的閉環(huán)。
鑒于此,當前企業(yè)紛紛從數(shù)據(jù)倉庫轉為EDH(enterprise data hub)或DL(data lake)。因為傳統(tǒng)數(shù)據(jù)倉庫基于一個確定的問題定義進行數(shù)據(jù)的搜集和組織,并且把數(shù)據(jù)轉變成相應的格式保存下來。一旦問題發(fā)生變化,再對數(shù)據(jù)結構做調整太困難、太昂貴。EDH是先把各種原始數(shù)據(jù)送進來,然后不斷地提問題,相應地改變數(shù)據(jù)表示;不停地嘗試更好的分析方法,相應地改變數(shù)據(jù)結構。
關于模型的選擇,統(tǒng)計學大師George Box說:“所有模型都是錯的,但是有些是有用的,關鍵是選擇什么樣的模型”。
必須指出,大數(shù)據(jù)不是簡單的體量大,它的另一個主要思想是采用多源數(shù)據(jù),在數(shù)據(jù)特征不多的前提下往往傳統(tǒng)的簡單模型也非常有效。比如常見的流感預測或者票房預測,簡單的線性回歸模型就能工作得很好。貝葉斯模型在很多場景被廣泛地應用?!缎盘柵c噪聲》的作者Nathan Silver多次成功地預測美國大選結果、奧斯卡獲獎者,就是把貝葉斯模型用到了極致,證明了傳統(tǒng)技術在大數(shù)據(jù)時代還有用武之地。
Isaiah Berlin有個比喻,有一種人是刺猬,一招鮮吃遍天,還有一種人是狐貍,一把鑰匙開一把鎖,以更開放的態(tài)度處理分析,選擇最合適的模型。在更多的大數(shù)據(jù)場景中,還是需要根據(jù)問題選擇合適的模型和方法。
模型的復雜度必須與問題匹配。這就是所謂的奧卡姆剃刀原理,當有多種模型能解釋數(shù)據(jù)時,選擇最簡單的一個。如前所述,當數(shù)據(jù)量較小時,模型不能過于復雜,尤其是當模型的特征空間跟訓練集規(guī)模相仿時,容易形成過擬合。另一方面,如果數(shù)據(jù)已經(jīng)非常大,而模型過于簡單,那么增加的數(shù)據(jù)量就無法帶來效益的提升。
最后,把分析工作推向社會分工是獲得更高精度的方法。如社會化分析平臺Kaggle通過競賽和眾包的方式與數(shù)十萬人的參與,往往能夠獲得最佳的模型。為了支持大規(guī)模的協(xié)作分析,學術界在基礎設施上已經(jīng)有所創(chuàng)新。比如DataHub加入了數(shù)據(jù)的版本控制和多語言支持,美國加州大學伯克利分校教授Joe Hellerstein最近提出,需要一個開放和廠商中立的元數(shù)據(jù)服務,從而提供跨組織邊界協(xié)作分析的生產(chǎn)力。
在機器學習/人工智能發(fā)展歷程中,人機角色分工一直朝著使機器更加容易使用、更加廣泛應用的目的發(fā)展前進,進而把稀缺的專業(yè)技能變?yōu)榇蟊娖占暗幕A服務。
11.1 機器所承擔角色的提升
computer這個詞最早出現(xiàn)在19世紀末的哈佛天文臺,指一些負責精細計算的人,而現(xiàn)在這個概念已經(jīng)被機器——計算機取代。人跟機器的關系一直在此消彼長,越來越多的人的職責和能力范圍的任務開始由機器完成。傳統(tǒng)意義上的數(shù)據(jù)分析流程,往往基于預先給定的假設和模型,由此出發(fā)采集數(shù)據(jù)樣本、細化模型,再用測試樣本進行驗證,然后修正假設模型,重新開始循環(huán)。數(shù)據(jù)分析應用的成功與否,常常依賴于預定的假設模型,依賴于人。而在大數(shù)據(jù)場景下,數(shù)據(jù)是全集的或者接近全集的,預先的假設模型的作用被極大弱化甚至消失;相反,在全集數(shù)據(jù)中通過機械的數(shù)據(jù)挖掘窮舉所有數(shù)據(jù)相關性,用相關性來取代主觀假設。理想情況下,數(shù)據(jù)自己找到線索,相關性主動找到應用。
傳統(tǒng)意義上的機器學習模型擅長做結構化的數(shù)據(jù)分析,做語義分析的案例很少。大數(shù)據(jù)分析能夠超越抽象語義的限制?!赌颍∕oneyball)》是數(shù)據(jù)分析與體育(棒球)跨界融合的典型案例,其宣揚的理念是可以用很低的成本找到最合適的隊員,獲得很高的勝率。然而真實故事里有“不足為外人道”之處,他們花了更多的錢來請高水平球探,對球員的心理能力(如抗壓能力和意志力水平)做評估,而這些屬性是客觀數(shù)據(jù)無法描述的。這些“球探”代表了超越計算機的領域專業(yè)知識。現(xiàn)在機器語義分析能力增強,能夠部分取代人的經(jīng)驗推理。
傳統(tǒng)上的數(shù)據(jù)分析和可視化非常依賴分析專家的個人天賦和職業(yè)技能,只有少數(shù)數(shù)據(jù)科學家可以直觀展示出大量數(shù)據(jù)中蘊含的各種規(guī)律。而領域專家和普通技術人員常常對錯綜復雜的數(shù)據(jù)束手無策。最新發(fā)展趨勢是機器降低人的專業(yè)能力門檻的要求。比如MLBase[28]可以自動地找到最好的機器學習模型,VizDeck[29]則通過機器學習找到最好的可視化方式,Scorpion[30]通過可視化自動找出數(shù)據(jù)中的outliers,并且推知導致outliers的數(shù)據(jù)記錄。
隨著工具變得更為人性化,普通從業(yè)人員能夠更好地從數(shù)據(jù)中提取價值。以數(shù)據(jù)可視化為例,出現(xiàn)了很多可視化的工具、庫和框架,能夠幫助用戶專注于數(shù)據(jù)理解本身,輕松對各類數(shù)據(jù)(包括文本、網(wǎng)絡/圖數(shù)據(jù)、時空數(shù)據(jù)和多維數(shù)據(jù))進行表現(xiàn)手段豐富的可視化。幫助用戶關注數(shù)據(jù)的內容而擺脫手段的羈絆。同時,數(shù)據(jù)可視化也從靜態(tài)展示發(fā)展成動態(tài)交互過程。一次可視化從對單一視圖的展示發(fā)展成對新問題的探索過程,形成新的領域——可視化分析,這歸功于實時可視化技術的發(fā)展。在可視化的界面、交互組件的設計上越來越人性化,實時地、自然地實現(xiàn)多側面、多分辨率和多焦點的交互。在一些商業(yè)領域的決策過程中通過對海量數(shù)據(jù)進行處理,實現(xiàn)了數(shù)據(jù)可視化、決策討論、動作發(fā)生、再可視化的閉環(huán)式應用。
工具對人的增強更多體現(xiàn)在基礎設施層面,尤其是基礎設施的社會化對大數(shù)據(jù)的普及起到了關鍵的作用。目前,Apache Hadoop的生態(tài)環(huán)境日趨復雜(由于各個不同組件往往用動物作為吉祥物,業(yè)內把Hadoop生態(tài)戲稱為動物園),大數(shù)據(jù)基礎環(huán)境部署的困難常常為人詬病。云計算把數(shù)據(jù)存儲、計算甚至是機器學習的流水線做成了公共基礎設施,而創(chuàng)業(yè)公司可以不懂分布式計算、容錯、Hadoop或Spark,只要具有數(shù)據(jù)思維,就可以利用云上的基礎設施完成數(shù)據(jù)應用的創(chuàng)新。一些很有創(chuàng)意的創(chuàng)業(yè)公司(如Decide.com、Prismatic)開始由幾個算法工程師組建而成,而基礎設施的事情Amazon公司替他們解決了。Spark的商業(yè)化領導者Databricks的愿景是讓小數(shù)據(jù)的使用者很容易切換到大數(shù)據(jù),Databricks Cloud正是其實現(xiàn)戰(zhàn)略意圖的核心。
11.2 人在機器學習過程中的作用
人本來是機器學習中最重要的角色。
機器學習首先需要高質量的數(shù)據(jù)標記,特別是對于監(jiān)督學習,其學習的基礎是高質量的標記數(shù)據(jù)。在機器學習這個領域,好的標記數(shù)據(jù)集能夠極大地推動研究的整體進展,比如當前計算機視覺的研究受益于ImageNet。高質量的數(shù)據(jù)標記需要大量的人力,有時甚至是專業(yè)人士。以前的做法是外包至低成本國家,而現(xiàn)在眾包(比如土耳其機器人)成為更通用的做法。有一些眾包平臺開始考慮游戲化機制,比如ESP Game讓人們邊玩游戲邊完成對圖像的標記。
無論是外包還是眾包,仍然需要人來做。但是一些新的機器學習方法減少了對數(shù)據(jù)標記的依賴,從而弱化了人的初始作用。深度學習讓無監(jiān)督學習得到了更多的重視,因為它不需要標記數(shù)據(jù);半監(jiān)督學習在過去幾年中有了長足的發(fā)展,它結合了少量的標記數(shù)據(jù)和較多的無標記數(shù)據(jù);轉移學習(transfer learning)采用了舉一反三的思想,為另一個目的而標記的數(shù)據(jù)可以轉而用于這個目的,從而彌補相關標記數(shù)據(jù)的不足。
特征工程(feature engineering)是機器學習中另一個需要大量專業(yè)人力的環(huán)節(jié)。往往模型工作好與壞的關鍵在于特征的選取,而人的經(jīng)驗非常重要,尤其是一些好的特征(golden feature)依賴于領域知識。所以,一支特征工程團隊在項目的早期階段有很好的效益,但是長期的邊際效應越來越趨向于零?,F(xiàn)在自動化特征抽取得到了長足的進步,非監(jiān)督學習具有自動學習特征的能力。在信息維度異常豐富的數(shù)據(jù)中,可能具備幾十億、幾百億的特征,這是人力窮舉無法完成的。深度學習很好地解決了這個問題,它的非監(jiān)督學習能夠逐層提取巨量的特征。有意思的是,這些特征不只是用于深度的神經(jīng)元網(wǎng)絡,還能夠作為淺層學習的特征。
機器學習工具越來越易于使用,參與數(shù)據(jù)分析的人不再是傳統(tǒng)意義上的專業(yè)數(shù)據(jù)科學家、工程師。非專業(yè)人士、領域專家越來越能夠成為數(shù)據(jù)分析的主宰者、數(shù)據(jù)價值的提取者。傳統(tǒng)機器學習里面的很多“黑魔法”開始被標準化、具備高易用性的工具取代。而工具發(fā)展的趨勢是機器學習全流水線。scikit-learn最早做了有益的嘗試,通過簡單的腳本在一個分析環(huán)境中完成端到端的所有工作。后來Spark等主流平臺跟進,并且引入了一些新的非常有效的工具,如KeystoneML語言標準化對多種數(shù)據(jù)類型的處理,Volex對模型的迭代和生命周期進行管理。
11.3 人仍在閉環(huán)中(human in the loop)
雖然看到了機器角色的增強和人作用的弱化,但是相信在相當長的一段時間內,人仍將在整個分析閉環(huán)中起到重要的作用。
比如,在數(shù)據(jù)準備(清洗、治理)階段,人的作用是不可或缺的?,F(xiàn)在的很多工具都在如何引入人的干預上做創(chuàng)新,從而保證數(shù)據(jù)準備的目的是準確的,清洗的程度是合適的,數(shù)據(jù)表示是符合未來的分析的。
又如,現(xiàn)在雖然可以使用機械的方法發(fā)現(xiàn)海量數(shù)據(jù)中的相關性,但在無數(shù)的相關性中發(fā)現(xiàn)真正的線索,就需要數(shù)據(jù)分析師的直覺。直覺就是在潛意識里自動完成的邏輯推理。怎么訓練直覺?可以通過學習大量偵探小說和懸疑小說里面的推理過程。這樣的推理過程不只是建立模型,還需要數(shù)據(jù),則需要很多先驗的知識。這些知識怎么來?可以通過廣泛的閱讀,跨界思想的碰撞,還需要獲得上下文的知識,將其融入業(yè)務應用中。數(shù)據(jù)分析師深入業(yè)務部門,和業(yè)務人員融入到一起,這才能防止數(shù)據(jù)采集和分析脫鉤、數(shù)據(jù)分析和業(yè)務應用脫節(jié),這些過程不能用機器實現(xiàn)。美國加州大學伯克利分校教授郁彬認為數(shù)據(jù)科學是SDC3(statistics、domain knowledge、computing、collaboration、communication),這里說的正是D和后兩個C。此外,communication還反映在分析結果的藝術化展現(xiàn)和精彩的故事講述將使分析事半功倍?,F(xiàn)在分析師所學的內容要從STEM到STEAM,STEM是科學(science)、技術(technology)、工程(engineering)、數(shù)學(mathematics),STEAM多出的“A”是藝術(art),這一點上機器短期內很難取代人。另外,藝術不只是這種優(yōu)雅美觀的可視化,還有一個很重要的就是講故事,有了分析結果之后怎么用更具親和力的方式表達出來。比如啤酒加尿布的故事,就符合了講故事的3D:戲劇性(drama)、細節(jié)(detail)、參與這個對話的感覺(dialogue)。雖然這個案例是編纂的故事,但是它的易傳播性和啟發(fā)性使得更多人愿意去投入數(shù)據(jù)分析。前文所述《魔球》也是這樣,對故事做適當?shù)募庸?,用一個精彩的、抑揚起伏的故事講述數(shù)據(jù)分析怎么改變棒球運動。這種源于生活、高于生活的拔高是機器望塵莫及的。
另外,人的大規(guī)模協(xié)作分析或人類計算(human computing),能夠完成大量機器所不能完成的任務。
· 在數(shù)據(jù)庫里有個所謂DB-hard的問題,即自然語言表述的不唯一性和歧義性給數(shù)據(jù)治理帶來了挑戰(zhàn),美國加州大學伯克利分校AMBLab的CrowdDB通過眾包解決了數(shù)據(jù)字段規(guī)范化的問題。
· 機器學習可以看作模型表示+評價函數(shù)+優(yōu)化方法,而優(yōu)化方法是尋找最佳模型的必要步驟。Kaggle將企業(yè)和科研中海量的數(shù)據(jù)分析問題與其20萬注冊數(shù)據(jù)分析師進行對接,通過懸賞和海選的方法完成了優(yōu)化過程。
· Duolingo[31]是另一個有趣的案例。如果Google翻譯是集中化的、權威數(shù)據(jù)主導的分析過程,Duolingo則是社會化、民主化、普通人主導的大規(guī)模協(xié)作翻譯過程,所獲得的效果甚至優(yōu)于Google翻譯。在Duolingo平臺上,用戶學習目標語言過程中必須完成大量的翻譯題目,而這些題目來自互聯(lián)網(wǎng),因此其學習的過程同時也是對互聯(lián)網(wǎng)翻譯的過程,其驚人的規(guī)模效應和積累效用從下例中可見一斑:100萬用戶通過80 h的學習就能把整個維基百科從英語翻譯成為西班牙語。
總之,human-in-the-loop machine learning或active learning已經(jīng)成為業(yè)界的一個熱點問題。
人工智能在近年成為流行詞匯,它代表著生物智能和機器智能的一種博弈。這個博弈的一邊是生物智能,生物智能擅長的是模式匹配。人的認知過程就是不停地進行匹配、識別、聯(lián)想,從記憶中提取數(shù)據(jù)。而機器智能則是通過計算完成,大量的計算是機器擅長的,比如在大的搜索空間尋找最優(yōu)解(國際象棋戰(zhàn)勝人類世界冠軍)、海量信息的檢索(沃森電腦在Jeopardy的知識問答中戰(zhàn)勝人類)、從計算中總結隱藏的規(guī)律等。因此,人工智能也分成了幾個派別。
第一個派別認為機器智能并不一定要學習人的生物構造,機器有機器的特點。他們經(jīng)常引用的一個例子是,當萊特兄弟不試圖模仿鳥類的翅膀,而是開始研究空氣動力學的時候,人類才有了飛上藍天的機會。所以機器智能并不一定要學習生物智能,它可以通過更擅長的計算、更完美的數(shù)學模型實現(xiàn)智能。這里有很多大師,如統(tǒng)計學大師Michael Jordan、老派的Peter Norvig、新派的邢波。Jordan認為統(tǒng)計是大數(shù)據(jù)的基礎,炒作那些沒有數(shù)學基礎的“新方法”將使大數(shù)據(jù)進入“寒冬期”。
第二個派別認為必須要了解人腦是怎么工作的。通過各種各樣的腦計劃繪制出人腦的機理地圖,了解人們思維(mind)的工作方式,然后把計算架構往上演進。這個派別有很多生物學家,還有一些老派的科學家,如侯世達(《集異璧》作者)、彭羅斯(數(shù)學家,《皇帝的新腦》作者),還有一些民間代表,如雷·庫茲韋爾。
第三個派別——計算智能(computational intelligence)方興未艾。計算智能是上述兩個派別之間的折中,他們認為可以用生物認識作為約束和啟發(fā),但還是以計算理論為基礎來實現(xiàn)智能,比如人工神經(jīng)網(wǎng)絡、演化計算、模糊邏輯、人工免疫系統(tǒng)和群體智能等。人工免疫系統(tǒng)[32]其實就是模仿人體內的分布式免疫系統(tǒng),即不同位置的淋巴結能夠識別不同細菌病毒的特征,從而進行分布式的殺滅?,F(xiàn)在主流的神經(jīng)網(wǎng)絡、深度學習科學家都屬于這一類。這里不得不提Palm Computer的創(chuàng)始人Jeff Hawkins,他雖然不是科班出身,但贊助和支持了很多有益的工作,他提出的HTM(hierarchical temporal memory)模型[33]得到了美國DARPA-Cortical Processor項目的支持。
下面簡略介紹一些現(xiàn)今國際上正在熱烈討論爭論的問題。
第一,深度學習是否有可能包打天下?樂觀者認為深度學習能夠把所有的問題都解決了。以卷積神經(jīng)網(wǎng)絡(CNN)和遞歸神經(jīng)網(wǎng)絡(RNN)為代表的深度學習技術陸續(xù)在計算機視覺、語音識別和自然語言處理方面取得了突破。ImageNet取消object classification的比賽,標志著視覺方面的飛躍;百度公司最新宣布基于LSTM(long short term memory)和CTC(connectionist temporal classification)的漢語語音識別在安靜環(huán)境下達到了97%的識別率;而在自然語言方面,深度學習開始把問答和自然語言對話系統(tǒng)作為下一個突破點。
除了上述認知計算領域的進展,深度學習也開始解決人類不能勝任的非認知問題,如百度公司用其提升搜索質量、廣告推薦的質量,取得了一定的效果。下一個有望受益于深度學習的是醫(yī)療健康領域,從醫(yī)學影像分析到藥物的研發(fā),都可望獲得突破??梢哉f,深度學習雖然一定程度上受到了過多的炒作,但其廣泛的應用價值已經(jīng)確保人工智能的另一個冬天不會到來。
但是質疑者說深度學習沒有一個理論基礎,缺乏機器學習算法的可解釋性,是一些莫名其妙的手段的堆砌。包括Google公司自己發(fā)現(xiàn)深度學習可能存在一些內在缺陷[34],比如兩張圖片人眼看起來是完全一模一樣的,其中有一些細微的像素差別,但是深度學習只能認出一張,不能認出另外一張。為此,現(xiàn)在深度學習的大師們正在試圖發(fā)展出一些理論,嘗試從計算理論、生物隱喻上解釋。比如Google公司的Geoffrey Hinton,提出了膠囊理論(capsules theory),模仿人類大腦中的皮質柱,如果將人的大腦皮質想象成一個有6層細胞厚度的皮層,它是由一個個圓柱體構成的。他希望用這個隱喻來改進深度學習每一層完全非結構化的問題,把每一層的神經(jīng)元進行分組、功能化。另外,學術界開始探討如何解決深度學習的知識表示問題。
第二,智能的未來是否一定就是類腦計算?目前這一領域的進展主要在兩個方面:一方面是通過腦計劃繪制大腦的數(shù)字機理地圖,通過對思維的研究、對記憶的研究進一步了解人腦工作機制;另一方面是人工神經(jīng)網(wǎng)絡和Sparse Coding等“大腦啟發(fā)計算(brain inspired computing)”技術的不斷改進。比如反饋,人腦在從輸入到結果的過程中,前向連接是后向連接(從處理到輸入)的十分之一,也就意味著回路是前向連接的10倍之多。現(xiàn)在的人工神經(jīng)網(wǎng)絡還是前向多、回路少(即使有回路,如反向傳播算法,也只發(fā)生在訓練階段)。另外,要增加時間因素?,F(xiàn)在的很多人工神經(jīng)網(wǎng)絡沒有時間因素,但是人是不斷地在學習,其所見所想是有時間因素的,因此需要在線學習能力的提升。
第三,是否需要發(fā)明專為類腦計算的計算架構。人工智能研究的先驅Hans Moravec曾經(jīng)提出Moravec Paradox:成年人才能做的高階任務(如推理和規(guī)劃),現(xiàn)有的計算架構綽綽有余;而一兩歲孩童就運用嫻熟的低階任務(如感知和協(xié)調運動),需要的計算能力遠遠超過了馮諾依曼架構的能力。舉一個未必確切的比喻:天河2號1 800萬瓦,5億億次(浮點)計算每秒,而人腦據(jù)估計是10億億次操作每秒,只耗電20 W(每天只需100多毫克的葡萄糖)。因此,針對特定的負載,人們希望能夠實現(xiàn)低功耗的具有識別、聯(lián)想、推理能力的新計算架構。新的架構也有不同路線:一類是傳統(tǒng)人工神經(jīng)網(wǎng)絡的加速器,如中國科學院計算技術研究所的電腦、大電腦、普電腦,Yann LeCun的NeuFlow;另一類是更接近生物神經(jīng)網(wǎng)絡的處理器,被稱為神經(jīng)擬態(tài)(neuromorphic)架構,如IBM公司的TrueNorth、高通公司的Zeroth。前者的識別精度高,但沒有在線學習能力;后者目前精度低,但能夠在線學習,也許未來有不錯的前景。當然,目前來說,所有這些架構都面臨可編程性差的問題,因此,在較近的一段時間內,F(xiàn)PGA、GPU和眾核可能是更實用的計算架構。
所有這些問題是當前在智能之爭上面討論的問題。
目前來看,協(xié)作、開放的計算機科學(collaborative open computer science)已成為當今世界的主流。大數(shù)據(jù)在所有熱門技術中具有最開放的技術生態(tài),開源框架(如Theano、PyLearn2和Caffe)極大地加速了深度學習的普及,未來像GitXiv這樣集合GitHub(開放源代碼)、arXiv(公開研究方法)以及學術論壇的平臺,將極大地促進計算機科學的發(fā)展。
英特爾公司一直在推動開放、協(xié)作的創(chuàng)新,資助、跟蹤大學的研究,注重在10個前沿方向推動技術的發(fā)展。英特爾公司在全球范圍內與大學有多個聯(lián)合研究項目,在美國有9個研究中心,世界范圍內有多家(包括在中國與清華大學、東南大學和中國科學技術大學聯(lián)合建立的移動網(wǎng)絡和計算英特爾協(xié)作創(chuàng)新中心,專注于5G網(wǎng)絡和計算研究)。其中,一些大數(shù)據(jù)研究中心取得了很好的成績。例如,卡內基梅隆的云計算中心,Spark是該中心早期自主的項目(研究主體在美國伯克利),還貢獻了GraphLab、Petuum。在MIT的大數(shù)據(jù)中心的領導者之一就是新科圖靈獎得主Michael Stonebraker,MIT中心的很多工作圍繞新一代的DBMS,如內存數(shù)據(jù)庫H-Store、流數(shù)據(jù)庫S-Store、科學計算數(shù)據(jù)庫SciDB、原位計算可視化、支持協(xié)作分析的DataHub等。美國斯坦福的大數(shù)據(jù)中心主要做可視化,由Pat Hanrahan教授領導,他是Tableau的創(chuàng)始人之一。還有,以色列的計算智能中心,對深度學習有很多貢獻。這些中心的很多工作已經(jīng)開源。
英特爾公司希望能夠通過這些協(xié)作研究,了解大數(shù)據(jù)發(fā)展的前沿。同時,也能夠使英特爾的架構更好地跟隨大數(shù)據(jù)算法和系統(tǒng)的發(fā)展。
[28] Pan X H, Sparks E R, Wibisono A. MLbase: Distributed Machine Learning Made Easy. Dept. Computer Science, UC Berkeley, 2013
[29] Key A, Howe B, Perry D,et al. Vizdeck: self-organizing dashboards for visual analytics. Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data, Scottsdale, USA, 2012
[30] Wu E, Madden S. Scorpion: explaining away outliers in aggregate queries. Proceedings of the VLDB Endowment, 2013, 6(8)
[31] Luis V A. Duolingo: learn a language for free while helping to translate the web. Proceedings of the 2013 International Conference on Intelligent User Interface, Santa Monica, USA, 2013
[32] Hofmeyr S A, Forrest S A. Architecture for an artificial immune system. Evolutionary Computation, 2000, 8(4): 443~473
[33] Hawkins J, George D. Hierarchical Temporal Memory Mdash; Concepts, Theory and Terminology. Numenta Inc, 2006
[34] Szegedy C, Zaremba W, Sutskever I,et al. Intriguing properties of neural networks. Proceedings of International Conference on Learning Representations, Banff, Canada, 2014 □
10.11959/j.issn.2096-0271.2015044