李德毅
(中國人工智能學(xué)會,北京 100876)
《》
大數(shù)據(jù)認(rèn)知
——“2015大數(shù)據(jù)價(jià)值實(shí)現(xiàn)之路高峰論壇”主題報(bào)告
李德毅
(中國人工智能學(xué)會,北京 100876)
從作詩、語言翻譯、語音識別、保險(xiǎn)、人臉識別等方面深入淺出地闡述了大數(shù)據(jù)認(rèn)知的方法學(xué)。大數(shù)據(jù)標(biāo)志數(shù)據(jù)密集型科學(xué)的新時(shí)代的到來,大數(shù)據(jù)時(shí)代是小模型、小定律、交叉學(xué)科的時(shí)代。大數(shù)據(jù)認(rèn)知的突破口在于聚類。提倡利用云加端的形態(tài)和深度學(xué)習(xí),研究制造神似形不似的云機(jī)器人。介紹了駕駛服務(wù)云機(jī)器人、語言機(jī)器人,提倡研發(fā)機(jī)器駕駛腦,展示了無人駕駛客車的研究成果,以及團(tuán)隊(duì)正在進(jìn)行的智能車的6類試驗(yàn)與評估,倡導(dǎo)研究者做實(shí)踐中的研究,少做研究中的實(shí)踐。
大數(shù)據(jù);聚類;腦認(rèn)知;云機(jī)器人
各位大家好!我想講一個(gè)認(rèn)知的課題。我們知道現(xiàn)在認(rèn)知科學(xué)很興旺,我們把它叫做cognitive science。那么大數(shù)據(jù)認(rèn)知呢?這是我今天要講的題目。
1.1 數(shù)據(jù)認(rèn)知案例
先講一講大數(shù)據(jù)認(rèn)知方法學(xué),講一個(gè)數(shù)據(jù)認(rèn)知的案例。
寫詩是一項(xiàng)創(chuàng)造性的活動,大家認(rèn)為是很智能的。人們熟讀眾多詩歌,記住了針對各種意境的大量“字串”。需要時(shí),觸景生情,把腦中的“字串”按既定的一些規(guī)矩取出來,就成了一首新詩。我們常說“熟讀唐詩三百首,不會寫詩也會吟”。數(shù)據(jù)多了,文字的碎片多了,就可以寫詩了,但是要寫得好,很難。詩歌要講語境,要講押韻,但是對于計(jì)算機(jī)來說,規(guī)矩越多越適合計(jì)算機(jī)寫。對四聲和押韻有嚴(yán)格要求的五言絕句就是一個(gè)例子。例如,李白一生寫詩1 010首,把李白的所有詩句進(jìn)行“機(jī)械切割”后放在一個(gè)庫里,如果按照押韻的方式將這些切割后的字串組成數(shù)據(jù)集,并作索引,依據(jù) “仄仄平平,平平仄平。平平仄仄,仄仄平平”的規(guī)律讓李白作詩來紀(jì)念毛主席誕辰一百周年,結(jié)果也是蠻有意思的。比方說,毛主席是1893年12月26號生日,用18來檢索第一句,用93檢索第二句,12檢索第三句,依次類推,所做的詩是 “秀玉竟不還,西湖哀苦寒。風(fēng)樓留不住,夜郎醉不眠”,見圖1。這就是不確定人工智能的魅力所在。所以數(shù)據(jù)認(rèn)知離我們不遠(yuǎn),就在我們身邊。把數(shù)據(jù)挖掘出來,就可以反映價(jià)值。
圖1 實(shí)例
1.2 大數(shù)據(jù)特點(diǎn)
大數(shù)據(jù)來源于人類測量、記錄和分析世界的渴望和無盡的追求。隨著信息技術(shù),尤其是傳感器、通信計(jì)算機(jī)和互聯(lián)網(wǎng)的迅猛發(fā)展和應(yīng)用,人類獲取信息的手段越來越多,速度大大加快,層次和尺度更為精細(xì),人聯(lián)網(wǎng)和物聯(lián)網(wǎng)又使得人和物都成為數(shù)據(jù)源。這樣一來,大數(shù)據(jù)成為網(wǎng)絡(luò)時(shí)代人類社會的重要資產(chǎn),它標(biāo)志著一個(gè)時(shí)代的到來。
統(tǒng)計(jì)學(xué)和概率在當(dāng)前發(fā)揮著巨大的作用。我們經(jīng)過十幾年的努力,又把它回歸到概率和統(tǒng)計(jì)學(xué)中。大數(shù)據(jù)造就了野蠻翻譯,甚至窮舉翻譯。我剛才講Google和百度的成功首先是搜索引擎的成功。在今年的計(jì)算機(jī)科學(xué)大會上,我會強(qiáng)調(diào)一個(gè)認(rèn)知,叫記憶認(rèn)知,而不是計(jì)算認(rèn)知。智能里面的記憶很重要,所以如果計(jì)算機(jī)速度很快,容量足夠大,我們也可以用數(shù)據(jù)來做成一個(gè)野蠻翻譯或者窮舉翻譯。這里面就要回答一個(gè)根本的哲學(xué)問題,是形而上,還是形而下?形而上謂之學(xué),形而下謂之器。器就是工具。是先有語言學(xué),還是先有語言?是先有語音學(xué),還是先有語音?科大訊飛超腦的成功,需要我們語言學(xué)家的反思,對語音重視了嗎?語音心理學(xué)里面有一個(gè)最大定律,就是在溝通的時(shí)候,語義只占7%,語調(diào)、肢體要占更多的比例。語調(diào)很重要,所以我們開論壇、看新聞和看PPT是不一樣的。
Google作為互聯(lián)網(wǎng)運(yùn)營商的成功主要是大數(shù)據(jù)搜索引擎、排序算法和在線群體智能的成功。在搜狗的統(tǒng)計(jì)排名中鍵入LDY,得到的結(jié)果肯定是李德毅而不是林黛玉,這是什么原因?滿足了小眾。所以大家討論大數(shù)據(jù)價(jià)值實(shí)現(xiàn),一定要把自己放進(jìn)去。大數(shù)據(jù)是網(wǎng)絡(luò)時(shí)代的一種客觀存在。大數(shù)據(jù)本身,既不是科學(xué)也不是技術(shù)。各行各業(yè)的大數(shù)據(jù),規(guī)模從TB到PB到EB到ZB,以3個(gè)數(shù)量級的階梯迅速增長,是使用傳統(tǒng)工具難以認(rèn)知、具有更大挑戰(zhàn)的數(shù)據(jù)。
Google各種語言之間的轉(zhuǎn)換服務(wù)每天超過10億次。我們看到微軟在網(wǎng)上有一個(gè)東西,一個(gè)西班牙的學(xué)者和一個(gè)美國的中學(xué)生,進(jìn)行2種語言的對話,對方說的是西班牙語,這邊聽到的是英語,但是是對方的語音。照相機(jī)尤其是Google眼鏡,可用7種語言對圖標(biāo)或者菜單進(jìn)行即刻的逼真翻譯。為什么可以做到這樣?因?yàn)閷υ捘J接?2種語言的翻譯機(jī)器人來回溝通。所以出去旅游到了哪個(gè)機(jī)場、哪個(gè)地鐵中心,不用擔(dān)心,就好像自己國家一樣。大數(shù)據(jù)造就了Google高度、準(zhǔn)確的自動實(shí)時(shí)翻譯。這就是大數(shù)據(jù)的力量。
按照維基百科的定義,大數(shù)據(jù)是常規(guī)軟件無法處理的。今年IEEE國際數(shù)據(jù)工程大會(ICDE)的最大亮點(diǎn)是將10年最佳論文授予2014年圖靈獎(jiǎng)獲得者M(jìn)icheal Sronebraker的論文“One size fits all”。該論文回答了大數(shù)據(jù)時(shí)代的一個(gè)基本問題:“是繼續(xù)構(gòu)建通用數(shù)據(jù)庫系統(tǒng),還是構(gòu)建特定負(fù)載面向特殊目標(biāo)的系統(tǒng)?”作者支持后者。這件事對我們這些把大數(shù)據(jù)看成資產(chǎn)的人有很大的教育意義。大數(shù)據(jù)標(biāo)志著一個(gè)新時(shí)代的到來。這個(gè)時(shí)代的特征不只是追求豐富的物質(zhì)資源,也不只是無所不在的互聯(lián)網(wǎng)帶來的方便的多樣化信息服務(wù),同時(shí)還包含區(qū)別于物質(zhì)的數(shù)據(jù)資源的價(jià)值發(fā)現(xiàn)和價(jià)值轉(zhuǎn)換,以及由大數(shù)據(jù)帶來的精神和文化方面的嶄新現(xiàn)象。
1.3 大數(shù)據(jù)認(rèn)知的突破口是聚類
“物以類聚,人以群分”,這是人類幾千年來認(rèn)識世界和社會的基本能力。依托云計(jì)算的大數(shù)據(jù)認(rèn)知的突破口,我個(gè)人認(rèn)為是聚類。聚類是認(rèn)知學(xué)科作為“學(xué)科的學(xué)科”要解決的首要問題。認(rèn)知科學(xué)要有所突破,首先要在大數(shù)據(jù)聚類上有所突破。當(dāng)今社會或宏觀或微觀的任何價(jià)值發(fā)現(xiàn)無不借助大數(shù)據(jù)分析的結(jié)果。因此,聚類成為發(fā)現(xiàn)大數(shù)據(jù)資產(chǎn)價(jià)值的第一步。搜索引擎和排序算法首先都要解決聚類問題。大數(shù)據(jù)聚類的挑戰(zhàn)性表現(xiàn)在并行計(jì)算、深度計(jì)算、抽樣技術(shù)、增量學(xué)習(xí)、近似計(jì)算、在線學(xué)習(xí)、跨模態(tài)融合、時(shí)序關(guān)聯(lián)等方面。大數(shù)據(jù)聚類表現(xiàn)形式是多層次、不確定和變粒度特性的。什么是粒度,就是用多大尺度來看待事情。
圖靈獎(jiǎng)獲得者說:“人類走過了幾千年的實(shí)驗(yàn)科學(xué),幾百年的理論科學(xué),幾十年的計(jì)算科學(xué)之后,迎來了數(shù)據(jù)密集型科學(xué)的新時(shí)代?!迸e一個(gè)保險(xiǎn)行業(yè)在大數(shù)據(jù)認(rèn)知方法學(xué)方面的例子。保險(xiǎn)公司對車險(xiǎn)客戶的傳統(tǒng)聚類分為4類:A:連續(xù)兩年沒有出車禍的;B:最近一年沒有出車禍的;C:過去一年出了1次車禍的;D:過去一年出了2次及以上車禍的。如果經(jīng)常出車禍,保險(xiǎn)費(fèi)就會高一些。但是隨著汽車成為雙駕雙控輪式機(jī)器人和成為大數(shù)據(jù)發(fā)生器以后,每一次駕駛、每一次維修、每一次行程,甚至每一次剎車都記錄在案。利用大數(shù)據(jù)聚類,保險(xiǎn)公司可對一個(gè)車況好、駕駛習(xí)慣好、常走線路事故率低、不勤開車的特定客戶給予更大優(yōu)惠,而對風(fēng)險(xiǎn)太高的客戶報(bào)高價(jià)甚至拒絕??傊軌蚪o出包括保險(xiǎn)費(fèi)支付方式在內(nèi)的個(gè)性化解決方案,這就顛覆了保險(xiǎn)公司的傳統(tǒng)商業(yè)模式。大數(shù)據(jù)聚類成為保險(xiǎn)公司的核心競爭力。
1.4 大數(shù)據(jù)認(rèn)知的方法學(xué)
再講講關(guān)系數(shù)據(jù)庫。人臉聚類的傳統(tǒng)方法是先結(jié)構(gòu)化,用幾何結(jié)構(gòu)的特征將人臉放入關(guān)系數(shù)據(jù)庫中。將雙眼間距、鼻梁高度等人臉特征變?yōu)閿?shù)據(jù)。這種方法存在的一個(gè)問題就是人臉屬于隱私,有時(shí)無法獲取。另外,到底需要多少個(gè)結(jié)構(gòu)特征才能完整表現(xiàn)人臉特征?結(jié)構(gòu)化人臉大數(shù)據(jù)聚類的局限性在于其本質(zhì)上僅是幾何結(jié)構(gòu)的聚類,形式化約束太強(qiáng),忽略了聚類的不確定性、聚類的多樣性、聚類過程中簡單的群體交互性、聚類樣本的可獲得性,缺少聚類結(jié)果的評價(jià)標(biāo)準(zhǔn)(群體認(rèn)知的共性),尤其是表情、年齡、膚色、基因、性別、婚姻等太多因素。所以,如果有企業(yè)能夠從一張全家福里面找出兒媳婦或者女婿來,我覺得這個(gè)產(chǎn)業(yè)就能賺錢。
在實(shí)驗(yàn)科學(xué)、理論科學(xué)和計(jì)算科學(xué)時(shí)代,任何學(xué)科的公理系統(tǒng),即形式化理論,更多地依靠學(xué)科奠基人的天才歸納而成,并取得共識。學(xué)科重點(diǎn)在解釋,形成邏輯推論,即公理系統(tǒng)的定理和推論,可以認(rèn)為是“大定律、大模型、小數(shù)據(jù)”時(shí)代,數(shù)據(jù)圍繞模型和程序轉(zhuǎn)。真正的發(fā)明在程序。
大數(shù)據(jù)認(rèn)知對形式化方法提出了挑戰(zhàn)。公理、模型、程序要圍繞著數(shù)據(jù)轉(zhuǎn),形成數(shù)據(jù)定義的系統(tǒng)。大數(shù)據(jù)時(shí)代一切靠數(shù)據(jù)說話,數(shù)據(jù)可能是“學(xué)科”的原生態(tài)的碎片化,數(shù)據(jù)價(jià)值就是從數(shù)據(jù)中期待被發(fā)現(xiàn)的“學(xué)科”。任何學(xué)科的形式化理論要更多地依賴大數(shù)據(jù),服從大數(shù)據(jù),數(shù)據(jù)中隱含的真理性會創(chuàng)造出新學(xué)科,這樣一些學(xué)科往往是交叉學(xué)科。大數(shù)據(jù)時(shí)代是小模型、小定律、交叉學(xué)科的時(shí)代,要樹立程序和模型圍繞數(shù)據(jù)轉(zhuǎn)的思想。通常一個(gè)好的模型或者算法是基于小數(shù)據(jù)樣本,例如計(jì)算復(fù)雜度是數(shù)據(jù)規(guī)模N的二次或者三次方,計(jì)算能力是沒有問題的。但是在大數(shù)據(jù)樣本學(xué)習(xí)中,需要的計(jì)算資源就要相差千萬倍甚至更多,那個(gè)曾經(jīng)好的算法只能到此為止了。
實(shí)踐中的研究可能勝過研究中的實(shí)踐。要更多關(guān)注有意義的小眾(精確定位客戶群),眾多的小眾構(gòu)成大眾。通過大數(shù)據(jù)聚類即時(shí)發(fā)現(xiàn)價(jià)值,充分認(rèn)識大數(shù)據(jù)中的不確定性和價(jià)值隱蔽性,跨界構(gòu)建基于統(tǒng)計(jì)的可變視角和可變尺度的全新發(fā)現(xiàn)狀態(tài)空間,用大數(shù)據(jù)的規(guī)模來彌補(bǔ)單個(gè)數(shù)據(jù)的誤差,保證發(fā)現(xiàn)價(jià)值的精準(zhǔn)性。
云計(jì)算已經(jīng)被全世界所重視,國務(wù)院專門下發(fā)云計(jì)算信息產(chǎn)業(yè)指導(dǎo)意見,最近又下發(fā)了“互聯(lián)網(wǎng)+”行動的指導(dǎo)意見。云計(jì)算帶來了什么?智能手機(jī)用人工智能的觀點(diǎn)來看就是一個(gè)機(jī)器人,一個(gè)智能代理。對于機(jī)器人與人,當(dāng)前更應(yīng)該關(guān)注研發(fā)神似形不似的云機(jī)器人。云機(jī)器人依托云計(jì)算優(yōu)勢,重在認(rèn)知,體現(xiàn)在端設(shè)備上是感知和行動。先研發(fā)語言和圖像豐富、認(rèn)知復(fù)雜、動作相對簡單的特定領(lǐng)域的云機(jī)器人比較好。如導(dǎo)航機(jī)器人,其智商和情商容易取得小眾的共識。因此,研發(fā)云機(jī)器人成為大數(shù)據(jù)認(rèn)知的又一個(gè)突破口。
云計(jì)算和大數(shù)據(jù)催生了云機(jī)器人。語言、文本、歌曲、劇本等都可以通過一個(gè)虛擬機(jī)器人來產(chǎn)生形象、情感、動作、語音、語調(diào)、風(fēng)格等。例如,高德的導(dǎo)航機(jī)器人做了郭德綱版和林志玲版。
在云計(jì)算方面當(dāng)前的一個(gè)熱點(diǎn)是深度學(xué)習(xí)。深度學(xué)習(xí)以卷積神經(jīng)網(wǎng)絡(luò)為代表,相比最早的淺學(xué)習(xí),它是在更高階上提取精細(xì)特征參數(shù)。深度學(xué)習(xí)是一套靈活、復(fù)雜而又簡單的形式化模型框架,依靠不同且更深度的神經(jīng)網(wǎng)絡(luò)中的大量參數(shù)的確定去處理不同的問題,參數(shù)量可高達(dá)十幾億個(gè),參數(shù)的精度依靠大數(shù)據(jù)量訓(xùn)練得以保證,適合端到端學(xué)習(xí)。在云計(jì)算數(shù)據(jù)中心,采用成千上萬臺“CPU+GPU”服務(wù)器架構(gòu)做混合的大規(guī)模數(shù)據(jù)的并行訓(xùn)練,可確定幾十億個(gè)參數(shù)的人工神經(jīng)網(wǎng)絡(luò)模型,將其用于語音識別、人臉識別等已經(jīng)獲得明顯成效。
深度學(xué)習(xí)吸收了云計(jì)算和大數(shù)據(jù)的紅利?;ヂ?lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)和大數(shù)據(jù)可以有力支撐云機(jī)器人如何說、如何看、如何想,而解決機(jī)器人如何動作的“智能制造2025”迎來了我國機(jī)器人的春天。
我希望嘗試這種機(jī)器人。將北京市路口簡單的攝像頭定位成路口機(jī)器人交警,根據(jù)限號情況,壓線就扣分、罰款。企業(yè)界的朋友們,為什么不做這件事呢?將導(dǎo)航機(jī)器人加入數(shù)據(jù),變成導(dǎo)游機(jī)器人。我們做的雙駕雙功能輪式機(jī)器人在醉酒時(shí)是代駕機(jī)器人;若不會開車,就變成教練機(jī)器人。未來我們希望做交通事故仲裁機(jī)器人交警和特種車輛服務(wù)機(jī)器人。當(dāng)人們移動生活品質(zhì)提高后,可以在車上做高考輔導(dǎo)聊天機(jī)器人,喜歡詩人的話在車上安裝機(jī)器詩人汪國真,喜歡鄧麗君的歌聲,那我們就編個(gè)機(jī)器歌手鄧麗君。也可以做手語交互機(jī)器人,以及和癡呆病患者聊天的機(jī)器人。大數(shù)據(jù)是原生態(tài)、腳踏實(shí)地的。語言大數(shù)據(jù)的價(jià)值發(fā)現(xiàn),不是要找到更好的形式化方法來反映語言的豐富和高雅,而是利用語言數(shù)據(jù)明確特定的情景,消除混亂的輸出。
上面講的是大數(shù)據(jù)價(jià)值發(fā)現(xiàn)的實(shí)現(xiàn)之路,下面講講我自己做過的東西,研發(fā)機(jī)器駕駛腦(大數(shù)據(jù)認(rèn)知的實(shí)踐)。
當(dāng)前人工智能不是要人工造出一個(gè)生物意義的人腦?,F(xiàn)在大家對神經(jīng)網(wǎng)絡(luò)很感興趣,但是卷積神經(jīng)網(wǎng)和生物神經(jīng)網(wǎng)完全是兩個(gè)概念。我們現(xiàn)在最迫切的是要利用大數(shù)據(jù)的認(rèn)知做一個(gè)特別明確的智能,好比聊天機(jī)器人。輪式機(jī)器人要顛覆的不是汽車,而是汽車的人工孤立駕駛,提高移動生活品質(zhì)。我們研發(fā)了一個(gè)不帶情緒的機(jī)器人。最近Google宣布其研制了相當(dāng)于人類75年駕齡的機(jī)器人。75年駕齡的水平是什么,尚未清楚。腦認(rèn)知如何度量,仍然尚未清楚。狼孩在狼群里長大,無法具有人的心理,錯(cuò)過了大腦學(xué)習(xí)語言和文字的最佳生長發(fā)育期,例如一些弱智兒童,就是大腦在成長期受到了一些傷害。我個(gè)人認(rèn)為,包括駕駛在內(nèi)的所有技巧、技能都是后天學(xué)習(xí)的,語言、指示、文明、傳承等都是后天學(xué)習(xí)的。因此,要研究腦認(rèn)知的后天屬性,就要建立人腦認(rèn)知的成長機(jī)制,從認(rèn)知能力水平上理解大腦的工作機(jī)理,研發(fā)和人腦特定認(rèn)知能力相當(dāng)?shù)臋C(jī)器腦,例如機(jī)器駕駛腦。
腦認(rèn)知的外在表現(xiàn)是如何說和如何看,即語言認(rèn)知和圖像認(rèn)知。腦認(rèn)知的內(nèi)涵包括3個(gè)方面:計(jì)算認(rèn)知、記憶認(rèn)知和交互認(rèn)知,因此要把人腦的計(jì)算認(rèn)知、記憶認(rèn)知和交互認(rèn)知放在一個(gè)板卡上。開車造成事故的最大原因是注意力不集中,情緒是根本,于是我們開始研究腦認(rèn)知的本質(zhì)。我個(gè)人認(rèn)為腦認(rèn)知的本質(zhì)是概率認(rèn)知、統(tǒng)計(jì)認(rèn)知。腦對客觀世界的認(rèn)知往往需要多次反復(fù),在“反復(fù)感知-認(rèn)知-行動”的過程中形成相對穩(wěn)定的認(rèn)知,形成不確定性中的基本確定性。腦認(rèn)知的核心是記憶認(rèn)知。是記憶能力重要還是計(jì)算能力重要?按照大數(shù)據(jù)的觀點(diǎn),我個(gè)人認(rèn)為記憶能力更重要。
概念的形成過程、判斷的形成過程、推理的形成過程就是思維的過程,是對多感知信息的覺悟,即認(rèn)知計(jì)算(也稱計(jì)算認(rèn)知)。腦認(rèn)知也是計(jì)算認(rèn)知。在人腦算法中,只有一種算法:相似度計(jì)算。腦認(rèn)知的一個(gè)重要特點(diǎn)是腦的不同區(qū)域、不同力度的認(rèn)知可以往返跳躍,并行處理。大腦皮質(zhì)中形成的先驗(yàn)知識(粗粒度)和海馬體中當(dāng)前學(xué)習(xí)和思維的問題(中粒度),以及視覺神經(jīng)中殘留的感覺和觀察(細(xì)粒度)可同時(shí)發(fā)生交互和關(guān)聯(lián),反映為在不同尺度空間的靈活轉(zhuǎn)換。所以豐富的感覺記憶、較豐富的工作記憶大腦皮質(zhì)中的長期記憶又進(jìn)一步被簡約了。感覺記憶、工作記憶和長期記憶隨著一次次認(rèn)知而演化。也許在腦區(qū)里沒有明確的分界面,只是我們理解腦認(rèn)知功能的人為劃分而已,只是我們要形式化腦功能以便于機(jī)器實(shí)現(xiàn)而已。
我們用1個(gè)或者幾個(gè)CPU和GPU,再加上FPGA,再加上幾個(gè)ASIC芯片,能不能做一個(gè)板卡插入汽車中,變成一個(gè)機(jī)器腦。既要表現(xiàn)學(xué)習(xí)能力,又要表現(xiàn)思維能力;既要表現(xiàn)模仿類比,又要表現(xiàn)歸納演繹;既有技能,又有知識。我們的板卡就要做到這3條。我們把雷達(dá)(激光雷達(dá)、紅外雷達(dá)、超聲雷達(dá)、毫米波雷達(dá)),攝像頭(感知周邊環(huán)境,七八個(gè),包括看前景和看車道線、交通指示板等),再加上GPS、地圖,形成一個(gè)以駕駛員認(rèn)知為核心的駕駛態(tài)勢。在腦認(rèn)知中有很多記憶,比如哪個(gè)路段是事故多發(fā)路段,哪個(gè)路段容易下雨,把它拿來作交換,形成一個(gè)駕駛態(tài)勢認(rèn)知。我認(rèn)為駕駛的認(rèn)知比較簡單,駕駛的技能十分重要,所以著力點(diǎn)是要把車子改造好,保證車子動力學(xué)特性。這就是我們駕駛腦感知、認(rèn)知和行為的綜合。
2015年4月20日進(jìn)行了無人駕駛汽車演示,2015年5月課題組在鄭州進(jìn)行了無人駕駛客車演示。目前我們正在進(jìn)行的智能車6類試驗(yàn)和評估:包括智能車電磁頻譜兼容性評估、智能車架構(gòu)開放性評估、模塊的獨(dú)立性評估、駕駛智能魯棒性評估、人機(jī)交互友好性評估和智能車自主學(xué)習(xí)能力評估。
研究告訴我們多做實(shí)踐中的研究,這就是大數(shù)據(jù)時(shí)代的狀況??茖W(xué)在大數(shù)據(jù)時(shí)代怎么做?我今天用我的認(rèn)知講了幾個(gè)基本問題:基于數(shù)據(jù)的算法(程序要圍著數(shù)據(jù)轉(zhuǎn))、基于數(shù)據(jù)的聚類、基于數(shù)據(jù)的搜索引擎、基于數(shù)據(jù)的工程(數(shù)據(jù)定義的工程或者網(wǎng)絡(luò))、基于數(shù)據(jù)的趨勢。這些都是對我們新的啟示。
謝謝大家!
本文根據(jù)“2015大數(shù)據(jù)價(jià)值實(shí)現(xiàn)之路高峰論壇”上李德毅院士主題報(bào)告錄音整理。
[1] Newton I.自然哲學(xué)之?dāng)?shù)學(xué)原理[M].王克迪,譯.武漢:武漢出版社,1992.
[2] Handy C.Beyond Certainty: The Changing World of Organization[M].Pennsylvania: Harvard Business School Publishing,1998.
[3] 王梓坤.概率論基礎(chǔ)及其應(yīng)用[M].北京:北京師范大學(xué)出版社,1995.
[4] 李洪興,汪培莊.模糊數(shù)學(xué)[M].北京:國防工業(yè)出版社,1994.
[5] Pawlak Z.Rough sets[J].Int’l Journal of Computer and Information Sciences,1982,11(5):341-356.
[6] Gau W L,Buehrer D J.Vague sets[J].IEEE Trans.on Systems,Man and Cybernetics,1993,23(2):610-614.
[7] 李德毅,孟海軍,史雪梅.隸屬云和隸屬云發(fā)生器[J].計(jì)算機(jī)研究和發(fā)展,1995,32(6):16-21.
[8] 李德毅.知識表示中的不確定性[J].中國工程科學(xué),2000,2(10):73-79.
[9] 邱菀華.管理決策與應(yīng)用熵學(xué)[M].北京:機(jī)械工業(yè)出版社,2002.
[10]李德毅,劉常昱.論正態(tài)云模型的普適性[J].中國工程科學(xué),2004,6(8):28-34.
[11]Ruelle D.機(jī)遇與混沌[M].劉式達(dá),梁爽,李滇林,譯.上海:上??萍冀逃霭嫔?2001.
[12]苗東升,劉華杰.混沌學(xué)縱橫論[M].北京:中國人民大學(xué)出版社,1993.
[13]王梓坤.論混沌與隨機(jī)[J].北京師范大學(xué)學(xué)報(bào),1994,30(2):199-202.
[14]王興元.復(fù)雜非線性系統(tǒng)中的混沌[M].北京:電子工業(yè)出版社,2003.
[15]孫霞,吳自勤.分形原理及其應(yīng)用[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2003.
[16] Wang X F,Chen G R.Complex networks: Small-World,scale-free and beyond[J].IEEE Circuits and Systems Magazine,2003,3(1):6-20.
[17]陸汝鈐.世紀(jì)之交的知識工程與知識科學(xué)[M].北京:清華大學(xué)出版社,2001.
[18]Crick F.驚人的假說[M].汪云九,齊翔林,吳新年,等,譯.長沙:湖南科學(xué)技術(shù)出版社,2003.
[19]王甦,汪安圣.認(rèn)知心理學(xué)[M].北京:北京大學(xué)出版社,2003.
[20]李德毅,淦文燕,劉璐瑩.中國人工智能進(jìn)展[M].北京:北京郵電大學(xué)出版社,2003:6-14.
[21] Zipf G K.Psycho-Biology of Languages[M].Cambridge: MIT Press,1965.
[22] Ford K,Hayes P.On computational wings: Rethinking the goals of artificial intelligence[J].Scientific American Presents,1998,9(4):78-83.
[23] Hearst M,Hirsh H.AI’s greatest trends and controversies[J].IEEE Intelligent Systems,2000,15(1):8-17.
(責(zé)任編輯 楊黎麗)
Big Data Cognition: Keynote Lecture of “2015 Forum of Big Data Value Realization Road”
LI De-yi
(Chines Association for Artificial Intelligence, Beijing 100876, China)
This paper deeply elaborated the big data cognitive methodology with simple explanation with the introduction of poetry writing, language translation, the voice recognition, insurance, face recognition and so on. Big data symbolizes the coming of new era of data-intensive science and the big data age is the era of little model, little’s law and interdisciplinary. The breakthrough of big data cognitive lies in the cluster. Using the shape and depth of cloud and end to study is advocated and the research manufacturing of cloud robots which may like in spirit but do not like in form are advocated. He introduced the driving service cloud robots and robot language, and promoted development of brain machine driving, and demonstrated the research achievements of unmanned buses and the ongoing six class testing and assessment of the smart car of his team and advocated researchers to do more in practice, and less research in practice.
big data; cluster; brain cognition; cloud robotics
2015-07-22 作者簡介:李德毅(1944—),男,江蘇泰縣人,中國工程院院士,歐亞科學(xué)院院士,中國人工智能學(xué)會理事長,主要從事計(jì)算機(jī)工程、復(fù)雜網(wǎng)絡(luò)和智能駕駛等方面的研究。
李德毅.大數(shù)據(jù)認(rèn)知 ——“2015大數(shù)據(jù)價(jià)值實(shí)現(xiàn)之路高峰論壇”主題報(bào)告[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版,2015(9):1-6.
format: LI De-yi.Big Data Cognition: Keynote Lecture of “2015 Forum of Big Data Value Realization Road”[J].Journal of Chongqing University of Technology:Natural Science,2015(9):1-6.
10.3969/j.issn.1674-8425(z).2015.09.001
TP18
B
1674-8425(2015)09-0001-06