李國杰
我們現(xiàn)在到底處于一個(gè)什么樣的時(shí)代?社會(huì)上都說中國的信息時(shí)代已經(jīng)過去了,經(jīng)過物聯(lián)網(wǎng)的時(shí)代,現(xiàn)在已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,那么,現(xiàn)在到底是一個(gè)什么樣的時(shí)代呢?從人類社會(huì)發(fā)展的長周期來看,應(yīng)該說人類有文明以來分為三個(gè)時(shí)代:農(nóng)業(yè)時(shí)代、工業(yè)時(shí)代和信息時(shí)代,前面原始人類世界的時(shí)期都沒有算。信息時(shí)代實(shí)際是從二戰(zhàn)以后開始,現(xiàn)在算起來也就半個(gè)多個(gè)世紀(jì),與工業(yè)時(shí)代相比,信息時(shí)代可能正處在從蒸汽機(jī)時(shí)代階段向電器時(shí)代階段的轉(zhuǎn)變期。
大數(shù)據(jù)與人工智能是信息時(shí)代的一個(gè)新階段。我們過去講信息化、網(wǎng)絡(luò)化,現(xiàn)在是智能化,好像之前那些都不重要了。其實(shí)我覺得與其強(qiáng)調(diào)智能化和數(shù)字化、網(wǎng)絡(luò)化的區(qū)隔,不如多強(qiáng)調(diào)智能化和信息化的密切聯(lián)系,數(shù)字化和網(wǎng)絡(luò)化如果沒有做好,智能化就不好做。
新技術(shù)的發(fā)展在于和已知技術(shù)的融合
之前,我參考過去國外信息傳播的概念,發(fā)現(xiàn)經(jīng)濟(jì)發(fā)展呈現(xiàn)長波的趨勢(shì),一個(gè)長波大概是20年,并且有縮短的趨勢(shì)。
伴隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的變革,到2008年金融危機(jī),經(jīng)濟(jì)發(fā)展應(yīng)該是到了高峰,并且呈現(xiàn)出往下走的趨勢(shì),所以現(xiàn)在是什么時(shí)候呢?現(xiàn)在經(jīng)濟(jì)增長速度大概是3%~4%,是經(jīng)濟(jì)的衰退期,我們現(xiàn)在講如火如荼,但是總體來講是一個(gè)衰退期,是一個(gè)低潮。
歷史上經(jīng)濟(jì)的衰退期正好是重大的發(fā)明期,再結(jié)合2012年的發(fā)展,西方已經(jīng)加快下一波的發(fā)展,大概是這么一個(gè)總趨勢(shì)。但是不管怎么變,前面還都是屬于信息時(shí)代。
從這個(gè)時(shí)代我們得出一個(gè)結(jié)論:未來10到15年對(duì)經(jīng)濟(jì)貢獻(xiàn)最大的可能不是大數(shù)據(jù)和人工智能的新技術(shù),而是信息技術(shù)融入各個(gè)產(chǎn)業(yè)的新產(chǎn)品、提供個(gè)性化產(chǎn)品和服務(wù)的新業(yè)態(tài)、產(chǎn)業(yè)鏈跨界融合的新模式。這些創(chuàng)新主要是已知技術(shù)的新組合,這些創(chuàng)新大多數(shù)是已知技術(shù)新的融合。
與此同時(shí),在經(jīng)濟(jì)的衰退復(fù)蘇期要特別重視基礎(chǔ)性技術(shù)的發(fā)明。未來10到15年應(yīng)力爭(zhēng)在大數(shù)據(jù)和人工智能領(lǐng)域做出像電子計(jì)算機(jī)、集成電路、互聯(lián)網(wǎng)一樣的重大發(fā)明?,F(xiàn)在各種各樣的學(xué)習(xí)都談不上重大的發(fā)明,這些是小的發(fā)明,是它自己冒出來的,我們希望未來有重大發(fā)明出來。
然而,歷史上重大技術(shù)發(fā)明都經(jīng)過較長時(shí)間的技術(shù)改進(jìn)和擴(kuò)散之后才能產(chǎn)生巨大經(jīng)濟(jì)效益,信息技術(shù)也不應(yīng)例外。從2016年到2025年的10年內(nèi),汽車、消費(fèi)品、電力、物流等行業(yè)的數(shù)字化轉(zhuǎn)型有望帶來100億美元的社會(huì)與企業(yè)價(jià)值。大數(shù)據(jù)和人工智能提升傳統(tǒng)產(chǎn)業(yè)的前景十分光明。
人工智能是一個(gè)新的學(xué)科,涉及腦科學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)和社會(huì)科學(xué),等等。但是到目前為止腦科學(xué)對(duì)人工智能的貢獻(xiàn)還很小,現(xiàn)在所謂的機(jī)器學(xué)習(xí),談不上神經(jīng)科學(xué)。不過,統(tǒng)計(jì)學(xué)對(duì)人工智能卻有很大的影響,但是沒有人說把人工智能當(dāng)成統(tǒng)計(jì)學(xué)的一個(gè)分支。從目前來看,人工智能本質(zhì)上是計(jì)算機(jī)的一個(gè)分支,從應(yīng)用來看,人工智能元年是計(jì)算機(jī)技術(shù)的非平凡的一年。
所謂的智能化前提就是計(jì)算機(jī)化,目前不存在脫離計(jì)算機(jī)的優(yōu)勢(shì)。我們應(yīng)該強(qiáng)調(diào)學(xué)科的融合,從老的學(xué)科分離出新學(xué)科是很常見的,計(jì)算機(jī)應(yīng)該積極支持新學(xué)科的成長,但是大數(shù)據(jù)和人工智能技術(shù)最應(yīng)該注重融合,錢學(xué)森說過“必集大車,才能得智慧”。人工智能的權(quán)威專家也說過,人工智能的任務(wù)是在研究還沒有解決的計(jì)算機(jī)問題。從這個(gè)意義上來講,所謂智能時(shí)代不是后信息時(shí)代,大數(shù)據(jù)更不是。
重視大數(shù)據(jù)和人工智能基礎(chǔ)理論建設(shè)
有一種看法是人工智能等于A+B+C,A就是算法,B就是大數(shù)據(jù),C就是算力。我的看法是把大數(shù)據(jù)和AI結(jié)合在一起看,大數(shù)據(jù)肯定是A+B+C+D+E,A還是算法,B是基本理論或者基礎(chǔ)設(shè)施,C是計(jì)算能力,D是領(lǐng)域知識(shí),E是生態(tài)環(huán)境。
大數(shù)據(jù)和人工智能要特別重視大眾的剛性需求。今后的幾十年,信息技術(shù)發(fā)展方向是為大眾服務(wù),為多數(shù)人服務(wù)。我們經(jīng)常講我們小時(shí)候處于水深火熱當(dāng)中,現(xiàn)在人工智能和大數(shù)據(jù)需要關(guān)心大眾剛性的需求,包括健康、出行、安全這些都是剛性需求。我們要多做一些真正的解決問題的探索,這樣才有一定作用。
另外,要滿足大數(shù)據(jù)的剛性需求一定要有基礎(chǔ)設(shè)施,工業(yè)時(shí)代就是鐵路、公路、機(jī)場(chǎng),智能化階段的基礎(chǔ)設(shè)施是:大數(shù)據(jù)中心、機(jī)器學(xué)習(xí)訓(xùn)練平臺(tái)等。大數(shù)據(jù)的存儲(chǔ)、管理和分析成為新的基礎(chǔ)設(shè)施,所以大數(shù)據(jù)也催生了Scolable AI也成為基礎(chǔ)設(shè)施。
我們中國人是很重視“名”的,信息領(lǐng)域不斷地創(chuàng)造新名詞,但是一般新的名詞或者一個(gè)新的學(xué)科一旦上升為國家意志以后,原來的技術(shù)學(xué)科就被邊緣化了。
在2016年國家自然科學(xué)基金計(jì)算機(jī)學(xué)科的4863項(xiàng)申請(qǐng)項(xiàng)目中,計(jì)算機(jī)科學(xué)的基礎(chǔ)理論只有16項(xiàng),計(jì)算機(jī)體系結(jié)構(gòu)22項(xiàng),程序設(shè)計(jì)語言及支撐環(huán)境13項(xiàng),高速數(shù)據(jù)傳輸技術(shù)2項(xiàng)。但是,計(jì)算機(jī)圖像與視頻處理有439項(xiàng),模式識(shí)別理論及應(yīng)用357項(xiàng),人工智能應(yīng)用258項(xiàng)。所以構(gòu)建大數(shù)據(jù)和AI基礎(chǔ)設(shè)施離不開“系統(tǒng)結(jié)構(gòu)”和“基礎(chǔ)軟件”。
國務(wù)院已經(jīng)公布了《新一代人工智能發(fā)展規(guī)劃》,規(guī)劃里面分析更多的是應(yīng)用為主的開發(fā),涉及到人工智能基本理論的比較少。然而,在未來更應(yīng)該高度重視這些基礎(chǔ)數(shù)據(jù),數(shù)據(jù)和科學(xué)。什么叫數(shù)據(jù)科學(xué)?數(shù)據(jù)科學(xué)是用數(shù)據(jù)的辦法來研究科學(xué)和用科學(xué)的辦法來研究數(shù)據(jù),這個(gè)叫做數(shù)據(jù)科學(xué)。前面像什么經(jīng)濟(jì)學(xué)、天文學(xué),后面講的就是統(tǒng)計(jì)學(xué)習(xí)。這種事情要搞起來一定要數(shù)學(xué)家、計(jì)算機(jī)科學(xué)家和各個(gè)領(lǐng)域的深度合作。
深度學(xué)習(xí)為什么這么有效?沒有人解釋為什么,最近以色列希伯來大學(xué)有一個(gè)學(xué)者提出一個(gè)理論叫“信息瓶頸”,他發(fā)現(xiàn)深度學(xué)習(xí)與“物理重整化是完全相同的過程,提出“學(xué)習(xí)最重要的部分是忘記”。我們應(yīng)重視這一類的基礎(chǔ)研究。
未來5年內(nèi),需要新增巨大數(shù)量的AI研發(fā)工程師,現(xiàn)在需要碩士博士研發(fā)的AI技術(shù),10年后將會(huì)成為高中生的課外作業(yè)。
人類大數(shù)據(jù)學(xué)習(xí)體現(xiàn)在基因“進(jìn)化”
現(xiàn)在,很多人習(xí)慣將人與機(jī)器學(xué)習(xí)去對(duì)比,其實(shí)這個(gè)是錯(cuò)誤的。人出生時(shí)的大腦已經(jīng)是經(jīng)過大數(shù)據(jù)學(xué)習(xí)完的,是幾百萬年進(jìn)化過來的,幾百萬年經(jīng)過非常多的大數(shù)據(jù)形成,所以體現(xiàn)在大腦的結(jié)構(gòu)上面。
出生以后人類個(gè)體的發(fā)育已經(jīng)不是大數(shù)據(jù)了,他形成一些小數(shù)據(jù)來修改大腦,出生的時(shí)候大腦連接非常多,以后不是增加連接,是越學(xué)越少,慢慢做減法的過程,所以它不是人腦學(xué)習(xí)的過程。
人類大數(shù)據(jù)學(xué)習(xí)體現(xiàn)在基因“進(jìn)化”上,當(dāng)代人的學(xué)習(xí)過程對(duì)計(jì)算機(jī)的大數(shù)據(jù)學(xué)習(xí)并沒有多大啟發(fā)。要從動(dòng)物和人類的進(jìn)化中獲取大數(shù)據(jù)學(xué)習(xí)的“經(jīng)驗(yàn)”。人腦是進(jìn)化出來的,不是科學(xué)出來的,要理解大腦必須理解進(jìn)化。
同時(shí),領(lǐng)域知識(shí)絕不可忽視,基于大數(shù)據(jù)的研究第四范式成為熱門以后,“數(shù)據(jù)就是力量”大有取代“知識(shí)就是力量”之勢(shì)。但許多教訓(xùn)提醒我們:領(lǐng)域知識(shí)決不可忽視。
離散的數(shù)據(jù)背后可能是一個(gè)連續(xù)的模型,這個(gè)連續(xù)的模型需要深入掌握領(lǐng)域知識(shí)才能獲得。進(jìn)化計(jì)算實(shí)質(zhì)上是自適應(yīng)的機(jī)器學(xué)習(xí)方法,它的核心思想是利用進(jìn)化歷史中獲得的信息和知識(shí)指導(dǎo)搜索或計(jì)算,這些知識(shí)需要從領(lǐng)域?qū)<耀@得。endprint