孫哲南,張兆翔,王威,劉菲,譚鐵牛
1.中國科學院自動化研究所,智能感知與計算研究中心,北京 100190 2.中國科學院大學,人工智能學院,北京 100049 3.中國科學院腦科學與智能技術(shù)卓越創(chuàng)新中心,北京 100190
當今人工智能的總體態(tài)勢可以用“成熟+新芽”兩個看似矛盾的關(guān)鍵詞來概括和總結(jié)。一方面一大批基于深度學習的AI應用成功落地智慧城市、金融科技、智能醫(yī)療、智能手機等領(lǐng)域,“人工智能+”創(chuàng)新模式實現(xiàn)了大幅增長的產(chǎn)業(yè)規(guī)模,人工智能的熱潮方興未艾;另一方面2019世界人工智能大會上Gartner牽頭發(fā)布的2019世界人工智能技術(shù)趨勢分析報告暨人工智能技術(shù)成熟度曲線表明[1],相比2018年,2019年越來越多的人工智能技術(shù)處在創(chuàng)新觸發(fā)階段,反映出全球人工智能正不斷涌現(xiàn)新創(chuàng)意,例如增強學習、人工智能云服務、邊緣人工智能、可解釋的人工智能等,《自然》雜志(Nature)和《科學》雜志(Science)等高水平學術(shù)刊物今年在人工智能領(lǐng)域發(fā)表了一批令人耳目一新的“新芽”成果。
人工智能的概念從1956年提出至今,在探尋智能本質(zhì)和發(fā)展智能機器道路上歷經(jīng)坎坷和曲折,終于在花甲之年憑借深度神經(jīng)網(wǎng)絡在計算機視覺、語音識別、自然語言理解、人機博弈對抗等領(lǐng)域的成功應用迎來了技術(shù)紅利期,因此可以用“瓜熟蒂落、水到渠成”來概括人工智能現(xiàn)階段的秋收喜悅,具體體現(xiàn)在以下幾方面。
2019年曠視、云從、依圖、云知聲等人工智能獨角獸企業(yè)都有報道計劃在港交所、科創(chuàng)板等平臺上市,從招股書看一些頭部企業(yè)的年度營收額超過了10億級規(guī)模并基本實現(xiàn)最新年度的盈虧平衡甚至開始盈利,標志著人工智能首次邁入“有利可圖”的紅利發(fā)展期。
據(jù)統(tǒng)計從2018年至2019年5月,共有573家機構(gòu)參與人工智能領(lǐng)域的投資,相比2018年的投資高峰期,2019年的人工智能投資更趨理性,投資頻次和投資額度顯著降低,并且投資向頭部企業(yè)進一步聚集,這也是人工智能行業(yè)日趨成熟的標志。例如,商湯科技成為吸金能力最強的人工智能獨角獸企業(yè),2019年9月宣布完成30億美元融資,總估值超70億美元。
2019年華為發(fā)布了具有“5G+人工智能”等特色功能的麒麟990芯片,幾乎人手一部的智能手機成為老百姓體驗人工智能的最佳渠道,充分享受刷臉解鎖、攝像頭心率感知、物體識別、計算攝影、三維場景測量、虛擬現(xiàn)實、增強現(xiàn)實等黑科技給工作和生活帶來的便捷與安全。2019年華為算力最強AI芯片昇騰910商用,將為深度神經(jīng)網(wǎng)絡的高效計算和智能化應用提供技術(shù)支撐。隨著人工智能在人們?nèi)粘I畹膹V泛應用,不斷產(chǎn)生熱點話題,例如“ZAO”換臉演戲。
人工智能在60多年發(fā)展歷程中多次經(jīng)歷高潮后的低谷,但是這次高峰期真的是“狼來了”,政府、產(chǎn)業(yè)和學術(shù)界都高度共識人工智能將會引領(lǐng)第四次產(chǎn)業(yè)革命。最近三年世界主要國家密集出臺激勵人工智能科技和產(chǎn)業(yè)發(fā)展的國家戰(zhàn)略,2019年歐美日韓等發(fā)達國家和經(jīng)濟體進一步確認和完善人工智能發(fā)展規(guī)劃并出臺了一系列加速舉措[2]:
(1)2019年美國進一步加碼人工智能技術(shù)。總統(tǒng)特朗普在2019年的國情咨文演講中強調(diào)了投資未來前沿產(chǎn)業(yè)的重要性。2月11日,美國國家科技政策辦公室發(fā)布了由特朗普簽署的《美國人工智能倡議》(American AI Initiative),同步發(fā)布的還有《加速美國在人工智能領(lǐng)域的領(lǐng)導地位》(Accelerating America's Leadership in Artificial Intelligence)等文件,美國將從資金投入、資源開放、標準制定、國際合作、人員培訓等方面加強人工智能頂層設(shè)計,確保美國在人工智能和相關(guān)領(lǐng)域的領(lǐng)先地位。2019年6月,美國特朗普政府發(fā)布了《人工智能國家戰(zhàn)略:2019年更新版》(The National Artificial Intelligence Research and Development Strategic Plan:2019 Update),其初版是在2016年由奧巴馬政府發(fā)布,此版不僅對七個重點領(lǐng)域全面更新,并增加了第八項戰(zhàn)略——擴大公私合作,加速人工智能的發(fā)展。從本次更新報告可以看出,美國政府對人工智能的重視程度和理解程度都有很大提升,人工智能重要的戰(zhàn)略價值將在美國國家層面與社會層面凸顯。
(2)2019年歐盟各國協(xié)同推進人工智能,同時強調(diào)技術(shù)研發(fā)和道德倫理規(guī)范。2月18日,歐盟理事會通過了《歐洲人工智能協(xié)調(diào)計劃》(European Coordinated Plan on Artificial Intelligence),促進歐盟成員國在增加投資、數(shù)據(jù)供給、人才培養(yǎng)和確保信任等四個關(guān)鍵領(lǐng)域合作,使歐洲成為全球人工智能開發(fā)部署、倫理道德等領(lǐng)域的領(lǐng)導者。4 月歐盟委員會發(fā)布人工智能倫理準則,給出了“可信賴人工智能”的組成部分和關(guān)鍵條件,希望提升人們對人工智能技術(shù)產(chǎn)品的信任。2019年歐盟提出的“數(shù)字歐洲計劃”(Digital Europe Programme),其中25億歐元用于人工智能。
(3)2019年1月,韓國科學技術(shù)信息通信部發(fā)布了《數(shù)據(jù)與人工智能經(jīng)濟激活計劃(2019—2023年)》報告,促進數(shù)據(jù)與人工智能的深度融合。2019年8月,日本政府的2020年度預算增加經(jīng)費支持人工智能與機器人產(chǎn)業(yè)的發(fā)展。
(4)2019年我國黨和政府對人工智能高度重視,5月習近平總書記寫給國際人工智能與教育大會的賀信中指出,人工智能是引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力,正深刻改變著人們的生產(chǎn)、生活、學習方式,推動人類社會迎來人機協(xié)同、跨界融合、共創(chuàng)分享的智能時代。把握全球人工智能發(fā)展態(tài)勢,找準突破口和主攻方向,培養(yǎng)大批具有創(chuàng)新能力和合作精神的人工智能高端人才,是教育的重要使命。2019年人工智能連續(xù)第三年進入總理政府工作報告,2019年中央全面深化改革委員會第七次會議審議通過了《關(guān)于促進人工智能和實體經(jīng)濟深度融合的指導意見》。
2019在產(chǎn)業(yè)界人工智能持續(xù)升溫。例如微軟向OpenAI投資10億美元研發(fā)通用人工智能,2019年財報表明Google將關(guān)鍵性、基礎(chǔ)性、重點性投資繼續(xù)放在人工智能領(lǐng)域,華為公司為2019屆人工智能畢業(yè)生開出200萬年薪成為年度熱議話題。
在學術(shù)界人工智能相關(guān)會議吸引了大量研究人員,例如2019年CVPR和NeurIPS等人工智能學術(shù)會議參會人數(shù)屢創(chuàng)新高,AAAI2020投稿上萬篇。
總之,人工智能技術(shù)真正到了可以用、可以開始真正解決經(jīng)濟社會問題的階段,隨著政產(chǎn)學研用資的協(xié)同創(chuàng)新和大力投入,“人工智能+”開始漸入佳境。
2019年以來科學家和企業(yè)家一直在探索人工智能的新方向、新突破和新應用。神經(jīng)形態(tài)芯片、自動化機器學習、自適應機器學習、腦機接口、微型機器人、人機博弈對抗、對抗生成網(wǎng)絡、可解釋人工智能等新成果不斷涌現(xiàn)。雖然有些新技術(shù)“小荷才露尖尖角”還不是很成熟,還達不到大規(guī)模商用,但是人們開始看到人工智能創(chuàng)新發(fā)展的新曙光,假以時日“百花齊放春滿園”。2019年一些主要的人工智能技術(shù)創(chuàng)新梳理如下。
神經(jīng)形態(tài)芯片采取與傳統(tǒng)硬件完全不同的信息處理方式,通過模仿人腦構(gòu)造來大幅提高計算機的思維能力與反應能力,能夠大幅提升數(shù)據(jù)處理能力和機器學習能力。2019年7月,英特爾發(fā)布了“Pohoiki Beach”神經(jīng)擬態(tài)系統(tǒng)[3],包含多達64顆Loihi研究芯片,800萬個神經(jīng)元,更加接近人腦的工作方式,其處理AI算法的能力,速度比普通CPU快1000倍,效率更是普通CPU的10000倍,是神經(jīng)形態(tài)芯片的重大突破。8月,清華大學在《自然》以封面文章[4]發(fā)表首款異構(gòu)融合類腦計算芯片——“天機芯”,它融合了類腦神經(jīng)科學導向和基于機器學習的計算機科學導向,有多個高度可重構(gòu)的功能性核,可以同時支持機器學習算法和類腦計算算法,并展示了可以語音識別、自平衡控制、探索跟蹤、自動避障的無人自行車。如何借鑒人腦的高效性、多樣性、自主性、自適應性,發(fā)展具有認知智能的神經(jīng)形態(tài)芯片,大幅提高計算機的思維能力和反應能力,是解決當前AI發(fā)展瓶頸的重要路徑。
人工智能(或機器智能)和人類智能各有所長,因此需要取長補短,融合多種智能模式的腦智融合技術(shù)將在未來有廣闊的應用前景。腦智融合目標是要構(gòu)建一個雙向閉環(huán)的,既包含生物體、又包含人工智能電子組件的有機系統(tǒng)。腦智融合得到了美國腦計劃、Facebook的“腦機語音文本界面”、Elon Musk的人腦芯片嵌入和腦機接口計劃、加州理工陳天橋雒芊芊腦科學研究學院等政府、企業(yè)和個人的高度關(guān)注,在2019年取得了一批重要成果。
2019年7月,Elon Musk的腦機接口研究公司Neuralink發(fā)布“腦后插管”新技術(shù)[5],包括柔性的高密度電極和植入電極的機器人設(shè)備等創(chuàng)新突破,試圖在人體植入腦機接口芯片。Neuralink在9月的舊金山宣布腦機接口系統(tǒng)已經(jīng)在猴子身上進行實驗,讓猴子能用大腦來控制電腦,希望獲美國FDA批準后將在2020年第二季度進行人體試驗。
2019年4月,加州大學舊金山分校的華裔教授Edward Chang博士團隊在《自然》發(fā)布文章,創(chuàng)造了更接近能夠恢復說話功能的腦機接口[6],成功解碼腦電波,AI直接從大腦中合成語音。該研究通過解碼大腦活動提升語音的清晰度,使用深度學習方法直接從大腦信號中產(chǎn)生口語句子,達到150個單詞,接近正常人水平。緊接著,2019年7月,F(xiàn)acebook與Edward Chang團隊合作建成一個腦機接口,可以實時從大腦信號解碼問答對話,發(fā)表在《自然通訊》[7]。這是全球首個實時解碼大腦信號的問答語音的項目,或可用到增強現(xiàn)實眼鏡中。
從腦機接口、腦機交互到腦機融合將是總體發(fā)展趨勢,目前的工作才剛剛開始,Elon Musk的目標是腦機融合后的 AI 系統(tǒng)將以和人類的本能大腦與理性大腦同樣的特性存在,人腦和計算機將融合無間,人類甚至無法察覺自己在運用 AI 思考,這將是腦智融合的長期戰(zhàn)略性發(fā)展方向。
深度強化學習融合了深度學習在信息感知方面以及強化學習在策略選擇方面的綜合性優(yōu)勢,同時賦予智能體感知和決策能力,成為人機博弈的核心技術(shù)突破。從2016年AlphaGo和2017年AlphaGo Zero等成果以來,谷歌的DeepMind團隊在深度強化學習以及圍棋和游戲應用中取得重要進展,成為人工智能技術(shù)突破的標志性成果。對抗博弈根據(jù)參與人對其他參與人所掌握信息的了解程度可分為完全信息博弈(如象棋、圍棋)和不完全信息博弈(如德州撲克、兵棋、星際爭霸等戰(zhàn)略游戲)。AlphaGo和AlphaGo Zero是人工智能在完全信息博弈上的勝利,而不完全信息博弈近期也取得顯著進展。例如,中國科學院自動化研究所近兩年在知識驅(qū)動型兵棋AI上取得重要進展,兵棋AI先知系統(tǒng)屢屢大比分戰(zhàn)勝人類優(yōu)秀選手。劍橋大學的報告《2019 AI發(fā)展》[8]介紹了增強學習技術(shù)已在多個游戲中取得大幅進步,包括《蒙特祖瑪?shù)膹统稹?、《星際爭霸2》、《雷神之錘3》。2019年OpenAI 有了超過八倍的訓練量,Dota項目已經(jīng)相當于人類打了45000年的游戲,在超過7000場與人類對決的游戲中取得了99.4%的勝率。
中國科學院自動化研究所興軍亮研究員認為,相對于國際象棋、圍棋等棋類游戲以及星際爭霸、Dota 2等實時策略游戲,以德州撲克為代表的撲克游戲由于同時具備不完全信息動態(tài)決策、對手誤導欺詐行為識別、以及多回合籌碼和風險管理等特點,而備受人工智能研究者關(guān)注。2019年7月,《科學》雜志在線發(fā)表了圖奧馬斯·桑德赫爾教授團隊的最新研究成果[9]:Superhuman AI for multiplayer poker,稱之為Pluribus多人無限注德州撲克博弈算法,算法的核心是不使用人類數(shù)據(jù)或者經(jīng)驗,僅僅通過算法的自我博弈來不斷學習和提升策略的勝率,在多人無限注德州撲克中戰(zhàn)勝了人類專業(yè)選手。
對抗博弈(包括人—機、機—機博弈)的智能決策研究涉及不完全信息博弈、深度強化學習、多智能體協(xié)調(diào)優(yōu)化等學科領(lǐng)域,是一個綜合性、復雜性、挑戰(zhàn)性很大的人工智能研究領(lǐng)域。在AlphaGo和德州撲克AI成功的基礎(chǔ)上開展應用于對抗博弈和智能決策的深度強化學習方法、理論和應用,重點解決高動態(tài)、規(guī)則多維、小樣本數(shù)據(jù)下的不完全信息博弈問題。將不完全信息動態(tài)博弈、多智能體協(xié)同優(yōu)化和深度強化學習的策略優(yōu)化結(jié)合,為復雜對抗博弈場景中的智能決策提供了可行的思路。
機器人在智能化時代配上感知和認知的翅膀煥發(fā)新生、大有可為。2019年初 Science Robotics就回顧了過去一年引人入勝的十大機器人技術(shù)[10]。新的一年機器人智能創(chuàng)新更上一層樓,從波士頓動力Atlas機器人跑酷過獨木橋[11],到協(xié)同工作的粒子機器人[12]和彈力驚人的微型螞蟻機器人[13],再到機器人帶上觸感手套盲眼識物[14],2019年我們看到了機器人在新形態(tài)、微型化、仿生化、自主化方向的重要進展。
見識了大型機器人的“力拔千鈞”,人們開始希望機器人能夠?qū)崿F(xiàn)微型化,減小機器人體積,降低重量,提高智能化程度,從而適應多種可能的應用場景需求。
(1)2019年3月《自然》雜志封面發(fā)表仿生物細胞群體機器人—粒子機器人[12],從生物有機體和人體細胞獲取靈感,結(jié)合了信息和力學兩方面的智能,能夠模擬生物細胞集體遷移,實現(xiàn)移動、搬運物體及向光刺激移動,這項工作由來自麻省理工學院(MIT)、哥倫比亞大學、康奈爾大學和哈佛大學等多所高校的研究人員合作完成。
(2)2019年7月的《自然》封面文章[15]介紹了哈佛大學研制的史上最輕自主飛行機器人RoboBeeX-Wing,僅259毫克,只需太陽能供電就能實現(xiàn)持續(xù)飛行。
(3)瑞士洛桑聯(lián)邦理工學院(EPFL)在《自然》發(fā)表了重量僅 10 克的Tribots螞蟻機器人[13],采用簡單無繩的設(shè)計就可以像折紙一樣“三足行走”,并且可以在復雜的環(huán)境中協(xié)同工作,讓不同的微型機器人各司其職。
(4)MIT人工智能實驗室利用人類觸覺與經(jīng)驗(大數(shù)據(jù))的結(jié)合,開發(fā)了一款多達548個傳感器的觸覺手套[14],并通過深度學習讓智能手套學習人類方式通過觸摸來識別物體。
離散符號到連續(xù)向量的表示體系遷移是自然語言理解與機器翻譯當前研究和應用的主流方法。傳統(tǒng)基于離散符號表示的規(guī)則或統(tǒng)計方法面臨語義鴻溝與數(shù)據(jù)稀疏問題,而基于連續(xù)向量表示的深度學習方法成功避免了這兩個問題。因此,從自然語言的詞法分析、句法分析、篇章分析到機器翻譯,目前性能最好的方法無一例外都是基于連續(xù)向量的深度學習模型。尤其在大數(shù)據(jù)的驅(qū)動下,自然語言理解與機器翻譯中的一些任務已經(jīng)取得了突破性進展。
2018年10月的谷歌發(fā)布深度雙向的BERT(Bidirectional Encoder Representations from Transformers)模型[16]是自然語言處理NLP領(lǐng)域的里程碑工作,在機器閱讀理解全部兩個衡量指標上全面超越人類,并且還在11種不同NLP測試中創(chuàng)出最佳成績。
2019年6月,CMU與谷歌大腦提出的 XLNet[17]采用一種通用的自回歸預訓練方法,在20個任務上超過BERT,并在18個任務上取得當前最佳效果的表現(xiàn)。
2019年7月,F(xiàn)acebook對BERT進行優(yōu)化,采取更久的訓練時間、更多的數(shù)據(jù)、更強力調(diào)參,提出了加強版預訓練模型RoBERTa(Robustly optimized BERT approach)[18],在GLUE、SQuAD和RACE三個排行榜上都取得了最優(yōu)成績。
2019年7月,百度發(fā)布了 ERNIE(Enhanced Representation through kNowledge IntEgration)2.0自然語言理解框架[19],是一種持續(xù)學習的語義理解預訓練框架。ERNIE 2.0可以通過持續(xù)的多任務學習,逐步學習和建立預訓練任務。這個中英文對話的 AI 框架不僅獲得了最優(yōu)的(SOTA)結(jié)果,并且在16個NLP任務中表現(xiàn)出優(yōu)于BERT和XLNet的高水準。
雖然近兩年BERT、XLNet和ERNIE在自然語言處理領(lǐng)域取得了重要進展并屢屢刷榜,基于大規(guī)模數(shù)據(jù)的無監(jiān)督預訓練在NLP領(lǐng)域?qū)崿F(xiàn)了技術(shù)突破,然而大數(shù)據(jù)驅(qū)動的深度學習在自然語言處理領(lǐng)域仍然面臨嚴重的挑戰(zhàn),主要包括:單一文本模態(tài)的信息缺失問題、稀缺資源下的自然語言理解與機器翻譯問題、以及深度學習方法與經(jīng)驗知識的融合問題。面對第一個問題,一些研究者在探索多模態(tài)的自然語言理解技術(shù),例如融合多模態(tài)的自動摘要以及多模態(tài)機器翻譯技術(shù)。對于第二個問題,詞法、句法、篇章分析與機器翻譯都存在標注數(shù)據(jù)稀缺的問題,例如用于機器翻譯的漢語和阿拉伯語之間雙語對照訓練數(shù)據(jù)非常匱乏,深度學習無用武之地。對此,學術(shù)前沿正在研究基于無標注數(shù)據(jù)的弱監(jiān)督方法。針對最后一個問題,學者們已經(jīng)開始探討擅長計算的連續(xù)系統(tǒng)和擅長邏輯推理的符號系統(tǒng)之間的有機融合技術(shù)。總之,多模態(tài)融合、弱監(jiān)督無監(jiān)督學習以及符號系統(tǒng)與連續(xù)系統(tǒng)的結(jié)合是自然語言處理和機器翻譯的研究趨勢。
“百聞不如一見”,計算機視覺是機器智能的主要場景感知能力,也是近些年來深度神經(jīng)網(wǎng)絡取得成功應用和商業(yè)化落地的重要領(lǐng)域,因此單列一章對最近幾年的計算機視覺技術(shù)進展進行綜述。由于計算機視覺與模式識別在深度學習時代緊密結(jié)合,很難剝離模式識別單獨介紹計算機視覺技術(shù),因此本章也涉及模式識別的一些重要技術(shù)進展。
我們看到,數(shù)據(jù)(互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、廣電網(wǎng)泛在的視覺大數(shù)據(jù))、算法(深度神經(jīng)網(wǎng)絡、生成對抗網(wǎng)絡等模型)和算力(GPU服務器)等基礎(chǔ)條件的萬事俱備發(fā)展推動了人臉識別、物體檢測、圖像分割、目標分類、視頻結(jié)構(gòu)化、場景建模等計算機視覺技術(shù)和應用近些年取得突破性進展,機器視覺能力已經(jīng)在大量單項視覺任務中超過人類視覺精度水平。
隨著深度學習時代的到來,計算機視覺從底層、中層,到高層都有了顯著進展,底層視覺任務邊緣檢測已經(jīng)在經(jīng)典BSD數(shù)據(jù)集上達到甚至超越了人類水平[20],全卷積神經(jīng)網(wǎng)絡開啟了中層視覺任務圖像分割的快速發(fā)展時期[21],在無人駕駛的道路分析等應用中發(fā)揮了極為重要的作用,典型高層視覺任務目標識別與檢測在ResNet、R-CNN等深度模型的推動下實現(xiàn)了全面突破[22-23],視覺場景中除了對單目標的檢測與識別,還需要更深入地對目標之間的關(guān)系進行推理,進而提出視覺關(guān)系檢測與識別[24]。二維圖像理解的成功很快擴展到兩類三維數(shù)據(jù)中,第一類是增加時間維度的時序視頻理解,行為識別與定位作為典型時序視覺任務在雙流網(wǎng)絡、遞歸網(wǎng)絡和圖網(wǎng)絡的推動下性能得到極大提升[25-27],第二類是增加景深維度的三維點云分析與理解,專為稀疏、不規(guī)則分布三維點云分析的深度模型廣泛應用在點云數(shù)據(jù)的目標檢測、識別、分割等任務中[28]。除了從維度上突破計算機視覺任務,從單模態(tài)擴展到包括視覺、語言、語音、觸覺等多模態(tài)數(shù)據(jù)的理解是當前的熱點也是未來的趨勢,基于注意和記憶認知建模的視覺語言描述、視覺語言問答構(gòu)建了視覺和語言之間的橋梁[29-30],語音、觸覺與視覺的協(xié)同感知研究工作開始增多[31-32],進一步擴展機器感知通道。如果說此前的視覺研究和任務大都集中在“靜態(tài)的、無交互的”被動感知層面,那么引入導航、操作等一系列與機器人相關(guān)的任務則是“動態(tài)的、環(huán)境交互的”主動具身視覺(embodied vision)認知,在一系列虛擬環(huán)境中構(gòu)建基于視覺、語言的導航、問答、技能學習等任務,并進行數(shù)據(jù)采集和模型評測[33-34]。在解決一系列視覺任務過程中,也遇到了和其他領(lǐng)域類似的問題:小樣本、零樣本、樣本不均衡學習,學習遺忘災難、終生學習、遷移學習,以及更加有效的評估方法(包括視覺圖靈測試)。這些都是目前計算機視覺領(lǐng)域面臨的嚴重挑戰(zhàn),同時也是突破當前“大數(shù)據(jù)、小任務”視覺范式的難得機會。
生成對抗網(wǎng)絡(Generative Adversarial Networks,GAN)近些年來成為計算機視覺領(lǐng)域的熱門方向,GAN 由Ian GoodFellow于2014年所提出[35]。生成對抗網(wǎng)絡是一個典型的無監(jiān)督式學習方法,通過兩個神經(jīng)網(wǎng)絡,即生成網(wǎng)絡和判別網(wǎng)絡,互相博弈的方式進行學習。生成對抗網(wǎng)絡最明顯的優(yōu)勢在于可以生成以假亂真的圖片,是目前所公認的合成圖片質(zhì)量最高的生成方法。近些年來,一系列的擴展工作把生成對抗網(wǎng)絡應用到半監(jiān)督學習[36]、全監(jiān)督學習[37]、強化學習[38]等領(lǐng)域;很多后續(xù)工作在理論上對模型進行優(yōu)化,例如針對模型坍塌問題,Arjovsky等人提出了Wasserstein度量下的 GAN[39],Zhao等人提出了基于能量函數(shù)的GAN[40];此外,生成對抗網(wǎng)絡的條件化[37]、循環(huán)一致?lián)p失[41]的加入等普適性的改進更進一步提升了生成結(jié)果的多樣性和真實性。對生成對抗網(wǎng)絡的有效評估也是當前研究的熱點方向之一。當今主流方法是對生成樣本與真實樣本提取特征,然后在特征空間做距離度量,Inception Score[36]、Fréchet Inception Distance[42]是最為常見的評價方法。目前生成對抗網(wǎng)絡的評估依然是一個開放性的問題。
生成對抗網(wǎng)絡的提出極大地促進了計算機視覺領(lǐng)域的發(fā)展,尤其是圖像和視頻生成相關(guān)的任務。在圖像超分辨率、圖像風格轉(zhuǎn)換、人臉屬性轉(zhuǎn)換、人像編輯等具體的任務上,當前的最好方法都是基于生成對抗網(wǎng)絡的思想來設(shè)計模型;除此之外,在醫(yī)學圖像分割、域適應、數(shù)據(jù)擴展等領(lǐng)域,生成對抗網(wǎng)絡也占有一席之地并有效地推動了這些領(lǐng)域的發(fā)展。在當前階段,一方面針對具體問題所設(shè)計的生成對抗網(wǎng)絡在不斷地推陳出新,另一方面,生成對抗網(wǎng)絡的發(fā)展也讓解決更多從實際場景中而來的生成任務成為可能。
我們團隊在基于GAN的人臉圖像編輯領(lǐng)域取得一系列研究成果。我們提出了自省生成對抗式變分網(wǎng)絡[43-44],對生成模型進行了理論上的革新,顯著地提升了生成圖片的質(zhì)量和分辨率,更有效地防止模型坍塌;提出了高保真的姿態(tài)不變?nèi)四樲D(zhuǎn)正模型[45-46],以一種新穎的稠密關(guān)聯(lián)場結(jié)合了經(jīng)典的3D人臉建模理論和生成對抗網(wǎng)絡理論,有效地提升了姿態(tài)不變?nèi)四樧R別系統(tǒng)的性能;基于小波域?qū)箤W習的視覺超分辨率網(wǎng)絡[47]有效地提升了在大超分倍數(shù)下的性能;人臉屬性保持的小波域老化模型[48]讓神經(jīng)網(wǎng)絡可以逼真地模擬出人臉數(shù)十年后的樣子。
計算機視覺的多次發(fā)展與突破均與腦智能的啟發(fā)密切相關(guān)。目前,類腦智能在神經(jīng)元、神經(jīng)環(huán)路、功能認知以及學習層面上都有了顯著進展。在神經(jīng)元層面,受神經(jīng)元噪聲啟發(fā),Dropout策略[49]通過將一定比例神經(jīng)元的激活值置為0,極大地提升了神經(jīng)網(wǎng)絡的魯棒性;Random shifting[50]通過在神經(jīng)元感受野中增加隨機性,促使網(wǎng)絡性能得到較大提升。受大腦中單個神經(jīng)元可表征物體多屬性能力啟發(fā),CapsuleNet[51]將神經(jīng)網(wǎng)絡的研究推向了一個新的時代,神經(jīng)元的向量輸入輸出均被替換為可表征多屬性的矢量形式;同時期,受生物體中多種神經(jīng)元類型啟發(fā),研究者提出興奮性和抑制性神經(jīng)元[52],顯著地提升了網(wǎng)絡激活函數(shù)的多樣性并增強了網(wǎng)絡性能。受V1層神經(jīng)元可自適應矯正顏色變化功能啟發(fā)[53-55],顏色常量模型被提出且在對應任務上取得了良好的性能。受神經(jīng)元可檢測多尺度物體的啟發(fā),研究者提出的TridentNet網(wǎng)絡通過在同層采用不同尺寸感受野的方式有效解決了物體檢測中的不同尺度問題[56]。在神經(jīng)環(huán)路層面,模擬神經(jīng)環(huán)路前向連接的前向神經(jīng)網(wǎng)絡(包括淺層的HMAX[57],VisNet[58],LeNet[59],以及深層的 AlexNet[60],VGG[61],GoogleNet[62]等)在各種計算機視覺任務上取得了逐漸提升甚至超越人類的性能;模擬神經(jīng)環(huán)路反向連接的計算視覺模型[63],可結(jié)合網(wǎng)絡中自頂向下的注意信息,有效檢測圖像的顯著性區(qū)域。模擬神經(jīng)環(huán)路側(cè)向連接的遞歸皮層網(wǎng)絡[64],可有效結(jié)合網(wǎng)絡中的同層信息并在驗證碼識別任務上取得了突破性的進展;遞歸神經(jīng)網(wǎng)絡[65]通過結(jié)合網(wǎng)絡中的同層知識,具有了感知上下文信息的能力。在認知功能層面,大腦中注意機制的引入使網(wǎng)絡可逐步準確聚焦需要檢測的物體[66-67]。大腦中多任務機制的引入使網(wǎng)絡可同時處理若干種相關(guān)的但目標不同的任務,比如根據(jù)同一張人臉同時執(zhí)行性別、年齡和種族識別的不同任務,或其他不同類型的任務[68]。大腦中多模態(tài)融合及聯(lián)想機制的引入使網(wǎng)絡具有了視覺模態(tài)、聽覺模態(tài)和自然語言模態(tài)多模態(tài)協(xié)同感知的能力,在視頻描述生成與跨模態(tài)生成任務上取得了理想的性能[69-70]。受大腦視覺通路包含腹側(cè)和背側(cè)雙通路機制的啟發(fā),在行為識別任務中引入表觀和運動雙通路模型并與注意機制相結(jié)合,獲得了突破性的進展[71]。在學習層面,將大腦中原型學習[72]、遷移學習[73]、連續(xù)學習[74-76]、概念學習[77]引入到神經(jīng)網(wǎng)絡中,使其具有了相應的能力。
盡管目前我們在模擬腦智能層面已經(jīng)取得了顯著成就,但受限于對腦智能的認知,類腦智能仍面臨一系列的挑戰(zhàn)。(1)建立視覺處理和運動生成為一體的主動視覺系統(tǒng)。目前大部分的腦智能理解只從視覺通路尋求借鑒,但大腦中視覺處理和運動生成是不可分割的。因此,我們應該考慮分層預測編碼,將運動行為視為比較傳入的感覺信息與內(nèi)部生成模型的方法[78]。這在計算機視覺中尚未經(jīng)過測試和模型化,但對于主動視覺領(lǐng)域是一個非常好的借鑒。(2)建立可變性和不可變性相結(jié)合的多網(wǎng)絡方法和理論。目前普遍的認知是網(wǎng)絡的高層具有不變性。但最近的工作發(fā)現(xiàn),低水平的視力信息實際上保存在獼猴視覺皮層(V4)中間層的神經(jīng)元簇中[79]。這支持了一種日漸成熟的認知,即不變性并不總是必需的,大腦更高層次復雜場景的表示保留了低層次的感覺信息[80-81]。隨著計算機視覺需要從分類檢測轉(zhuǎn)向更精細的類內(nèi)識別,在多網(wǎng)絡中結(jié)合可變性和不變性信息將是未來研究的一個有趣的方向。(3)建立動態(tài)內(nèi)部生成認知模型。在標準的人工神經(jīng)網(wǎng)絡架構(gòu)中,任何層中的大多數(shù)/所有連接都來自上一層。然而,在靈長類動物初級視覺皮層中,只有0.2%的連接神經(jīng)元來自前一層(丘腦的外側(cè)膝狀核)[82]。反向,橫向(以及額外的高階丘腦核)連接在前向連接中占主導地位,但是只少數(shù)人工視覺系統(tǒng)包含這些連接[83-84]。我們在fMRI的廣泛研究中了解到,底層視覺皮層存在廣泛的高層認知功能調(diào)節(jié)[85-89]。這自然會導致一種觀念,即低層信息應該以某種方式與更高層次的表征相關(guān)聯(lián)[90]。更廣泛的概念是內(nèi)部生成認知模型,即基于行為預測和運動輸出知識都可在動態(tài)系統(tǒng)中調(diào)整傳入的視覺信息。
盡管計算機視覺隨著深度學習浪潮取得了顯著進展,但是由于深度學習自身的局限性、以及視覺問題本身的復雜性,計算機視覺也遇到一系列的挑戰(zhàn)。(1)建立具有可解釋性的計算機視覺模型與系統(tǒng)。當前視覺領(lǐng)域的突破更多是在大規(guī)模數(shù)據(jù)的基礎(chǔ)上建立數(shù)據(jù)關(guān)聯(lián)的結(jié)果,也是借用了深度學習這一套強關(guān)聯(lián)分析工具的結(jié)果,關(guān)聯(lián)不是視覺的本質(zhì)、也不是理解的本質(zhì),正如圖靈獎獲得者Judea Pearl所說,關(guān)聯(lián)或者相關(guān)性分析只是智能的第一步,能夠?qū)嵤┳兞扛深A分析、反事實因果推斷是走向真正智能的關(guān)鍵。(2)建立基于小樣本學習和知識推理的具有外推泛化性的視覺方法和理論。當前基于大規(guī)模數(shù)據(jù)的視覺系統(tǒng)顯然和人眼視覺系統(tǒng)在感知、認知層面上都有很大差別,現(xiàn)有系統(tǒng)在大量數(shù)據(jù)中依靠關(guān)聯(lián)分析提取了零零碎碎的諸多變量,而人眼視覺系統(tǒng)只需要少量樣本就能準確提取目標對象的關(guān)鍵變量(或者叫概念),這些關(guān)鍵變量沒有知識引導是無法簡單地從大數(shù)據(jù)中學習得到。此外,目前的視覺系統(tǒng)只能解決獨立同分布問題,很難外推到分布之外的情況,基于知識學習和推理有望解決這一問題。(3)建立視覺、語言、認知、機器人等多領(lǐng)域協(xié)同理解的新任務。傳統(tǒng)視覺“小任務”取得重大進展后,我們需要擴展并提出新的視覺“大任務”,所謂的視覺大任務不是孤立于其他感知、認知功能而獨立存在的,挑戰(zhàn)人類智能的現(xiàn)實任務往往都是需要視覺、語言、操作、交互等各種功能協(xié)同工作的聚合體。
人工智能經(jīng)過60多年的發(fā)展,進入了創(chuàng)新突破的戰(zhàn)略機遇期和產(chǎn)業(yè)應用的紅利收獲期,學術(shù)繁榮和產(chǎn)業(yè)繁榮同步前行、互相促進,共同推動人類文明進入智能社會新時代。但是,我們需要清醒看到通用人工智能及人工智能的整體發(fā)展仍處于初級階段,必須采取理性務實的發(fā)展路徑,扎實推進基礎(chǔ)研究、技術(shù)生態(tài)、人才培養(yǎng)、法律規(guī)范等方面的工作,讓人工智能更好地賦能新時代。
致謝
感謝張家俊、趙冬斌、曹杰、公瑾提供人工智能專業(yè)領(lǐng)域的素材。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。