謝更好
2018年,興軍亮在瑞典斯德哥爾摩參加國際人工智能聯(lián)合大會和國際機器學(xué)習(xí)大會。
電子游戲從誕生之時起就帶來了各種爭議性的話題,尤其在當(dāng)今社會,游戲上癮逃學(xué)和玩暴力游戲引發(fā)暴力行為的報道層出不窮。電子游戲真的是洪水猛獸嗎?也許換個角度,對此會有完全不同的看法。
從早期的西洋跳棋,到近期的圍棋,乃至德州撲克……每一次人工智能在游戲中戰(zhàn)勝人類都會在全社會產(chǎn)生強烈反響。在中國科學(xué)院自動化研究所(以下簡稱“中科院自動化所”)研究員興軍亮看來,電子游戲是人工智能研究的最新“測試場”。讓機器打游戲是興軍亮近年來的研究興趣點,他研發(fā)的星際爭霸AI曾獲2017年IEEE CIG星際爭霸AI第2名,研發(fā)的德州撲克AI勝率超過了2018年國際計算機撲克大賽(ACPC)冠軍程序Slumbot和2017年發(fā)表在美國《科學(xué)》雜志上的DeepStack方法的開源實現(xiàn)版本,速度較DeepStack提升超過1000倍。這些游戲AI技術(shù)不僅可以被應(yīng)用到游戲產(chǎn)業(yè)中,讓游戲內(nèi)容更有趣、情節(jié)更吸引人,甚至在未來更有望應(yīng)用于個人電子助理、推薦系統(tǒng)、無人駕駛、芯片設(shè)計、決策支持等所有需要做出持續(xù)決策的領(lǐng)域中,幫助大家解決更多的實際問題,讓生活更美好。
在博士階段和剛進入中科院自動化所工作時,興軍亮所做的工作與游戲其實沒有太大關(guān)系。在西安交通大學(xué)計算機系本科畢業(yè)后,他被保送為清華大學(xué)計算機科學(xué)與技術(shù)系的直博生,開始做計算視覺研究。
讀博對興軍亮是一個轉(zhuǎn)折,開始做科研后,他發(fā)現(xiàn)很多時候不只需要去學(xué)習(xí),而且更需要去發(fā)現(xiàn)問題和解決問題。周圍不乏優(yōu)秀的人,又在一定程度上為興軍亮帶來了壓力,尤其是算法在調(diào)試了很久無法得到好的結(jié)果時,他會變得灰心喪氣。當(dāng)時導(dǎo)師艾海舟教授給了興軍亮很多支持和鼓勵,同時為了適應(yīng)這些變化,他自己也在尋找調(diào)整的方法,通過運動,通過與別人交流,他的狀態(tài)慢慢好起來。
“一定要做頂天立地的研究。”這是導(dǎo)師對興軍亮的要求,所以在博士階段,興軍亮做的工作都是實用性的創(chuàng)新研究。由于當(dāng)時國內(nèi)對科研的投入不多,而國外的大公司卻有非常強烈的合作意愿,于是跟隨導(dǎo)師,興軍亮也參與到了和惠普、英特爾、歐姆龍等知名企業(yè)的多項合作研究課題中,研究的是與人臉、人體檢測和跟蹤相關(guān)的技術(shù),其中很多技術(shù)都用到了這些公司的產(chǎn)品中。
不斷思考、轉(zhuǎn)換思路,在堅持中求變,興軍亮在博士期間進步很大,收獲也很大。他曾獲得清華大學(xué)計算機系學(xué)術(shù)新秀、清華大學(xué)綜合一等獎學(xué)金、清華大學(xué)優(yōu)秀博士畢業(yè)論文、谷歌學(xué)者等獎勵和榮譽稱號。因表現(xiàn)出色,2012年博士一畢業(yè),他就順利加入了中科院自動化所模式識別國家重點實驗室。
剛進入胡衛(wèi)明研究員組里時,興軍亮仍繼續(xù)進行計算機視覺相關(guān)研究,同時,圍繞互聯(lián)網(wǎng)內(nèi)容安全他也做了很多算法研發(fā)。另外,在運動分析、多物體跟蹤上,他做的幾個比較典型的工作也取得很好的結(jié)果,組里在多個相關(guān)問題的科研水平一直保持在當(dāng)時的國際前列。
2012年12月至2013年12月在新加坡國立大學(xué)的訪學(xué)和2015年4月至11月作為“鑄星計劃”訪問教授在微軟亞洲研究院網(wǎng)絡(luò)媒體組的科研經(jīng)歷,又為興軍亮帶來了拓展視野和提升自我的機會。
在新加坡國立大學(xué),與顏水成教授合作,興軍亮不僅解決了一直解決不了的人臉配準(zhǔn)問題,而且還做了一套美顏系統(tǒng)。淘寶最早的虛擬換裝應(yīng)用,用的就是這個技術(shù)方案。相關(guān)論文“Wow!You Are so Beautiful Today!(哇,你今天真漂亮)”更是獲得了2013年多媒體領(lǐng)域頂級國際會議ACM Multimedia最佳論文獎。
在被稱為中國IT業(yè)“黃埔軍校”的微軟亞洲研究院,興軍亮感受到了頂尖科研機構(gòu)做研究的方法和模式。在寬松的研究氛圍中,大家可以憑借興趣開展任何研究,并進行充分的討論交流。在那里,興軍亮參與完成的一些基于骨架關(guān)節(jié)點的動作識別研究工作,成為這個問題中的經(jīng)典論文。由于在那里的良好互動,直至現(xiàn)在,興軍亮仍與微軟亞洲研究院的很多老師保持著密切的合作。
憑借對科研的興趣和堅持不懈的努力,在計算視覺領(lǐng)域深耕,興軍亮取得了一系列不俗的成績。他出版計算機視覺譯著2部;多次帶隊在人臉識別、車輛識別、視頻識別等國際和國內(nèi)挑戰(zhàn)賽中獲得冠軍;在重要國際期刊如TPAMI、IJCV、AI以及重要國際會議上如AAAI、IJCAI、ICCV、CVPR上發(fā)表論文100余篇,谷歌學(xué)術(shù)引用接近1萬次。
作為項目負(fù)責(zé)人或核心骨干,他主持或參與了國家自然科學(xué)基金、原國家“863”“973”計劃項目等多項重要課題,并與富士通、華為、騰訊等大企業(yè)開展了多次合作,研究課題涉及人臉和人體視覺、網(wǎng)絡(luò)敏感內(nèi)容安全和大數(shù)據(jù)分析應(yīng)用等多個方向。尤其在“基于區(qū)分性模型學(xué)習(xí)的綜合在線多物體檢測、跟蹤和分割”的課題中,通過一系列高效和魯棒的多物體檢測、跟蹤和分割算法,興軍亮采用區(qū)分性學(xué)習(xí)模型統(tǒng)一去構(gòu)建智能化視覺監(jiān)控原型系統(tǒng),提高了已有視覺監(jiān)控系統(tǒng)的有效性和實用性,促進了視頻中物體檢測、跟蹤和分割等相關(guān)技術(shù)的發(fā)展。
而針對無約束環(huán)境下的人臉識別這個極具挑戰(zhàn)的研究課題,興軍亮以深度神經(jīng)網(wǎng)絡(luò)為基本建模工具和學(xué)習(xí)框架,提出了無約束人臉識別問題的新型框架和多種模型方法,多次在國際人臉識別技術(shù)挑戰(zhàn)賽中獲得冠軍,構(gòu)建出的高性能可實用的無約束人臉識別系統(tǒng),又促進了人臉識別相關(guān)理論方法的發(fā)展,推動了無約束人臉識別算法在實際認(rèn)證系統(tǒng)中的應(yīng)用。
目前,興軍亮研發(fā)的視覺感知相關(guān)技術(shù)已在華為、微軟等許多機構(gòu)得到了多次應(yīng)用落地和推廣,取得了良好的經(jīng)濟和社會效益。按理說興軍亮?xí)谟嬎阋曈X領(lǐng)域繼續(xù)做下去,但在2016年,他卻突然轉(zhuǎn)變了自己的研究方向,走上了另一條路。
一直很少接觸游戲的興軍亮,為什么會選擇將游戲作為自己的研究課題呢?“為了不失業(yè)?!迸d軍亮開玩笑說,“我們研究的計算視覺,基本上就是在教AI識別‘是什么’,即識別圖片里是張三還是李四,是車子還是桌子等。但我慢慢發(fā)現(xiàn),如果只是讓AI學(xué)會識別‘是什么’這類問題,離最終想達到的人工智能目標(biāo)可能相差甚遠。而且到2016年的時候,我感到計算視覺領(lǐng)域已經(jīng)非常成熟了,再往下做可能將沒有太多空間,于是我開始思考下一步該做些什么。”
2016年,AlphaGo橫空出世。興軍亮發(fā)現(xiàn)讓計算機去下圍棋,其實是在解決一個很重要的問題——認(rèn)知智能。即它不光要知道“是什么”,更要知道“為什么”,它要一步一步地去做,去明白為什么這么做就會贏。由于當(dāng)時覺得這個問題很有意思,興軍亮便開始考慮怎么轉(zhuǎn)向這個方向。
為了對各種游戲有了解,他甚至熬夜把所有以前沒有玩過的一些游戲都拿來研究,學(xué)習(xí)一些教程,練習(xí)手速,希望能通關(guān)。他自己都差點上癮,覺得游戲非常有意思,尤其游戲里的設(shè)置很適合用來研究一些基本科學(xué)問題。于是在2016年,興軍亮堅定地轉(zhuǎn)向了游戲博弈這類問題的研究上。
如果說研究計算視覺是為了讓計算機具備像人眼那樣的功能,那么研究游戲博弈就是為了讓計算機擁有像人腦那樣的功能。而游戲為什么對人工智能如此重要呢?
在人工智能的發(fā)展歷史中,游戲一直伴隨左右。早在人工智能創(chuàng)始期,人工智能之父、英國科學(xué)家艾倫·圖靈,在1950年就提出了一個重要概念“圖靈測試”,即讓一個人向一臺隔離的機器和另外一個人提問,如果提問的人沒辦法分清回答問題的是機器還是人,就認(rèn)為這臺機器通過了圖靈測試。圖靈測試提供了評估機器智能水平一個非常簡單的方法,其實也可以把它理解成一個游戲,一個讓人和機器玩猜真假的游戲。
接著,IBM研究院一位優(yōu)秀的研究員塞謬爾,在1959年設(shè)計了一款具有一定自學(xué)能力的程序,他讓這個程序?qū)W習(xí)西洋跳棋。一段時間后,他發(fā)現(xiàn)自己已經(jīng)打不過這個程序了。隨后他讓程序繼續(xù)不斷學(xué)習(xí),到了1962年,這個程序已經(jīng)能夠打敗美國的州冠軍,這是人工智能領(lǐng)域早期一個里程碑式的事件。
其實在人工智能發(fā)展的不同階段,游戲一直是相關(guān)研究的試驗場。1996年,IBM的深藍計算機使用一種改進的搜索化程序,戰(zhàn)勝了國際象棋世界冠軍卡斯帕羅夫,引起了世界轟動。到了2016年,更廣為人知的是AlphaGo戰(zhàn)勝了圍棋九段李世石及世界排名第一的柯潔。
AlphaGo已經(jīng)在人類最復(fù)雜的棋類游戲中獲勝了,但它遠遠沒有解決真實的人工智能問題。圍棋游戲其實還非常簡單,因為它有著明確的規(guī)則和確定的邊界,并且雙方都可以看到完整的盤面信息。圍棋的決策復(fù)雜度大概是10360,這樣的復(fù)雜度已經(jīng)是目前人類解決的最復(fù)雜的決策問題之一了,但它跟現(xiàn)實世界中的決策問題實際還相差甚遠,因為一些開放環(huán)境下的現(xiàn)實決策問題,復(fù)雜度會遠遠超過1010000。
那么如何從百級的指數(shù)復(fù)雜度跨越到萬級的指數(shù)復(fù)雜度,這就需要一些新環(huán)境去測試,這個環(huán)境還是游戲,只不過這一次是復(fù)雜的實時策略電子游戲?!锻跽邩s耀》《星際爭霸》《刀塔》等,它們的復(fù)雜度大約都在101000到1010000之間,非常適合用來訓(xùn)練人工智能,超越AlphaGo。
在人工智能研究的不同歷史時期,都會找到不同復(fù)雜度的游戲用以測試人工智能的新技術(shù)。在游戲的試驗場中,興軍亮帶領(lǐng)團隊篩選了很多典型游戲,包括最簡單的單機游戲、麻將這種棋牌類游戲,《王者榮耀》這種實時策略游戲,以及更復(fù)雜一點的足球游戲,旨在從簡單到復(fù)雜,從單個智能體到多個智能體的游戲中研發(fā)人工智能。
博弈學(xué)習(xí)研究組部分成員合影
興軍亮說,游戲的不同分類能幫助人工智能學(xué)習(xí)不同的能力,以探索類為例:“在《蒙特祖瑪?shù)膹?fù)仇》這個游戲中,智能體的目標(biāo)是走出迷宮,而要走出去就必須通過右邊那扇門,要想走出那扇門就必須拿到左邊那把鑰匙,而底下有骷髏頭會讓它死掉。一開始它什么都不知道,就在里面不斷地嘗試。經(jīng)過嘗試之后,它就能發(fā)現(xiàn)一條很好的路徑,它最終會學(xué)到先跳到梯子那里,然后下去,跳過骷髏頭,爬上梯子,拿到鑰匙,然后再下去,再跳躍,最后就走出去了,這是一個很復(fù)雜的過程。在這個復(fù)雜的決策過程中,它需要不斷地去摸索怎么一步步走下去,慢慢地理解為什么要這么走。而人類在平時生活工作中也會遇到很多類似的情況。比如當(dāng)面臨很多選擇的時候,怎么做決定?當(dāng)失敗的時候該怎么辦?這都跟這種小游戲背后的原理很像。所以,我們?nèi)パ芯窟@類小游戲,就可以讓人工智能更容易理解人的決策過程,并在人工智能不斷變聰明的過程中了解人的智能是怎么形成的?!?/p>
除了小游戲外,興軍亮帶著團隊還做了一款德州撲克的游戲AI。它的復(fù)雜度跟圍棋差不多,都是10的百次方。它的難點在于每個人手上都有兩張私有牌。持有的牌小的時候也不一定會輸,因為可以假裝很大,押很大的注,把對方嚇跑,這就涉及不完美信息的博弈問題。
為讓機器學(xué)會打這種游戲,興軍亮他們用了十余臺計算服務(wù)器,每臺有8個GPU、2個CPU和1TB的內(nèi)存,集中這么大的算力,讓AI不斷地自己跟自己打牌。用了大概20多天,共打了1億局左右,最后AI達到了很高的博弈水平。最近,興軍亮的研究組又進一步提升了游戲?qū)W習(xí)的性能,僅僅使用一臺服務(wù)器訓(xùn)練不到3天就能讓AI達到極高的博弈水平?!八訟I會學(xué)習(xí)一些類似于人類專業(yè)選手才會有的計謀,這也是這種不完美信息博弈最有趣的地方?!迸d軍亮說。
為了推廣這個不完美信息博弈研究的環(huán)境,讓AI更聰明,也為了讓人理解AI的決策過程,后來他們還做了一套德州撲克在線人機對抗平臺OpenHoldem(http://holdem.ia.ac.cn/),目前已對外開放。
“這個系統(tǒng)可能是目前國內(nèi)唯一的一個能夠公開打德州撲克的地方,也歡迎大家注冊到這個系統(tǒng)中跟AI打撲克,試試AI的水平,也幫助AI不斷提升。”興軍亮介紹?!俺?,我們還做了一款麻將AI。麻將和德州撲克有一個共性,都會有私有信息。但麻將相對于德州撲克來說難度會更大,因為未知的牌更多,所以它的信息缺失程度更大。我們打一盤麻將通常要幾十個回合才能玩完,所以它的決策過程也更復(fù)雜。我們做這個程序時,不想再像德州撲克那樣靠那么多機器去算,會特別耗電。我們希望在算力有限的情況下,通過算法的改進,盡快讓AI學(xué)到比較高的水平。所以我們設(shè)計了很多不同的算法策略,進行改進和提升。之后我們也會把這個麻將AI放到網(wǎng)上讓大家玩,一方面可以幫助AI學(xué)習(xí),另一方面提升自己牌技,過年回家打牌可以多贏點?!?/p>
但在麻將、德州撲克和單機小游戲中,只是讓一個智能體學(xué)習(xí)如何與其他玩家或環(huán)境博弈。實際上,現(xiàn)實中很多問題是要多個智能體一起學(xué)習(xí),而且要相互配合。為解決多智能體博弈的求解問題,興軍亮帶領(lǐng)團隊又開展了基于博弈對抗的足球推演系統(tǒng)研究?!白闱虮荣愂?1個球員跟11個球員對打,這里面的配合、戰(zhàn)術(shù)、戰(zhàn)法都會更復(fù)雜,其復(fù)雜度又增加了很多個數(shù)量級。這個工作還處于前期,目前取得了一些初步成果,很多AI學(xué)會了快速突防、門前補射等戰(zhàn)術(shù)。未來希望能使這11個智能體同時學(xué)習(xí),并配合得到更好的結(jié)果。我們也希望這些研究能提升中國足球的水平,得到一些可取的參照經(jīng)驗?!迸d軍亮說。
從2016年轉(zhuǎn)到游戲博弈研究后,興軍亮也慢慢建立起了自己的團隊?!艾F(xiàn)在的學(xué)生都非常有想法和個性,所以對他們的培養(yǎng)需要因材施教。而且還要多跟他們交流,讓他們愿意把心里話告訴我,所以我跟他們是亦師亦友的關(guān)系?!迸d軍亮談起了與學(xué)生的相處方式。
興軍亮認(rèn)為這些聰明的學(xué)生,理應(yīng)心懷高遠,從國家的角度出發(fā),去解決一些更大、更重要的問題。他希望他們不要被外界的誘惑和壓力影響,能在最寶貴的時光里做最重要的事情。雖然很多學(xué)生能做到,但也有一部分學(xué)生因為種種原因不能全身心去投入。
“我認(rèn)識很多人非常有天賦,但最后他們選擇去了更賺錢的地方,也是迫于生活等各方面的壓力。其實每個行業(yè)都一樣,都在選擇合適的人做合適的事。中科院、清華、北大等院所、高校出來的研究生,是百里挑一、萬里挑一的優(yōu)秀人才,他們是最適合解決科學(xué)和工程研究難題的那批人,這些人都去干別的事情了,國家的科技發(fā)展要靠誰?”興軍亮說,對人才的流失心里很擔(dān)憂。
雖然環(huán)境的影響讓職業(yè)選擇更加多元化,但興軍亮還是希望有更多人投入到科研事業(yè)中來,于是他經(jīng)常去學(xué)校做科普,希望有更多學(xué)生未來能成為科學(xué)家。面對充滿變數(shù)的國際形勢,他更呼吁海外的那些優(yōu)秀科技人才能回來,加入到為祖國科技發(fā)展作貢獻的隊伍中來,讓技術(shù)更聰明、人們生活更美好、國家更富強。
而對興軍亮來說,眼下最重要的是把正在開展的項目“大規(guī)模不完美信息博弈高效求解方法研究”完成好。他介紹,不完美信息動態(tài)博弈在經(jīng)濟政策制定、法律法規(guī)優(yōu)化、外交策略選擇等諸多領(lǐng)域具有廣泛應(yīng)用。國外以加拿大阿爾伯特大學(xué)和美國卡內(nèi)基梅隆大學(xué)為代表的研究機構(gòu)長期致力于大規(guī)模不完美信息博弈的求解技術(shù)研究,近年來取得了諸多進展,而國內(nèi)相關(guān)研究積累非常薄弱,與國外存在很大差距。
而正在開展的項目不僅面向一些實際應(yīng)用需求,而且匹配了科技部發(fā)布的《科技創(chuàng)新2030——“新一代人工智能”重大項目2019年度定向項目申報指南》的技術(shù)方向。以突破大規(guī)模不完美信息博弈高效求解技術(shù)為牽引,重點研究兩人及多人不完美信息博弈建模與均衡分析方法、大規(guī)模不完美信息博弈計算與優(yōu)化學(xué)習(xí)技術(shù)、不完美信息博弈性能評價指標(biāo)和高效評測協(xié)議等內(nèi)容,項目最終想要實現(xiàn)的目標(biāo)是:形成一個開放的不完美信息博弈在線評測和訓(xùn)練研究平臺,從而打破國外相關(guān)研究機構(gòu)在該研究領(lǐng)域的壟斷地位,推動國內(nèi)在不完美信息博弈及相關(guān)研究領(lǐng)域的技術(shù)發(fā)展和應(yīng)用轉(zhuǎn)化。
興軍亮介紹,在人工智能領(lǐng)域有個很明顯的現(xiàn)象,一旦一款游戲被攻破、一個目標(biāo)被實現(xiàn),它所用的這個技術(shù)就不屬于人工智能了。這既是一個殘酷的現(xiàn)實,又給相關(guān)科研人員不斷帶來希望,他們可以通過更復(fù)雜的游戲,讓AI不斷進步?!耙苍S某一天,游戲AI在某個領(lǐng)域戰(zhàn)勝了人,但是它還需要去完成一些更復(fù)雜的任務(wù),以更好地去幫助人、替換人。所以這個領(lǐng)域可能不會遇到我之前研究視覺問題時面臨的失業(yè)問題,因為我們會持續(xù)地研究下去,直到最后得到一個更聰明、更有用、可與人類融為一體的人工智能?!迸d軍亮說。