2011年,在中山大學(xué)即將碩士畢業(yè)的羅平寄出了一份厚厚的郵件,這份郵件要寄給彼時正在香港中文大學(xué)任教的湯曉鷗教授。湯曉鷗是全球人臉識別技術(shù)的“開拓者”和“探路者”,為補香港中文大學(xué)信息工程系在圖像處理上的短板,他于2001年創(chuàng)立了“多媒體實驗室”(又稱MMLAB),主要研究系統(tǒng)性能與人臉識別。在研讀學(xué)術(shù)論文時,MMLAB的研究吸引到羅平,促使他萌生了加入實驗室繼續(xù)深造的想法,于是認(rèn)真準(zhǔn)備了一份簡歷。塑料皮精美封裝、彩色打印,這份用心設(shè)計的簡歷成功引起湯曉鷗的注意?!皽蠋熢貞?,他之前和后來從未遇到過設(shè)計如此獨特的簡歷?!绷_平笑著說。
正是這份簡歷,牽起了羅平與湯曉鷗、王曉剛(商湯研究院院長、香港中文大學(xué)電子工程系教授)的師生緣。師從兩位計算機視覺領(lǐng)域的頂級專家讀博士,羅平獲得了在學(xué)術(shù)上的迅速成長,并成為亞洲最早將深度學(xué)習(xí)應(yīng)用于計算機視覺的研究者之一。
梳理羅平的科研足跡,從紅樓疊影的中山大學(xué)、萬木蔥籠的蓮花山計算機視覺研究院、兼容并蓄的香港中文大學(xué)、堅持原創(chuàng)的商湯科技到亞洲“常春藤”香港大學(xué),伴隨時空的變化,他的研究也經(jīng)歷了從軟件工程、計算機視覺、深度學(xué)習(xí)向更廣泛的人工智能方向轉(zhuǎn)變。歪打正著,羅平在科研上的步伐都不偏不倚踩在了計算機學(xué)科發(fā)展的點上。在慶幸這份幸運的同時,羅平也承認(rèn)面臨的壓力。計算機視覺在過去5年的發(fā)展,對于羅平這些身處領(lǐng)域中的研究者來說,是帶有“洗劫”性質(zhì)的破壞性創(chuàng)新。如何打破壁壘,在瞬息萬變的破壞性創(chuàng)新中建立更合理的機制,讓羅平的思維一直保持在最活躍的狀態(tài)。
蓮花山“朝圣”
“羅平博士開發(fā)了具創(chuàng)新性的人工智能技術(shù),以教授機器人理解豐富的人類語言與行為,如人臉姿態(tài)與語言、人臉屬性與情感、肢體動作、服飾和社會關(guān)系等。相信人類智能在任何人工智能系統(tǒng)中都扮演著重要角色,通過構(gòu)建人類智能和人工智能的協(xié)作橋梁,能夠極大提升AI技術(shù)的性能?!边@是2020年入選“35歲以下科技創(chuàng)新35人”亞太地區(qū)榜單時,《麻省理工技術(shù)評論》給羅平的頒獎詞。
其實在此前,羅平已贏得諸多獎項,2014年國際圖像識別挑戰(zhàn)賽(ImageNet ILSVRC)亞軍、2017年DAVIS視頻分割挑戰(zhàn)賽冠軍、2017年八百萬Youtube視頻識別挑戰(zhàn)賽金牌及2018年自動駕駛可駕駛車道區(qū)域分析冠軍等。為表彰他們最早把深度學(xué)習(xí)應(yīng)用于人臉識別的原創(chuàng)性工作,羅平和湯曉鷗還在2013年被授予微軟學(xué)者獎。獎項對于羅平,不僅是領(lǐng)域內(nèi)對他工作的認(rèn)可,也記載了他的科研軌跡。
成為醫(yī)生,是高中時羅平對職業(yè)的向往。報考大學(xué)時,他的第一志愿是中山大學(xué)的8年制醫(yī)學(xué)專業(yè),但未能如愿,最后被第一年招生的軟件工程專業(yè)錄取。所以進入計算機這一正在快速發(fā)展的領(lǐng)域,在羅平是機緣巧合。
學(xué)習(xí)過程中,羅平發(fā)現(xiàn)自己對計算機科學(xué)有極大興趣。專業(yè)開設(shè)課程豐富,讓羅平迅速積累了不少知識。因在課后加入了朝紅陽老師組織的科研小組,羅平在大三時就有機會參與到一個“863”課題的攻關(guān)中。完整參與一個大項目,對于一個本科生來說是一個很高的起點,羅平幸運地踩到了這個點上。
項目由蓮花山計算機視覺研究院、北京電影學(xué)院動畫學(xué)院、中山大學(xué)三方共同申請,目標(biāo)是研發(fā)中國第一個具有自主知識產(chǎn)權(quán)的動漫制作系統(tǒng)與數(shù)據(jù)庫。由全球著名計算機視覺專家朱松純教授帶領(lǐng)的蓮花山計算機視覺研究院負(fù)責(zé)算法與理論研究,北京電影學(xué)院動畫學(xué)院提供動畫素材與專業(yè)的動畫制作流程,中山大學(xué)負(fù)責(zé)軟件工程實踐。
大三被派至蓮花山,直到從中山大學(xué)碩士畢業(yè),羅平一直都在那里開展研究。蓮花山環(huán)境優(yōu)美,令人心曠神怡。在風(fēng)景如畫之處能跟隨領(lǐng)域內(nèi)的大專家學(xué)習(xí),接觸當(dāng)時最頂級的計算機視覺研究,對羅平來說是一種超值的收獲。
朱松純是湖北鄂州人,2005年,他在故鄉(xiāng)創(chuàng)辦蓮花山計算機視覺研究院,籌建了世界上最早的大數(shù)據(jù)標(biāo)注團隊之一,發(fā)布了以精細(xì)化程度高、語義信息豐富著稱的大規(guī)模數(shù)據(jù)庫LHI Dataset?!坝酶怕誓P妥鲞吘壧崛。M行人臉識別研究,是當(dāng)時計算機視覺的主流,朱老師又是代表人物,因此蓮花山成了‘圣地’,吸引了大批人來此‘朝圣’?!绷_平說。
被譽為“AI教母”的李飛飛,創(chuàng)建了數(shù)據(jù)庫ImageNet。業(yè)內(nèi)評價:“沒有ImageNet,就沒有現(xiàn)在的深度學(xué)習(xí)革命?!倍鳬mageNet概念的起源,與2005年李飛飛到蓮花山的一次參會有或多或少的關(guān)聯(lián)。
2003年,朱松純因在做圖像解譯方面的突破拿到了計算機視覺的最高榮譽馬爾獎,隨后他牽頭舉辦了首屆“蓮花山計算機視覺與模式識別國際研討會”,此時李飛飛剛從美國加州理工學(xué)院博士畢業(yè),受邀參加了會議。
會后,李飛飛認(rèn)識到基于統(tǒng)計的算法極度依賴數(shù)據(jù)集的規(guī)模和代表性,大多數(shù)研究者都只是在盡可能地尋找更好的算法,但他們訓(xùn)練模型所基于的數(shù)據(jù)卻并不能反映真實的世界,這樣即使再好的算法也不會訓(xùn)練出有用的結(jié)果。因此她決定構(gòu)建一個足夠大的能夠反映真實世界的開放數(shù)據(jù)集。
2007年年初,李飛飛回到美國普林斯頓大學(xué)任教,同時啟動了ImageNet項目。通過眾包平臺,李飛飛有效避開了此前朱松純在構(gòu)建LHI Dataset時遇到的資金和時間上的瓶頸問題。到2009年,ImageNet已經(jīng)完成了320萬張圖片的標(biāo)注,而后來ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)的成功舉辦,更是大家有目共睹的。
“蓮花山上最前沿的計算機視覺研究啟發(fā)了很多曾在那里待過的人,也包括我?!绷_平說。本科時,他已在圖像處理的頂級會議發(fā)表論文,2009年碩士第一年他就在計算機視覺三大會之一的歐洲計算機視覺國際會議(ECCV)上發(fā)表文章。
“那個年代沒有深度學(xué)習(xí),通過設(shè)計圖像的語法,像名詞、動詞、形容詞那樣去描述圖像,每一個計算部件在模型里負(fù)責(zé)什么,解釋得非常清楚、完美?!庇媒y(tǒng)計建模的方式去做計算機視覺,開拓了羅平的視野,也為他后來的研究奠定了扎實基礎(chǔ)?!澳茉谏徎ㄉ浇佑|到當(dāng)時世界最好的計算機視覺科研,我覺得是一件很神奇的事情?!绷_平說。
探路新方向
在蓮花山研發(fā)動漫制作系統(tǒng)時,羅平注意到了一些新的系統(tǒng)功能需求,例如把各種場景重新分割,不同因素再組合,制作新的動畫。這需要做視頻結(jié)構(gòu)化研究,包括視頻解析、視頻分割、物體跟蹤等。另外如何把二維圖片做成三維模型,也是一大功能需求。
在研讀論文時,羅平了解到香港中文大學(xué)的湯曉鷗在做這樣的工作,在平面上畫線,能直接生成三維圖形。被這項工作深深吸引的羅平,認(rèn)真準(zhǔn)備了那份自薦信。收到信后,湯曉鷗沒有猶豫,將羅平收入麾下。師從湯曉鷗和王曉剛兩位計算機視覺領(lǐng)域的領(lǐng)軍人物,羅平在香港中文大學(xué)度過了3年的博士求學(xué)時光。
兩位恩師給羅平帶來的影響很大,包括從論文選題、實驗到寫作風(fēng)格,剛開始都需要通過學(xué)習(xí)和模仿他們來得到提高。通過持續(xù)學(xué)習(xí),羅平逐漸發(fā)展出自己的風(fēng)格。
羅平之前的研究注重計算機視覺的建模跟理論,不太關(guān)注性能指標(biāo)的評估。到香港后,他發(fā)現(xiàn)原來計算機視覺可以有非常嚴(yán)謹(jǐn)?shù)模踔羾?yán)謹(jǐn)?shù)接行┛鋸埖拇罅啃阅茉u測?!八麄兎浅W⒅厮惴▽嶋H落地的效果,會想方設(shè)法地證偽,去跟別人‘PK’,來確定究竟哪些方向真正值得提高,這是我之前從未接觸過的。”羅平說。
在香港求學(xué)更將羅平領(lǐng)入了一個全新的方向。2009年,微軟第一次將深度學(xué)習(xí)應(yīng)用于大規(guī)模語音識別,只用了很短的時間就完成了微軟一個龐大團隊花幾個月做的事,在業(yè)內(nèi)引起了轟動。敏銳的湯曉鷗很快嗅到這個新方向的潛力:他心想,語音的信號與視覺差不多,既然深度學(xué)習(xí)能在語音上取得驚人的效果,那深度學(xué)習(xí)也可能在視覺上取得驚人的效果。于是他當(dāng)即和王曉剛商量。
王曉剛在讀博時研究計算機視覺的方法主要是概率圖模型,但也聽過深度學(xué)習(xí),也很感興趣,堅定要研究深度學(xué)習(xí)。對于這個當(dāng)時很少人關(guān)注的方向,湯曉鷗和王曉剛選擇了兩位學(xué)生來探索,其他人繼續(xù)做原來的工作。這兩位被選中的學(xué)生之一便是羅平?!皽蠋熀髞砀伊模驗樗X得我在入學(xué)前已經(jīng)有頂會的文章,不用那么著急發(fā)文章,可以慢一點嘗試一些新探索?!绷_平說。
湯曉鷗團隊算得上是亞洲計算機視覺領(lǐng)域最早進行深度學(xué)習(xí)研究的團隊。2011年開始做深度學(xué)習(xí)時,條件還很差。早期深度學(xué)習(xí)框架還沒出現(xiàn),全球能跑通深度學(xué)習(xí)的團隊屈指可數(shù),他們從零開始,是摸著石頭過河。最開始,他們是用C++寫代碼在筆記本電腦來跑數(shù)據(jù)。羅平回憶,他發(fā)表在國際計算機視覺與模式識別會議(CVPR)上的第一篇深度學(xué)習(xí)文章是在個人筆記本電腦上完成的。因為當(dāng)時他們根本沒有拿CPU跑數(shù)據(jù)的意識,結(jié)果一個研究做了幾個月,都沒有獲得好的實驗結(jié)果。
湯曉鷗在深圳先進院有任職,與內(nèi)地學(xué)者深入合作,可以申請一些內(nèi)地的項目,拿到經(jīng)費后才買了很多CPU。而那時王曉剛也還是一個處于長聘制考核中的助理教授,其實很有壓力。但他一直堅持和大家一起失敗了又繼續(xù),從來沒有放棄。
當(dāng)時卷積神經(jīng)網(wǎng)絡(luò)用于深度學(xué)習(xí)研究的工具屬性已初見端倪,但一開始,羅平并沒有嘗試使用卷積神經(jīng)網(wǎng)絡(luò),因為大家開始注意到它,其實是在2012年的ImageNet比賽上它取得很大成功后?!拔覀冏钤缡褂玫倪€是玻爾茲曼機這樣的模型,其實還是統(tǒng)計學(xué)習(xí)建模那套東西,我在蓮花山學(xué)的就是統(tǒng)計建模,這套東西對我來說非常熟。后來卷積神經(jīng)網(wǎng)絡(luò)提供了強大的工具,把它與統(tǒng)計建模結(jié)合,有基礎(chǔ)加上工具,這可能也是我后來進展比較快的原因?!?/p>
隨后,羅平在計算機視覺和深度學(xué)習(xí)上做出了一系列開創(chuàng)性成果,2012年他率先將深度學(xué)習(xí)用于人臉分割、人臉生成等領(lǐng)域。與此同時,他做的人臉關(guān)鍵點工作還是多任務(wù)深度學(xué)習(xí)的代表性工作。
羅平和團隊伙伴的探索,掀起了深度學(xué)習(xí)應(yīng)用于計算機視覺研究的熱潮。2011年計算機視覺領(lǐng)域頂會CVPR與深度學(xué)習(xí)相關(guān)的文章只有4篇,如今CVPR一年接收2000多篇文章,全部都與深度學(xué)習(xí)相關(guān)。而對于羅平他們來說,先行一點點,就與別人拉開了很大距離。據(jù)統(tǒng)計,2011年到2013年,羅平所在的MMLAB在國際計算機視覺大會(ICCV)和CVPR上一共發(fā)表了14篇基于深度學(xué)習(xí)的研究論文,占了兩大頂會在全球范圍內(nèi)接收的深度學(xué)習(xí)論文總量(29篇)的一半。
當(dāng)時,香港中文大學(xué)的學(xué)者在全球計算機視覺研究領(lǐng)域被封神。羅平記得去北京領(lǐng)微軟學(xué)者獎時,已故曠視科技公司首席科學(xué)家孫劍曾對他說:“我從來沒想過人臉識別可以這么做?!边@對羅平是一個肯定的評價。
如此年輕,又在一個嶄新的領(lǐng)域取得如此突出的成績,有人曾問過羅平當(dāng)時有沒有膨脹。他笑著坦言,確實出現(xiàn)過小插曲,讓他錯過了一個更大的成果。獲得微軟學(xué)者獎,就等于不用面試,直接拿到微軟重要科研小組的實習(xí)入場券,但羅平是為數(shù)極少的拿到獎卻從來沒去實習(xí)過的人。
“湯老師當(dāng)時給我的規(guī)劃其實是跟著何愷明(計算機視覺領(lǐng)域著名學(xué)者)去做一些事情,但我手上有很多課題,覺得都能出不錯的論文,所以就完美錯過了下一波熱點——何愷明領(lǐng)銜的深度殘差網(wǎng)絡(luò)開發(fā)?!绷_平說。
盡管如此,羅平所在的香港中文大學(xué)MMLAB還是吃到了深度學(xué)習(xí)應(yīng)用于計算機視覺領(lǐng)域發(fā)展的紅利。到了2014年,MMLAB在深度學(xué)習(xí)視覺上的研究已經(jīng)突破了學(xué)術(shù)與科研的邊界,開始體現(xiàn)出落地與產(chǎn)業(yè)化的態(tài)勢:2014年3月的高斯人臉識別(GaussianFace)算法在LFW數(shù)據(jù)庫上準(zhǔn)確率達到98.52%,首次超過人眼識別率;6月的DeepID系列算法將準(zhǔn)確率提升至99.55%,突破落地門檻。
資本的嗅覺很敏銳,MMLAB獲得了高達數(shù)千萬美元的天使輪投資。中國視覺人工智能市場從此拉開帷幕。2014年10月,商湯科技成立。
在“破壞”中突圍
2014年年底,從香港中文大學(xué)畢業(yè)后,羅平加入商湯科技,偏向于市場和企業(yè)需求,他為淘寶、阿里巴巴做了服裝品類分析、識別,線上換裝等相關(guān)的計算機視覺落地應(yīng)用研發(fā)和技術(shù)儲備工作,雖然工作開展順利,但他一直有回到學(xué)術(shù)界的想法。
羅平感恩路上遇到的恩師、前輩,湯曉鷗、王曉剛及香港大學(xué)的王文平教授都是助力他成長的貴人。前兩位恩師將他帶入一個全新的領(lǐng)域,后一位前輩則將他帶回了學(xué)術(shù)界。
與王文平的兩次交集,羅平記憶深刻。一次是2011年申請讀博士時,王教授曾去中山大學(xué)面試,面試完后與羅平握了手,說“希望你能來”。另一次是2019年找教職,王教授告訴他香港大學(xué)有好機會,入職第一天,他又跟羅平握了手。王文平溫文儒雅、德行高尚,尤其他的兩次握手為羅平留下了深刻印象?!耙驗橐粋€德高望重的人會主動過來跟你握手,對年輕人是非常大的觸動?!绷_平說。
回到學(xué)術(shù)界的羅平,也回到了血雨腥風(fēng)的“主戰(zhàn)場”,回顧過去5年,他坦言自己一直在尋求突破,嘗試在破壞中建立新的機制?!皩W(xué)術(shù)界變化非???,深度學(xué)習(xí)的定義、計算機視覺的一些根本假設(shè),它們的變化都是破壞性的發(fā)展,特別是2022年OpenAI發(fā)布了ChatGPT,計算機視覺領(lǐng)域在過去5年被‘洗劫’了很多次?!绷_平說。
每次面對破壞性的變化,羅平都不會回避,而是直接迎上去。從卷積神經(jīng)網(wǎng)絡(luò)、基礎(chǔ)模型到生成式模型,在破壞性創(chuàng)新帶來的挑戰(zhàn)中,羅平帶領(lǐng)團隊不斷突圍,力圖去建立更合理的機制。
2023年8月,上海舉辦了第一屆生成式人工智能(AIGC)國際會議,羅平參會并擔(dān)任會議程序委員會聯(lián)合主席?!霸贑hatGPT、AIGC快速發(fā)展的背景下,首屆、也是世界范圍內(nèi)第一個專門針對人工智能生成內(nèi)容的國際會議在上海舉辦,也證明了我們直面破壞性變化的勇氣和胸懷?!绷_平坦言。
香港的科研支持主要來自于企業(yè)的捐贈,在此支持模式下,羅平追蹤著計算機視覺最前沿的技術(shù)發(fā)展。同時,他也承擔(dān)著科技部2030下一代人工智能重點研發(fā)計劃課題。他透露了目前課題進展情況:“各項指標(biāo)超前,甚至還在不停迭代?!?/p>
羅平回憶,在MMLAB求學(xué)時,開會時每個學(xué)生都要上臺用一句話總結(jié)自己想要做的工作,而湯曉鷗的要求是,這句話必須總結(jié)到位,只要別人聽這一句話,就能立刻判斷出這個課題是否有研究的價值。
湯曉鷗選題就兩個標(biāo)準(zhǔn):一個是開辟一個新方向,另一個是結(jié)束一個方向。2019年回到香港大學(xué)后,羅平指導(dǎo)學(xué)生和開展研究的要求也是如此。
“我指導(dǎo)學(xué)生的風(fēng)格完全受湯老師的影響,他是那種不會說‘不’的人,你有任何想法、意愿跟要求,他都盡量想辦法無條件地滿足。他學(xué)生很多,博士生加上一些訪問學(xué)者,整個師門算下來有四五百人,我相信大家都覺得他是世界上最好的人?!绷_平說。
羅平想成為湯曉鷗那樣的人,他也在用行動去成為那樣的人,給學(xué)生創(chuàng)造機會,鼓勵他們做獨一無二的創(chuàng)新,尊重他們的想法,并適當(dāng)引導(dǎo)。在學(xué)生眼中他是一個很棒的人。采訪中,羅平的學(xué)生胡宇韜和紀(jì)源豐提到老師時都非常敬重和佩服他。
湯曉鷗將香港中文大學(xué)建成了中國計算機視覺的“黃埔軍?!?,在他選擇一條冷清的道路時,有一批校友與他同行,隨后又遇到羅平等同路人繼承出新,他們走在了時代的前面,也得到了時代的饋贈。2023年湯曉鷗的故去,讓羅平對未來要走的路做了認(rèn)真思忖。
未來,羅平愿將科研與基金事業(yè)揉到一起,他正在參與籌備MMLAB慈善基金,希望基金能為實驗室成員及他們的孩子提供一些幫助,尤其鼓勵他們投入人工智能跟交叉學(xué)科的研究中來?!拔蚁嘈?,這也是湯老師和他的家人都希望看到的。”在不確定的探索中繼續(xù)前進,總有人與羅平共闖“華山”。