作為一門多領域交叉學科,機器學習涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等,是研究怎樣使用計算機模擬或實現(xiàn)人類學習活動的科學,被公認為人工智能的核心。早在1950年,計算機科學之父艾倫·麥席森·圖靈(Alan"Mathison"Turing)就曾提議建立一個學習機器,但是直到2000年年初,機器學習才有了突破性的進展。20世紀80年代以來,機器學習作為實現(xiàn)人工智能的關鍵途徑引起了廣泛關注,尤其是近十幾年來,機器學習領域的研究工作發(fā)展進入快車道。隨著以深度學習為代表借鑒人腦的多分層結構、神經(jīng)元的連接交互信息的逐層分析處理機制,以及自適應、自學習的強大并行信息處理能力取得多方面的突破性進展,機器學習不僅在基于知識的系統(tǒng)中得到應用,而且在自然語言理解、非單調(diào)推理、機器視覺、模式識別等許多領域也得到了廣泛應用。
在今天,大數(shù)據(jù)時代的到來為機器學習的發(fā)展帶來了新的挑戰(zhàn)。大數(shù)據(jù)時代的機器學習更多地被視為一種服務技術,如何基于機器學習對復雜多樣的數(shù)據(jù)進行深層次的分析,更高效地利用信息成為當前大數(shù)據(jù)環(huán)境下機器學習研究的主要方向。但隨著數(shù)據(jù)產(chǎn)生速度的持續(xù)加快,數(shù)據(jù)的體量有了前所未有的增長,同時,需要分析的新的數(shù)據(jù)種類也在不斷增加。這就導致了如今機器學習在應用層上面臨三大困境:復用(使用)門檻高、數(shù)據(jù)門檻高、認知門檻高。幾十年來,研究發(fā)展機器學習的方法種類很多,清華大學電子工程系助理教授姚權銘認為:“機器學習這一基礎學科最大的作用,就是幫助人們從數(shù)學角度搞清楚人工智能為什么能工作。因此,要解決當下機器學習技術面臨的三大困境,可以從一種抽象的數(shù)學雙層優(yōu)化模型入手?!边@將是他在未來幾年中的工作重心之一。
求學與積淀
——如何做好的研究
2009年是姚權銘人生中意義非凡的一年。這一年,他以優(yōu)異的成績考入華中科技大學電子工程系,邁出了通往科研殿堂的第一步。
在華中科技大學計算機科學與技術學院“只爭朝夕,不負時代”“協(xié)作、創(chuàng)新、修德、開拓”的學科特色文化影響下,姚權銘逐漸具備了“服務國家,敢于競爭,團結協(xié)作,勇于創(chuàng)新”的精神品格。他所在的基于導師制的人才孵化站(Dian團隊)更是以培養(yǎng)隊員高尚的道德情操、優(yōu)秀的工作作風和扎實的專業(yè)技能為目標,將導師制、科研團隊及工程實踐相結合,通過“在干中學”的方式,以科研課題為牽引,選拔優(yōu)秀學生直接參與科研活動。得益于這樣優(yōu)秀的人才培養(yǎng)模式,姚權銘早早地就奠定了自己工作和探索的風格,并獲得校園年度“發(fā)明創(chuàng)造之星”稱號和香港科技大學直博資格。
“物有甘苦,嘗之者識;道有夷險,履之者知?!痹谂匀丝磥砜菰锏牟┦可蒲袣v程里,姚權銘以攻堅克難為樂,學以致用、以用促學,讓理想之火熊熊燃燒,收獲了累累碩果:2015年獲謝卓毅研究卓越獎,2016年獲谷歌全球博士獎學金(2016年全球13位獲獎人中,泛亞地區(qū)唯一獲獎者),2019年獲香港科技大學工程學院博士研究卓越獎,成果“抗噪標簽算法合作教學(Co-teaching)”為當年十大高引論文之一……“這背后離不開學校、導師、團隊的悉心支持與培養(yǎng)。”他說,“在我科研生涯的第一個階段——求學階段中,如果要問‘我得到的最寶貴的財富是什么?’那就是我明白了‘什么是好的研究’‘應當如何做好的研究’?!庇纱耍嚆戇~出了通向科研生涯第二個階段的堅定步伐。
社會與實踐
——明確意義和需求
于香港科技大學計算機系取得博士學位之后,姚權銘前往第四范式創(chuàng)業(yè)公司擔任高級科學家,創(chuàng)建和領導第四范式創(chuàng)業(yè)公司的機器學習組,成為國內(nèi)最早一批從事自動化機器學習的研究團隊。
彼時,之所以選擇第四范式創(chuàng)業(yè)公司,是因為姚權銘想要明確一個問題:“科研的社會意義是什么?我所學習的知識,我所從事的研究,到底能為社會發(fā)揮怎樣的積極作用?”在他科研生涯的第二個階段中,找尋這一答案既是行為動力,亦是主要目標。實踐報國的精神在他身上傳承,經(jīng)世濟民的夢想在他身上延續(xù)。他知道,只有面向社會、面向市場,才能真正了解社會對技術的需求是怎樣的。
在面向需求,追求效益的同時,姚權銘也從未放下心中崇高的理想信念:“比起短期內(nèi)高回報的‘流水線’工程,我更愿意做需要長期投資的,具有深遠影響的工作?!边@一點在他的人才培養(yǎng)理念上表現(xiàn)得尤為明顯。面對每一位想要加入團隊的年輕學者,無論對方多么優(yōu)秀,姚權銘做的第一件事情都是“勸退”,他解釋說:“團隊優(yōu)秀與否并不取決于規(guī)模大小,我想尋找的是愿意長期在這一領域專心做研究,能夠沉下心服務社會和國家的合作伙伴。如果在‘勸退’的前提下,對方仍堅持加入,我雖然不能斷定對方一定有這樣的覺悟和堅持,但起碼他是有準備的?!币嚆懴嘈?,只要心中有共同的信念和目標,無論面臨怎樣的困難,團隊最終都能克服并一起走向成功。
雖然嘴上從來不對團隊成員說起,但姚權銘打心眼兒里看好團隊中的年輕學者?!八麄兌际且粠秃軆?yōu)秀的學生,我希望他們能夠考慮得更長遠,讓研究更深入一點,讓職業(yè)發(fā)展前景更廣闊一點。只有獨立認真思考,努力拼搏拿到的成果,自己過5年之后才愿意看,如果太急功近利,把團隊的部分積淀變成自己的文章,雖然短期內(nèi)看起來收益很高,但其實是害了自己?!币虼?,他對學生的要求一向很高,就連他自己也不得不承認:“做我的學生很辛苦?!?/p>
帶領公司的機器學習組在市場中摸爬滾打3年,積累了豐富的成果產(chǎn)業(yè)化經(jīng)驗之后,對于當初的“科研意義之問”,姚權銘已然有了深刻體悟:“即便是從事基礎研究,我們也必須立足需求,在基礎之上,解決領域內(nèi)的務實問題。歸根結底,自動化機器學習的意義就是要降低社會解決某一問題的成本?!?/p>
2020年,國際財經(jīng)商業(yè)雜志《福布斯》公布了“2020年中國30歲以下精英榜(30"Under"30)”。由于一直以來帶領機器學習研究團隊為行業(yè)發(fā)展作出的突出貢獻,姚權銘榮登科學與醫(yī)療健康領域的精英榜。然而,正當其所帶領的“第四范式機器學習組”逐漸成長并預備走上正軌時,姚權銘卻意識到,從企業(yè)發(fā)展的角度來看,支撐科研團隊不計成本地從事影響更加深遠的研究并不現(xiàn)實,細水長流的科研和優(yōu)質人才的養(yǎng)成需要更加穩(wěn)定的平臺,團隊創(chuàng)新力、洞見力的維持與提升也需要有源源不斷的優(yōu)質人才加入?;谝陨峡紤],姚權銘認為,高校無疑是更加合適的發(fā)展平臺。于是2021年6月,他正式辭去企業(yè)職務,來到清華大學,開啟了科研新征程。
研學和育人
——開拓機器學習新范式
從工業(yè)界回到學術界,成為清華大學電子工程系助理教授后,姚權銘關心更長遠的問題:“一個人走很快,一群人走更遠。怎么能夠凝一群優(yōu)質人才,讓大家愿意承受失敗的風險去做一些更有創(chuàng)造力的事情?這是非常重要的。”為國家的長遠未來儲備優(yōu)質人才、積累更具影響力的科研技術,就是其當下科研生涯第三個階段中的奮斗目標。
在人才培養(yǎng)方面,姚權銘充分發(fā)揮自己的“橋梁”作用,積極推動產(chǎn)業(yè)界和學術界的廣泛合作與交流。在他的極力促成下,清華大學與第四范式創(chuàng)業(yè)公司及香港科技大學的一些研究團隊之間已經(jīng)形成了研究上互補、人才培養(yǎng)上互助的良好合作模式。同時,姚權銘在清華大學新組建的課題組也已初步成長起來,并且和百度、斯坦福、加州大學洛杉磯分校等企業(yè)、高校建立起了長期合作關系。得益于這種良好的產(chǎn)學研合作環(huán)境和各方的協(xié)同合作,近兩年來,姚權銘團隊已發(fā)表論文超過30篇,積累了小樣本學習工具包等產(chǎn)品的商業(yè)化成功經(jīng)驗,獲得了學術界與產(chǎn)業(yè)界的高度評價。
在科研創(chuàng)新方面,姚權銘帶領團隊延續(xù)此前自動化機器學習方向,展開了更深一層的探索。具體而言,在大數(shù)據(jù)時代到來的今天,機器學習更多地被視為一種服務技術,這也為機器學習學科的發(fā)展帶來了新的機遇與挑戰(zhàn)。如何基于機器學習技術對復雜多樣的數(shù)據(jù)進行深層次的分析,更高效地利用信息,成為當前大數(shù)據(jù)環(huán)境下機器學習研究的主要方向。與此同時,數(shù)據(jù)稠密型的機器學習方法,即“海量參數(shù)+巨大模型”,已經(jīng)成為機器學習應用的主流范式。但是此類方法在3個方面的問題日漸顯著:使用門檻高、數(shù)據(jù)門檻高、認知門檻高。這意味著在進行機器學習的自動化編程過程中,即便要做到對寫字、畫畫這樣的簡單情景的識別與理解都伴隨著巨大的成本支出。可要想逾越這些門檻,無疑是耗時又耗力的,它們的存在一方面將機器學習服務變成了壟斷資源,使其成為大廠的專有權利;另一方面抬高了各行各業(yè)應用機器學習技術的成本,限制了相關技術在社會層面的智能升級。而姚權銘的主要研究內(nèi)容就是用自動化機器學習的手段,通過知識與數(shù)據(jù)融合的雙層優(yōu)化方式來降低這些門檻,使更多個人和企業(yè)能用上相關技術,進而為全社會謀福利。
目前,姚權銘團隊已經(jīng)在知識圖譜上實現(xiàn)自主表示學習方法。實驗結果表明,這種新方法不僅在知識圖譜學習代表性任務鏈接預測上的表現(xiàn)超過手工設計模型的效果,并且還在大型生物知識圖譜谷歌百科和維基百科圖譜上表現(xiàn)優(yōu)異,曾力克螞蟻金服、斯坦福等研究團隊,刷新大規(guī)模知識圖譜榜單(OGB)紀錄,助力第四范式創(chuàng)業(yè)公司在2020年完成7億美金D輪融資。
未來幾年,姚權銘會帶領團隊繼續(xù)深入自動機器學習方向的工作,聚焦知識與數(shù)據(jù)融合的技術手段,探索如何高效地求解雙層優(yōu)化問題,推動機器學習從自動化到自主化發(fā)展,將其拓展至人工智能的科學場景中,探索前沿科學問題,進一步助力各行各業(yè)智能升級。
(責編:袁園)