吳應清
石川
當人們點擊購物網站上搜索框的那一刻,一個個與搜索人相關的推薦詞就會立刻出現(xiàn)。這些推薦詞精準定位了人們的喜好和需求,不僅促進了購買欲望,同時也為電商平臺創(chuàng)造了大量的經濟價值。
這些神奇而便捷的功能是怎么實現(xiàn)的?它其實得益于一批又一批深耕數(shù)據(jù)分析科研工作者的努力,北京郵電大學教授石川是其中一員。據(jù)石川介紹,異質圖是一種具有多種節(jié)點類型或多種邊類型的圖數(shù)據(jù)結構,用于刻畫復雜異質對象及其交互,具有豐富的語義信息,為圖數(shù)據(jù)挖掘提供了一種有效的建模工具和分析方法。推薦詞的產生,正是由于用戶、商品和查詢詞之間存在著交互關系而產生了異質交互圖,基于用戶的訪問信息、使用習慣等,可以進行更準確的關鍵詞推薦。
如今,關于異質圖的研究不僅在工業(yè)界中得到了廣泛的認可和應用,也深入到我們日常生活的方方面面。它就像一棵枝繁葉茂的大樹,充滿生命力??蛇@樣一棵大樹,曾經也是一粒默默無聞的小小種子。
異質圖的分析一開始并不是熱門的研究方向。石川接觸到這方面研究的時候,它正處于低谷期,在國際上也鮮有人關注,沒有人知道這項研究的未來在哪里,就這樣,石川成了當時國際上少數(shù)幾個堅持研究的人?!拔液芸春眠@個方向,它提供了更好的建模方式,分析方法也很新穎,在一些應用中也得到了不錯的效果。我一直在等待一個時機?!本瓦@樣,在最初的時光里,石川一直默默地堅持在這個方向的研究中,就像一顆沉默的種子,等待遇到適合自己生根發(fā)芽的環(huán)境。
對于石川來說,堅持并不是一件意外的事。1997年,石川就讀于吉林大學計算機專業(yè)。那個年代,電腦是稀罕物,互聯(lián)網也剛興起。“在大學時我們做了一個組裝機,希望通過自己拆裝,了解電腦的內部結構。我在裝機時機器冒煙了,把我嚇壞了,還好是數(shù)據(jù)線的問題不是核心部件壞了……還記得第一次接觸互聯(lián)網,電腦城為了吸引大家,允許免費上網10分鐘。排了半天隊,終于輪到我的時候,我發(fā)現(xiàn)自己根本不知道該怎么用,這些事情都讓我印象很深刻……”這些小故事也許只是日常生活的小片段,但也正是這一件件難忘的小事,讓石川真正走進了計算機的世界。
大學畢業(yè)后,石川沒有直接工作,而是決定考研。當時,畢業(yè)后選擇繼續(xù)讀研的人并不多,這是一個“冷門”的決定。但石川卻選擇了去武漢大學繼續(xù)深造,正是這個選擇讓他真正喜歡上了做研究。在讀研期間,石川成為康立山教授的學生。康立山教授多年堅持做研究。耳濡目染下,石川漸漸產生了想從事科學研究的念頭。當時,學校每周都有討論班,討論班崇尚自由平等的氛圍,石川在那里接觸了各種新思想,還發(fā)表了論文。碩士畢業(yè)后,他到中國科學院計算技術研究所讀博士?!白x博剛開始我經歷了一些挫折……是史忠植研究員給我了繼續(xù)學習的機會。也正是在這段時間里,我真正理解了勤奮和時間的重要性?!鼻髮W的經歷幫助石川不斷進步,成了一個勤奮自律的人。
終于,改變人生的事情發(fā)生了。2010年秋天,石川前往美國伊利諾伊大學芝加哥分校進行博士后研究。在那里,他成為數(shù)據(jù)挖掘領域泰斗俞士綸教授的第一個中國內地訪問學者。也是在那里,他意識到了國內外研究的差距,更加如饑似渴地學習。那時,異質圖分析在國際上剛出現(xiàn),石川就這樣開始了這項并不熱門的研究。異質圖的研究在起步時,在國際上一直處于低谷,直到2016年、2017年,網絡表示學習的方式才漸漸開始在工業(yè)界使用。到了2018年,異質圖神經網絡研究更是迎來了爆發(fā)期,在工業(yè)界大規(guī)模應用。石川等人多年默默堅持終于待到山花爛漫。
雖然異質圖神經網絡的研究在工業(yè)界是熱門,但石川和團隊要面臨的挑戰(zhàn)卻變得更多了。他們之前一直從事理論研究,并未真正接觸過工業(yè)界中的實際問題。擺在他們眼前的首個難題是到底該如何建模。作為國內最早開始這方面研究的學者之一,石川沒有成熟的經驗可以借鑒,只能依靠自己。他花費大量時間和精力與企業(yè)深入交流,逐漸了解業(yè)務。在經歷了艱難而長期的摸索后,異質圖神經網絡得以真正在工業(yè)界得到應用。時至今日,石川所建立的異質圖建模方法已經在頭部互聯(lián)網企業(yè)成功應用了十幾個案例。
“在異質圖神經網絡方面的研究,我們是國際上最早開始的。在理論上我們一直處于引領地位,在實踐上也是最早把異質圖神經網絡運用到工業(yè)界當中的?!背嗽趪H上最早取得理論與實踐的成就,石川團隊所建立的異質圖建模和表示理論還解決了圖數(shù)據(jù)的復雜異質結構處理難題,不僅奠定了異質圖建模的理論體系,還推動了復雜交互系統(tǒng)建模從同質圖到異質圖的轉變。
在學習模型方面,石川的研究也有突破性的成果。他提出了可信圖神經網絡模型,緩解了圖結構知識的可信學習難題,突破了圖神經網絡模型的可信性瓶頸,探索了可信人工智能的實現(xiàn)途徑。除此之外,在技術平臺方面,石川設計了面向典型應用的圖學習技術,研發(fā)了開源圖學習平臺,攻克了實際工業(yè)應用中的結構知識利用難題,降低了圖學習的工業(yè)應用門檻,極大地促進了圖智能技術的廣泛應用。不僅如此,石川還率先將圖建模與分析技術應用到重要領域,除了上文提到的推薦系統(tǒng)以外,還有網絡安全領域。比如,異質圖神經網絡幫助支付寶中的花唄進行了風險管理,從用戶、商家和手持設備三者之間構成的異質圖中分析出用戶的行為模式,以此來判斷用戶是否存在用花唄套現(xiàn)的風險等。
曾經小小的種子等到了屬于自己發(fā)芽的機會,它克服困難,破土而出,最終長成參天大樹,結出了碩大的果實。
從2018年至今,石川已將圖學習技術廣泛應用到電商推薦、金融風控、客戶營銷等業(yè)務場景中,產生了顯著的經濟效益和社會效益。2022年,由石川作為項目第一完成人研發(fā)的“大規(guī)模復雜異質圖數(shù)據(jù)智能分析技術與規(guī)模化應用”項目獲得了中國電子學會科學技術科技進步獎一等獎。能夠取得如此優(yōu)異的成績,除了石川本人的努力之外,自然也離不開其優(yōu)秀的研究團隊。關于自己團隊的優(yōu)勢,石川認為最重要的是圈內耳熟能詳?shù)囊痪湓挕芯宽斕欤夹g立地。
在研究上,團隊保持專注。正因為專注,團隊關于異質圖的研究才在國際上保持領先。團隊始終秉持技術一定要有實用性的理念。研究不僅是為了發(fā)表論文,更重要的是要思考研究可以應用在哪里,要落地。石川和他的學生會深入企業(yè)一線,和企業(yè)的業(yè)務人員進行深入地溝通交流,真正幫助他們解決實際中遇到的痛點問題。多年來,他們與諸多企業(yè)一直保持著良好的合作,研究取得的成果也真實地應用在很多業(yè)務場景中。
從2011年石川走上研究異質圖的道路開始,至今已有十幾個年頭。從最初的孤軍奮戰(zhàn),缺少經費和人才,發(fā)展到現(xiàn)在能夠創(chuàng)建實驗室,組建一支穩(wěn)定的團隊,石川一路走來實屬不易。他希望自己的實驗室能成為國際上同領域里知名的實驗室,做國際領先的研究。在實驗室老師和學生的建議下,實驗室最終起了一個響亮的名字——圖形數(shù)據(jù)挖掘與機器學習實驗室(GAMMA Lab)。同時,實驗室也創(chuàng)立了自己的公眾號,一方面推廣實驗室的研究成果,另一方面為宣傳圖計算領域的研究進展貢獻自己的力量。至今,公眾號已經發(fā)表了原創(chuàng)文章130多篇,粉絲上萬,成為同領域老師、學生,以及企業(yè)界人士主要關注的內容。
對未來,石川有著清晰的規(guī)劃:“在研究上,我還是專注于圖機器學習,希望在這個方向的研究上能夠在國際上擁有一席之地;在局部上,希望我們能夠起到引領作用;在產業(yè)界,我希望建立起國產圖學習的生態(tài)系統(tǒng),讓圖學習得到廣泛的普及和應用?!弊鳛轭I域里“一棵茁壯成長的綠樹”,石川和團隊愿意追尋希望的光芒,枝葉生根,深入土壤,生生不息,創(chuàng)造出一片更具生命力的“圖學習”森林。