王輝
近些年,“人工智能”“大數(shù)據(jù)”等詞語早已被人們所熟知。可隨著人工智能、大數(shù)據(jù)處理、高性能計(jì)算等應(yīng)用對(duì)算力的需求不斷增長(zhǎng),數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬已逐漸成為其算力增長(zhǎng)的瓶頸。為了消除網(wǎng)絡(luò)瓶頸,科學(xué)家想了不少辦法。
第一種方法是通過堆疊交換機(jī)設(shè)備的方式來提升數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬;第二種方法是采用更高容量和帶寬的交換芯片。但這兩種方法均會(huì)大幅增加網(wǎng)絡(luò)功耗,并且高端芯片還受到美國限購政策的制約。除此之外,還有第三種方法,就是設(shè)計(jì)光電混合數(shù)據(jù)中心,用高帶寬、低功耗的光交換機(jī)替換高功耗的電交換機(jī),在不增加網(wǎng)絡(luò)功耗的前提下提升網(wǎng)絡(luò)性能?!扒懊娴膬煞N方法成本太高了,只有第三種方法的成本可以接受,但要做成也十分不容易。”上海交通大學(xué)長(zhǎng)聘教軌副教授、博士生導(dǎo)師趙世振解釋說,因?yàn)榍叭嗽O(shè)計(jì)的光電混合網(wǎng)絡(luò)對(duì)光交換硬件的切換時(shí)延和網(wǎng)絡(luò)控制器的收斂速度要求極高,難以真正落地。
面對(duì)這樣的狀況,趙世振和他的團(tuán)隊(duì)一直在為如何設(shè)計(jì)和控制光電混合數(shù)據(jù)中心而努力著,他一直以推動(dòng)光電混合數(shù)據(jù)中心的落地應(yīng)用為自己的研究目標(biāo)。在國內(nèi),這還是一條獨(dú)特的、頗具挑戰(zhàn)的新道路。
路,道也
本科時(shí)期的趙世振其實(shí)和很多人一樣,并不知道自己應(yīng)該做什么領(lǐng)域。2010年,趙世振從上海交通大學(xué)電子信息與電氣工程學(xué)院畢業(yè)。之后,他于2015年從美國普渡大學(xué)電子與計(jì)算機(jī)工程專業(yè)畢業(yè),獲博士學(xué)位。在這段充實(shí)而又漫長(zhǎng)的求學(xué)日子里,趙世振做得更多的是關(guān)于理論分析的內(nèi)容,他把這段經(jīng)歷比喻為“內(nèi)功修煉”,“我對(duì)數(shù)學(xué)是十分喜歡的,所以選擇了做網(wǎng)絡(luò)理論方面的研究。從我的導(dǎo)師那里我也學(xué)到了很多東西”。面對(duì)理論學(xué)習(xí),趙世振絲毫不覺得枯燥,反而覺得收獲巨大?!叭绻麤]有扎實(shí)的‘內(nèi)功修煉,后續(xù)遇到的現(xiàn)實(shí)問題我可能也解決不了?!?/p>
但在這段理論學(xué)習(xí)的過程中,趙世振也遇到了一些困惑?!拔乙庾R(shí)到理論想應(yīng)用需要?jiǎng)e人配合,但別人可能因?yàn)椴欢愕睦碚摱粫?huì)去配合。如果自己能在理論和應(yīng)用兩方面都做好,就不存在這個(gè)問題了?!币?yàn)檫@個(gè)想法,趙世振在博士畢業(yè)后,選擇先去工業(yè)界——他進(jìn)入美國谷歌網(wǎng)絡(luò)組工作。
對(duì)于剛剛走出象牙塔的學(xué)生來說,這是一條未知且全新的道路。在谷歌工作的幾年時(shí)間里,趙世振真正從理論中走出來,正式開始在數(shù)據(jù)中心這個(gè)方向上深耕細(xì)作。工作中一點(diǎn)點(diǎn)積累起來的寶貴經(jīng)驗(yàn)讓他意識(shí)到在實(shí)踐中發(fā)現(xiàn)問題的重要性,而趙世振此前打下的扎實(shí)基礎(chǔ),也為他后來解決更多的問題提供了助力。他意識(shí)到理論分析和做系統(tǒng)之間是可以相互結(jié)合起來的。就這樣,一條新的道路開啟了。
在谷歌工作時(shí),趙世振逐漸意識(shí)到光交換對(duì)數(shù)據(jù)中心的重要性——能有效降低運(yùn)維難度,因此他提出利用光交換機(jī)加速數(shù)據(jù)中心的擴(kuò)容。通過在胖樹架構(gòu)數(shù)據(jù)中心的匯聚層與核心層之間引入光交換機(jī),趙世振巧妙地將擴(kuò)容過程中的人工拓?fù)渲剡B轉(zhuǎn)化為光交換機(jī)的自動(dòng)重配。此外,他還提出一個(gè)全新的變量合并技術(shù),使拓?fù)渲貥?gòu)的計(jì)算復(fù)雜度大幅降低。這一成果使數(shù)據(jù)中心的自動(dòng)化擴(kuò)容成為可能,不僅能大幅縮短擴(kuò)容所需時(shí)間,還能降低出錯(cuò)概率。這項(xiàng)成果于2019年發(fā)表在網(wǎng)絡(luò)系統(tǒng)的國際頂級(jí)會(huì)議——網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)專題討論會(huì)(NSDI)中。
2019年,趙世振回國,加入了上海交通大學(xué)約翰·霍普克羅夫特計(jì)算機(jī)科學(xué)中心,開始從事光電混合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的研究。光電混合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的研究屬于網(wǎng)絡(luò)系統(tǒng),與“人工智能”等熱門方向相比,網(wǎng)絡(luò)系統(tǒng)的研究雖然在業(yè)界也有較強(qiáng)的需求,但由于研究周期長(zhǎng)、出成果慢,愿意從事這個(gè)方向的人并不多?!癆I領(lǐng)域可以幾個(gè)月出一篇論文,而網(wǎng)絡(luò)領(lǐng)域的一篇論文要1~2年?!蹦侨绾巫尭鄡?yōu)秀的學(xué)生加入呢?趙世振采取了一種類似“姜太公釣魚”的方式,他在上課的時(shí)候會(huì)有針對(duì)性地做一些課程的設(shè)計(jì),通過這些獨(dú)特的課程設(shè)計(jì)來吸引有想法的、優(yōu)秀的學(xué)生加入。
多年來,趙世振在求學(xué)與工作中積累了豐富的經(jīng)驗(yàn),再加上精挑細(xì)選的團(tuán)隊(duì),所有的一切都為接下來的科學(xué)探索打下了良好的基礎(chǔ)。接下來,便是朝著理想中的目標(biāo),投身研究。
撼大摧堅(jiān),徐徐圖之
盡管光電混合數(shù)據(jù)中心在技術(shù)層面存在諸多難題,但趙世振依然充滿了信心?!霸谟布矫?,光交換器件切換時(shí)延高、靈活性差。而在軟件方面,光電混合數(shù)據(jù)中心的控制方案,包括拓?fù)?、路由算法目前比較缺少,舊的電交換Clos數(shù)據(jù)中心網(wǎng)絡(luò)已經(jīng)很成熟,而光電混合數(shù)據(jù)中心網(wǎng)絡(luò)還比較新?!泵鎸?duì)這些難點(diǎn),趙世振及其研究團(tuán)隊(duì)專注于利用軟件來彌補(bǔ)硬件的缺陷,開展相關(guān)研究工作。
除了研究上遇到的困難以外,趙世振及其研究團(tuán)隊(duì)在推動(dòng)光電混合數(shù)據(jù)中心的落地應(yīng)用方面也并不輕松。正如趙世振所說,想讓光電混合數(shù)據(jù)中心應(yīng)用落地不僅需要漫長(zhǎng)的時(shí)間和足夠的耐心,還要根據(jù)實(shí)際的需求不停找出解決辦法。不過,相較于一味地追求速度、與他人進(jìn)行無效的競(jìng)爭(zhēng),趙世振和研究團(tuán)隊(duì)選擇穩(wěn)扎穩(wěn)打,一步步實(shí)現(xiàn)自己的目標(biāo)。
本著這樣的初心和努力,在2021—2022年,趙世振和研究團(tuán)隊(duì)在光電混合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)與優(yōu)化研究方向取得了多項(xiàng)創(chuàng)新進(jìn)展。針對(duì)光電混合數(shù)據(jù)中心的運(yùn)行過程,他們首次提出“慢切換”的控制方式,大幅降低了光電混合數(shù)據(jù)中心的控制難度以及對(duì)快速光交換硬件的依賴。針對(duì)光電混合數(shù)據(jù)中心搭建初期的容量規(guī)劃,他們首次提出“競(jìng)爭(zhēng)比”概念,能夠在不知道數(shù)據(jù)中心流量模式的前提下嚴(yán)格分析光電混合數(shù)據(jù)中心物理拓?fù)涞男阅堋F渲械诙€(gè)成果論文被發(fā)表在美國計(jì)算機(jī)協(xié)會(huì)計(jì)算機(jī)系統(tǒng)測(cè)量和建模學(xué)會(huì)舉辦的年度會(huì)議(ACM?SIGMETRICS)中,這是上海交通大學(xué)作為第一作者單位在這一會(huì)議的首篇論文。對(duì)于趙世振和其研究團(tuán)隊(duì)來說,這篇論文不僅是重要的成績(jī),更是繼續(xù)前進(jìn)的鼓勵(lì)。多年的研究,在趙世振和其團(tuán)隊(duì)的一步步推動(dòng)下,終有所成。
不啻微芒,造炬成陽
即便是微弱的光芒,若能積少成多,也會(huì)成為閃耀的太陽。時(shí)間來到了2022年8月,一個(gè)好消息為趙世振和研究團(tuán)隊(duì)帶來了一份意料之外的喜悅。谷歌首次公布了他們的光電混合數(shù)據(jù)中心架構(gòu),里面的控制算法深度參考了趙世振提出“慢切換”控制方法的論文。自己的論文被借鑒和參考,這是對(duì)他多年研究的認(rèn)可,更是一劑強(qiáng)心劑。相較于個(gè)人的喜悅心情,趙世振感觸更深的是,這會(huì)對(duì)研究光電混合數(shù)據(jù)中心這個(gè)領(lǐng)域起到促進(jìn)作用,相信一定會(huì)有更多優(yōu)秀的學(xué)生愿意加入這項(xiàng)研究。
在這之后,趙世振和他的團(tuán)隊(duì)并沒有停滯不前。光電混合網(wǎng)絡(luò)若想得到工業(yè)界更廣泛的認(rèn)可,必須能夠支持?jǐn)?shù)據(jù)中心不同業(yè)務(wù)的不同需求。例如分布式存儲(chǔ)、高性能計(jì)算、AI人工智能等場(chǎng)景,需要無損網(wǎng)絡(luò)的支持。而現(xiàn)有光電混合數(shù)據(jù)中心一旦開啟鏈路層的流量控制避免丟包,就可能觸發(fā)網(wǎng)絡(luò)死鎖,造成網(wǎng)絡(luò)癱瘓。針對(duì)這個(gè)問題,他們基于“圖映射”理論設(shè)計(jì)出全新的路由方案,使光電混合數(shù)據(jù)中心能夠完全避免死鎖。正是靠著堅(jiān)持不懈的研究,克服困難的勇氣和一點(diǎn)點(diǎn)不斷累積起來的進(jìn)步,這個(gè)原本前景不明朗的領(lǐng)域未來的發(fā)展也變得逐漸清晰起來。趙世振坦言:“在我之前,很多人認(rèn)為這個(gè)方向只適合在實(shí)驗(yàn)室里發(fā)論文,因?yàn)閭鹘y(tǒng)設(shè)計(jì)?對(duì)光交換硬件切換速度和網(wǎng)絡(luò)控制器的收?斂速度要求極高,實(shí)際的軟硬件很難做到?!钡肀脔鑿?,探索出一套更易于落地的方案。
除了科學(xué)研究,趙世振還是一位特別年輕的老師。與很多老師不同的是,趙世振比較看重學(xué)生對(duì)整個(gè)計(jì)算機(jī)領(lǐng)域,以及領(lǐng)域中各個(gè)方向之間的關(guān)系的認(rèn)識(shí)。“我的研究工作的一個(gè)特點(diǎn)是:著重針對(duì)業(yè)界碰到的難題提供解決方案。這和‘從論文中找問題‘拿著錘子找釘子的研究模式很不一樣。我在培養(yǎng)學(xué)生的時(shí)候也是貫徹這個(gè)思路。”因此,比起讓學(xué)生一上來就去盲目地讀論文,他更愿意帶領(lǐng)學(xué)生感受業(yè)界的真實(shí)情況,找出其中尚待解決的問題,深入其中,最終提供方法解決問題。趙世振相信這樣的教學(xué)方式一定能幫助和鼓勵(lì)更多人,并在不久的將來吸引更多優(yōu)秀學(xué)生加入研究,推動(dòng)整個(gè)領(lǐng)域更進(jìn)一步。
眼下,趙世振及其團(tuán)隊(duì)的研究還在繼續(xù),未來還會(huì)出現(xiàn)許多難題需要逐一攻克,但他堅(jiān)信只要保持初心和熱愛,在研究中一步一個(gè)腳印,定能驅(qū)散迷霧,撥云見日。
(責(zé)編:蘇寒山)