張譯之
近幾年,高校對計算資源的需求飛速增長,部分高校的高性能計算資源無法滿足各學(xué)科日益增長的高性能計算需求,且存在重復(fù)建設(shè)、計算資源分散、運維復(fù)雜、安全隱患多等問題。本文深入地剖析了部分高校高性能計算資源的現(xiàn)狀及存在的問題,并探討了解決方案與實現(xiàn)路徑,旨在有效配置科技力量和創(chuàng)新資源,高效地為學(xué)校教學(xué)科研和人才培養(yǎng)做好服務(wù)支撐。
超級計算機被譽為科技創(chuàng)新的“發(fā)動機”。作為新時代的國之重器,超級計算機已廣泛應(yīng)用于大氣海洋環(huán)境、數(shù)值風(fēng)洞、醫(yī)學(xué)信息、基因組學(xué)、藥學(xué)、電磁學(xué)、天文學(xué)等領(lǐng)域,從工業(yè)仿真、智能制造到社會治理、疫情防控,對于國家經(jīng)濟社會高質(zhì)量發(fā)展和高水平科技創(chuàng)新具有重要支撐作用。
超級計算 (也稱超算、高性能計算)是一個計算機集群系統(tǒng),由多個超級計算機節(jié)點組成,以此來解決大規(guī)模計算問題。利用高性能計算,高校、科研機構(gòu)能夠?qū)崿F(xiàn)海量數(shù)據(jù)的分析,大幅提高實驗效率,并獲得有關(guān)實驗現(xiàn)象背后原理機理的更深層次的刻畫。
近幾年,隨著高校在科研方面的不斷進步,對計算資源的需求飛速增長,校級超算平臺是學(xué)校重要科研資源,可滿足各學(xué)科領(lǐng)域?qū)τ诖笠?guī)模數(shù)據(jù)處理和大規(guī)??茖W(xué)計算的需求。當(dāng)前,數(shù)字化轉(zhuǎn)型要促進教育高質(zhì)量發(fā)展,以超級計算平臺為代表的新型基礎(chǔ)設(shè)施建設(shè)是高等教育數(shù)字化轉(zhuǎn)型的重要抓手,在高校探索教育數(shù)字化轉(zhuǎn)型之際,應(yīng)把握機遇,進一步探索超算平臺的發(fā)展路徑。
(一)國內(nèi)現(xiàn)狀
十年來,我國超級計算機事業(yè)取得了舉世矚目的成就,實現(xiàn)了高性能計算從“跟跑”到“領(lǐng)跑”的歷史跨越,不斷攀登世界超算之巔。目前,我國已在各地建立起大大小小的國家級和地方級超算中心,構(gòu)成我國的算力矩陣,推動載人航天、探月探火、深海深地探測、超級計算機、衛(wèi)星導(dǎo)航、量子信息、核電技術(shù)、大飛機制造、生物醫(yī)藥等領(lǐng)域取得重大成果,進入創(chuàng)新型國家行列。
(二)高?,F(xiàn)狀
作為教學(xué)科研重地,很多高校都建立了校級超算平臺,以提升計算與服務(wù)能力。從建設(shè)模式來看,大部分高校采用自建方式構(gòu)建高水平超算中心,部分高校通過與政府、企業(yè)合作的方式共建國家級超算中心,實施重大應(yīng)用項目,培養(yǎng)高性能計算人才與相關(guān)戰(zhàn)略性新興產(chǎn)業(yè)。從運營模式來看,大部分高校仍處于向校內(nèi)提供計算服務(wù),幫助用戶學(xué)習(xí)使用超算的階段;部分頭部高校則已經(jīng)開始積極探索計算驅(qū)動的交叉學(xué)科發(fā)展模式,推動更多符合我國科研實際情況的自主可控超算軟件的研發(fā)。
(三)高校存在的問題
作為教學(xué)科研重地,很多高校都采購了大量的高性能計算資源,在深入調(diào)研后發(fā)現(xiàn)部分高校的高性能計算資源存在以下問題。
分散建設(shè)導(dǎo)致資源浪費。盡管很多高校對高性能計算的總投入已經(jīng)很高,但分散建設(shè)無法實現(xiàn)算力的持續(xù)疊加。部分資源在課題結(jié)束后處于閑置狀態(tài),造成了高性能計算資源“稀缺”與“浪費”并存的尷尬局面。
重復(fù)建設(shè)導(dǎo)致資金浪費。由于缺乏統(tǒng)籌管理,高性能計算資源存儲的機房環(huán)境、空調(diào)、不間斷電源、系統(tǒng)和應(yīng)用軟件等存在重復(fù)建設(shè)問題,導(dǎo)致嚴(yán)重的資金浪費。
獨立建設(shè)導(dǎo)致人才浪費。現(xiàn)有的高性能計算資源均由院、系、實驗室獨立建設(shè),需要投入大量的調(diào)研、選型、比價等時間成本,導(dǎo)致大量科研精力被浪費。
高性能計算設(shè)備更新周期短,如果在五年內(nèi)使用率不高,就無法收回投資。因此,針對如何充分有效配置高性能計算資源,發(fā)揮其核心潛力,提出以下方案。
(一)方案分析
根據(jù)調(diào)研及文獻(xiàn)分析,有三種方案可嘗試使用:一是整合校內(nèi)現(xiàn)有資源,二是租用校外資源,三是新建校級超算中心。經(jīng)部分高校實際驗證,前兩種方案可以解決少量問題,但存在突出的弊端。
整合校內(nèi)資源,可實施性不強。首先,校內(nèi)現(xiàn)有高性能設(shè)備由于購買時間不同,性能參差不齊,且搬運過程中也可能造成損壞,因此,整合后能真正被利用的不多。其次,強行整合老師們用科研經(jīng)費購置的計算資源,會打擊其科研積極性。再次,校級超算中心相當(dāng)于公共交通,部分老師對計算環(huán)境有特殊的需求,可允許他們保留原有計算環(huán)境,享受科研舒適度和自由度。
完全租用校外資源,不便于科學(xué)研究。租用校外資源可以有效解決校內(nèi)資源不足的問題,但是存在以下問題。首先,對高性能計算資源依賴較高的科研團隊大多數(shù)會對計算軟件進行二次開發(fā),部分學(xué)科的數(shù)據(jù)涉密,將軟件和數(shù)據(jù)存儲在校外,不利于保護科研成果;其次,部分學(xué)科計算結(jié)果數(shù)據(jù)量大,下載數(shù)據(jù)時面臨網(wǎng)絡(luò)回傳數(shù)據(jù)較慢的問題;再次,校外超算中心排隊現(xiàn)象嚴(yán)重,且對高性能資源需求較大的學(xué)科,完全租用資源的費用較高。
新建超算中心,助力科研水平提升。雙一流高?;旧弦呀⑿<壋阒行?,且成效明顯,已支撐學(xué)校師生發(fā)表了多篇突破性高水平文章。其他具備經(jīng)費條件的高校,應(yīng)該盡快統(tǒng)一建設(shè)這個基礎(chǔ)的科研平臺,促進多學(xué)科融合發(fā)展。
(二)實現(xiàn)路徑
1.頂層規(guī)劃
超算中心管理重大校級平臺,由學(xué)校按照“統(tǒng)籌規(guī)劃、集中管理、開放共享、有償使用”的原則建設(shè)與使用。加強計算資源論證、立項、運行、考核等全過程管理,并從組織機構(gòu)、基礎(chǔ)環(huán)境、平臺建設(shè)、運行管理等多方面進行保障,確保超算中心充分發(fā)揮效益。
2.超算中心建設(shè)
(1)搭建超算公共平臺
校級超算平臺由學(xué)校統(tǒng)籌建設(shè)資金、統(tǒng)一規(guī)劃建設(shè),應(yīng)基于校內(nèi)各科研團隊對計算資源的實際需求,以及當(dāng)前已有的計算與存儲規(guī)模做好規(guī)劃。通過分步建設(shè)方式,最終建立一個多軟/硬件支撐、多運行環(huán)境、用戶管理統(tǒng)一、支持多學(xué)科應(yīng)用軟件運行的超算平臺。建設(shè)內(nèi)容主要包括機房物理與動力環(huán)境、計算節(jié)點、存儲系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)、集群管理軟件、常用學(xué)科軟件等。如圖1所示。