国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高性能計算之源起
——科學(xué)計算的應(yīng)用現(xiàn)狀及發(fā)展思考

2019-01-28 13:18陸忠華李會元遲學(xué)斌孫家昶
中國科學(xué)院院刊 2019年6期
關(guān)鍵詞:高性能

金 鐘 陸忠華 李會元 遲學(xué)斌* 孫家昶

1 中國科學(xué)院計算機網(wǎng)絡(luò)信息中心 北京 100190

2 中國科學(xué)院計算科學(xué)應(yīng)用研究中心 北京 100190

3 中國科學(xué)院軟件研究所 北京 100190

科學(xué)計算是指應(yīng)用計算機處理科學(xué)研究和工程技術(shù)中所遇到的數(shù)學(xué)計算問題。在現(xiàn)代科學(xué)研究和工程技術(shù)中,常常遇到大量復(fù)雜數(shù)學(xué)計算。其復(fù)雜程度往往超越了人腦運算的能力,必須使用計算機進行求解。而計算科學(xué)的應(yīng)用水平已成為衡量國家科技發(fā)展水平的重要標志之一;其應(yīng)用的深入程度則反映出對科學(xué)問題探索與理解的深度。2013 年 10月,美國哈佛大學(xué) Martin Karplus 教授、斯坦福大學(xué) Michael Levitt 教授和南加州大學(xué) Arieh Warshel 教授 3 位科學(xué)家獲得了諾貝爾化學(xué)獎,獲獎理由是“為復(fù)雜化學(xué)系統(tǒng)創(chuàng)立了多尺度模型”。評選委員會在聲明中指出,對當(dāng)今的化學(xué)家而言,計算機已成為與試管同等重要的工具,計算機對生命現(xiàn)象的模擬已為化學(xué)大部分研究成果的取得立下了“汗馬功勞”。這無疑會進一步加深各學(xué)科對計算模型和計算科學(xué)的認識與應(yīng)用,并將引領(lǐng)學(xué)科發(fā)展進入下一波浪潮。

1 高性能計算應(yīng)用需應(yīng)對高度異構(gòu)的挑戰(zhàn)

自 20 世紀中葉后,高性能計算機的發(fā)展取得了長足進步,其計算能力不斷地得到提高。特別是進入 21 世紀以來,高性能計算在重大科學(xué)發(fā)現(xiàn)的前沿基礎(chǔ)科學(xué)研究領(lǐng)域已逐漸成為不可或缺的重要手段之一。近年來,高度異構(gòu)和內(nèi)部網(wǎng)絡(luò)高速互聯(lián)是現(xiàn)代高性能計算機體系架構(gòu)的重要發(fā)展方向。而對于若干典型的高性能計算應(yīng)用,通訊與計算能力不匹配的矛盾較為突出[1,2]。一般說來,現(xiàn)代計算機的處理器和加速部件往往達到幾千億次至幾萬億次的浮點運算能力,而目前性能較好的內(nèi)部互聯(lián)網(wǎng)絡(luò)的帶寬雖達到了 200 Gb,仍然相對較慢。

超大規(guī)??茖W(xué)計算的顯著特征是可計算問題的規(guī)模巨大,TOP500①http://www.top500.org.排名前十的超級計算機系統(tǒng)一般擁有千萬個以上數(shù)量的處理器核心,按照單處理器核心可處理 100 萬個未知量來計,這意味著可計算處理具有 1 萬億個自由度的復(fù)雜系統(tǒng)。即便如此,當(dāng)今世界上計算能力最強的這些高性能計算機在那些復(fù)雜度更高的科學(xué)計算應(yīng)用對計算能力幾乎無止境的需求面前,也顯得杯水車薪[3,4]。因此,應(yīng)用和計算科學(xué)家往往不得不采用簡化模型、對計算問題進行預(yù)條件處理和采用混合精度等手段來降低計算量。從算法的角度來說,美國超算領(lǐng)域的著名數(shù)學(xué)算法專家 Colella[5]于 2004 年提出了科學(xué)計算的 7 種算法模型,即結(jié)構(gòu)性網(wǎng)格、非結(jié)構(gòu)性網(wǎng)格、快速傅立葉變換(FFT)、稠密線性代數(shù)(Dense Linear Algebra)、稀疏線性代數(shù)(Sparse Linear Algebra)、粒子動力學(xué)(Particles)、蒙特卡洛(Monte Carlo),被稱為“七個小矮人”。這 7 種算法模型對高性能計算機提出了不同方面和層次的需求,也基本覆蓋了常見高性能計算應(yīng)用。

2 我國高性能計算應(yīng)用的矚目成果

2.1 中國科學(xué)院科學(xué)家聯(lián)合攻關(guān)取得令人矚目的高性能計算應(yīng)用成果

高性能計算應(yīng)用的發(fā)展和進步需要數(shù)學(xué)、計算科學(xué)、應(yīng)用領(lǐng)域等學(xué)科的深度交叉融合。20 世紀 90 年代中期[6,7],中國科學(xué)院軟件研究所、生物物理研究所、物理研究所以及北京科技大學(xué)、國家智能中心的科學(xué)家聯(lián)合攻關(guān),在國產(chǎn)“曙光 1000”并行計算機上,完成了多個應(yīng)用軟件,并在天然 DNA 的整體電子結(jié)構(gòu)理論計算、激光晶體材料(LBO)電子態(tài)理論分析及廣義本征值并行計算等方面取得了令人矚目的高水平成果。生物物理學(xué)、物理學(xué)等應(yīng)用領(lǐng)域的科學(xué)家設(shè)計出便于在“曙光 1000”上實現(xiàn)的新方案,并在運維人員的密切配合下,使其付諸實施。而計算科學(xué)家則針對“曙光 1000”的特點,提出了“黑匣子并行”的思想和并行方案;同時,在理論上證明了若干收斂性定理,為保證計算結(jié)果的正確性及準確預(yù)估迭代時間提供了可靠的理論保證。這是中國科學(xué)院非常具有代表性的多領(lǐng)域科學(xué)家聯(lián)合攻關(guān),發(fā)揮物理模型、算法和高性能計算技術(shù)多學(xué)科優(yōu)勢和深度交叉的力量,取得高水平成果的成功案例。后來,參與攻關(guān)的中國科學(xué)院物理研究所王鼎盛與中國科學(xué)院生物物理研究所陳潤生分別因在計算物理學(xué)與計算生物學(xué)上的成就而被增選為中國科學(xué)院院士。

2.2 中國高性能計算應(yīng)用取得“戈登 · 貝爾”獎的突破

近年來,我國科學(xué)家在高性能計算應(yīng)用領(lǐng)域又取得了新突破。在大氣科學(xué)的全球大氣動力學(xué)的高性能計算研究方面,由中國科學(xué)院軟件研究所楊超、清華大學(xué)薛巍和付昊桓領(lǐng)銜的應(yīng)用成果——“千萬核可擴展全球大氣動力學(xué)全隱式模擬”[8]在 2016 年 11月美國鹽湖城舉辦的“全球超級計算大會 2016”(SC16)上一舉拿下高性能計算應(yīng)用領(lǐng)域最高獎——“戈登·貝爾”獎②“戈登·貝爾”獎旨在獎勵國際前沿的并行計算研究成果,尤其是高性能計算創(chuàng)新應(yīng)用的杰出成就。其設(shè)立于1987年,由美國計算機協(xié)會(ACM)于每年11月頒發(fā)。該獎項主要注重高性能計算應(yīng)用水平,是高性能計算應(yīng)用的最高獎項之一和發(fā)展的“風(fēng)向標”。,實現(xiàn)了我國高性能計算應(yīng)用在此項大獎上零的突破,成為我國高性能計算應(yīng)用發(fā)展的一個新的里程碑。該課題在應(yīng)用與算法 2 個層面實現(xiàn)了重大突破:① 應(yīng)用層面。大氣動力過程的模擬速度較美國下一代大氣模擬系統(tǒng) AM3(GFDL 開發(fā))的計算效率提升近 1 個數(shù)量級。全隱式求解方法是未來超高分辨率大氣模式構(gòu)建的一種新選擇。② 算法層面。實現(xiàn)目前世界上第一個可擴展到千萬核,峰值效率超過 6% 的隱式求解器,它將模擬分辨率提升至 500 米以內(nèi),并行度和峰值效率較 2015 年“戈登 · 貝爾”獎工作均提升一個數(shù)量級。該成果可應(yīng)用于全球高分辨率氣候模擬和高精細數(shù)值天氣預(yù)報,并在航空、地學(xué)、工程學(xué)等領(lǐng)域的挑戰(zhàn)性計算問題中有廣闊應(yīng)用前景。

3 我國典型傳統(tǒng)科學(xué)計算應(yīng)用現(xiàn)狀與發(fā)展

多年來,中國科學(xué)院一直走在我國科學(xué)計算應(yīng)用發(fā)展的前列。無論是應(yīng)用水平、計算規(guī)模還是成果顯示度均取得了長足的進步。除了上述代表性成果,中國科學(xué)院的應(yīng)用成果還有許多。但因篇幅所限,以下僅選取幾個中國科學(xué)院典型傳統(tǒng)科學(xué)計算應(yīng)用領(lǐng)域,從科學(xué)家視角,談?wù)効茖W(xué)計算應(yīng)用現(xiàn)狀與發(fā)展和一些思考,以期窺一斑見全貌,更希望能引發(fā)讀者更深入的思考與關(guān)注。

3.1 大氣科學(xué)之全球氣候海洋模式

3.1.1 現(xiàn)狀

全球氣候海洋模式是氣候系統(tǒng)模式的重要組成部分,也是氣候研究、氣候預(yù)測和預(yù)估不可或缺的工具??臻g分辨率的持續(xù)增加是海洋環(huán)流模式發(fā)展的重要趨勢之一。全球高分辨率海洋模式的發(fā)展要追溯到 20 世紀 90 年代初,第一個全球 25 公里的海洋模式使用了美國地球物理流體力學(xué)實驗室(GFDL)發(fā)展的 MOM 模式。21 世紀開始,隨著以日本的“地球模擬器”為代表的大型超算平臺的發(fā)展,國際上有 20 多家模式開發(fā)中心開始進行全球渦分辨(10 公里)模式的發(fā)展和研究,包括日本的 JAMSTEC,美國的NCAR、NOAA GFDL、FSU,以及德國的 MPI 氣象研究所等。

我國國內(nèi)的高分辨率全球海洋模式多是引進國外的模式,如在氣候模式應(yīng)用的 MOM 和 POP 模式,以及在預(yù)報系統(tǒng)中采用的 HYCOM 和 NEMO 模式。中國科學(xué)院大氣物理研究所在全球海洋模式發(fā)展方面進行了長期攻關(guān),所發(fā)展的渦分辨率全球海洋環(huán)流模式——LASG/IAP 氣候系統(tǒng)海洋模式(LASG/IAP Climate System Ocean Model,LICOM)[10]也是我國唯一自主發(fā)展的全球海洋環(huán)流模式。LICOM 海洋模式的模擬結(jié)果參與了歷次國際耦合模式比較計劃(CMIP)并被政府間氣候變化專門委員會(IPCC)引用,其最新版本的模式被國際同行認為是對 ENSO(El Ni?o-Southern Oscillation)模擬能力最好的模式之一。不僅如此,基于 LICOM 海洋模式成功地研制了水平分辨率為 10 公里的海洋環(huán)流模式,可顯式地模擬海洋中尺度渦旋。中國科學(xué)院計算機網(wǎng)絡(luò)信息中心王文浩等[11]采用 MIC 并行優(yōu)化 LICOM,實現(xiàn)了較好的加速效果,加速比達到 2.09。高分辨率的 LICOM 支撐了國家和中國科學(xué)院的多項大型專項,也應(yīng)用在國家海洋局環(huán)境預(yù)報中心等海洋業(yè)務(wù)中,為日常經(jīng)濟活動等提供了海洋環(huán)境保障。

3.1.2 對領(lǐng)域應(yīng)用的促進

對歷年參加 CMIP 計劃模式中海洋分量模式分辨率的分析表明,氣候海洋模式最高分辨率的增長基本與計算機發(fā)展的摩爾定律相吻合,即模式的分辨率受限于計算能力。隨著高性能計算的發(fā)展,近期美國國家航空航天局(NASA)采用 MITgcm 海洋模式,進行了全球 2 公里的試驗。雖然試驗受限于計算量和存儲量,僅僅運行了 1 年左右,但其結(jié)果第一次實現(xiàn)了對全球次中尺度渦的垂直輸送的估算,發(fā)現(xiàn)了次中尺度渦在海洋上層熱量收支中的重要作用,對于海洋科學(xué)和氣候變化研究都有重要的意義。與此同時,國內(nèi)的多家海洋研究單位,也在著手嘗試聯(lián)合進行此方面的研發(fā),有逐步趕超國際的發(fā)展趨勢。

3.1.3 發(fā)展趨勢

隨著 E 超級計算平臺的研發(fā),全球海洋模式的水平分辨率必然也會向公里級、百米級發(fā)展,可分辨種類更齊全的海洋運動形式,如次中尺度渦、內(nèi)波等。在數(shù)值模式中分辨更多的海洋運動形式也是海洋科學(xué)的重要發(fā)展趨勢,而國產(chǎn)計算系統(tǒng)的建設(shè)是發(fā)展我國自主研制超高分辨率海洋模式的絕佳契機。

3.2 大氣科學(xué)之全球空氣質(zhì)量預(yù)報

3.2.1 現(xiàn)狀

為了應(yīng)對大氣污染問題,歐盟、美國、日本和中國均建立了依托高性能計算機的空氣質(zhì)量數(shù)值預(yù)報中心。我國于 2015 年建立了國家空氣質(zhì)量預(yù)測預(yù)警裝置,包括峰值達 130 萬億次的高性能計算機系統(tǒng)、環(huán)境空氣質(zhì)量數(shù)值預(yù)報模式系統(tǒng)、環(huán)境空氣質(zhì)量數(shù)值預(yù)報模式系統(tǒng)并行環(huán)境系統(tǒng)、支撐保障系統(tǒng)。這一裝置成為我國近年來應(yīng)對大氣重污染事件的核心工具,有效支撐了我國大氣污染防治計劃的開展。

西班牙 Martn等[12]采用 OpenMP 對 STEM-II(Sulphur Transport Eulerian Model 2)進行了并行化,并在SGI O2000 多處理器、富士通 AP3000 多計算機和 PC 集群上開展了測試,結(jié)果表明并行代碼的模式程序可以顯著減小模式運行所需的 CPU 計算時間。德國 Lieber 和 Wolke[13]發(fā)展了一種能有效解決化學(xué)傳輸模式負載不均衡問題的改進耦合方案,有效提高了化學(xué)傳輸模式的并行計算效率。朱云等[14]研究了 CMAQ 模型在 64 位 Linux 操作系統(tǒng)上不同 CPU 核心數(shù)目并行計算模擬耗時以及結(jié)果的差異情況。研究結(jié)果表明,并行計算能大幅縮短 CMAQ 模擬耗時,以 16 個 CPU 核心并行處理為性價比最佳值;多于 16 個核心并行處理時,隨核心數(shù)量的增加模型性能提升的趨勢減緩。王自發(fā)等[15]基于高性能計算集群建立了具備多模式集合預(yù)報功能的空氣質(zhì)量多模式集成預(yù)報業(yè)務(wù)系統(tǒng),有效支撐了北京奧運會的空氣質(zhì)量保障,推動了我國空氣質(zhì)量預(yù)報預(yù)警能力的快速提升。Wang 等[16]針對空氣質(zhì)量模式中計算耗時大的氣相化學(xué)模塊,設(shè)計了化學(xué)動力學(xué)模擬的新框架,以適應(yīng)下一代處理器中單一指令多數(shù)據(jù)(SIMD)技術(shù)的使用,通過矢量化實現(xiàn)細粒度級并行化,可使空氣質(zhì)量預(yù)報模式實現(xiàn) 3 倍以上的加速計算。Wang 等[17]利用“地球系統(tǒng)數(shù)值模擬裝置”的原型系統(tǒng)“硅立方”首次實現(xiàn)了中國區(qū)域 5 公里水平分辨率多年的大氣污染高精度模擬。

3.2.2 對領(lǐng)域應(yīng)用的促進

基于高性能計算的城市、區(qū)域和國家空氣質(zhì)量預(yù)報雖然已取得了長足的進步并具備了較強的預(yù)報預(yù)警能力,但全球空氣質(zhì)量的預(yù)報預(yù)警能力仍然非常有限且不確定性大。一方面,由于空氣質(zhì)量數(shù)值模擬與預(yù)報涉及非常復(fù)雜的多尺度大氣物理化學(xué)過程以及毫秒級大氣化學(xué)反應(yīng)和微物理過程的模擬,計算代價高昂,全球空氣質(zhì)量模擬預(yù)報仍停留在較粗的空間分辨率(>25 公里),難以合理表征很多次網(wǎng)格尺度過程(如機動車、電廠等排放過程以及局地環(huán)流過程)。目前,尚未有國家實現(xiàn)高分辨率(<10 公里)的全球空氣質(zhì)量預(yù)報。另一方面,受計算資源約束,現(xiàn)有全球模式對很多物理化學(xué)過程都進行大幅簡化處理,同時排放源、氣象場等輸入數(shù)據(jù)不確定性大,進一步加大了全球空氣質(zhì)量預(yù)報的難度和不確定性。因此,我國空氣質(zhì)量預(yù)報能力提升亟待超級計算資源和技術(shù)的支撐。

3.2.3 發(fā)展趨勢

未來,隨著我國超算能力的不斷增強以及國產(chǎn)計算系統(tǒng)的研發(fā),給我國乃至全球空氣質(zhì)量預(yù)報、預(yù)警提升提供了巨大的機會。目前,我國在建的國家重大科技基礎(chǔ)設(shè)施“地球系統(tǒng)數(shù)值模擬裝置”將研發(fā)全國 3 公里、重點地區(qū) 1 公里水平分辨率的區(qū)域高精度大氣污染模式,建成后將大幅提升我國區(qū)域大氣污染模擬預(yù)報能力。此外,依托國產(chǎn)計算系統(tǒng)也正在研制高分辨率全球空氣質(zhì)量智能化網(wǎng)格預(yù)報系統(tǒng),必將大幅提升我國在全球空氣質(zhì)量預(yù)報上技術(shù)能力和研究水平。

3.3 生命科學(xué)之藥物設(shè)計

3.3.1 現(xiàn)狀

自 20 世紀 70 年代以來,基于計算的藥物發(fā)現(xiàn)與設(shè)計(Computational Drug Discovery and Design,CDDD),也稱之為計算機輔助藥物設(shè)計(Computer-Assisted Drug Design,CADD),經(jīng)歷了顯著提升。隨著分子生物學(xué)和結(jié)構(gòu)生物學(xué)的快速發(fā)展,大量重要疾病相關(guān)的生物大分子的三維結(jié)構(gòu)和生物功能得以確定。同時,隨著高性能計算機的快速發(fā)展,計算方法在藥物發(fā)現(xiàn)和分子模擬中的應(yīng)用不斷增加。量子力學(xué)、分子力學(xué)、分子動力學(xué)以及這些方法的組合已廣泛用于疾病靶點及藥物開發(fā)研究。

近 10 年,基于國產(chǎn)超級計算機的發(fā)展,中國科學(xué)家在生物大分子分子動力學(xué)模擬研究領(lǐng)域取得了較大進展,尤其是中國科學(xué)院上海藥物研究所的(以下簡稱“上海藥物所”)藥物靶標動態(tài)行為研究取得了系列創(chuàng)新成果,闡明了眾多藥物靶標功能及藥物作用機制。目前,基于國產(chǎn)超級計算機,上海藥物所研究團隊開展了 40 萬個原子體系的全原子十微秒尺度的分子動力學(xué)模擬,其水平不落后于世界最高水平。但在中小規(guī)模(~5 萬個原子)的全原子分子動力學(xué)模擬中,國外的超級計算機,如 Anton[18]已可以支撐十毫秒級分子動力學(xué)模擬,而我國現(xiàn)有超級計算機只能支撐百微秒級分子動力學(xué)模擬。

同時,作為藥物分子設(shè)計重要手段之一的高通量虛擬篩選(High Throughput Virtual Screening,HTVS)技術(shù),亦稱為并行分子對接(Parallel Molecular Docking)技術(shù)的發(fā)展,使得藥物分子設(shè)計的速度、成功率均得到了大幅提高。但高通量虛擬篩選計算需要消耗大量的高性能計算資源,計算開銷非常昂貴。

3.3.2 對領(lǐng)域應(yīng)用的促進

傳統(tǒng)上,在制藥行業(yè)中上市新藥是非常困難的過程。在美國,一種新藥的上市往往需花費超過 10 億美元并耗費 10——17 年的時間?;谏锎蠓肿樱ㄈ绲鞍踪|(zhì)和核酸)三維結(jié)構(gòu)的一系列 CDDD 方法,如高通量虛擬篩選方法,極大地提高了藥物發(fā)現(xiàn)的效率。根據(jù)美國政府報告,由于 CDDD 技術(shù)應(yīng)用,每種藥物平均開發(fā)成本減少了約 1.3 億美元,研發(fā)時間縮短了約 1 年。

目前,國際各大制藥企業(yè)均開始重視高性能計算在藥物研發(fā)中的應(yīng)用,采用自建高性能計算或與高性能計算服務(wù)商及超級計算中心合作的方式來解決創(chuàng)新藥物研發(fā)進程緩慢的問題。特別是 D. E. Shaw Research③對沖基金經(jīng)理David E. Shaw博士(同時也是一位計算機科學(xué)家)設(shè)立的私人研究機構(gòu),主要從事計算化學(xué)/計算生物學(xué)方面的高性能計算的研究,特別是分子動力學(xué)(MD)模擬。通過招募數(shù)百名數(shù)學(xué)、化學(xué)、生物學(xué)等專業(yè)以及計算機軟硬件方面的優(yōu)秀人才,開發(fā)了蛋白質(zhì)模擬專用機 Anton[18]和 Anton 2[19],多次獲得“戈登 · 貝爾”獎;為其專用機發(fā)展的分子動力學(xué)模擬 Desmond 程序已經(jīng)成為藥物研發(fā)軟件 Schrodinger(薛定諤)的核心組件之一,是該軟件實現(xiàn)高精度自由能計算 FEP 的主要模塊。2016 年,美國 500 強企業(yè)吉利德科學(xué)公司(Gilead Sciences)投資 1.2 億美金購買 Nimbus 制藥的治療肝病的藥物,該事件成為一時的熱點,被美國著名媒體《福布斯》雜志報道。Nimbus 公司是美國薛定諤公司技術(shù)參股公司,該藥物完全是用 Schrodinger 軟件設(shè)計,計算機設(shè)計加實驗驗證總耗時僅 1 年時間,時間之短令業(yè)界震驚。

“十二五”期間,上海藥物所依托我國自主研發(fā)的“天河二號”和“神威 · 太湖之光”超級計算機開發(fā)了大規(guī)模并行的分子動力學(xué)模擬軟件、虛擬藥物篩選方法及軟件,實現(xiàn)了最高 156 萬核并行,并行效率達 85%;在針對腫瘤、糖尿病、乙肝等重大疾病靶標蛋白的藥物研發(fā)中獲得了顯著成果,多個化合物完成技術(shù)轉(zhuǎn)讓,取得了巨大經(jīng)濟效益。

3.3.3 發(fā)展趨勢

新發(fā)突發(fā)大規(guī)模感染性疾病和抗感染藥物耐藥問題嚴重威脅人類生命與健康。應(yīng)對新發(fā)突發(fā)大規(guī)模感染性疾病,基本上無現(xiàn)成藥物可供選用。因此,快速實現(xiàn)從無到有的突破在應(yīng)急應(yīng)對中顯得無比重要,而采用超級計算機藥物虛擬篩選技術(shù)可在短時間內(nèi)獲得候選化合物,提供緊急應(yīng)對方案。對抗感染藥物耐藥問題,只有采用新策略和新機制開展新類型抗感染藥物研究,方有可能緩解病原微生物對傳統(tǒng)抗感染藥物的耐受難題。與病菌耐藥相關(guān)的蛋白以及途徑種類繁多,且在結(jié)構(gòu)水平上的耐藥機制尚未完全闡明。因此,對細菌蛋白耐藥機制進行研究十分必要,而這就需要對生物大分子的結(jié)構(gòu)與功能進行研究。近 2 年內(nèi)的技術(shù)突破使超大復(fù)合物的高分辨結(jié)構(gòu)研究成為可能,高分辨冷凍電鏡技術(shù)的突破則成為重要的推動手段之一??茖W(xué)家利用各種技術(shù)獲得蛋白質(zhì)三維結(jié)構(gòu)后,采用分子動力學(xué)模擬進行結(jié)構(gòu)功能研究和自由能微擾方法進行小分子藥物設(shè)計改造。冷凍電鏡三維重構(gòu)、分子動力學(xué)模擬均需要耗費大量的高性能計算機時,而隨著國產(chǎn)超級計算系統(tǒng)的應(yīng)用,將會大幅減少藥物設(shè)計對實驗的依賴并顯著提高藥物研發(fā)效率。

3.4 基礎(chǔ)科學(xué)之高能物理

3.4.1 現(xiàn)狀

高能物理的研究對象是物質(zhì)世界的基本結(jié)構(gòu)及基本相互作用。量子色動力學(xué)(QCD)和電弱統(tǒng)一理論(EW)通稱為粒子物理的標準模型,是目前高能物理研究的基本理論體系。高能物理的前沿重要課題有強相互作用中的夸克禁閉、標準模型精確檢驗和超出標準模型的新物理的尋找;與之相關(guān)的重大物理問題有強子結(jié)構(gòu)和強相互作用低能特性、宇宙早期演化、中微子性質(zhì)和中微子質(zhì)量起源、暗物質(zhì)和暗能量等。

高性能計算在高能物理中發(fā)揮著日益重要的作用,應(yīng)用范圍包括海量的高能物理實驗數(shù)據(jù)的分析(數(shù)據(jù)密集型)、對撞機和探測器的計算機模擬輔助設(shè)計(計算密集型),以及以格點量子色動力學(xué)(格點 QCD)為代表的高能物理理論計算(計算密集型)。隨著計算機技術(shù)的發(fā)展,高能物理中的高性能計算已經(jīng)成為與傳統(tǒng)的高能物理實驗、理論研究并列的第三大分支;其中格點 QCD 以其高強度、高可擴展性、高并行效率等特點,長期成為高性能科學(xué)計算的主要應(yīng)用領(lǐng)域之一。曾于 1988 年、1998 年和 2006 年 3 次獲得“戈登 · 貝爾”獎,2018 年也入圍了該獎項的候選名單。

歐、美、日等發(fā)達國家和地區(qū)歷來十分重視格點QCD 研究并保持在該領(lǐng)域的領(lǐng)先地位。目前,美國格點 QCD 研究每年消耗的計算資源為幾百兆 CPU 核小時,預(yù)計到 2025 年將達到目前的幾十至一百倍。格點 QCD 已被美國列為其未來E級計算機的重點應(yīng)用之一,并組織研究隊伍在物理課題、算法研究和程序開發(fā)等方面開展研究。

我國的格點 QCD 研究也有長期積累,目前正在組織相關(guān)團隊基于國內(nèi)的超級計算系統(tǒng)調(diào)試和開發(fā)格點 QCD 的應(yīng)用軟件,期望在未來參與到該領(lǐng)域E計算應(yīng)用發(fā)展中。

3.4.2 對領(lǐng)域應(yīng)用的促進

格點 QCD 的研究手段是進行大規(guī)模的 Monte Carlo數(shù)值模擬研究,屬于典型的高性能科學(xué)計算領(lǐng)域。其對于高能物理中的重大科學(xué)問題研究有不可替代的作用,直接服務(wù)于未來高能物理的重大物理發(fā)現(xiàn)。在標準模型精確檢驗和超出標準模型新物理尋找方面,格點 QCD 可以提供標準模型基本參數(shù)(如夸克質(zhì)量、強耦合常數(shù)等)的最精確的理論結(jié)果;可以從第一性原理提供對新物理敏感的強子矩陣元的精確、可靠的理論輸入。在夸克禁閉等強相互作用低能特性方面,格點 QCD 可以對新型強子態(tài)、強子-強子相互作用以及強子結(jié)構(gòu)等問題給出模型無關(guān)的物理結(jié)果。

格點 QCD 研究成果的物理意義和國際地位直接決定于對統(tǒng)計誤差和各種系統(tǒng)誤差的控制水平,而誤差大小直接決定于計算規(guī)模和計算資源。格點 QCD 的系統(tǒng)誤差主要來自四維時空格點體系的物理大小、格點細密程度以及夸克質(zhì)量參數(shù)的選取。目前國際上格點 QCD 研究的最大的格點體系大小為 1283×256,計算規(guī)模大約十萬或數(shù)十萬核;如果未來規(guī)模提高到2563×512,則計算規(guī)模將增大到數(shù)百萬核,必須使用E級計算。正所謂“計算決定未來”,計算能力和資源對高能物理未來的重要發(fā)現(xiàn)和理論突破的意義是不言而喻的。

3.4.3 發(fā)展趨勢

美國面向格點 QCD 研究的未來E級計算應(yīng)用早已開始布局,國產(chǎn)高性能計算系統(tǒng)將為我國的格點 QCD研究直接參與國際競爭提供十分重要的計算支撐。北京正負電子對撞機和北京譜儀(BEPCII/BESIII)是國際上工作在粲夸克能區(qū)獨一無二的高亮度的實驗裝置。在輕強子性質(zhì)研究,尤其是在新型強子態(tài)(如膠球、混雜態(tài)和 XYZ 粒子)研究方面有潛在的重大物理發(fā)現(xiàn),但需要理論研究的支持,其中格點 QCD 的研究必不可少。

我國格點 QCD 研究將基于國產(chǎn)高性能計算系統(tǒng)開展與 BESIII 物理密切相關(guān)的研究,為實驗研究提供精確可靠的物理判據(jù),以期產(chǎn)生重要物理成果。核子(質(zhì)子和中子)是宇宙可見物質(zhì)的主要組成,但我們對其結(jié)構(gòu)并不十分清楚,我國籌建的中國高能電子-離子對撞機(EicC)和美國的高能電子-離子對撞機(EIC)及 JLab 的重要目標之一是研究核子結(jié)構(gòu)。中國的格點 QCD 研究將針對核子質(zhì)量、自旋核子三維結(jié)構(gòu)以及對新物理敏感的強子矩陣元進行具有原創(chuàng)性的科學(xué)研究。同時,通過大規(guī)模的科學(xué)計算實踐,我國科學(xué)家可為格點 QCD 研究的計算方案、算法和軟件作出貢獻。

3.5 計算化學(xué)之第一原理計算

3.5.1 現(xiàn)狀

第一性原理(First-principles)材料模擬的主要任務(wù)即從密度泛函理論(Density Functional Theory,DFT)出發(fā),在無任何經(jīng)驗參數(shù)的條件下從頭計算分子和固體材料的物理化學(xué)性質(zhì)及其應(yīng)用。第一性原理電子結(jié)構(gòu)計算軟件包括了一些有史以來計算成本最高的科學(xué)應(yīng)用程序,無論是硬件還是軟件發(fā)展方面,它們(如VASP、Gaussian、NWChem等)總是經(jīng)常處于對高性能計算能力需求的最前沿。為了通過密度泛函理論數(shù)值計算求解具體的物理化學(xué)問題,需要采用基組展開等方法將 DFT 方程離散成計算機可以識別和操作的數(shù)組和矩陣,從而獲得材料中所有原子周圍的電子密度,進而計算出材料的電子結(jié)構(gòu)及其他重要特性。第一性原理軟件包大致可以分為平面波基組軟件、原子軌道線性組合(LCAO)基組軟件、混合型平面波和高斯基組軟件。如果從計算復(fù)雜度(包括計算時間和內(nèi)存)上區(qū)分,第一性原理電子結(jié)構(gòu)計算方法可以分為傳統(tǒng)的高標度法和線性標度法。

當(dāng)今國際上的高性能第一性原理計算軟件(包括低標度和高標度)并不多,僅有 LS3D、CP2K、NWChem、BigDFT、DGDFT 和 Qbox 等可實現(xiàn)中等規(guī)模高性能并行計算(10 000 個 CPU 核以上),其中 LS3D 和Qbox 曾獲得“戈登 · 貝爾”獎。另外,DGDFT 和國內(nèi)商業(yè)軟件 PWmat 還采用了圖形處理器(Graphics Processing Unit,GPU),GPU 加速大大地提高了計算效率。同時,VASP、Gaussian、NWChem 和 BigDFT 等軟件也正在發(fā)展 GPU 加速模塊。

3.5.2 對領(lǐng)域應(yīng)用的促進

通過輸入的材料結(jié)構(gòu)信息,第一性原理計算可較為準確地預(yù)測已知材料的基態(tài)結(jié)構(gòu)和基本物理化學(xué)性質(zhì),并實現(xiàn)原子級別的精準控制。這已成為 21 世紀解決實驗理論問題和預(yù)測新材料結(jié)構(gòu)性能的強有力工具和標準研究方法。該方法不需要開展真實的實驗,極大地節(jié)省了成本,縮短了新材料的開發(fā)周期,為材料的制備和改性、新材料的開發(fā)以及極端環(huán)境下材料的性質(zhì)研究提供了有效的理論指導(dǎo)。然而,由于計算量極大,第一性原理材料模擬領(lǐng)域的科研人員對軟件性能和計算資源的需求越來越大。高性能計算的快速發(fā)展為第一性原理計算提供了機遇,使其在凝聚態(tài)物理學(xué)、材料科學(xué)、化學(xué)和生物學(xué)等領(lǐng)域發(fā)揮著日漸重要的作用,包括模擬并解釋實驗新現(xiàn)象,分析其本征物理機制,以及設(shè)計新型功能材料并預(yù)測新奇性質(zhì)等,取得了很多重要科研成果。可以說,第一性原理計算體現(xiàn)了量子力學(xué)理論與高性能計算之間的高度結(jié)合,實現(xiàn)了理論-模擬-實驗三位一體的科研模式,并引發(fā)了材料科學(xué)的革新。

3.5.3 發(fā)展趨勢

事實上,第一性原理計算現(xiàn)已成為高性能計算中應(yīng)用最廣泛和最活躍的領(lǐng)域。該領(lǐng)域研究的快速發(fā)展不僅歸功于理論、算法和軟件進步,更得益于計算機硬件能力的指數(shù)級增長,包括處理器速度和數(shù)目的增加、內(nèi)存容量和速度的增長、大規(guī)模并行處理能力的提高等。隨著計算機硬件和算法軟件的發(fā)展,高性能計算機的計算能力飛速提高,第一性原理計算應(yīng)用領(lǐng)域也將大步前進。更精確、更大體系的第一性原理計算以及更長時間尺度的分子動力學(xué)模擬都將成為可能,其計算結(jié)果也將更加接近真實體系,從而使第一性原理計算發(fā)揮更大作用。

3.6 材料科學(xué)之鈦合金微觀組織演化

3.6.1 現(xiàn)狀

由于結(jié)構(gòu)材料的復(fù)雜性和應(yīng)用對性能的多方面需求,一種新材料從設(shè)計到應(yīng)用往往需花費 20 年以上。以航空發(fā)動機用鈦合金為例,對其強度、模量、韌性、疲勞、蠕變、氧化、腐蝕等方面性能均有很高要求,此外還需長壽命、高可靠、低成本。發(fā)達國家在航空航天材料方面有近百年的積累,而我國雖經(jīng)幾十年的研究,也有很多自己的合金牌號,但許多關(guān)鍵材料仍無法自給,其原因之一是基礎(chǔ)研究不足。

21 世紀以來,人們逐漸認識到計算模擬對新材料研發(fā)的促進作用,美國先后啟動了“集成計算材料工程”(ICME)[20,21]和“材料基因組計劃”(MGI)[22-24],希望借助計算加速新材料的研發(fā),同時降低成本。我國 2016 年啟動了材料基因工程計劃,希望結(jié)合計算及實驗,促進鈦合金等多種關(guān)鍵材料的研發(fā),以滿足航空航天及燃氣輪機等的需求。

3.6.2 對領(lǐng)域應(yīng)用的促進

在新材料的研發(fā)與優(yōu)化方面,多尺度模擬在合金化效應(yīng)計算與合金元素篩選,微觀原子變形機制的揭示,不同條件下的微觀組織演化以及熱加工工藝的優(yōu)化等方面都起到重要作用,而這些都需要以高性能計算為基礎(chǔ)。中國科學(xué)院金屬研究所在國內(nèi)率先集成多尺度模擬與實驗研究,研發(fā)出應(yīng)用 600℃ 的高溫鈦合金 Ti60 和應(yīng)用于人體的低模量鈦合金 Ti2448,并對 TiAl 合金葉片的應(yīng)用等方面起到了重要推動作用,但仍無法滿足航空、航天、航海、能源等對新材料的巨大需求。上述對性能的多方面需求,均需以材料的成分和組織為保證。盡管先進的測試手段不斷涌現(xiàn),但仍無法滿足合金形變、相變機制及組織演化等的理解。例如,保載疲勞從 20 世紀 70 年代開始,一直制約著鈦合金的高效應(yīng)用。

中國科學(xué)院計算機網(wǎng)絡(luò)信息中心張鑒團隊與中國科學(xué)院金屬研究所合作開展合金微結(jié)構(gòu)演化相場模擬研究,研發(fā)了合金微組織演化大模擬并行軟件 ScETDPF。它是基于可擴展緊致指數(shù)時間差分算法庫的相場模擬軟件,支持計算材料科學(xué)、計算物理學(xué)、計算生命科學(xué)等學(xué)科的計算模擬,實現(xiàn)了國際上最大規(guī)模的合金微結(jié)構(gòu)粗化相場模擬,有助于加快我國新型合金的設(shè)計和加工工藝優(yōu)化。團隊應(yīng)用 ScETD-PF 軟件在“神威·太湖之光”超級計算機上運行合金微結(jié)構(gòu)粗化過程相場模擬,規(guī)模較以往提高近百倍,實現(xiàn)了超過千萬核的擴展性能,相場模擬實際性能達到峰值的 40%,遠高于普通軟件約 5% 的水平。該軟件入圍了 2016 年“戈登 · 貝爾”獎候選名單[25]。

3.6.3 發(fā)展趨勢

國產(chǎn)計算系統(tǒng)的研發(fā)將改變我國過去以實驗和仿制為主的新材料研發(fā)模式。通過計算模擬篩選合金成分,揭示形變、裂紋萌生的微觀機理,探索不同微觀組織的形成機制及其對性能的影響,為材料性能控制指明方向。甚至在材料制備之前即可模擬其在不同應(yīng)用下的性能,從而大幅度減少實驗次數(shù)及時間,顯著提升創(chuàng)新能力。還可通過模擬,根據(jù)新部件設(shè)計對材料提出新要求,實現(xiàn)材料的按需設(shè)計,最終提升航空航天等系統(tǒng)的水平。

3.7 計算材料學(xué)之材料結(jié)構(gòu)預(yù)測

3.7.1 現(xiàn)狀

材料是國民經(jīng)濟的基石,是實現(xiàn)制造業(yè)轉(zhuǎn)型升級的重要基礎(chǔ)。隨著計算機模擬技術(shù)的發(fā)展,流體力學(xué)、材料和醫(yī)療等專業(yè)領(lǐng)域也開始使用模型輔助科學(xué)研究。由于其問題的復(fù)雜性,這些領(lǐng)域的模型參數(shù)優(yōu)化使用單一的優(yōu)化算法或者適應(yīng)度計算方法無法有效解決問題,比如某些方法精度高但運行時間長,而某些方法需要苛刻的前置條件。因此,在這些領(lǐng)域通常采用多種方法結(jié)合的方式進行參數(shù)優(yōu)化,即由不同步驟組合起來進行問題求解,從而發(fā)揮各個方法的優(yōu)點,更有效率的解決問題。同時,應(yīng)用領(lǐng)域有很多商業(yè)軟件,不提供相應(yīng) SDK(軟件開發(fā)工具包),整個流程通常只能采用腳本語言(如 Shell 語言)對各個步驟進行連接。

3.7.2 對領(lǐng)域應(yīng)用的促進

多步驟參數(shù)優(yōu)化算法的典型場景是材料學(xué)領(lǐng)域的晶體結(jié)構(gòu)預(yù)測算法。目前常見的結(jié)構(gòu)能量計算方法有分子動力學(xué)模擬的方法和基于第一性原理的密度泛函理論(DFT)方法。DFT 方法能夠提供更準確的結(jié)構(gòu)能量,但計算成本很高。以 TiO2晶體為例,采用分子動力學(xué)軟件 LAMMPS 計算其能量,平均耗時為 169 ms(100 次實驗的統(tǒng)計結(jié)果,下同);而采用 DFT 軟件 VASP 計算其能量,平均耗時為 10 309.27 s,兩者相差將近 6 萬倍。在 DFT 軟件的基礎(chǔ)上采用參數(shù)優(yōu)化算法搜索結(jié)構(gòu)晶體狀態(tài),其時間成本很可能超出科學(xué)家可接受時間上限。由此可見,單純采用分子動力學(xué)方法進行結(jié)構(gòu)能量模擬,很難獲得和 DFT 方法同等的模擬精度;而單純采用 DFT 方法,隨著分子結(jié)構(gòu)復(fù)雜度上升,其時間成本越來越昂貴。

3.7.3 發(fā)展趨勢

多步驟參數(shù)優(yōu)化算法較好地解決了這個問題。目前該領(lǐng)域通常是將兩種方法結(jié)合,在不明顯影響系統(tǒng)效率的情況下,有效提升模擬方法的精確度。美國 Ames 國家實驗室提出一種 AGA(Adaptive Genetic Algorithm)算法,其采用遺傳算法進行給定結(jié)構(gòu)的晶體狀態(tài)搜索,在 GA 計算個體適應(yīng)度時,采用分子動力學(xué)方法模擬結(jié)構(gòu)能量。同時,創(chuàng)造性地添加了 Adaptive loop 模塊,將 GA 生成的數(shù)個最優(yōu)結(jié)構(gòu)交與第一性原理 DFT 方法重新精確計算其結(jié)構(gòu)能量,再采用 Force-Matching 方法基于精確信息對分子動力學(xué)方法的勢參數(shù)進行耦合,從而提升分子動力學(xué)方法的精確性。如此組成大循環(huán),直至收斂。

3.8 計算宇宙學(xué)之天文N體計算模擬

3.8.1 現(xiàn)狀

宇宙學(xué)模擬是理解星系形成、暗物質(zhì)、暗能量等重大科學(xué)問題的重要手段,從計算技術(shù)方面來講,宇宙學(xué)模擬涉及的物理過程之多、動力學(xué)范圍之大、計算方法之復(fù)雜、計算規(guī)模之大,一直是反映國際高性能計算發(fā)展水平的典型代表。其中最核心的 N 體問題模擬及其應(yīng)用先后 9 次獲得“戈登 · 貝爾”獎,這充分顯示 N 體問題相關(guān)算法及其應(yīng)用的重要性和并行實現(xiàn)的技術(shù)難度。

日本東京大學(xué)的 Ishiyama 和 Makino 等開發(fā)了 N 體問題并行數(shù)值模擬軟件 GreeM,并在富士通“京”超級計算機上通過各種性能優(yōu)化技術(shù),在國際上率先實現(xiàn)了萬億粒子規(guī)模的宇宙學(xué) N 體模擬。

我國在宇宙學(xué) N 體問題大規(guī)模模擬方面近幾年取得重要突破。中國科學(xué)院國家天文臺計算天體物理重點實驗室和中國科學(xué)院計算機網(wǎng)絡(luò)信息中心合作,在國際上率先發(fā)展了基于 MIC/CPU 混合架構(gòu)的宇宙學(xué) N 體模擬軟件 PhontoNs。該軟件在“Intel 并行應(yīng)用挑戰(zhàn)賽 2014”的兩個獎項上均獲得了亞軍。

3.8.2 對領(lǐng)域應(yīng)用的促進

2015 年北京師范大學(xué)張同杰率領(lǐng)的研究團隊開發(fā)了 Tian-Nu 軟件,在“天河二號”上成功進行 3 萬億粒子數(shù)的中微子和暗物質(zhì)的宇宙學(xué) N 體問題模擬,揭示了宇宙大爆炸 1 600 萬年后至今的 137 億年的演化進程[26]。該軟件基于 P2P 和 PM 的耦合算法,模擬結(jié)果已發(fā)表在《自然-天文》(Nature Astronomy)上,獲得了國際宇宙學(xué)領(lǐng)域的高度關(guān)注。

3.8.3 發(fā)展趨勢

目前國際上成熟的宇宙學(xué)模擬軟件均基于純 CPU的傳統(tǒng)超級計算機,而大型超級計算機的主流發(fā)展方向是深度異構(gòu)。在異構(gòu)計算環(huán)境下對超大規(guī)模粒子體系進行快速模擬需要研究如何提高算法的并行可擴展性,尤其需要解決動態(tài)模擬過程中粒子分布不均時的負載均衡問題。另外,還需要研究眾核異構(gòu)平臺上的性能優(yōu)化技術(shù)、分布式八叉樹周游的計算與通信重疊技術(shù)、三維 FFT 大規(guī)??蓴U展性并行劃分與通信。中國科學(xué)院計算機網(wǎng)絡(luò)信息中心正在與中國科學(xué)院國家天文臺合作,針對國產(chǎn)超級計算機,通過并行異構(gòu)算法設(shè)計以及代碼優(yōu)化,研發(fā)能夠滿足宇宙學(xué)超大規(guī)模數(shù)值模擬需求的引力場 N 體模擬軟件?;趪a(chǎn)計算系統(tǒng)的天文 N 體計算模擬軟件將實施千億量級及以上規(guī)模的高效率宇宙學(xué)模擬,為國際大型星系巡天、暗物質(zhì)、暗能量大型探測計劃,以及我國重大科學(xué)工程 500 米口徑球面射電望遠鏡(FAST)和空間站巡天望遠鏡等大科學(xué)裝置提供必要的數(shù)值模擬支撐。

3.9 計算生物學(xué)之基因測序

3.9.1 現(xiàn)狀

從管中窺豹的 DNA 分子排列,到暗藏殺機的復(fù)雜遺傳疾病;從小分子代謝物流轉(zhuǎn)不息,到眼角眉梢的巧笑嫣然;見微知著地貫通微觀到宏觀是無數(shù)遺傳學(xué)家思考畢生的問題。前瞻性隊列研究是流行病學(xué)的基本觀察性研究設(shè)計之一, 自 20 世紀 70——80 年代起,世界各國陸續(xù)開始建立長期隨訪的人群隊列。新建立的人群隊列,如中國法醫(yī)分子畫像樣本庫、荷蘭 Rotterdam 隊列、英國雙生子隊列、英國 ALSPAC 隊列、美國波士頓隊列、澳大利亞 QIMR 隊列、拉丁美洲 CANDELA 隊列等,其規(guī)模越來越大,且包含較為全面的健康結(jié)局信息、環(huán)境暴露信息和社會學(xué)信息。這些數(shù)據(jù)具備部分大數(shù)據(jù)的特征:大型隊列的規(guī)模已經(jīng)達到了 50 萬種樣本以上,且采樣精度不斷提高,通過整合基因組學(xué)、轉(zhuǎn)錄組學(xué)、表觀組學(xué)、蛋白組學(xué)、代謝組學(xué)、免疫組學(xué)和影像組學(xué)等多維數(shù)據(jù),數(shù)據(jù)量迅速擴大;表型數(shù)據(jù)包含非結(jié)構(gòu)化圖像、音、視頻等高度異質(zhì)性數(shù)據(jù),并且存在復(fù)雜的關(guān)聯(lián)關(guān)系,呈現(xiàn)出多樣性和異質(zhì)性;借助電子健康記錄及智能傳感設(shè)備,數(shù)據(jù)更新頻繁。深入解析這些數(shù)據(jù)是精準醫(yī)學(xué)和 DNA 表型刻畫等多領(lǐng)域的核心目標,在復(fù)雜疾病的個性化預(yù)防、診療和指導(dǎo)公安刑偵破案等方面有重要的應(yīng)用價值。

3.9.2 對領(lǐng)域應(yīng)用的促進

隨著測序技術(shù)不斷發(fā)展和各國對普惠健康領(lǐng)域投入的增加,新建立的人群隊列規(guī)模越來越大,且包含較為全面的健康結(jié)局信息、環(huán)境暴露信息和社會學(xué)信息,這些數(shù)據(jù)具備部分大數(shù)據(jù)的特征。未來由隊列聯(lián)盟整合的跨國人群隊列的樣本規(guī)模會達到千萬級,傳統(tǒng)分析手段的處理效率難以適應(yīng)數(shù)據(jù)的產(chǎn)生速度。與此同時,借助電子健康記錄及智能傳感設(shè)備的實用,頻繁更新的多維表型組學(xué)數(shù)據(jù)形成了高度異質(zhì)的數(shù)據(jù)集合。深入解析這些數(shù)據(jù)需設(shè)計高效合理的數(shù)據(jù)庫架構(gòu)以對多源、異構(gòu)數(shù)據(jù)的清洗、標準化和存儲,并引入新算法進行處理。

3.9.3 發(fā)展趨勢

面對樣本量和數(shù)據(jù)維度的爆炸性增加,生物信息學(xué)也迎來了技術(shù)拐點??蒲薪绾凸I(yè)界共同發(fā)力,許多經(jīng)典的生物信息學(xué)算法和流程通過使用高性能計算資源,提高了生產(chǎn)效率,增強了系統(tǒng)易用性,降低了存儲管理難度;而針對高性能計算平臺開發(fā)的機器學(xué)習(xí)、深度學(xué)習(xí)算法,也在解析多維數(shù)據(jù)復(fù)雜因果關(guān)系及交互作用網(wǎng)絡(luò)方面嶄露頭角。以經(jīng)典的全基因組關(guān)聯(lián)分析為例,配合高性能運算平臺的高算力開發(fā)的新統(tǒng)計學(xué)習(xí)算法,可以極大提高統(tǒng)計效力,從而發(fā)現(xiàn)以前未發(fā)現(xiàn)的影響人類復(fù)雜表型的遺傳因子,深入理解其遺傳結(jié)構(gòu)。對于復(fù)雜疾病來說,這能夠提供明確的分子通路和基因靶標,進而完善復(fù)雜疾病的個性化預(yù)防、診療、分子分型、預(yù)后等健康管理方案。對于人類復(fù)雜外貌表型來說,也可以基于發(fā)現(xiàn)的遺傳因子建立外貌表型預(yù)測模型,推動協(xié)助刑事案件偵查、海關(guān)檢驗和移民管理等工作進入主動、精確、智能的新時代。將來,高性能計算將進一步推動面向生命科學(xué)研究的機器學(xué)習(xí)和深度學(xué)習(xí)的算法開發(fā),助力數(shù)據(jù)聚類、建模預(yù)測、文本挖掘、圖像識別等領(lǐng)域開展數(shù)據(jù)驅(qū)動型研究。

4 關(guān)于我國科學(xué)計算發(fā)展的若干建議

歷經(jīng) 30 年,我國的科學(xué)計算由起步發(fā)展至今,在諸多研究領(lǐng)域取得了長足的進步,但仍需面對E級超算④E級超算是指每秒可進行百億億次浮點運算(1018 Flops)的超級計算機,是全世界公認的“超級計算機的下一頂皇冠”。的新挑戰(zhàn)。高性能計算機的體系結(jié)構(gòu)越來越復(fù)雜,其特征是處理器和加速器部件的復(fù)雜深度異構(gòu)、單處理器內(nèi)眾核、單節(jié)點內(nèi)多處理器、數(shù)萬計算結(jié)點、多級存儲系統(tǒng)和超高速內(nèi)部互聯(lián)網(wǎng)絡(luò),這對應(yīng)用軟件的研制提出了眾多挑戰(zhàn)。

我國經(jīng)過多年的努力和投入,超級計算機硬件基礎(chǔ)設(shè)施能力已達國際先進水平。但由于在科學(xué)計算軟件方面如基礎(chǔ)算法庫、并行算法庫、高性能計算應(yīng)用中間件和各學(xué)科領(lǐng)域應(yīng)用軟件缺乏穩(wěn)定投入和長期積累,導(dǎo)致我國科學(xué)計算應(yīng)用各環(huán)節(jié)均嚴重依賴國外。特別是使用國外軟件占比高達 90% 以上,這已成為制約我國高性能計算進一步發(fā)展的“卡脖子”問題。

為了更好地發(fā)展我國的科學(xué)計算應(yīng)用和加強研發(fā)應(yīng)用軟件,今后應(yīng)戰(zhàn)略性布局和規(guī)劃我國科學(xué)計算的發(fā)展路線和實施計劃,具體給出 5 點建議。

(1)設(shè)立國家級高性能計算軟件研發(fā)中心,并給予長期穩(wěn)定支持。針對國產(chǎn)處理器研發(fā)若干重要領(lǐng)域的科學(xué)計算軟件;通過挖掘若干應(yīng)用領(lǐng)域的科學(xué)問題,以應(yīng)用需求為導(dǎo)向,設(shè)立長期穩(wěn)定的科學(xué)目標。圍繞該目標,開展長期、持續(xù)的軟件研發(fā)。

(2)大力加強高性能計算應(yīng)用中間件的開發(fā)。近年來,在國家“863”計劃和重點研發(fā)計劃“高性能計算”專項的支持下,我國科研工作者成功研制了三維并行結(jié)構(gòu)自適應(yīng)軟件框架 JASMIN[[27]和三維并行自適應(yīng)有限元軟件平臺 PHG[[28]。中國科學(xué)院計算機網(wǎng)絡(luò)信息中心科研人員在計算科學(xué)應(yīng)用研究中心支持下,正研發(fā)并行計算框架 SC Tangram。通過框架支撐,并行計算細節(jié)可對應(yīng)用科學(xué)計算研究人員屏蔽,使其可集中于物理模型和計算方法創(chuàng)新并加速計算程序與新方法、新模型的融合,最終實現(xiàn)大規(guī)模并行計算應(yīng)用軟件的快速開發(fā)。

(3)進一步在國家戰(zhàn)略層面加強科學(xué)計算應(yīng)用軟件的規(guī)劃和開發(fā)??茖W(xué)計算應(yīng)用軟件是計算科學(xué)和應(yīng)用科學(xué)領(lǐng)域交叉融合的產(chǎn)物,涉及面廣。僅僅依靠高等院校和科研院所的研究人員憑興趣自發(fā)或是零散的研發(fā)應(yīng)用是遠遠不夠的,應(yīng)從國家戰(zhàn)略層面和科學(xué)問題的需要出發(fā),以需求為牽引,以需要解決問題為目標,制定 10 年甚至更長時間的規(guī)劃并堅定地執(zhí)行方才能見到成效。

(4)提高科學(xué)計算應(yīng)用的基礎(chǔ)研究水平。科學(xué)計算能力包括計算機軟件硬件、支撐軟件以及算法的能力。只有提高科學(xué)計算應(yīng)用的基礎(chǔ)研究水平,才能對高性能計算機的軟硬件提出更高的需求,從而推動高性能計算應(yīng)用向著更深層次和更高水平發(fā)展。大力發(fā)展復(fù)雜異構(gòu)系統(tǒng)上的各種精度的混合計算方法,加強高性能體系結(jié)構(gòu)發(fā)展與算法、軟件的互動。

(5)大力加強計算科學(xué)和應(yīng)用學(xué)科的復(fù)合型人才培養(yǎng)??茖W(xué)計算涉及應(yīng)用科學(xué)、計算機科學(xué)、數(shù)學(xué)等多個學(xué)科,必須在高等教育、繼續(xù)教育以及研究院所等層面開展相關(guān)培養(yǎng)工作,加大經(jīng)費支持,建立適合的評價機制,鼓勵研究人員從事計算應(yīng)用軟件的研發(fā),提高待遇,從而形成可持續(xù)性發(fā)展的局面。

致謝 感謝中國科學(xué)院大氣物理研究所劉海龍和唐曉、中國科學(xué)院上海藥物研究所于坤千、中國科學(xué)院高能物理研究所陳瑩、中國科學(xué)技術(shù)大學(xué)胡偉、中國科學(xué)院金屬研究所徐東生、中國科學(xué)院北京基因組研究所劉凡、中國科學(xué)院計算機網(wǎng)絡(luò)信息中心王彥堈和王武提供了相關(guān)科學(xué)計算應(yīng)用的文字材料;感謝中國科學(xué)院物理研究所王鼎盛院士提供珍藏了 20 多年的、發(fā)表在《人民日報》和《中國科學(xué)報》上的有關(guān) 曙光 1000 攻關(guān)的報道。

猜你喜歡
高性能
高性能3000N針栓式推力室設(shè)計
高性能海工結(jié)構(gòu)鋼API2W的研發(fā)
高性能混凝土配比設(shè)計研究
高性能纖維的可織性研究進展
溶膠-凝膠法制備高性能ZrO2納濾膜
高性能開關(guān)電源的設(shè)計方法分析
一款高性能BGO探測器的研發(fā)
高性能砼在橋梁中的應(yīng)用
SATA推出全新高性能噴槍SATAjet 5000 B
高性能可變進氣岐管降低二氧化碳排放
满城县| 交城县| 河南省| 东港市| 萨嘎县| 正阳县| 高尔夫| 额济纳旗| 易门县| 阿尔山市| 石景山区| 明水县| 奉贤区| 西乌珠穆沁旗| 阿坝| 民乐县| 叶城县| 大港区| 囊谦县| 台东市| 隆德县| 临高县| 休宁县| 晋州市| 金阳县| 即墨市| 曲周县| 田东县| 逊克县| 息烽县| 乐都县| 合肥市| 尉犁县| 阿克陶县| 长岛县| 临沂市| 甘洛县| 恩施市| 商都县| 锡林郭勒盟| 罗城|