楊敏 李惠歡
摘 要:近幾年,各高校級(jí)、國(guó)家級(jí)的高性能計(jì)算中心陸續(xù)建成,超級(jí)計(jì)算平臺(tái)的運(yùn)維模式也從過去強(qiáng)調(diào)計(jì)算力向注重降低運(yùn)營(yíng)管理成本和提升應(yīng)用服務(wù)水平轉(zhuǎn)變。中山大學(xué)經(jīng)歷了超過10年的行業(yè)實(shí)踐,在高性能計(jì)算平臺(tái)的建設(shè)管理、平臺(tái)運(yùn)維服務(wù)支撐、應(yīng)用研究和人才培養(yǎng)等諸多方面具備堅(jiān)實(shí)的基礎(chǔ)積累,建立了隨需而變的運(yùn)維管理機(jī)制,充分滿足多學(xué)科應(yīng)用需求的個(gè)性化應(yīng)用服務(wù)模式,具備可持續(xù)發(fā)展的行業(yè)競(jìng)爭(zhēng)實(shí)力。
關(guān)鍵詞:百萬億次;高性能計(jì)算;國(guó)家超級(jí)計(jì)算廣州中心
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:In recent years,with the continual establishments of national and university HPC centers,the operation and maintenance pattern of the supercomputing platform has been changed from the emphasis on computing capacity to the focus on reducing the cost of operation management and improving the level of application service.After over 10 years of practice in the captive industry,Sun Yat-sen University has solid basic accumulations in respect of construction management of the high-performance computing platform,support of operation and maintenance services as well as application research and personnel training,etc.The operation and maintenance management can be adjusted in response to demands and the personalized service mode can fully meet the needs of multidisciplinary application,with the sustainable competition capacities in the HPC field.
Keywords:MegaFLOPS;HPC;National Supercomputer Center in Guangzhou
1 引言(Introduction)
中山大學(xué)高性能計(jì)算平臺(tái)的建設(shè)始于2004年底,采取分步走、分批構(gòu)建、按需建設(shè)、逐步升級(jí)的策略,現(xiàn)在校內(nèi)共享平臺(tái)已經(jīng)建成聚合計(jì)算力接近200萬億次,存儲(chǔ)容量達(dá)到500T,其中GPU計(jì)算力130萬億次,使用團(tuán)隊(duì)已超過170多個(gè)。高性能計(jì)算系統(tǒng)支撐的科學(xué)計(jì)算多數(shù)都是非計(jì)算機(jī)學(xué)科的,對(duì)于用戶來說,系統(tǒng)上提供的軟件資源和硬件資源服務(wù)是一體化的。高性能計(jì)算系統(tǒng)的主要職責(zé)即是為各領(lǐng)域用戶提供科學(xué)計(jì)算相關(guān)的資源,包括計(jì)算資源和應(yīng)用資源。我校百萬億次高性能計(jì)算集群系統(tǒng)分批多次建成,硬件數(shù)量多達(dá)四百多臺(tái),異構(gòu)復(fù)雜,用戶應(yīng)用領(lǐng)域廣泛,用戶需求各異。如何進(jìn)行統(tǒng)一的管理,提高運(yùn)維的效率,降低用戶的使用門檻,為用戶提供易用性強(qiáng)的技術(shù)支持是系統(tǒng)應(yīng)用的難點(diǎn)。經(jīng)過十幾年的經(jīng)驗(yàn)積累,我校在高性能計(jì)算平臺(tái)的建設(shè)管理、平臺(tái)運(yùn)維服務(wù)支撐、應(yīng)用研究和人才培養(yǎng)等諸方面具備堅(jiān)實(shí)的基礎(chǔ)積累,并于2012年與廣東省政府、廣州市政府、國(guó)防科學(xué)技術(shù)大學(xué)四方共同建立國(guó)家超級(jí)計(jì)算廣州中心,中心的大樓坐落于中山大學(xué)廣州大學(xué)城校區(qū)內(nèi),峰值計(jì)算性能11億億次的“天河二號(hào)”超級(jí)計(jì)算機(jī)系統(tǒng)已于2015年投入運(yùn)行[1-3]。
2 運(yùn)維與管理(Maintenance and management)
我校高性能計(jì)算共享服務(wù)平臺(tái)有先后建于不同時(shí)期的多套異構(gòu)系統(tǒng),包括公共計(jì)算平臺(tái)、GPU平臺(tái)、省網(wǎng)格、國(guó)家網(wǎng)格、科研團(tuán)隊(duì)的專業(yè)計(jì)算平臺(tái)(例如空氣質(zhì)量預(yù)測(cè)平臺(tái)),各類平臺(tái)都集成在一起進(jìn)行統(tǒng)一建設(shè)和管理。對(duì)于不同規(guī)模的專業(yè)應(yīng)用計(jì)算平臺(tái),我們采用不同的協(xié)同服務(wù)機(jī)制。系統(tǒng)總體架構(gòu)圖如圖1所示。
2.1 網(wǎng)格監(jiān)控
大規(guī)模高性能計(jì)算集群系統(tǒng)在管理上存在著很多的難點(diǎn):(1)服務(wù)器數(shù)量多,且異構(gòu)多樣,專門技術(shù)人才配比少。系統(tǒng)一般都包括管理節(jié)點(diǎn)、登錄節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、I/O存儲(chǔ)節(jié)點(diǎn)、光纖存儲(chǔ)網(wǎng)絡(luò)、高速計(jì)算網(wǎng)絡(luò)、管理網(wǎng)絡(luò)等。設(shè)備類型復(fù)雜,無法完全依賴人工方式完成系統(tǒng)運(yùn)維;(2)故障類型眾多,迅速故障定位要求技術(shù)專業(yè)程度高。不同類型的設(shè)備配置不一樣,故障的原因和影響的范圍有很大差異。單個(gè)計(jì)算節(jié)點(diǎn)故障只影響到提交到該節(jié)點(diǎn)的作業(yè)運(yùn)行異常,管理節(jié)點(diǎn)、共享存儲(chǔ)節(jié)點(diǎn)或共享計(jì)算網(wǎng)絡(luò)故障會(huì)影響整個(gè)系統(tǒng)服務(wù),導(dǎo)致所有用戶的作業(yè)運(yùn)行受到影響;(3)故障發(fā)生不可預(yù)測(cè),要求響應(yīng)處理及時(shí)。高性能計(jì)算系統(tǒng)需7*24小時(shí)對(duì)外提供服務(wù),滿足用戶網(wǎng)絡(luò)訪問的需求,一旦發(fā)生故障必須及時(shí)通知管理員進(jìn)行處理[4,5]。
為解決以上問題,我們?cè)陂_源軟件ganglia和Icinga的基礎(chǔ)上搭建了自動(dòng)化的集群監(jiān)控、告警運(yùn)維系統(tǒng)。采用ganglia構(gòu)建SYSU_HPC Grid網(wǎng)格,能夠跨操作系統(tǒng)平臺(tái)和異構(gòu)硬件平臺(tái)采集系統(tǒng)信息,持續(xù)地監(jiān)測(cè)每個(gè)平臺(tái)各個(gè)組件的性能,觀察系統(tǒng)運(yùn)行的情況,檢測(cè)資源利用的分布趨勢(shì),并將這些信息有效地匯總和呈現(xiàn),這些信息可以作為資源管理策略制定、系統(tǒng)架構(gòu)優(yōu)化和新設(shè)備的選型的依據(jù)。同時(shí)集成Icinga的告警功能,能夠在問題發(fā)生之前,性能指標(biāo)達(dá)到一定的閥值就發(fā)出警告,而不是在問題發(fā)生之后。在性能超出預(yù)定范圍時(shí)及時(shí)通知管理員進(jìn)行處理,比如溫濕度過高、內(nèi)存不足、CPU占用太高、磁盤剩余空間不夠、ssh服務(wù)異常、網(wǎng)絡(luò)異常等等。發(fā)出警告的途徑可以由用戶設(shè)置,包括MAIL、SMS、微信等方式。不同的告警級(jí)別使用不同的告警方式,一般warning警告可使用MAIL、微信告警,在網(wǎng)絡(luò)不可用的情況可以通過SMS發(fā)短信告警。使用自動(dòng)化的監(jiān)控告警,使集群系統(tǒng)保持穩(wěn)定、高效的運(yùn)行狀態(tài),提高平臺(tái)服務(wù)質(zhì)量[6,7]。運(yùn)維管理結(jié)構(gòu)圖如圖2所示。
根據(jù)監(jiān)測(cè)到系統(tǒng)負(fù)載的分布情況,在整套平臺(tái)中建立多種適合不同資源需求的作業(yè)調(diào)度管理策略,以作業(yè)申請(qǐng)的CPU核數(shù)、作業(yè)運(yùn)行時(shí)間和用戶優(yōu)先級(jí)別為維度劃分多種隊(duì)列,不同類型的作業(yè)根據(jù)資源需求情況自動(dòng)進(jìn)入相應(yīng)隊(duì)列,從而顯著提高平臺(tái)資源的利用率。
2.2 數(shù)據(jù)分析統(tǒng)計(jì)
為了提高平臺(tái)使用的透明度,我們?cè)陂_源軟件作業(yè)管理調(diào)度系統(tǒng)TORQUE基礎(chǔ)上進(jìn)行了運(yùn)維報(bào)表等統(tǒng)計(jì)分析軟件的開發(fā)[8]。主要對(duì)系統(tǒng)使用數(shù)據(jù)和用戶使用數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì),實(shí)現(xiàn)對(duì)多校區(qū)集群系統(tǒng)的用戶作業(yè)運(yùn)行情況的實(shí)時(shí)監(jiān)測(cè),并對(duì)作業(yè)調(diào)度及運(yùn)行情況、集群平臺(tái)使用情況及利用率等進(jìn)行統(tǒng)計(jì)分析,形成了每周、每月、每年的運(yùn)行情況報(bào)表,并進(jìn)行及時(shí)發(fā)布。記錄詳細(xì)的CPU、內(nèi)存、網(wǎng)絡(luò)、文件系統(tǒng)、IO等信息的歷史使用數(shù)據(jù),按照用戶指定的時(shí)間段以曲線圖或報(bào)表的形式提供給用戶,進(jìn)行系統(tǒng)使用情況的統(tǒng)計(jì);形成與作業(yè)系統(tǒng)整合的用戶資源統(tǒng)計(jì)報(bào)表,可以按照管理員指定的時(shí)間段,統(tǒng)計(jì)指定用戶的系統(tǒng)資源使用情況,或者以圖表形式統(tǒng)計(jì)各個(gè)用戶占用資源的比例。統(tǒng)計(jì)分析系統(tǒng)采用了自上而下的設(shè)計(jì)方法,技術(shù)規(guī)范、信息標(biāo)準(zhǔn)和系統(tǒng)安全保障橫跨各個(gè)層面。系統(tǒng)架構(gòu)分為五層,包括用戶界面層、業(yè)務(wù)層、應(yīng)用組件層、應(yīng)用接口層和基礎(chǔ)平臺(tái)層,每一層都為上層提供服務(wù),同時(shí)也從下層接口中獲得服務(wù)[9]。
最頂層為用戶界面層直接面向最終用戶,用戶可以使用普通瀏覽器如IE或Chrome等作為客戶端來訪問。用戶界面層為所有用戶提供了統(tǒng)一登錄入口,用戶只需輸入賬號(hào)/密碼則可登錄。用戶界面層作為單獨(dú)一層,可以和高性能計(jì)算服務(wù)門戶的用戶界面層集成在一起,把系統(tǒng)的整個(gè)UI設(shè)計(jì)獨(dú)立出來,使系統(tǒng)設(shè)計(jì)得更具人性化。
第二層為業(yè)務(wù)層,也是統(tǒng)計(jì)分析系統(tǒng)的主要功能模塊集合。該層從用戶和系統(tǒng)等多個(gè)緯度提供年度、季度、月度的使用情況統(tǒng)計(jì)查詢和報(bào)表生成打印等功能,還可從分析結(jié)果中產(chǎn)生決策支持等功能。業(yè)務(wù)層以服務(wù)接口的方式為用戶界面層提供服務(wù),同時(shí)從應(yīng)用組件層的相關(guān)引擎中獲取服務(wù)。
第三層為應(yīng)用組件層,將統(tǒng)計(jì)分析系統(tǒng)的業(yè)務(wù)進(jìn)行邏輯抽象出來的引擎組件。這些組件包括實(shí)現(xiàn)對(duì)TORQUE原始日志記錄進(jìn)行分析的數(shù)據(jù)分析引擎;實(shí)現(xiàn)日志文件訪問處理的文件處理引擎;實(shí)現(xiàn)統(tǒng)計(jì)報(bào)表管理的報(bào)表引擎;實(shí)現(xiàn)用戶操作日志記錄的日志引擎等。應(yīng)用組件層同樣為上層提供通用的應(yīng)用組件以構(gòu)成業(yè)務(wù)功能模塊。
第四層為應(yīng)用接口層,負(fù)責(zé)與基礎(chǔ)平臺(tái)層進(jìn)行對(duì)接和通信,為上層應(yīng)用組件層提供服務(wù),該層由各類適配器構(gòu)成,使上層應(yīng)用不需依賴于基礎(chǔ)平臺(tái)。
最底層為基礎(chǔ)平臺(tái)層,包括高性能計(jì)算平臺(tái)上的各種基礎(chǔ)運(yùn)行環(huán)境,是整個(gè)系統(tǒng)的基礎(chǔ)平臺(tái),涵蓋集群的共享文件系統(tǒng)、作業(yè)管理調(diào)度系統(tǒng)TORQUE、各類并行程序運(yùn)行環(huán)境等[10]。
3 應(yīng)用與服務(wù)(Application and service)
3.1 高性能計(jì)算門戶
高性能計(jì)算系統(tǒng)的使用對(duì)一般用戶,特別是非計(jì)算機(jī)專業(yè)的用戶來說應(yīng)用門檻仍然較高。我校通過建設(shè)高性能計(jì)算門戶,將建于不同時(shí)期、分布在不同校區(qū)的多套計(jì)算資源進(jìn)行有機(jī)地整合,為用戶使用所有校內(nèi)高性能計(jì)算資源提供一個(gè)統(tǒng)一的Web接口,有效地提高平臺(tái)的易用性[11,12]。
高性能計(jì)算門戶框架主要由單點(diǎn)登錄、遠(yuǎn)程應(yīng)用管理、個(gè)性化用戶界面定制等。
(1)單點(diǎn)登錄
門戶將建立單一登錄功能,用戶通過Web瀏覽器使用用戶名/密碼登錄高性能計(jì)算門戶后,門戶將在用戶的整個(gè)會(huì)話期內(nèi)為用戶管理證書,基于證書映射的角色管理為用戶提供更加細(xì)致粒度的高性能計(jì)算資源和高性能計(jì)算服務(wù)的訪問控制。
(2)遠(yuǎn)程應(yīng)用管理
用戶可以基于Web對(duì)高性能計(jì)算作業(yè)進(jìn)行遠(yuǎn)程的在線應(yīng)用管理,方便用戶監(jiān)控自己的作業(yè)。用戶使用發(fā)布出來的在線高性能應(yīng)用服務(wù)提交高性能計(jì)算作業(yè)。對(duì)于在線的應(yīng)用管理分為三個(gè)部分:作業(yè)提交管理、作業(yè)詳細(xì)信息查詢、作業(yè)列表查詢。
(3)個(gè)性化用戶界面定制
給不同角色的用戶提供不同的資源和服務(wù)視圖,保證資源和服務(wù)的安全運(yùn)行,同時(shí)也給不同用戶賦予特定的應(yīng)用體驗(yàn)。
高性能計(jì)算門戶系統(tǒng)采用二級(jí)調(diào)度機(jī)制。用戶從Web客戶端提交的所有作業(yè),都將被提交到系統(tǒng)服務(wù),由系統(tǒng)服務(wù)根據(jù)整個(gè)環(huán)境的使用情況以前端服務(wù)為單位進(jìn)行調(diào)度;而前端服務(wù)收到作業(yè)請(qǐng)求之后,則是根據(jù)其接入機(jī)群的情況,在局部范圍內(nèi)進(jìn)行二次調(diào)度。網(wǎng)格上的調(diào)度不干涉高性能計(jì)算機(jī)群自身的調(diào)度系統(tǒng)策略,因此網(wǎng)格上只需要提供簡(jiǎn)單的FIFO和人工調(diào)度即可,復(fù)雜的調(diào)度策略由高性能計(jì)算機(jī)群調(diào)度系統(tǒng)完成。各種高性能計(jì)算機(jī)群調(diào)度系統(tǒng)都有各自的特點(diǎn),不過大多支持批量作業(yè)提交,支持回填、搶占、預(yù)留等高級(jí)調(diào)度算法。二級(jí)調(diào)度機(jī)制既保證了全局的調(diào)度機(jī)制,又給予局部管理范圍一定的調(diào)度靈活性,可以很好地適應(yīng)層次化管理需求。
高性能計(jì)算門戶基于portlet技術(shù)構(gòu)建。Web Portal是基于符合JSR-168 規(guī)范的Portlet 并融合了Ajax技術(shù)的Portal。Web Portal 由基礎(chǔ)層、服務(wù)層和Portlets組件層構(gòu)成。Web Portal體系結(jié)構(gòu)如圖3所示。
3.2 應(yīng)用服務(wù)封裝
中大的高性能計(jì)算系統(tǒng)中除了部署高性能計(jì)算必需的編譯器、數(shù)學(xué)庫、并行庫外,還把各科學(xué)領(lǐng)域用戶常用的開源、商用軟件分類部署到集群系統(tǒng)中,涉及計(jì)算化學(xué)、理論化學(xué)、理論物理、材料科學(xué)、流體力學(xué)、環(huán)境工程、氣象、地理信息、生物信息等多個(gè)領(lǐng)域。我們通過分析主流的開源和商用大型科學(xué)與工程計(jì)算軟件的應(yīng)用模式,提取出科學(xué)計(jì)算軟件的應(yīng)用服務(wù)封裝的一般化方法,實(shí)現(xiàn)了部分軟件的基于Web技術(shù)的應(yīng)用服務(wù)封裝,為用戶提供更加直觀、易用的基于Web的科學(xué)計(jì)算軟件作業(yè)提交方式[13]。
在計(jì)算環(huán)境應(yīng)用封裝的基礎(chǔ)上,在Web頁面上提供應(yīng)用的使用接口。Portal適合封裝交互次數(shù)少、作業(yè)輸入和輸出數(shù)據(jù)較小的應(yīng)用。在Portal上的應(yīng)用封裝可以分成兩個(gè)部分,Web頁面部分和服務(wù)部分。
(1)Web頁面部分
該部分提供用戶操作的界面及一些輔助功能,包括檢查用戶參數(shù)的完整性和合理性等功能,根據(jù)本地的cookie信息提供信息補(bǔ)全等功能。收集用戶輸入的數(shù)據(jù)并按一定的格式整理后傳輸?shù)椒?wù)器。
(2)服務(wù)部分
該部分處理提交頁面的請(qǐng)求。主要功能是接受頁面的請(qǐng)求,通過與計(jì)算環(huán)境交互,完成相關(guān)請(qǐng)求并返回提示信息,如可能需要的資源列表、作業(yè)數(shù)據(jù)上傳和作業(yè)提交及返回信息。
目前Web Portal已經(jīng)在材料科學(xué)、生命科學(xué)和工程力學(xué)等領(lǐng)域獲得了廣泛的應(yīng)用,已經(jīng)封裝和定制的應(yīng)用包括Amber、Gaussian、NAMD、Fluent和MATLAB等多個(gè)學(xué)科領(lǐng)域的應(yīng)用,也可以很方便地增加更多的應(yīng)用。
4 結(jié)論(Conclusion)
中山大學(xué)重視學(xué)科建設(shè),整合校內(nèi)各方面的科研資源構(gòu)建國(guó)內(nèi)高校先進(jìn)的高性能計(jì)算服務(wù)平臺(tái)。院系各科研團(tuán)隊(duì)利用該平臺(tái)在各學(xué)科領(lǐng)域開展深入研究,在物理化學(xué)、環(huán)境大氣科學(xué)、生命科學(xué)、光學(xué)工程、計(jì)算科學(xué)、海洋科學(xué)、材料科學(xué)、流體力學(xué)等多個(gè)領(lǐng)域發(fā)表高水平科研成果?;谄脚_(tái)開展的科學(xué)研究項(xiàng)目包括國(guó)家自然科學(xué)基金項(xiàng)目、國(guó)家科技重大專項(xiàng)、國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃(973)項(xiàng)目、省自然科學(xué)基金項(xiàng)目和廣東省科技攻關(guān)項(xiàng)目等,其中有兩個(gè)項(xiàng)目獲得2011年度國(guó)家科技進(jìn)步二等獎(jiǎng),在此基礎(chǔ)之上培養(yǎng)了一批具備交叉學(xué)科的科研人員,從整體上提升了中山大學(xué)科研學(xué)術(shù)水平,于2013年成功孵化并建成了中山大學(xué)國(guó)家超級(jí)計(jì)算廣州中心。
參考文獻(xiàn)(References)
[1] 鄭寧,王冰,黨崗.廣州超級(jí)計(jì)算中心應(yīng)用發(fā)展與研究[J].計(jì)算機(jī)工程與科學(xué),2013,35(11):187-190.
[2] 遲學(xué)斌,胡永宏.我國(guó)超級(jí)計(jì)算發(fā)展?fàn)顩r研究[J].調(diào)研世界, 2013(8):56-60.
[3] 張?jiān)迫瑖?guó)興.中國(guó)高性能計(jì)算及TOP100排行榜[EB/OL].http://www.samass.org.cn,2013-10-21.
[4] Meuer H,Simon H,Strohmaier E,et al.TOP500 super-computer sites [EB/OL].http://www.top500.org,2013-10-21.
[5] 林皎,張武生,徐偉平,等.百萬億次集群機(jī)的建設(shè)和部署[J].實(shí)驗(yàn)室研究與探索,2013,32(6):188-190.
[6] Monitoring with Ganglia,Massie,Matt;Li,Bernard;Nicholes,Brad 2012-11.
[7] 中山大學(xué)高興能計(jì)算網(wǎng)格監(jiān)控平臺(tái)[EB/OL].http://hpccmonitor.sysu.edu.cn/ganglia,2013-10-21.
[8] CLUSTER RESOURCES,TORQUE Administrator's Guide version 2.4[EB/OL].http://www.clusterresources.com,2013-10-21.
[9] 牛鐵,朱鵬,趙毅,等.超級(jí)計(jì)算環(huán)境配額系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用,2010,30(12):8-9;39.
[10] 李惠歡,楊敏,吳汝明.基于 TORQUE 的高性能計(jì)算平臺(tái)記賬系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2016(8):126-130.
[11] 廣東省教育科研網(wǎng)格門戶系統(tǒng)[EB/OL].http://hpcc.sysu.edu.cn,2013-10-21.
[12] 楊敏.廣東省教育科研網(wǎng)格門戶系統(tǒng)構(gòu)建[J].武漢大學(xué)學(xué)報(bào)(理學(xué)版)2012,58(10):371-375.
[13] 楊敏,關(guān)偉豪,朱敏.面向超級(jí)計(jì)算中心的運(yùn)營(yíng)管理支撐平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].實(shí)驗(yàn)技術(shù)與管理,2015,32(6):243-246.
作者簡(jiǎn)介:
楊 敏(1979-),女,碩士,工程師.研究領(lǐng)域:高性能計(jì)算系統(tǒng)架構(gòu),大數(shù)據(jù)系統(tǒng)架構(gòu).
李惠歡(1975-),女,碩士,工程師.研究領(lǐng)域:軟件開發(fā).