国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

超算中心服務(wù)門(mén)戶(hù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2020-12-14 04:37:08王秀梅張運(yùn)動(dòng)
電腦知識(shí)與技術(shù) 2020年28期

王秀梅 張運(yùn)動(dòng)

摘要:隨著超級(jí)計(jì)算中心系統(tǒng)計(jì)算性能不斷提高,對(duì)校級(jí)超算中心的運(yùn)行管理和服務(wù)能力提出了考驗(yàn),文章以某大學(xué)超級(jí)計(jì)算中心為例,從該中心提供服務(wù)的對(duì)象和內(nèi)容實(shí)際出發(fā),探討了校級(jí)超算中心服務(wù)門(mén)戶(hù)的設(shè)計(jì)與實(shí)現(xiàn)。

關(guān)鍵詞:超算中心;門(mén)戶(hù)系統(tǒng);計(jì)算系統(tǒng)

中圖分類(lèi)號(hào):TP311.52 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)28-0096-03

1 背景

中國(guó)科學(xué)技術(shù)大學(xué)超算中心目前有瀚海20超級(jí)計(jì)算系統(tǒng)和曙光TC4600超級(jí)計(jì)算系統(tǒng),計(jì)算能力高達(dá)3.168千萬(wàn)億次/秒,計(jì)算能力位居國(guó)內(nèi)高校前列。中心不僅面向校內(nèi)外有高性能計(jì)算需求的科研院系師生和用戶(hù)提供高性能計(jì)算服務(wù),此外還向需求用戶(hù)提供高發(fā)熱密度的計(jì)算服務(wù)器及配套設(shè)備托管服務(wù)、計(jì)算軟件合作研發(fā)服務(wù)、用戶(hù)培訓(xùn)服務(wù)等等。為提高本中心的管理服務(wù)水平,針對(duì)這種向特定科研群體提供服務(wù)的特性,需要開(kāi)發(fā)一套平臺(tái)進(jìn)行管理運(yùn)維,從而設(shè)計(jì)了具有用戶(hù)管理、計(jì)費(fèi)管理、系統(tǒng)運(yùn)行分析及性能監(jiān)控、成果統(tǒng)計(jì)等功能的超算中心創(chuàng)新型服務(wù)門(mén)戶(hù)系統(tǒng)。

2 總體框架設(shè)計(jì)

首先,本服務(wù)門(mén)戶(hù)系統(tǒng)根據(jù)用戶(hù)使用方式設(shè)計(jì)一套包括資源申請(qǐng)和審批功能的工作流程。另外該系統(tǒng)是在原有LSF作業(yè)調(diào)度系統(tǒng)的基礎(chǔ)上開(kāi)發(fā)的,故可通過(guò)操作系統(tǒng)接口以及作業(yè)調(diào)度系統(tǒng)接口獲取系統(tǒng)信息和作業(yè)調(diào)度系統(tǒng)的作業(yè)信息,通過(guò)作業(yè)調(diào)度系統(tǒng)的接口實(shí)現(xiàn)提交和管理作業(yè),以及對(duì)作業(yè)調(diào)度系統(tǒng)的配置進(jìn)行修改。

設(shè)計(jì)該門(mén)戶(hù)系統(tǒng)應(yīng)具備以下幾層:

1) 被管理對(duì)象層:主要包括系統(tǒng)管理的軟硬件設(shè)備;

2) 交換層:包括門(mén)戶(hù)系統(tǒng)與操作系統(tǒng)與作業(yè)調(diào)度系統(tǒng)的接口;

3) 數(shù)據(jù)存儲(chǔ)層:使用Mysql作為系統(tǒng)的核心數(shù)據(jù)庫(kù);

4) 業(yè)務(wù)邏輯層:所有的業(yè)務(wù)邏輯,如:工作流程、作業(yè)管理、系統(tǒng)管理、用戶(hù)管理等功能都在該層實(shí)現(xiàn);

5) 系統(tǒng)展示層:通過(guò)Web實(shí)現(xiàn)用戶(hù)交互,包括標(biāo)準(zhǔn)展示和自定義展示。

3 門(mén)戶(hù)系統(tǒng)主要功能模塊設(shè)計(jì)

3.1 在線(xiàn)注冊(cè)和用戶(hù)登錄

此功能提供包含校內(nèi)外用戶(hù)可訪問(wèn)的在線(xiàn)注冊(cè)功能,對(duì)校內(nèi)用戶(hù)支持是否為在校師生等身份認(rèn)證,支持本校的現(xiàn)有統(tǒng)一身份認(rèn)證系統(tǒng)。當(dāng)用戶(hù)申請(qǐng)開(kāi)設(shè)超算賬戶(hù)時(shí)先在線(xiàn)注冊(cè)門(mén)戶(hù)賬戶(hù),收到用戶(hù)申請(qǐng)后,發(fā)郵件通知超算中心開(kāi)戶(hù),超算中心批準(zhǔn)后,用戶(hù)再申請(qǐng)超算賬戶(hù)。另外,還設(shè)有負(fù)責(zé)人賬戶(hù)及普通賬戶(hù),分級(jí)管理。

3.2 信息總覽

該功能主要提供科大超算中心在用的瀚海20超級(jí)計(jì)算系統(tǒng)和曙光TC4600百萬(wàn)億次超級(jí)計(jì)算系統(tǒng)的總體信息,包括集群資源、作業(yè)排隊(duì)、機(jī)時(shí)等幾個(gè)維度的信息。

系統(tǒng)賬戶(hù)管理包含用戶(hù)賬戶(hù)管理、角色管理、待審核用戶(hù)列表等。

采用分級(jí)賬戶(hù)管理制度,提供超算中心管理員、課題組管理員、個(gè)人用戶(hù)三級(jí)賬戶(hù),不同賬戶(hù)具備不同的權(quán)限,獲取不同的信息;根據(jù)校超算中心的具體使用情況提供省內(nèi)、省外、中科院等不同用戶(hù)的賬戶(hù)管理:

1) 添加賬戶(hù):超算中心管理員可添加課題組或個(gè)人用戶(hù),課題組在得到授權(quán)后可添加組內(nèi)個(gè)人系統(tǒng)用戶(hù)和VPN用戶(hù),添加后需超算中心管理員批準(zhǔn)后才生效;

2) 修改賬戶(hù):超算中心管理員可對(duì)各級(jí)賬戶(hù)進(jìn)行修改,課題組賬戶(hù)可修改課題組成員賬戶(hù)聯(lián)系等信息,系統(tǒng)賬戶(hù)等信息需要經(jīng)超算管理員批準(zhǔn)后才生效;

3) 刪除賬戶(hù):超算中心管理員可刪除任意賬戶(hù),刪除后需保留以前信息;

4) 開(kāi)戶(hù)需要設(shè)定開(kāi)始結(jié)束時(shí)間,直接記錄在超算系統(tǒng)中;

5) 允許用戶(hù)負(fù)責(zé)人在自己賬戶(hù)下提出申請(qǐng)(需要自動(dòng)核實(shí)賬戶(hù)是否可用,比如已經(jīng)存在等),申請(qǐng)?zhí)岢龊?,通過(guò)郵件等通知超算中心管理員確認(rèn)開(kāi)戶(hù)。

3.3 計(jì)費(fèi)管理

根據(jù)校級(jí)超算中心制定的計(jì)費(fèi)策略,實(shí)現(xiàn)不同集群、不同策略的分別計(jì)費(fèi);根據(jù)不同的計(jì)費(fèi)策略,提供機(jī)時(shí)充值,機(jī)時(shí)修正功能。

1) 提供設(shè)備托管功能,支持托管設(shè)備費(fèi)用記錄;

2) 提供隊(duì)列及費(fèi)率信息,包含獨(dú)占隊(duì)列、非獨(dú)占隊(duì)列及設(shè)備托管信息,管理員可在頁(yè)面上動(dòng)態(tài)調(diào)整不同隊(duì)列的計(jì)費(fèi)策略,并記錄開(kāi)始結(jié)束日期;

3) 計(jì)費(fèi)策略中需包含優(yōu)惠政策等,并記錄開(kāi)始結(jié)束日期等,統(tǒng)計(jì)時(shí)需對(duì)應(yīng);

4) 提供計(jì)費(fèi)策略的修改功能,超算中心可自行修改;

5) 機(jī)時(shí)充值:超算中心管理員可在本頁(yè)面直接為對(duì)應(yīng)賬戶(hù)充值;

6) 機(jī)時(shí)修正:對(duì)于計(jì)算有誤或者因其他不可抗力造成的機(jī)時(shí)誤差,可以使用機(jī)時(shí)修正功能,退還用戶(hù)使用機(jī)時(shí)。

3.4 成果統(tǒng)計(jì)

提供用戶(hù)科研成果錄入(支持用戶(hù)和超算中心管理員錄入,各子賬戶(hù)的計(jì)入負(fù)責(zé)人賬戶(hù))以及機(jī)時(shí)獎(jiǎng)勵(lì)系統(tǒng),返還機(jī)時(shí)數(shù)據(jù)并入計(jì)費(fèi)系統(tǒng);以圖表方式展示科研成果;對(duì)校內(nèi)用戶(hù)支持從校論文采集系統(tǒng)抽取數(shù)據(jù)由用戶(hù)進(jìn)行確認(rèn)。

3.5 運(yùn)行分析

提供多套集群的數(shù)據(jù)分析與統(tǒng)計(jì)功能,提供每套集群的主要使用數(shù)據(jù),包括資源情況、排隊(duì)情況,用戶(hù)使用及作業(yè)使用情況;支持按照用戶(hù)名、用戶(hù)組、時(shí)間、隊(duì)列、單作業(yè)并行核數(shù)、運(yùn)行機(jī)時(shí)范圍等組合查詢(xún)。

3.6 性能監(jiān)控

通過(guò)大規(guī)模機(jī)群的并行性能監(jiān)控和分析,可實(shí)現(xiàn)用戶(hù)對(duì)應(yīng)用運(yùn)行特征的準(zhǔn)確了解,以及對(duì)性能異常提供報(bào)警,提高運(yùn)行性能,實(shí)現(xiàn)綠色計(jì)算和節(jié)能減排。

1) 在門(mén)戶(hù)系統(tǒng)中加入云版paramon軟件,用戶(hù)可根據(jù)自己的權(quán)限看到對(duì)應(yīng)作業(yè)運(yùn)行狀態(tài),賬戶(hù)管理員可以看到該賬戶(hù)下所有用戶(hù)使用的作業(yè)在節(jié)點(diǎn)上的運(yùn)行情況,包含節(jié)點(diǎn)本省狀態(tài),作業(yè)的運(yùn)行性能等;而每個(gè)用戶(hù)只能看到自己當(dāng)前提交作業(yè)節(jié)點(diǎn)的運(yùn)行狀態(tài),及應(yīng)用性能狀態(tài)。

2) 保存運(yùn)行特征文件

用戶(hù)可單獨(dú)保存某個(gè)作業(yè)的運(yùn)行特征文件,并提交到超算中心,做初步的應(yīng)用性能分析。如果用戶(hù)很關(guān)心所運(yùn)行應(yīng)用的性能,可將特征文件保存后發(fā)給超算中心進(jìn)行進(jìn)一步分析。

4 服務(wù)門(mén)戶(hù)系統(tǒng)技術(shù)實(shí)現(xiàn)

4.1 系統(tǒng)技術(shù)路線(xiàn)

該服務(wù)門(mén)戶(hù)系統(tǒng)采用B/S架構(gòu)模式,后臺(tái)基于成熟的SSH框架開(kāi)發(fā),采用Tomcat作為Web容器,Mysql作為系統(tǒng)核心數(shù)據(jù)庫(kù)。系統(tǒng)前臺(tái)采用BootStrap作為基礎(chǔ)模板和素材庫(kù),通過(guò)重寫(xiě)JS和JQuery實(shí)現(xiàn)動(dòng)態(tài)效果,系統(tǒng)中的報(bào)表組件采用HighChart報(bào)表庫(kù)。

4.2 應(yīng)用特征數(shù)據(jù)采集與收集

超算中心門(mén)戶(hù)系統(tǒng)中,用戶(hù)比較關(guān)注自身的具體使用情況,特征數(shù)據(jù)收集分為前臺(tái)系統(tǒng)和后臺(tái)系統(tǒng),后臺(tái)系統(tǒng)又分為服務(wù)器端程序和客戶(hù)端程序。軟件后臺(tái)系統(tǒng)用于采集服務(wù)器各結(jié)點(diǎn)的特征指標(biāo)數(shù)據(jù),前臺(tái)系統(tǒng)用于將收集到的特征指標(biāo)數(shù)據(jù)進(jìn)行實(shí)時(shí)顯示,對(duì)于某一特定用戶(hù),只能通過(guò)頁(yè)面看到自己的應(yīng)用當(dāng)前在集群上的使用情況,并記錄離線(xiàn)的性能數(shù)據(jù)文件。

客戶(hù)端程序采集每一個(gè)結(jié)點(diǎn)的特征數(shù)據(jù),然后將匯總的數(shù)據(jù)再統(tǒng)一傳遞給服務(wù)器端程序。數(shù)據(jù)采集是客戶(hù)端程序的核心部分,系統(tǒng)級(jí)數(shù)據(jù)主要通過(guò)操作系統(tǒng)或第三方API獲得。如:CPU每個(gè)核(包括打開(kāi)SMT超線(xiàn)程)的USED使用率(即CPU每個(gè)核的利用率)和SYS使用率(即CPU每個(gè)核系統(tǒng)開(kāi)銷(xiāo)的利用率)、內(nèi)存使用率、SWAP使用率、本地磁盤(pán)讀寫(xiě)速率以及以太網(wǎng)網(wǎng)絡(luò)收發(fā)速率的采集是通過(guò)調(diào)用操作系統(tǒng)提供的接口來(lái)獲得;GPU利用率的實(shí)時(shí)采集是通過(guò)硬件廠商提供的API接口(NVML)規(guī)范來(lái)實(shí)現(xiàn),InfiniBand網(wǎng)絡(luò)的實(shí)時(shí)接收和發(fā)送量采集也是通過(guò)廠商提供的API實(shí)現(xiàn)。網(wǎng)絡(luò)文件系統(tǒng)讀寫(xiě)速率通過(guò)調(diào)用服務(wù)端系統(tǒng)參數(shù)來(lái)獲得。

服務(wù)器端程序的主要工作是匯總客戶(hù)端數(shù)據(jù),并提交給前臺(tái)系統(tǒng)顯示。由于涉及不同平臺(tái)數(shù)據(jù)傳輸,因此,整個(gè)數(shù)據(jù)傳輸過(guò)程,通過(guò)XML封裝數(shù)據(jù)。XML是Internet環(huán)境中跨平臺(tái)的,依賴(lài)于內(nèi)容的技術(shù),是當(dāng)前處理結(jié)構(gòu)化文檔信息的有力工具。XML在任何應(yīng)用程序中讀寫(xiě)數(shù)據(jù)都比較簡(jiǎn)單,程序可以很容易地與Windows、Linux以及其他平臺(tái)下產(chǎn)生的信息結(jié)合,然后可以很容易加載XML數(shù)據(jù)到程序中并進(jìn)行分析,并以XML格式輸出結(jié)果。

前臺(tái)系統(tǒng)的主要工作是匯總后臺(tái)數(shù)據(jù),實(shí)時(shí)呈現(xiàn)被選中結(jié)點(diǎn)的特征數(shù)據(jù),并離線(xiàn)記錄到文件中。同時(shí),在前臺(tái)系統(tǒng)中預(yù)設(shè)一系列可報(bào)警的事件列表,并對(duì)外提供開(kāi)放的接口,支持自定義事件;當(dāng)前臺(tái)系統(tǒng)中對(duì)應(yīng)的預(yù)設(shè)事件被觸發(fā),系統(tǒng)會(huì)按照預(yù)設(shè)的操作方式進(jìn)行操作,即進(jìn)行自動(dòng)應(yīng)用軟件性能優(yōu)化。前臺(tái)系統(tǒng)要求是獨(dú)立的系統(tǒng),即可以單獨(dú)部署在一個(gè)結(jié)點(diǎn)上,也可以和后臺(tái)系統(tǒng)部署在同一結(jié)點(diǎn)上。每個(gè)節(jié)點(diǎn)在前臺(tái)系統(tǒng)里有與之對(duì)應(yīng)的單體窗口,在單體窗口來(lái)顯示該節(jié)點(diǎn)資源使用狀態(tài)。

5 結(jié)束語(yǔ)

在高性能計(jì)算環(huán)境運(yùn)行過(guò)程中,需要加強(qiáng)管理,對(duì)作業(yè)進(jìn)行合理調(diào)度,提高系統(tǒng)利用率[1]。通過(guò)建立超算服務(wù)門(mén)戶(hù)系統(tǒng),可以直觀、全面、充分展示超算中心的資源、作業(yè)、應(yīng)用和成果等各方面的信息,方便全面管理運(yùn)行數(shù)據(jù)、作業(yè)數(shù)據(jù)、賬單數(shù)據(jù)、成果統(tǒng)計(jì)等,并從不同的維度分析展現(xiàn)數(shù)據(jù)價(jià)值,從而進(jìn)行數(shù)據(jù)積累與分析挖掘,為后續(xù)隊(duì)列策略提供依據(jù),同時(shí)為超算中心的管理和運(yùn)維工作提升了效率。

參考文獻(xiàn):

[1] 趙毅,朱鵬,遲學(xué)斌,等.淺析高性能計(jì)算應(yīng)用的需求與發(fā)展[J].計(jì)算機(jī)研究與發(fā)展,2007,44(10):1640-1646.

【通聯(lián)編輯:謝媛媛】

永平县| 浪卡子县| 曲水县| 弋阳县| 黄冈市| 祥云县| 黄石市| 建平县| 盐亭县| 大足县| 蓬莱市| 阿拉善左旗| 绩溪县| 阿坝| 和平区| 志丹县| 克山县| 横山县| 牙克石市| 浦县| 通州区| 于都县| 广东省| 江陵县| 莱西市| 利津县| 左权县| 中西区| 合水县| 麻栗坡县| 景德镇市| 星座| 天等县| 临沂市| 多伦县| 河池市| 绥中县| 新宁县| 旬阳县| 邯郸市| 广宗县|