鄧子云 章 兢 劉楊兵 肖久如
1.湖南大學,長沙,410082 2.國家超級計算長沙中心,長沙,410082
“天河一號”工業(yè)設(shè)計仿真云平臺中間件研究
鄧子云1,2章兢1,2劉楊兵1,2肖久如1
1.湖南大學,長沙,4100822.國家超級計算長沙中心,長沙,410082
在“天河一號”超級計算機上搭建了工業(yè)設(shè)計仿真云平臺,研發(fā)了該平臺的核心部件——工業(yè)設(shè)計仿真云平臺中間件,該中間件軟件集成了多款大型CAE軟件、SLURM作業(yè)調(diào)度軟件、License管理軟件、計算資源管理功能軟件。提出了工業(yè)設(shè)計仿真云平臺的總體架構(gòu),以及工業(yè)設(shè)計仿真云平臺中間件的設(shè)計思想、體系架構(gòu),解決了作業(yè)狀態(tài)轉(zhuǎn)換、作業(yè)提交等關(guān)鍵技術(shù)問題。使用工業(yè)設(shè)計仿真云平臺對火星著陸氣囊的碰撞分析進行了仿真實驗,結(jié)果表明利用工業(yè)設(shè)計仿真云平臺中間件軟件可以簡便地使用“天河一號”超級計算機的計算資源。
“天河一號”超級計算機;工業(yè)設(shè)計仿真云中間件;體系架構(gòu);設(shè)計思想;關(guān)鍵技術(shù);仿真實驗
工業(yè)設(shè)計領(lǐng)域主要使用CAD、CAE軟件來進行模擬仿真,以縮短產(chǎn)品研發(fā)周期,提升產(chǎn)品質(zhì)量。CAD軟件用于設(shè)計建模,CAE軟件用于對設(shè)計進行驗證、優(yōu)化、性能分析等。然而機械設(shè)備的設(shè)計越來越復(fù)雜,CAE軟件又以有限元求解計算最為通用,模型越復(fù)雜、網(wǎng)格劃分越細(求解結(jié)果越精確),對計算機性能的要求就越高,普通PC機應(yīng)對大型CAE軟件的大規(guī)模并行計算需求顯得力不從心,這就需要用超級計算機來支持大規(guī)模并行計算。
超級計算機擁有大量的計算資源,比如上萬個核的CPU(中央處理單元)、PB(Peta Byte,拍字節(jié))級的內(nèi)存、高速的局域網(wǎng)絡(luò)。可通過大型CAE軟件的并行模塊與超級計算機的調(diào)度軟件配合來對有限元模型進行大規(guī)模并行計算求解,合并計算結(jié)果后返回給用戶。
大型CAE軟件十分昂貴,在超級計算機上適配各種大型CAE軟件后,在超級計算機上搭建服務(wù)于工業(yè)設(shè)計仿真需求的云計算服務(wù)平臺(以下簡稱“超算集成平臺”)成為繼超級計算機硬件研發(fā)的后續(xù)軟件研發(fā)的熱點[1]。本文的研究焦點就是超級計算機(“天河一號”)環(huán)境下的工業(yè)設(shè)計仿真云平臺中的中間件軟件。
綜合國內(nèi)外情況來看,工業(yè)設(shè)計仿真云平臺中間件軟件的研究現(xiàn)狀與趨勢如下:
(1)Web服務(wù)和代理技術(shù)已滲透進入云計算中間件領(lǐng)域。王海偉等[2]提出了基于面向服務(wù)的體系架構(gòu)(service-oriented architecture,SOA)的協(xié)同仿真環(huán)境框架,并最終建了一個簡單的原型CAE平臺,但只是構(gòu)建了一個簡單的框架及原型系統(tǒng)。于加晴等[3]提出了一種在分布式環(huán)境下使用Web方式進行協(xié)同設(shè)計的方法,對CAE集成的協(xié)同設(shè)計系統(tǒng)的體系結(jié)構(gòu)和實現(xiàn)技術(shù)進行了介紹,服務(wù)資源通過Jini TM和SOA框架來實現(xiàn)。
(2)工業(yè)設(shè)計仿真云平臺都需要利用中間件軟件的支撐使用戶可以通過Web方式來使用HPC(High Performance Computing,高性能計算)的計算資源。Rius等[4]提出在超級計算機中構(gòu)建一個名為“T-Coffee”的門戶系統(tǒng)來進行基因組學的研究,該系統(tǒng)提供了低成本和高效的專門工具和接口來開發(fā)用戶的交互功能,并支持對遠程計算資源的訪問。高潭等[5]提出在“銀河”超級計算機上構(gòu)建一個高性能計算門戶系統(tǒng),系統(tǒng)中的中間件應(yīng)用訪問資源的適配器技術(shù),直接采用網(wǎng)格中間件GT4(Globus Toolkit 4),利用GT4的內(nèi)置適配器對PBS、LSF、SLURM等任務(wù)調(diào)度器進行適配。
(3)已搭建的工業(yè)設(shè)計仿真云平臺結(jié)構(gòu)復(fù)雜,均以層次結(jié)構(gòu)分塊實現(xiàn)。Kim等[6]提出了一個具有大自由度的線性結(jié)構(gòu)分析系統(tǒng),系統(tǒng)具有三層結(jié)構(gòu),并以“tachyon”超級計算機作為有限元計算的并行求解平臺。遲學斌等[7]描述實現(xiàn)了一種網(wǎng)格中間件SCE(super computing environment,超級計算環(huán)境),該軟件的體系架構(gòu)分為前端服務(wù)、系統(tǒng)服務(wù)和HPC資源三層。張仙偉等[8]根據(jù)網(wǎng)格高性能計算環(huán)境下并行計算的需求,設(shè)計了一個可運行在網(wǎng)格上的GPCS(grid HPC-based parallel computing system,高性能計算平臺上的并行計算系統(tǒng))。
(4)國內(nèi)正努力基于超級計算機自主研發(fā)工業(yè)設(shè)計仿真云平臺中間件。張洪武等[9]已經(jīng)研發(fā)自主的面向CAE工程與科學計算集成化軟件平臺SiPESC。國家超算濟南中心基于“神威藍光”超級計算機正在研發(fā)基于超級計算的工業(yè)設(shè)計資源中心技術(shù)開發(fā)與集成技術(shù)平臺,其中就包括該平臺的中間件軟件。
為充分利用超級計算機的計算資源、降低用戶使用的難度、促進在各種行業(yè)的應(yīng)用,國內(nèi)外都在研究構(gòu)建基于Web的面向CAE或其他行業(yè)應(yīng)用的門戶系統(tǒng),并且都使用中間件軟件來屏蔽超級計算機任務(wù)調(diào)度器、操作系統(tǒng)的差異,采用的中間件技術(shù)各有差異,有的是采用開源軟件組合,有的是采用網(wǎng)格中間件,有的提出了模型并進行了少量的試驗。但普遍由于CAE軟件品種繁多、接口復(fù)雜,集成的CAE軟件品種不多,并且在國內(nèi)還未見基于“天河一號”超級計算機的工業(yè)設(shè)計仿真云平臺中間件出現(xiàn)。
現(xiàn)階段,需要先行研發(fā)出具有自主知識產(chǎn)權(quán)、能適配“天河一號”甚至更多超級計算機的工業(yè)設(shè)計仿真云平臺中間件軟件,再考慮如何以網(wǎng)格形式進行資源整合。
2.1仿真云平臺總體設(shè)計
超算集成平臺的總體架構(gòu)設(shè)計如圖1所示,該平臺分為前端系統(tǒng)、中間件系統(tǒng)、集群端系統(tǒng)三個部分。前端系統(tǒng)負責與用戶交互。中間件系統(tǒng)進行CAE軟件集成,屏蔽異種集群、CAE軟件的差異,為云計算環(huán)境下的“超算集成平臺”前端系統(tǒng)提供統(tǒng)一的接口,支持各種工業(yè)設(shè)計仿真的大規(guī)模并行計算需求,進行作業(yè)的提交和監(jiān)控,并將計算結(jié)果返回給前端系統(tǒng)顯示,支持對計算資源(包括CAE軟件License)的管控,支持協(xié)同仿真的業(yè)務(wù)流程組合。
圖1 平臺總體架構(gòu)設(shè)計
2.2中間件系統(tǒng)設(shè)計思想
中間件系統(tǒng)采用SOA架構(gòu)設(shè)計,將各種功能組件封裝為Web Service供前端系統(tǒng)使用,形成系統(tǒng)集成與通信的接口;采用XML作為通信報文,使用XML Schema進行數(shù)據(jù)校驗;在報文內(nèi)部標簽中約定某個標簽來描述目標功能模塊及安全認證要求,從而進行路由配置,在代碼中實現(xiàn)報文加解密及路由分發(fā)功能;使用Spring作為Web Service組件對應(yīng)用的JavaBean管理容器,借助AOP(aspect-oriented programming,面向方面的程序設(shè)計)編程思想,形成簡單易配的業(yè)務(wù)流程處理機制。
我們面對的計算機集群主要是Windows集群和Linux集群(“天河一號”超級計算機)2種,針對不同的目標集群需要由中間件系統(tǒng)來生成不同的作業(yè)與資源管理指令批處理腳本,再由中間件向目標集群提交執(zhí)行,在執(zhí)行過程中監(jiān)控并取得中間和最終計算結(jié)果。為及時調(diào)度干預(yù)計算作業(yè),可通過中間件獲取集群中各種資源的狀態(tài)及使用情況,資源主要包括計算節(jié)點、CPU/GPU、CAE軟件License等。
2.3中間件體系架構(gòu)
超算集成平臺的中間件就像一條ESB(enterprise service bus,企業(yè)服務(wù)總線)總線,其他的系統(tǒng)以可插拔的方式掛接在上面,通過Web Service進行交互式處理,有同步和異步兩種數(shù)據(jù)交換方式。在ESB總線上,以開源的Tuscany作為SOA架構(gòu)基礎(chǔ)支撐軟件。Tuscany的SCA(service component architecture,服務(wù)組件架構(gòu))容器與Spring的IoC容器相互配合,進行構(gòu)件的裝配,如圖2所示。
圖2 中間件容器配合
SCA容器可進行組合構(gòu)件(composite)和構(gòu)件(component)的裝配,但構(gòu)件的最終實現(xiàn)由Spring Bean來實現(xiàn),因此Spring是實際上的構(gòu)件工廠,并以單例的方式提供多線程的構(gòu)件服務(wù),從而擴展Tuscany的構(gòu)件裝配能力和構(gòu)件功能范圍。
ESB總線的架構(gòu)如圖3所示。中間件通過Spring集成的Quartz作為任務(wù)調(diào)度器,以很小的時間片(不大于5 s)觸發(fā)啟動一個進程的線程,分別有作業(yè)監(jiān)控、作業(yè)提交、資源監(jiān)控、License管理4個進程,Spring作為組件的容器成熟穩(wěn)定,使進程之間相對獨立,線程之間互不影響,以提高中間件系統(tǒng)的并發(fā)處理能力。
圖3 ESB總線的總體架構(gòu)
Spring可使用@AspectJ、Schema等方式來配置AOP的情況,在配置中明確目標對象是以切面形成的連接點,以及針對這些連接點的增強,中間件各連接點配置的增強為前置增強和后置增強,以作出一些可供共享的通用處理功能,如日志記錄、權(quán)限檢查、報文加密、報文解密等。
在超級計算云環(huán)境下,研制工業(yè)設(shè)計仿真云平臺中間件的主要目的是讓用戶在互聯(lián)網(wǎng)環(huán)境下可以簡便地使用海量的計算資源來進行工業(yè)設(shè)計工程應(yīng)用,而需要大規(guī)模并行計算的情形主要就是針對CAE軟件的求解器計算應(yīng)用,在“天河一號”超級計算機上是以一個作業(yè)來對應(yīng)一個求解器計算任務(wù)的,因此首先需要考慮集群環(huán)境下的作業(yè)狀態(tài)是如何轉(zhuǎn)換的,在引入本文所研制出的中間件后又是如何轉(zhuǎn)換的;其次就是要考慮如何來提交作業(yè),以及如何監(jiān)控作業(yè)執(zhí)行的情況并指出在什么情況下作出什么樣的處理。下面以工業(yè)設(shè)計仿真云平臺中間件軟件中的作業(yè)狀態(tài)轉(zhuǎn)換功能為例進行分析。
3.1SLURM作業(yè)狀態(tài)控制
作業(yè)是超級計算機進行調(diào)度的基本單位,常用的調(diào)度器軟件主要有LSF、SLURM等?!疤旌右惶枴背売嬎銠C主要使用SLURM。作業(yè)在提交給SLURM后,將經(jīng)歷一系列的狀態(tài),如圖4所示。
圖4 作業(yè)狀態(tài)轉(zhuǎn)換圖
作業(yè)提交給SLURM后,即進入Pending狀態(tài),Pending表示作業(yè)在隊列中排隊,等待分配資源;作業(yè)被SLURM分配資源后進入Running狀態(tài);用戶將Running狀態(tài)下的作業(yè)掛起,則釋放資源,讓出CPU,進入Suspended狀態(tài),但內(nèi)存并不釋放;作業(yè)運行結(jié)束轉(zhuǎn)為Completed狀態(tài);作業(yè)運行失敗轉(zhuǎn)入Failed狀態(tài);作業(yè)在Pending、Suspended或Running狀態(tài)時被取消則進入Canncelled狀態(tài);如果作業(yè)在運行超出了請求的運行時間則進入Timeout狀態(tài);如果分配給作業(yè)的節(jié)點出現(xiàn)故障,且作業(yè)提交時沒有指定節(jié)點故障容忍參數(shù),則轉(zhuǎn)入Nodefail狀態(tài)。
3.2中間件作業(yè)狀態(tài)控制
“天河一號”超級計算機通過SLURM調(diào)度器調(diào)度求解作業(yè),提交作業(yè)之后的狀態(tài)由SLURM調(diào)度器控制,在此基礎(chǔ)之上需要對狀態(tài)進行重新封裝和控制,要考慮解決以下問題:
(1)用戶以Web方式提交工業(yè)設(shè)計仿真計算作業(yè),中間件要根據(jù)用戶Web方式提交的作業(yè)需求來自動向“天河一號”超級計算機提交作業(yè)。
(2)作業(yè)提交后作業(yè)狀態(tài)交由SLURM調(diào)度器控制,中間件要以較小的時間片(不大于5 s)不間斷地輪詢SLURM以獲取作業(yè)提交后的狀態(tài),并作出相應(yīng)的處理。
(3)考慮計費功能、網(wǎng)絡(luò)與軟件故障處理,需要適當增加作業(yè)的控制狀態(tài)。
(4)由于SLURM調(diào)度器內(nèi)的作業(yè)狀態(tài)有可能跳轉(zhuǎn)很快而在中間件的時間片中監(jiān)控不到,在中間件的作業(yè)狀態(tài)上允許非人為干預(yù)下的跨狀態(tài)跳轉(zhuǎn)。
根據(jù)以上情況,中間件軟件設(shè)計的作業(yè)狀態(tài)轉(zhuǎn)換情況如圖5所示。
圖5 中間件軟件設(shè)計的作業(yè)狀態(tài)轉(zhuǎn)換情況
中間件并不修改SLURM的源代碼來控制作業(yè)的狀態(tài),而是集成SLURM后在SLURM原有狀態(tài)控制功能的基礎(chǔ)上進行狀態(tài)轉(zhuǎn)換的改進。根據(jù)SLURM調(diào)度器中的作業(yè)狀態(tài)模型和中間件調(diào)整后的作業(yè)狀態(tài)模型的對比情況,對狀態(tài)轉(zhuǎn)換作了以下調(diào)整:
(1)為讓用戶通過前端系統(tǒng)可將新建作業(yè)刪除而增加了Deleted(被刪除)狀態(tài),但作業(yè)一旦通過前端系統(tǒng)提交則不允許再行刪除。
(2)增加了Waitcommitted(等待提交)狀態(tài)。在前端系統(tǒng)中提交作業(yè)后就進入Waitcommitted狀態(tài);如果通過中間件的作業(yè)提交線程提交作業(yè)成功,則轉(zhuǎn)為Pending狀態(tài);如果作業(yè)提交失敗,則重試,重試3次仍提交不成功置為Failed狀態(tài),在失敗原因中注明原因是作業(yè)提交失敗。
(3)作業(yè)提交后交由SLURM管控作業(yè)狀態(tài),但中間件的監(jiān)控進程通過Linux命令在每個時間片的線程中得到作業(yè)的狀態(tài)并更新,因此會引入非人為干預(yù)情況下的跨狀態(tài)跳轉(zhuǎn)情況,增加了從Pending跳轉(zhuǎn)到Failed、Completed狀態(tài)的轉(zhuǎn)換關(guān)系,以及從Suspended跳轉(zhuǎn)到Failed、Completed狀態(tài)的轉(zhuǎn)換關(guān)系。
(4)取消了原來的Timeout和Nodefail狀態(tài),合并到Failed狀態(tài),但在Failed狀態(tài)的失敗原因中注明是什么原因。
3.3作業(yè)提交功能設(shè)計
作業(yè)提交功能的設(shè)計思想如圖6所示,提交的過程如下:
圖6 作業(yè)提交功能設(shè)計思想
(1)以Spring集成的Quartz作為時鐘觸發(fā)器,時間片到時觸發(fā)作業(yè)監(jiān)控提線程查詢作業(yè)隊列中狀態(tài)為“Waitcommitted”的作業(yè)。
(2)根據(jù)作業(yè)所需要的求解器類型與版本、模型文件和指令文件的情況、所需計算資源的情況等來綜合生成腳本文件。
(3)調(diào)用腳本文件生成器的接口來通過SFTP程序?qū)⒛P臀募椭噶钗募?、腳本文件傳到“天河一號”超級計算機上。
(4)、(5)生成執(zhí)行腳本文件的指令通過指令執(zhí)行通道執(zhí)行提交批處理作業(yè)指令。如果提交成功得到作業(yè)的ID號,將作業(yè)狀態(tài)變更為“Pending”;如果提交失敗,將作業(yè)狀態(tài)變更為“Failed”。
以上過程中的狀態(tài)轉(zhuǎn)換工作均由作業(yè)狀態(tài)轉(zhuǎn)換器來完成,如果發(fā)生異常則置作業(yè)狀態(tài)為“F”,并記錄失敗原因。
以作業(yè)提交進程時間片到時線程執(zhí)行的程序設(shè)計思想為例,算法思想描述如下:
//得到一個新的作業(yè)
NewJob newJob=SelectANewJob();
//如果作業(yè)的執(zhí)行集群為“天河一號”
if(newJob.object equal‘天河一號’){
//生成作業(yè)提交腳本文件
GenerateCommitScriptFile(newJob);
//置作業(yè)上傳次數(shù)為0
newJob.uploadCount=0;
//用戶作業(yè)預(yù)扣費
boolean moneySuccess=PreMoney(newJob,user);
//如果預(yù)扣費成功
if(moneySuccess){
//上傳并提交作業(yè)
UploadAndCommit(newJob);
}else{
//修改作業(yè)狀態(tài)為“Failed” ,并設(shè)置失敗原因
ModeJobStatus(newJob,'Failed','用戶賬上余額不足');
}
}
//上傳并提交作業(yè)功能
void UploadAndCommit(newJob){
//記錄作業(yè)上傳次數(shù)
newJob.uploadCount++;
//如果已經(jīng)上傳3次
if(newJob.uploadCount>3){
//作業(yè)狀態(tài)為'Failed',并設(shè)置失敗原因
ModeJobStatus(newJob,'Failed','作業(yè)文件上傳失敗');
//返回用戶作業(yè)預(yù)扣費
ReturnMoney(newJob,user);
return;
}
//通過文件傳輸通道上傳作業(yè)指令文件、模型文件及其它文件,返回是否成功標志
booleanuploadJobFilesFlag=UploadJobFiles(newJob);
//通過文件傳輸通道上傳作業(yè)提交腳本文件
Boolean uploadScriptFileFlag
=UploadScriptFile(newJob);
//如果上傳成功
if(uploadJobFilesFlag and uploadScriptFileFlag){
//通過以批處理方式提交作業(yè),返回是否成功
boolean commitFlag=CommitJob(newJob);
//如果提交成功
if(commitFlag){
//修改作業(yè)狀態(tài)為'Pending'
ModiJobStatus(newJob,'Pending');
}else{
//修改作業(yè)狀態(tài)為“Failed”,并設(shè)置原因
ModiJobStatus(newJob,'Failed','作業(yè)提交失敗');
//返回用戶作業(yè)預(yù)扣費
ReturnMoney(newJob,user);
}
}else{
//利用遞歸方法再次上傳和提交作業(yè)
UploadAndCommit(newJob);
}
}
下面以火星著陸多室連通氣囊ANSYS/LS-DYNA有限元分析計算的前處理、求解計算、后處理[10]為例進一步說明中間件的應(yīng)用。
4.1火星著陸多室連通氣囊?guī)缀文P图坝邢拊P偷慕?/p>
火星著陸多室連通氣囊緩沖裝置示意圖見圖7a。在該氣囊緩沖裝置中,總共有A、B、C、D 4個完全對稱的氣囊子系統(tǒng),四面體探測器的每個面通過法蘭與4個氣囊子系統(tǒng)相連,這樣探測器就被包裹在這4個氣囊子系統(tǒng)中。氣囊子系統(tǒng)A示意圖見圖7b,由A1~A6總共6個直徑相同的球囊組合而成,其中3個角上的球囊A1、A3和A5被稱為角囊,中間位置球囊A2、A4、A6被稱為中間囊,角囊和中間囊之間的隔膜上有通氣孔進行連接,可以使得氣體在氣囊子系統(tǒng)內(nèi)部自由流通。在該多室連通氣囊系統(tǒng)中,氣囊子系統(tǒng)C的中間囊上有3個通氣孔分別與相鄰的氣囊子系統(tǒng)A、B、D的中間囊相連。在探測器著陸沖擊過程中,氣囊子系統(tǒng)C在減速傘相對的下端,所以其最先受到?jīng)_擊,其內(nèi)部氣體受到探測器壓力作用經(jīng)過通氣孔被擠壓到氣囊子系統(tǒng)A、B、D中[10]。
(a)整體結(jié)構(gòu)示意圖 (b)氣囊子系統(tǒng)A圖7 火星著陸連通多室氣囊緩沖裝置
根據(jù)上述幾何結(jié)構(gòu)及圖8所示結(jié)構(gòu)尺寸,建立了火星著陸多室連通氣囊緩沖系統(tǒng)的有限元模型,如圖9所示(Dbag= 1058 mm)。其中,采用LS-DYNA的*AIRBAG_INTERACTION定義氣囊之間的連通,氣囊子系統(tǒng)與火星探測器之間的連接法蘭一側(cè)與氣囊節(jié)點重合,另一側(cè)與剛性探測器節(jié)點從屬。每個球囊均采用控制體積法來計算其內(nèi)部氣體的熱力學參數(shù)。球囊的單元為Belytschko-Tsay膜單元,單元在厚度方向的積分點個數(shù)為3,在面內(nèi)采用單點積分?;鹦翘綔y器和地面的單元均為Belytschko-Tsay殼單元,單元在厚度方向的積分點個數(shù)為2,在面內(nèi)采用單點積分。球囊的材料本構(gòu)模型為LS-DYNA的MAT_FABRIC,火星探測器和剛性地面的材料本構(gòu)模型均采用LS-DYNA的MAT_RIGID。在接觸計算中,采用自動面面接觸算法來計算球囊與火星探測器以及球囊與剛性地面之間的接觸。
圖8 火星著陸多室連通氣囊緩沖裝置尺寸圖
圖9 火星著陸多室連通氣囊緩沖系統(tǒng)有限元模型(Dbag =1058 mm)
在緩沖著陸過程中,探測器與多室氣囊一起以20 m/s的初速度沖擊到火星表面上,著陸初速度與豎直方向的夾角為α,在有限元模型中采用LS-DYNA的INITIAL_VELOCITY來實現(xiàn)。為模擬火星重力環(huán)境,在有限元分析中設(shè)置環(huán)境重力場g=3.76 m/s2,火星的表面大氣壓力為650 Pa。
4.2求解計算
用戶使用工業(yè)設(shè)計仿真云平臺進行火星著陸氣囊的有限元碰撞分析計算,從提交作業(yè)到取回計算結(jié)果的完整流程如下。
(1)用戶通過超算集成平臺門戶新建一個LS-DYNA作業(yè),設(shè)置好相應(yīng)的參數(shù)和輸入文件,如請求的CPU數(shù)量、內(nèi)存數(shù)量等,保存并提交作業(yè)。
(2)中間件的作業(yè)提交線程獲取到狀態(tài)為“Waitcommitted”狀態(tài)的作業(yè)列表,其中就包括名為“火星著陸氣囊”的作業(yè),生成作業(yè)提交腳本文件shield.sh,這個文件實際上是一個腳本文件,其核心的算法思想如下:
#得出需要的結(jié)點數(shù)量
int nodenum=0;
#“天河一號”每個結(jié)點2個CPU,每個CPU擁有8個核
# processnum為用戶請求的并行數(shù)
if(processnum%16==0)
nodenum= processnum/16;
else
nodenum= processnum/16+1;
#得出空間的結(jié)點列表
Node idlenodelist[]=new Node[nodenum];
int j=0;
for(int i=0;i if(j== nodenum) break; if(cn[i] is idle) idlenodelist[j]=cn[i]; } If(j< nodenum) return 0;#資源數(shù)量不足 #執(zhí)行并行計算 lsdyna145 -dis -machinesidlenodelist[0]:2… idlenodelist[idlenodelist.length-1]:2 i=kfilename pr=dyna 接下來通過文件傳輸通道把腳本文件、待求解的火星著陸氣囊模型文件上傳到“天河一號”的計算指定目錄下,再通過指令通道執(zhí)行批處理指令,如下所示: sbatch shield.sh 執(zhí)行后如果成功則將作業(yè)交由SLURM進行調(diào)度,待所有資源需求滿足后,SLURM調(diào)度器會調(diào)度相應(yīng)LS-DYNA軟件進行加載求解。 (3)在作業(yè)運行過程中,用戶可以通過門戶系統(tǒng)的作業(yè)監(jiān)控模塊隨時了解作業(yè)當時的運行狀態(tài),監(jiān)控的狀態(tài)來源于中間件的作業(yè)監(jiān)控線程采集的作業(yè)數(shù)據(jù)。在作業(yè)狀態(tài)發(fā)生改變時,用戶可通過門戶查看和下載本次求解計算生成的中間或結(jié)果文件,這些文件由中間件的作業(yè)監(jiān)控進程下載得到。 (4)下載得到火星著陸氣囊的有限元碰撞分析結(jié)果后,將下載得到的文件導入到Windows下的LS-PREPOST軟件中即可得到所需的計算結(jié)果。 (1)集成更多的主流CAE軟件,如Fluent、ADINA、Nastran等;集成其他調(diào)度器軟件,如LSF。 (2)解決在線后處理問題。雖然現(xiàn)有平臺可以Web方式在線下載計算結(jié)果文件,但由于計算結(jié)果文件尺寸較大,常達GB數(shù)量級,用戶下載時間較長,可考慮采用VNC(virtual network computer,虛擬網(wǎng)絡(luò)計算機)方式使用戶可直接以Web方式在線查看和分析計算結(jié)果,從而免去下載計算結(jié)果的步驟。 (3)基于工作流模型進行多學科聯(lián)合仿真及其在工業(yè)設(shè)計仿真云平臺上的實現(xiàn),可先從單學科CAD、CAE軟件的集成,單CAE軟件多學科聯(lián)合仿真與優(yōu)化分析開始,再進一步研究多學科多軟件集成聯(lián)合仿真。 (4)多超算中心工業(yè)設(shè)計仿真云平臺的網(wǎng)格化處理及中間件的網(wǎng)格化研究?,F(xiàn)有研發(fā)的平臺體現(xiàn)了用戶以簡單的方式使用云資源的優(yōu)點,但尚不能利用網(wǎng)格資源,可考慮多超算中心聯(lián)合研發(fā)、構(gòu)建計算資源網(wǎng)格中間件,從而通過平臺可以使用異種超級計算機的計算資源。 [1]Perumalla K S.Tutorial:Parallel Simulation on Supercomputers[C]//2012 Winter Simulation Conference,WSC 2012.Berlin,2012:00919620785775. [2]Wang Haiwei,Liu Geng,Han Bing,et al.Collaborative Simulation Environment Framework Based on SOA[C]//2008 12th International Conference on Computer Supported Cooperative Work in Design,CSCWD 2008.Xi’an,2008:416-419. [3]Yu Jiaqing,Cha Jianzhong,Lu Yiping,et al.A CAE-integrated Distributed Collaborative Design System for Finite Element Analysis of Complex Product Based on SOOA[J].Advances in Engineering Software,2010,41(4):590-603. [4]Rius J,Cores F,Solsona F,et al.A User-friendly Web Portal for T-Coffee on Supercomputers[J].BMCBioinformatics England,2011,12(5):150-154. [5]高潭.高性能計算門戶的研究與實現(xiàn)[D].長沙:國防科學技術(shù)大學,2009. [6]Kim J,Lee S,Jung H,et al.Development of Large-scale Structural Analysis System on a Supercomputer[C]//2011 International Conference on High Performance Computing and Simulation,HPCS 2011.United States,2011:825-829. [7]遲學斌,肖海力,王小寧,等.面向科學計算的網(wǎng)格環(huán)境[J].集成技術(shù),2012,1(1):68-76. Chi Xuebin,Xiao Haili,Wang Xiaoning,et al.Scientific Computing Grid and SCE Middleware[J].Journal of Integration Technology,2012,1(1):68-76. [8]張仙偉 張璟.基于網(wǎng)格計算平臺的并行計算系統(tǒng)研究與實現(xiàn)[J].計算機工程與應(yīng)用,2012,48(7):5-8,11. Zhang Xianwei,Zhang Jing.Research and Implementation of Grid Computing-based Parallel Computing System[J].Computer Engineering and Applications,2012,48(7):5-8. [9]張洪武,陳飆松,李云鵬,等.面向集成化CAE軟件開發(fā)的SiPESC 研發(fā)工作進展[J].計算機輔助工程,2011,20(2):39-49. Zhang Hongwu,Chen Biaosong,Li Yunpeng,et al.Advancement of Design and Implementation of SiPESC for Development of Integrated CAE Software Systems[J].Computer Aided Engineering,2011,20(2):39-49.[10]文桂林,雷志華,尹建武,等.全向式多室連通氣囊的緩沖特性研究[J].振動與沖擊,2013,32(8):13-17. Wen Guilin,Lei Zhihua,Yin Jianwu,et al.Cushion Characteristics of An Omni-directional and Multi-chamber Airbag[J].Journal of Vibration and Shock,2013,32(8):13-17. (編輯袁興玲) Research on Middleware of Cloud Platform for Industrial Design and Simulation on “Tianhe No.1” Super Computer Deng Ziyun1,2Zhang Jing1,2Liu Yangbing1,2Xiao Jiuru1 1.Hunan University,Changsha,410082 2.National Supercomputing Center in Changsha,Changsha,410082 A cloud middleware was developed as a core component of the cloud platform for industrial design and simulation which was built on the “Tianhe No.1” super computer.The middleware integrated a large number of CAE software,including SLURM job scheduling software,License management software,and computing resource management function,etc.The whole framework of the cloud platform for industrial design and simulation,and the architecture of the middleware software were designed.Key technical problems including operational state transition,job submission etc,were investigated and solved,the cloud platform and the middleware software were developed for applications on the statics analysis of the shield machine.An experiment for the collision analysis of the Mars landing airbag was carried out on the cloud platform by using the middleware.The results show that,it is convenient to use “Tianhe No.1” super computing resources by way of the middleware in the cloud platform for industrial design and simulation. “Tianhe No.1” super computer;middleware in cloud platform for industrial design and simulation; architecture;design thought;key technology;simulation experiment 2012-02-04 國家科技支撐計劃資助項目(2012BAH09B02);長沙市重大科技專項資助項目(K1204006-11-1) TP311.52< class="emphasis_italic">DOI :10.3969/j.issn.1004-132X.2015.06.011 鄧子云,男,1979年生。湖南大學電氣與信息工程學院博士研究生、教授、高級工程師。主要研究方向為HPC、物流信息技術(shù)。章兢,男,1959年生。湖南大學電氣與信息工程學院教授、博士研究生導師。劉楊兵,男,1985年生。湖南大學信息科學與工程學院碩士研究生。肖久如,男,1989年生。湖南大學機械與運載工程學院碩士研究生。5 下一步研究工作