黃建強,孟永偉,曹騰飛,王曉英
(青海大學 計算機技術與應用系,青海 西寧 810016)
隨著清華大學對口支援和中西部高校綜合能力提升工程的推進,青海省高等教育得到了迅速發(fā)展,在人才培養(yǎng)、科學創(chuàng)新上取得了驕人的成績,科學研究的方式也發(fā)生了改變,計算科學將成為現(xiàn)代科學研究的重要手段。清華大學捐贈青海大學計算機系的高性能計算集群將深遠影響各科研領域的發(fā)展。高性能計算集群由128個計算節(jié)點,采用10GB InfiniBand網絡進行互連組成,理論峰值計算速度達1.331萬億次/秒,從而為各類應用任務的計算提供最優(yōu)的支持和性能表現(xiàn),開展高性能科學計算可視化研究、提高軟件環(huán)境的可用性、方便各相關學科研究人員開展研究工作,通過拓展數(shù)據(jù)存儲能力,對多學科海量計算數(shù)據(jù)開展高性能計算數(shù)據(jù)庫和知識計算(并行數(shù)據(jù)挖掘、知識工程、數(shù)據(jù)融合)等方面的研究。在三江源數(shù)據(jù)分析中心及高性能計算平臺的建設支撐下,重點打造高性能計算與應用的技術隊伍,聚焦高性能計算平臺技術服務與高性能計算學科建設支撐,越來越多的科學研究和重大工程中的關鍵問題需要大規(guī)模、高性能的計算和模擬[1-5]。此高性能計算集群系統(tǒng)不僅作為校內科技服務平臺,更為青海省的氣象、地震、環(huán)保、生態(tài)等一些需要大規(guī)模數(shù)據(jù)處理的單位提供了有力的支撐。
超算中心機房一般是位于某一棟樓的一層或多層,那么選址就牽扯到地理位置選擇和樓層選擇。由于超算中心機房主要是對大規(guī)模數(shù)據(jù)進行處理,需要一定的網絡服務,進而進行可視化呈現(xiàn)和遠程作業(yè)提交,因此在選址時一般選擇在網絡服務較好的地域。在樓層的選擇中,要注意防潮、防塵、防盜、防干擾、防雷等,考慮到青海地區(qū)氣候干燥,選擇在一樓。因為頂層遭受雷擊的可能性大,溫差大,加大了空調系統(tǒng)運行的成本。防盜上除了必要的防盜措施外,應該選擇在人流量較少的樓層中。因此,超算中心機房的建設選擇在寬敞、明亮、整潔、安全的樓層中[6]。
設計內容包括裝修工程、電氣工程、空調通風系統(tǒng)、綜合布線系統(tǒng)、環(huán)境集中監(jiān)控系統(tǒng)、安防系統(tǒng)、消防系統(tǒng)、監(jiān)控室顯示系統(tǒng)等8個子系統(tǒng)。三江源數(shù)據(jù)分析中心位于青海大學基礎物理實驗樓的一層,分為操控室和機房2個房間,裝修總面積約為115m2,操控室面積約57m2,機房面積約58m2。房間層高3.8 m,已鋪設陶瓷面層防靜電活動地板,地板架高高度為0.35m。該建筑沒有地下室。數(shù)據(jù)中心主要由機房環(huán)境、網絡環(huán)境、計算資源、集中存儲、數(shù)據(jù)運行環(huán)境、安全體系、容災中心幾部分組成。
(1)機房環(huán)境。機房建設主要指提供防塵、防靜電的環(huán)境,充足持續(xù)的電力系統(tǒng),恒溫、恒濕的制冷系統(tǒng),消防系統(tǒng);門禁與監(jiān)控系統(tǒng),綜合布線及合理的布局,比如機柜的擺放、區(qū)域的劃分等。
(2)網絡環(huán)境。主要指在數(shù)據(jù)中心內部建立冗余的網絡鏈接,當某一部分出現(xiàn)故障時,數(shù)據(jù)中心內部的所有數(shù)據(jù)交換不會因此而中斷,保證網絡的暢通無阻,此外要加強網絡監(jiān)控,能及時發(fā)現(xiàn)問題。
(3)計算資源環(huán)境。主要指服務器架構的設計必須從整體上進行容量規(guī)劃,根據(jù)應用的需求合理布局,使系統(tǒng)易于擴展性,實現(xiàn)資源共享,避免浪費。
(4)集中存儲。集中存儲是實現(xiàn)數(shù)據(jù)共享、建立高可用運行環(huán)境的關鍵環(huán)節(jié),根據(jù)數(shù)據(jù)訪問方式及重要程度采用不同的技術,實現(xiàn)數(shù)據(jù)集中存儲。
(5)數(shù)據(jù)運行環(huán)境,主要涉及數(shù)據(jù)庫管理系統(tǒng)、數(shù)據(jù)倉庫管理系統(tǒng)和數(shù)據(jù)共享與交換。
(6)容災中心建設。需要根據(jù)學校的實際情況分步進行。數(shù)據(jù)的丟失可以有很多因素,誤操作、磁盤等設備出問題等,都可以導致數(shù)據(jù)丟失。因此數(shù)據(jù)備份應是數(shù)據(jù)中心提供的基本服務。從數(shù)據(jù)中心的角度來講,不僅要考慮到數(shù)據(jù)的快速備份、恢復等問題,還要提供應付災難性的后備與恢復措施。
高性能計算服務器集群系統(tǒng)是高性能計算和高可用技術有機結合的性能強大、高可用的集群系統(tǒng)[7],是整個高性能計算平臺的核心。按照業(yè)務實際需要,三江源數(shù)據(jù)分析中心配備惠普機架服務器作為計算節(jié)點;配置HP高性能服務器節(jié)點作為I/O節(jié)點,配置高性能服務器manager,同時復用為登錄節(jié)點和集群管理節(jié)點,負責整個集群系統(tǒng)的軟、硬件管理、維護與監(jiān)控。整個集群的網絡系統(tǒng)配置測試網和計算網2套網絡,測試網由eth1和eth2兩組網絡構成。eth1網絡傳輸整個千兆網的控制信號,eth2網絡用來管理硬件設備,用戶可以在測試網中調試運行程序。計算網由所有節(jié)點服務器通過InfiniBand網絡連接,使得這些節(jié)點可以高速訪問。計算網只允許用戶訪問登錄節(jié)點,通過LSF作業(yè)管理系統(tǒng)提交作業(yè)使用計算資源,以保證系統(tǒng)安全性[8]。整個集群系統(tǒng)的構建如圖1所示。
LSF server:用戶提交作業(yè)的服務器。Jobmaster:作業(yè)管理(不需要外網),要掛載到jobfront上。manager:管理節(jié)點(eth2需要配置外網,讓外網去訪問)。nismaster/nisslave:各個服務器去取nis上的用戶信息。計算節(jié)點cn1、cn2…cn128是并行計算節(jié)點,它提供核心計算能力,即各種系統(tǒng)資源,包含處理器、內存及I/O設備。計算節(jié)點一方面連接到登陸/管理節(jié)點,接收執(zhí)行指令,一方面通過InfiniBand交換機,實現(xiàn)進程之間高速消息通信;同時訪問I/O節(jié)點上的文件系統(tǒng),從而獲得較好的I/O性能。I/O節(jié)點為計算節(jié)點提供共享文件系統(tǒng)、數(shù)據(jù)傳送等功能[8]。與I/O系統(tǒng)相關的網絡包括3部分:
(1)共享文件系統(tǒng)控制支撐網絡,在I/O節(jié)點上建立網絡文件系統(tǒng)(NFS),作為服務器共享存儲,實現(xiàn)統(tǒng)一數(shù)據(jù)訪問。它控制支撐網絡,用來傳遞共享文件系統(tǒng)NFS的控制信息,是支撐計算節(jié)點和I/O節(jié)點間數(shù)據(jù)交換的管理網絡。當多個計算節(jié)點同時訪問某個建立在共享存儲上的共享文件系統(tǒng)時,共享文件系統(tǒng)需要通過該網絡系統(tǒng)在多個節(jié)點間進行協(xié)調和管理。共享文件系統(tǒng)控制支撐網絡傳輸?shù)闹皇切┛刂菩畔ⅲ菙?shù)據(jù)本身,所以網絡負載非常小。
(2)節(jié)點間數(shù)據(jù)傳輸網絡,用來支持計算節(jié)點和I/O節(jié)點間的數(shù)據(jù)傳輸,即通過InfiniBand網絡實現(xiàn)進程之間高速消息通信。
圖1 集群系統(tǒng)構建圖
(3)存儲備份網絡,實現(xiàn)數(shù)據(jù)的轉移與備份。本項目中未配置單獨備份,而是在I/O節(jié)點上配置磁盤陣列,通過RAID實現(xiàn)磁盤冗余,在滿足存儲要求的情況下,提高了讀寫效率。登陸/管理節(jié)點完成集群系統(tǒng)的監(jiān)控、管理、登錄、作業(yè)調度等任務,用戶登錄到這個節(jié)點上編譯源程序,并提交作業(yè)。該節(jié)點上部署的作業(yè)調度與集群管理系統(tǒng)是管理員與用戶主要使用的應用軟件系統(tǒng)。
(1)基于Cluster的高性能計算平臺建設。采用Cluster集群架構,有很好的擴展性,能擴充到上千個節(jié)點,從而獲得更高的性能和比較低的總體成本。針對不同類型應用對不同架構計算平臺具有不同的適應性,為各類應用任務的計算都提供了最優(yōu)的支持和性能表現(xiàn)。配置分布式集群存儲系統(tǒng),具有高性能、高可靠性、高擴展性、易整合、易管理等特性。主要應用領域包括高性能計算、互聯(lián)網海量文件處理、動漫渲染、地理信息系統(tǒng)(GIS)等應用。
(2)高性能計算軟件與可視化。根據(jù)不同學科特點,采取開放式軟件策略,并在此基礎上開展可視化研究,提高軟件環(huán)境的可用性,方便各相關學科研究人員開展研究工作,使得我校基于三江源數(shù)據(jù)分析中心平臺在復雜流動、鹽湖化工、地震、生命科學等領域中可以申請國家級、省部級的研究項目,同時可以與工業(yè)部門開展許多合作研究,積累了使用商用軟件和可視化軟件的豐富經驗,為自主開發(fā)高性能計算與應用軟件打下良好的基礎。
(3)建設海量數(shù)據(jù)存儲系統(tǒng)。通過拓展數(shù)據(jù)存儲能力,根據(jù)高性能計算與應用的特點,對多學科海量計算數(shù)據(jù)開展高性能計算數(shù)據(jù)庫和知識計算(并行數(shù)據(jù)挖掘、知識工程、數(shù)據(jù)融合)等方面的研究,滿足各學科高性能計算與應用對數(shù)據(jù)存儲空間的需要和提高各學科高性能計算與應用的起點。
三江源數(shù)據(jù)分析中心集群計算系統(tǒng)采用SSH和Platform LSF集群管理軟件相結合的方式進行管理[9]。IBM Platform LSF平臺集群可以分成2組主機,分別是管理主機和計算主機。管理主機為集群提供專業(yè)化的服務,計算主機運行用戶的工作量,如圖2是IBM Platform LSF平臺在集群中的系統(tǒng)環(huán)境下的通信通道。
圖2 LSF在集群系統(tǒng)的通信通道圖
(1)作業(yè)提交。從LSF客戶端,或者是一個運行bsub命令的服務器上提交一份作業(yè),當提交這份作業(yè)時,如果不指定哪個隊列,這份作業(yè)就會被提交到系統(tǒng)默認的隊列中,作業(yè)在隊列中等待安排,這些作業(yè)處于等待狀態(tài)。
(2)調度作業(yè)。后臺的主進程mbatchd將處理隊列中的作業(yè),在一個預定的時間間隔里,將這些作業(yè)按設定的計劃傳遞給主調度進程mbschd。主調度進程mbschd評估這份工作時,根據(jù)作業(yè)的優(yōu)先權制定調度決策、調度機制和可利用資源。主調度進程選擇最佳的主機及在哪里作業(yè)可以運行,并將它的決策返回給后臺主進程mbatchd。主負載信息管理進程(LIM)收集資源信息,主LIM與mbatchd主進程交流這些信息,反過來mbatchd主進程使用之前交流信息支持調度決定。
(3)分配作業(yè)。mbatchd主進程一收到mbschd發(fā)過來的決定,立即分配作業(yè)到主機。
(4)運行作業(yè)。從屬批處理進程(sbatchd),從mbatchd主進程接到要求,為這份作業(yè)創(chuàng)建一個子sbatchd和一個執(zhí)行環(huán)境,通過使用一個遠程執(zhí)行服務器開始這個作業(yè)。
(5)返回輸出。當一個作業(yè)完成時,如果這個作業(yè)沒有任何問題,它處于一個完成狀態(tài)。如果有錯誤作業(yè)無法完成,這份作業(yè)處于退出狀態(tài)。sbatchd傳達作業(yè)信息,包括錯誤提示和給mbatchd的輸出信息。
(6)給客戶端發(fā)郵件。mbatchd通過郵件提交主機反饋作業(yè)輸出信息、作業(yè)錯誤、提示信息、作業(yè)信息。
學校的高性能網格計算平臺主要為校內的院系、科研團隊或教師提供服務,在滿足校內需求的前提下,也將考慮向社會提供多種形式的服務。服務層次主要有計算資源使用、技術咨詢以及研發(fā)服務。服務形式將作為學校數(shù)字化科研的重要內容逐步融入學校的數(shù)字化校園服務平臺,為不同地區(qū)的各種用戶提供統(tǒng)一高效的優(yōu)質服務[10-11]。
青海大學三江源數(shù)據(jù)分析中心機房環(huán)境監(jiān)控分別對UPS監(jiān)控、空調監(jiān)控、供配電監(jiān)控、漏水監(jiān)測、溫濕度監(jiān)控、消防監(jiān)測、郵件報警設置、短信報警設置、參數(shù)設置等9個方面。如圖3所示,參數(shù)設置可以對環(huán)境參數(shù)進行修改控制。
圖3 環(huán)境參數(shù)修改圖
通過三江源數(shù)據(jù)分析中心高性能計算集群的建設,使本學科基礎設施及實驗條件趨于完備,可支持教師進行前沿科研方向的研究。在管理團隊上考慮用不同層次的人員,完成不同的任務,引入自動化的管理手段,管理質量和管理效率同時抓,降低人的成本投入。提升團隊結構水平和層次,進一步爭取國家和省部級重點、重大項目,獲得一批具有科研前沿水平的原創(chuàng)性的研究成果,在國際學術刊物上發(fā)表一批高水平的學術論文,為實現(xiàn)建立計算機科學與技術碩士學位授權點的目標創(chuàng)造必要條件。
(
)
[1]林新華.走出高性能計算中心的建設誤區(qū)[J].中國教育網絡,2009(5):42-43.
[2]嚴雋琪.上海高性能計算公共服務平臺[J].工業(yè)工程與管理,2005(1):1-5.
[3]姚繼鋒.什么成就了超算中心[J].中國教育網絡,2010(6):18-20.
[4]姚繼鋒.高性能計算:CIO 的必修課[J].中國計算機用戶,2008(12):50-51.
[5]劉紅.中醫(yī)藥高性能計算公共服務平臺的建設與探索[J].中國中醫(yī)藥信息雜志,2010(增刊1):74-75.
[6]楊濱.學校計算中心機房建設分析[J].科技風,2013(17):243.
[7]關偉豪,吳汝明,郭清順,等.中山大學高性能計算服務平臺的建設[J].實驗技術與管理,2011,28(4):303-306.
[8]林皎,陳玉潔,張武生,等.高性能計算平臺建設的探索與實踐[J].實驗技術與管理,2012,29(5):217-220.
[9]李圣強,李閩峰,劉桂平,等.高性能集群計算系統(tǒng)的構建[J].地震,2012,32(1):144-147.
[10]龔偉.高性能計算中心站系統(tǒng)設計[J].電腦知識與技術,2009(20):5534-5535.
[11]陳文波,李嬋娟,周慶國,等.高性能計算平臺HPCC的性能分析[J].計算機工程與應用,2008,44(10):95-97.