国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高性能計算機可靠性的提升策略

2018-04-03 07:40:59吳曉風
宿州教育學院學報 2018年6期
關鍵詞:高性能處理器可靠性

吳曉風

(山西國際商務職業(yè)學院 山西·太原 030031)

一、高性能計算機概述

HPC高性能計算機的英文全稱為:High performance computing,是指在較多處理器同時運行的情況下,完成單個運行設備與集群中多臺計算機設備的資源整合,其計算系統(tǒng)或環(huán)境本身架構了更多的單獨運行系統(tǒng),相當于無限擴充了基礎運算量和運行效率。多數(shù)HPC系統(tǒng)的界定標準可以從大型集群化程度來甄別,或者高度專用的硬件系統(tǒng)也是HPC高性能計算機的普遍應用狀態(tài)。大多數(shù)基于集群的HPC系統(tǒng)使用高性能網(wǎng)絡互連,諸如InfiniBand或Myrinet網(wǎng)絡互聯(lián)形式?;镜木W(wǎng)絡拓撲和組織通過運用總線拓撲,形成了更高的網(wǎng)絡性能環(huán)境,網(wǎng)狀網(wǎng)絡系統(tǒng)構建了主機之間更短的潛伏期,故而加強了總體網(wǎng)絡性能,乃至數(shù)據(jù)信息傳輸速率。因此,HPC高性能計算機反而超越了單體計算機的性能。

二、HPC的可靠性需求

近年來,各個行業(yè)的用戶對于四路以上HPC高性能計算機系統(tǒng)的服務器需求量逐步增加。一方面,在云計算、移動互聯(lián)、BYOD等新一代信息化應用快速發(fā)展的過程中,用戶業(yè)務系統(tǒng)的訪問壓力在不斷上升,而數(shù)據(jù)處理需求也在不斷增加。另一方面,對于一些長期處于高危領域的應用系統(tǒng)而言,不間斷的運行條件以及是否能夠在運行期間保持長期的高速運行狀態(tài),是對于系統(tǒng)運行指標的終極需求。諸如軍事、醫(yī)療、交通、金融等領域中,停止系統(tǒng)所造成的風險和威脅都可造成無法估量的損失。因此,HPC高性能計算機的系統(tǒng)可靠性成為諸多領域發(fā)展的必然需求。其中最為關鍵的便是RAS(Reliability可靠性,Availability可用性,Serviceability適用性)特性。

(一)系統(tǒng)運行可靠性

可靠性是對于計算機系統(tǒng)處理數(shù)據(jù)信息時的準確度與時效性要求,是對于計算機系統(tǒng)在加速運行狀態(tài)下仍然保持較高的穩(wěn)定性,仍然能夠隨機調動應用程序,而不出現(xiàn)死機或程序中斷的可靠性指標。在占用最小內存空間的情況下,達到數(shù)據(jù)信息存儲、傳輸、應用的最高效率,令占用網(wǎng)絡帶寬的比例最低,且能夠完成穩(wěn)定的數(shù)據(jù)輸出,則代表HPC系統(tǒng)運行具備了這種可靠性。

(二)系統(tǒng)支持可用性

可用性是HPC系統(tǒng)在運行期間是否存在業(yè)務中斷的評估標準,通過專用Metro Mirror實現(xiàn)存儲數(shù)據(jù)復制,滿足主機多應用、異構的存儲高可用性需求,是長期以來HPC的可靠性需求表現(xiàn)。因此,在實現(xiàn)Global Mirror或Metro Mirror數(shù)據(jù)備份的效果上,也決定了無數(shù)據(jù)丟失的基本需求,是HPC系統(tǒng)發(fā)展的本質訴求。

(三)系統(tǒng)檢測適用性

適用性是對于可靠性的補充,在RAS特性中適用性代表避免由于存儲介質損壞導致的業(yè)務中斷,是保障HPC系統(tǒng)運行條件的必要支持。在系統(tǒng)運行周期內的任何執(zhí)行錯誤類型是否能夠被快速檢測、甄別、糾錯、修復等,均為HPC系統(tǒng)運行的適用性。因此,適用性是對于可用性的補充,也是對于可靠性的最終驗證條件,是進一步加強HPC系統(tǒng)可靠性的界定指標。

三、高性能計算機可靠性的提升策略

(一)優(yōu)化數(shù)據(jù)完整性

HPC系統(tǒng)可靠性本身是對于數(shù)據(jù)信息的安全管理,在此方面主要以優(yōu)化數(shù)據(jù)完整性及備份效果為基本策略。諸如金品計算機科技(天津)有限公司是國內服務器最新出品的金品K2400存儲模型技術,在利用了切片以及負載均衡技術之后,充分利用硬件和網(wǎng)絡的性能,構造高效數(shù)據(jù)通道,消除傳統(tǒng)存儲系統(tǒng)中由于壓力不均導致性能變差的問題,從而提升數(shù)據(jù)寫入帶寬的總體速率,由單盤7200轉SATA盤可提供50MB/s以上的聚合帶寬信息共享度。在借助存儲冗余算法之后,可以大幅提升副本情況下的存儲磁盤利用率,在單臺存儲節(jié)點的配置上,使用冗余副本技術,可以獲得80%的空間利用率。由于可以支持Linux、windows、MAC等多種操作系統(tǒng),其集群計算應用性能更強,可以在可訪問存儲集群中隨時更換硬件設備,因此其兼容性以及靈活性更加完備。

在數(shù)據(jù)安全可靠的性能優(yōu)化方面,系統(tǒng)內置智能故障探測機制,可自動探測并處理存儲異常,即使出現(xiàn)宕機、網(wǎng)絡中斷、磁盤損壞等情況,仍然能夠保障數(shù)據(jù)完整性和數(shù)據(jù)服務的持續(xù)運行。真正數(shù)據(jù)完整性的設計方案,是借助多位驗錯,以及校錯功能來實現(xiàn)的系統(tǒng)運行可靠性。在HPC系統(tǒng)中IOPS可以達到60萬/秒的運行速率,同時支持NFS、ISCSI、Cinder、CIFS、KFS、S3、Swift、FTP 等協(xié)議,并借助Leo Raid技術,N+M糾刪碼模式,以及1-4副本模式完善了數(shù)據(jù)采集的基礎條件,繼而拓展了快照及克隆技術,數(shù)據(jù)信息的可靠性必然有所增加。NAS文件庫、數(shù)據(jù)庫平臺、對象存儲、企業(yè)云盤、備份機等多種存儲路徑中,糾錯內存鏡像的基礎功能是進一步優(yōu)化HPC可靠性的運行保障,因此其系統(tǒng)故障的排查能力更強,可以在最短時間內將備份數(shù)據(jù)進行加載,最大限度的提升HPC系統(tǒng)可靠性。

(二)芯片級可靠性保障

HPC系統(tǒng)運行能力與所選芯片的技術規(guī)格存在必然聯(lián)系,而內存需求對于芯片級運行效率的需求也在不斷加深。雖然目前我國芯片技術尚未達到較高的水平,但是仍然在借助了國外生產(chǎn)商的技術支持后,達到了較高的系統(tǒng)運行穩(wěn)定性。其中主要以Intel安騰系列處理器為主,隨著計算和數(shù)據(jù)分析的發(fā)展,HPC系統(tǒng)遇到了許多瓶頸,高可靠性的需求便是其中最為關鍵的技術支撐點。英特爾安騰系列處理器的可擴展系統(tǒng)框架,可以通過節(jié)能方式跨計算和數(shù)據(jù),完成更為密集的系統(tǒng)運行狀態(tài)和基礎運算量,提供可擴展的解決方案。雖然安騰9500系列對于軟件支持的效果欠佳,但是安騰處理器9700系列所提供的數(shù)據(jù)信息處理效果仍然是今為止HPC系統(tǒng)性能最高芯片級可靠性保障。8個內核及31億個晶體管是9700系列的主要配置,雙域及多線程的增強支持,加強了前端和后端流水線執(zhí)行效果,并能夠提高HPC系統(tǒng)吞吐量和可擴展性。通過實現(xiàn)芯片級電源監(jiān)視和控制,從而提供更高的處理器增強頻率,增強HPC系統(tǒng)工作負荷,并在散熱層利用率上優(yōu)化系統(tǒng)結構的負載量。因此,芯片級技術的開發(fā)成為HPC主流系統(tǒng)的高可靠性提升策略之一。

(三)運用標準協(xié)議內支持RAS架構

英特爾2016年發(fā)布的E7 v4處理器標準協(xié)議架構方式,取締了原有的RAS技術結構,支持8路HPC系統(tǒng),并最高可獲得24TB內存。借助最高單插槽內存容量,該處理器產(chǎn)品可支持更為龐大的數(shù)據(jù)集存儲,而且是數(shù)據(jù)信息在內存中的存儲,而并非硬盤,那么相對的數(shù)據(jù)洞察與決策時間也會極大縮短。同時,作為縱向擴展平臺中計算引擎的HPC系統(tǒng)協(xié)議優(yōu)化方案,遠比IBM Power8的解決方案可靠性更強?;谟⑻貭栔翉奅7 v4處理器協(xié)議的技術優(yōu)化方向,其解決方案本身可提供高達1.4倍的優(yōu)化性能,擁有高達10倍的性價比,以及僅為50%的系統(tǒng)功耗。北京飛機維修工程有限公司主要為向航空公司提供航線維護、客機維修等服務。其日常工作內容中對于系統(tǒng)內存儲的歷史維護資料必須極為完整,而原有基于RISC架構的關鍵業(yè)務,并非絕對的穩(wěn)定性與可靠性。而在運用了英特爾至強E7系列處理器的解決方案之后,HPC系統(tǒng)可同時滿足2000名工程師的800個在線訪問需求,系統(tǒng)可用性提升至99.99%、響應速度提升3.5倍。這種可靠性的提升,也是基于RAS能力的機制表現(xiàn),并在協(xié)調系統(tǒng)內部組件功能需求之后,達到了運用標準協(xié)議的可能性,是進一步支持高性能計算機可靠性的優(yōu)化方案之一。

(四)高可用性的系統(tǒng)優(yōu)化方案

HPC系統(tǒng)服務器承擔的應用場景均為核心數(shù)據(jù)庫、中間件等關鍵應用場景,計劃外停機與業(yè)務災難存在必然聯(lián)系。目前HPC系統(tǒng)連續(xù)運行水平雖然以RAS特性為評估條件,但是可用性的指標也是必然需要優(yōu)化的性能指標。雖然英特爾芯片級處理器能夠達到99.99%的高可用性,但是仍然存在每年停機時間不超過5分鐘的風險。高可用性的發(fā)展目標是隔離故障,其中涉及到故障自動化監(jiān)測、備用數(shù)據(jù)或設備切換、故障記錄分析等方面。其優(yōu)化路徑在于健全周期性的服務器檢測技術,進而在HPC系統(tǒng)運行故障出現(xiàn)后及時發(fā)現(xiàn)并報警,為修復系統(tǒng)漏洞提供更多的時間。同時在發(fā)現(xiàn)故障后,遷移至備用部分中,再次核實故障信息、修復、記錄等基礎內容。如果要增進高可用性,必然需要權衡信號、板卡、BIOS、部件等其他各個層面系統(tǒng)運行狀態(tài)。

高可用需要部分資源閑置作為熱備份,可能在一定程度上制約了服務器運行效率。諸如硬盤RAID 1技術,在兩塊硬盤中同時寫入備份數(shù)據(jù),硬盤空間的利用率則降為原有的50%。為了消解這一弊端,部分HPC系統(tǒng)設置了N共享熱備技術,將多部件單元共享為同一個熱備件,或者開發(fā)互享熱備等技術類型。那么HPC系統(tǒng)服務器的復雜性也決定了熱備策略及其技術的可拓展性。此前,天梭TS860的系統(tǒng)結構運用了類似技術,通過架構模塊級、鏈路級、芯片級、系統(tǒng)級的四維體系,拓展了60余項高可用技術,其技術核心在于底層雙工信號的傳輸效率是否完全可控,指導部件級別的熱替換是否可行,以及硬盤、風扇、網(wǎng)卡、電源等模塊對于熱插拔的需求是否滿足。因此,HPC系統(tǒng)用戶在不停機狀態(tài)下完成的部件替換,也是HPC系統(tǒng)可靠性的重要表現(xiàn),是進一步優(yōu)化HPC系統(tǒng)性能的主要策略。

(五)智能決策機制的優(yōu)化方案

HPC高性能計算機系統(tǒng)要求更高的RAS(Reliability可靠性,Availability可用性,Serviceability適用性)特性,勢必需要消解人為操作的干預和弊端。但是智能決策機制的實現(xiàn)方案并非一蹴而就,此前部分研究對于實際數(shù)據(jù)交換速率,在結合FPGA的I/O接口速率中是否能夠突破達200Mbps的指標界限仍然并未達成一致。而對外A/D、I/O、RS485網(wǎng)絡接口等都為雙冗余設計的情況下,HPC系統(tǒng)結構的復雜性也會隨之增加,能夠創(chuàng)造的優(yōu)化性能是否具備了快速剝離故障信息有未可知。

此前中標普華高可用性集群系統(tǒng)的設置方案是加強系統(tǒng)自身的自檢性能,以watchdog的定時器來進行系統(tǒng)自檢,本地機在意外停止運行60s時,則系統(tǒng)自啟,以便恢復系統(tǒng)備份及數(shù)據(jù)處理。但是其中的時間滯后性也并不足以支持特定應用場景。

近期,浪潮M13服務器對于RAS的設計效果提出了 IMS(Intelligent Memory Surveillance)內存檢測隔離技術,這種技術是利用開機時IMS測試結果作為系統(tǒng)智能化評估條件。系統(tǒng)啟動成功后進入OS,IMS在實時檢測內存運行效果時提出了保護和處理的雙向執(zhí)行條件。一方面,IMS系統(tǒng)以內存ECC錯誤信息為統(tǒng)計數(shù)據(jù),針對錯誤地址進行驗算,以IMS自帶的多個測試算法為基礎條件。待錯誤指令被確認后,智能化的預測效果也保障了系統(tǒng)運行的可靠性。另一方面,IMS系統(tǒng)對確認錯誤或預測所產(chǎn)生的不可糾錯性,也支持了OS鏡像隔離技術的延伸,能夠在內存區(qū)域空閑的時間間隔內完成信息隔離,并離開原有的應用程序和執(zhí)行路徑。因此,智能化的決策機制在于支持預測效果的評估,并審核HPC高性能計算機系統(tǒng)是否達到了預期的可靠性,才能進一步優(yōu)化其系統(tǒng)的穩(wěn)定性,在出現(xiàn)運行錯誤之前自動解決和處理,進而優(yōu)化和補充其系統(tǒng)性能的可靠性條件。

結語

綜上所述,高性能計算機必須在更高可靠性的基礎上完善系統(tǒng)性能,其運行效率必須更高,才能支持高速運行狀態(tài)下的系統(tǒng)程序趨于穩(wěn)定狀態(tài),且能夠以降低出錯率為指標,保障RAS性能發(fā)揮出更強的應用優(yōu)勢。為了保障RAS性能的突出作用,需要優(yōu)化數(shù)據(jù)信息的完整度,并打造芯片級數(shù)據(jù)信息處理的可靠性。同時需要逐步開發(fā)更為穩(wěn)定的技術類型,支持HPC性能逐步完善,運用標準協(xié)議支持RAS架構,開發(fā)智能決策機制的優(yōu)化方案。繼而支持HPC系統(tǒng)的可靠性,達到預期的開發(fā)與設計效果。

猜你喜歡
高性能處理器可靠性
可靠性管理體系創(chuàng)建與實踐
上海質量(2019年8期)2019-11-16 08:47:46
電子制作(2017年2期)2017-05-17 03:55:06
一款高性能BGO探測器的研發(fā)
電子制作(2017年19期)2017-02-02 07:08:49
高性能砼在橋梁中的應用
基于可靠性跟蹤的薄弱環(huán)節(jié)辨識方法在省級電網(wǎng)可靠性改善中的應用研究
電測與儀表(2015年6期)2015-04-09 12:01:18
SATA推出全新高性能噴槍SATAjet 5000 B
Imagination的ClearCallTM VoIP應用現(xiàn)可支持Cavium的OCTEON? Ⅲ多核處理器
可靠性比一次采購成本更重要
風能(2015年9期)2015-02-27 10:15:24
高性能可變進氣岐管降低二氧化碳排放
汽車零部件(2014年8期)2014-12-28 02:03:03
ADI推出新一代SigmaDSP處理器
汽車零部件(2014年1期)2014-09-21 11:41:11
龙海市| 襄樊市| 栾川县| 泰安市| 澎湖县| 吉安县| 福贡县| 高清| 嫩江县| 定陶县| 永福县| 綦江县| 万山特区| 历史| 油尖旺区| 中西区| 拉萨市| 文山县| 资兴市| 鱼台县| 汕尾市| 海门市| 伽师县| 祥云县| 黄梅县| 鱼台县| 张家口市| 黄龙县| 漳浦县| 囊谦县| 天台县| 西昌市| 客服| 龙江县| 焦作市| 新野县| 潜江市| 获嘉县| 新河县| 渭源县| 安岳县|