国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向大規(guī)模地震數(shù)據(jù)并行處理高速可擴(kuò)展通信技術(shù)應(yīng)用研究

2022-10-09 11:30:00包紅林邵志東張代蘭
石油物探 2022年5期
關(guān)鍵詞:網(wǎng)卡以太網(wǎng)數(shù)據(jù)處理

包紅林,李 敏,邵志東,張代蘭

(中國(guó)石油化工股份有限公司石油物探技術(shù)研究院,江蘇南京 211103)

隨著油氣勘探向著“兩寬一高”的方向發(fā)展,通過(guò)采集寬頻、寬方位、高密度的地震數(shù)據(jù)提升成像和油氣預(yù)測(cè)精度。高密度地震采集數(shù)據(jù)規(guī)模不斷增大,目前原始地震數(shù)據(jù)炮數(shù)高達(dá)十幾萬(wàn)炮,數(shù)據(jù)大小高達(dá)數(shù)TB至數(shù)十TB。為滿足地震數(shù)據(jù)成像更精確的目標(biāo)要求,計(jì)算需求巨大的逆時(shí)偏移、全波形反演和地震波場(chǎng)正演模擬等數(shù)據(jù)處理技術(shù)被廣泛使用,因而大規(guī)模地震數(shù)據(jù)處理面臨著海量計(jì)算和存儲(chǔ)需求的挑戰(zhàn)。

面對(duì)挑戰(zhàn),地震數(shù)據(jù)處理技術(shù)在方法層面通過(guò)優(yōu)化計(jì)算算法來(lái)降低計(jì)算量或存儲(chǔ)需求,基于CPU+GPU異構(gòu)平臺(tái)強(qiáng)大計(jì)算能力提出逆時(shí)偏移算法的CPU/GPU實(shí)施對(duì)策[1-2]以及有效邊界等存儲(chǔ)策略[3]大幅降低了波場(chǎng)數(shù)據(jù)對(duì)內(nèi)存存儲(chǔ)的需求,此外,基于超大內(nèi)存節(jié)點(diǎn)提出的波場(chǎng)數(shù)據(jù)內(nèi)存存儲(chǔ)策略[4]大幅降低了計(jì)算量。在軟件層面,由于大規(guī)模地震數(shù)據(jù)處理采用地震數(shù)據(jù)分塊并行計(jì)算方式,其并行度很高,通過(guò)采用高效并行編程方法提升數(shù)據(jù)并行處理效率。MPI混合并行(MPI+X)[5]模式是目前最常見的一種高效并行編程方法,MPI(Message Passing Interface)是一種基于消息傳遞的并行編程技術(shù)和接口標(biāo)準(zhǔn),具有程序性能高和擴(kuò)展性好的特點(diǎn),在過(guò)去及未來(lái)相當(dāng)長(zhǎng)一段時(shí)間是大規(guī)模并行計(jì)算的主流編程模式[5],也是實(shí)現(xiàn)集群節(jié)點(diǎn)間高效并行的編程模式,X是指節(jié)點(diǎn)內(nèi)高效并行編程模式,其中OpenMP并行編程可實(shí)現(xiàn)節(jié)點(diǎn)內(nèi)CPU多核高效并行,CUDA并行編程可實(shí)現(xiàn)超強(qiáng)算力的GPU眾核處理器高效并行[5-6]。在計(jì)算資源層面構(gòu)建的高性能計(jì)算集群,由數(shù)百臺(tái)高主頻多核CPU節(jié)點(diǎn)組成CPU集群(總核數(shù)超過(guò)萬(wàn)個(gè)),或由近百臺(tái)CPU+GPU異構(gòu)計(jì)算節(jié)點(diǎn)組成GPU集群,由于處理技術(shù)方法設(shè)計(jì)對(duì)實(shí)時(shí)通信的需求,集群網(wǎng)絡(luò)性能直接決定了并行計(jì)算性能和均衡擴(kuò)展能力[5]。大規(guī)模地震數(shù)據(jù)并行處理中,單節(jié)點(diǎn)每次計(jì)算的結(jié)果數(shù)據(jù)高達(dá)數(shù)GB[7-8],考慮到結(jié)果數(shù)據(jù)的質(zhì)量監(jiān)控及應(yīng)對(duì)計(jì)算節(jié)點(diǎn)的可靠性問(wèn)題,通常采用網(wǎng)絡(luò)實(shí)時(shí)傳輸?shù)姆椒▽⒔Y(jié)果數(shù)據(jù)傳送給主節(jié)點(diǎn)或網(wǎng)絡(luò)存儲(chǔ)系統(tǒng),因而節(jié)點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)通信需求變大,并行處理通信架構(gòu)對(duì)通信性能要求變得更高,并行處理可能面臨通信帶寬低、高時(shí)延和網(wǎng)絡(luò)擁塞等性能瓶頸問(wèn)題,從而成為制約大規(guī)模地震數(shù)據(jù)并行處理計(jì)算效率提升的一個(gè)重要因素。

為此,本文主要開展并行處理網(wǎng)絡(luò)架構(gòu)與技術(shù)研究,以解決目前存在的網(wǎng)絡(luò)性能瓶頸問(wèn)題。

1 大規(guī)模地震數(shù)據(jù)并行計(jì)算通信框架設(shè)計(jì)現(xiàn)狀

MPI有多種具體實(shí)現(xiàn)版本,地震數(shù)據(jù)處理系統(tǒng)主要使用了IntelMPI,OpenMPI和MPICH等版本。MPI主要有主從并行和對(duì)等并行兩種并行模式,由于主從并行模式具有管理自動(dòng)化、負(fù)載動(dòng)態(tài)均衡和節(jié)點(diǎn)容錯(cuò)等特點(diǎn)[9-10],可以進(jìn)一步提升MPI并行計(jì)算效率[10],因而被大規(guī)模地震數(shù)據(jù)處理廣泛使用。本文主要分析MPI通信框架技術(shù)及存在的性能瓶頸問(wèn)題。

1.1 地震數(shù)據(jù)處理MPI通信框架技術(shù)分析

大規(guī)模地震數(shù)據(jù)處理主從并行模式由一個(gè)應(yīng)用主進(jìn)程和許多應(yīng)用從進(jìn)程組成,運(yùn)行在集群的一個(gè)主節(jié)點(diǎn)和若干個(gè)計(jì)算節(jié)點(diǎn)上。應(yīng)用主進(jìn)程負(fù)責(zé)作業(yè)任務(wù)調(diào)度管理,應(yīng)用從進(jìn)程負(fù)責(zé)對(duì)主節(jié)點(diǎn)分配的不同地震數(shù)據(jù)集進(jìn)行數(shù)據(jù)處理。在主從并行模式中,地震數(shù)據(jù)管理主要有主進(jìn)程數(shù)據(jù)管理和從進(jìn)程數(shù)據(jù)管理兩種方法。主進(jìn)程數(shù)據(jù)管理方法是由主進(jìn)程統(tǒng)一負(fù)責(zé)從網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)讀取原始地震數(shù)據(jù)集并對(duì)計(jì)算節(jié)點(diǎn)進(jìn)行數(shù)據(jù)分發(fā),同時(shí)收集計(jì)算節(jié)點(diǎn)計(jì)算結(jié)果并進(jìn)行網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)數(shù)據(jù)存儲(chǔ)等數(shù)據(jù)管理,采用這種方法,主進(jìn)程還可承擔(dān)從進(jìn)程計(jì)算結(jié)果數(shù)據(jù)匯總計(jì)算等工作,實(shí)現(xiàn)邊收集數(shù)據(jù)邊匯總計(jì)算的工作模式,節(jié)省了后期單獨(dú)進(jìn)行匯總計(jì)算的數(shù)據(jù)存取和計(jì)算的時(shí)間成本。從進(jìn)程數(shù)據(jù)管理方法是從進(jìn)程根據(jù)主節(jié)點(diǎn)分配的作業(yè)任務(wù)各自負(fù)責(zé)從網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)讀取對(duì)應(yīng)原始地震數(shù)據(jù)集,以及計(jì)算結(jié)果存儲(chǔ)到網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)等數(shù)據(jù)管理。這兩種方法對(duì)網(wǎng)絡(luò)性能需求基本相同:一是計(jì)算節(jié)點(diǎn)與主節(jié)點(diǎn)或網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)間的網(wǎng)絡(luò)滿足大數(shù)據(jù)量的網(wǎng)絡(luò)高效傳輸需求,二是主節(jié)點(diǎn)或網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)網(wǎng)卡配置滿足其同時(shí)與多個(gè)計(jì)算節(jié)點(diǎn)通信時(shí)應(yīng)對(duì)大并發(fā)流量網(wǎng)絡(luò)性能需求。因此本文以主進(jìn)程數(shù)據(jù)管理方法為例進(jìn)行分析研究,結(jié)果可為從進(jìn)程數(shù)據(jù)管理方法借鑒。圖1顯示了地震數(shù)據(jù)處理并行計(jì)算的主從模式。

圖1 地震數(shù)據(jù)處理并行計(jì)算的主從模式示意

MPI通信框架由MPI消息通信接口、網(wǎng)絡(luò)通信協(xié)議和以太網(wǎng)等通信技術(shù)組成(圖2),MPI消息通信接口提供給并行計(jì)算編程直接調(diào)用,TCP協(xié)議承載MPI消息通信,IP協(xié)議實(shí)現(xiàn)網(wǎng)絡(luò)路由,以太網(wǎng)實(shí)現(xiàn)網(wǎng)絡(luò)硬件鏈路通信和管理。以太網(wǎng)具有傳輸速度高、低能耗、兼容性好、應(yīng)用廣泛成熟等優(yōu)勢(shì),以太網(wǎng)端口速度已從10GE 提升到100GE,并向400GE端口目標(biāo)前進(jìn)[5]。

圖2 MPI通信技術(shù)框架

隨著大規(guī)模地震數(shù)據(jù)處理集群節(jié)點(diǎn)數(shù)量的快速增長(zhǎng),由大型框架式交換機(jī)構(gòu)建的集中交換拓?fù)浼軜?gòu)因受節(jié)點(diǎn)可接入規(guī)模的限制,已逐漸演變?yōu)槿鐖D3所示的由多臺(tái)小型高性能盒式交換機(jī)組成的脊葉交換拓?fù)浼軜?gòu),面對(duì)高達(dá)TB規(guī)模地震原始數(shù)據(jù)進(jìn)行處理所引發(fā)的數(shù)據(jù)網(wǎng)絡(luò)傳輸壓力,葉交換機(jī)提供10GE或25GE(100GE一分四模式)接入端口,滿足計(jì)算節(jié)點(diǎn)接入需求和較大的節(jié)點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)傳輸需求。

圖3 地震數(shù)據(jù)處理GPU集群網(wǎng)絡(luò)拓?fù)?/p>

1.2 地震數(shù)據(jù)處理MPI通信框架性能問(wèn)題分析

對(duì)大規(guī)模地震數(shù)據(jù)處理MPI通信框架技術(shù)的性能監(jiān)控與分析發(fā)現(xiàn)集群節(jié)點(diǎn)高速以太網(wǎng)因使用TCP協(xié)議存在一些性能問(wèn)題,以及主從并行模式下存在的主節(jié)點(diǎn)或網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)網(wǎng)絡(luò)性能瓶頸。

高速以太網(wǎng)因使用TCP協(xié)議存在網(wǎng)絡(luò)帶寬低、高CPU負(fù)載與高時(shí)延等性能問(wèn)題。TCP協(xié)議受其誕生時(shí)代的限制,存在網(wǎng)絡(luò)擁塞與網(wǎng)絡(luò)速度不穩(wěn)定問(wèn)題,服務(wù)器進(jìn)行網(wǎng)絡(luò)通訊時(shí)需經(jīng)內(nèi)核多層數(shù)據(jù)拷貝與協(xié)議處理(圖4a),造成服務(wù)器網(wǎng)絡(luò)傳輸時(shí)延較大、CPU負(fù)載較高等問(wèn)題,在以太網(wǎng)端口升級(jí)到10GE后,TCP協(xié)議采用的反應(yīng)式擁塞控制算法,無(wú)法勝任流量突發(fā)性更強(qiáng)的高速網(wǎng)絡(luò)傳輸,并面臨網(wǎng)絡(luò)協(xié)議處理的高CPU負(fù)載與高時(shí)延等性能問(wèn)題[11]。在如圖3所示的GPU集群上運(yùn)行地震數(shù)據(jù)處理應(yīng)用時(shí),通過(guò)系統(tǒng)命令監(jiān)控使用TCP協(xié)議的節(jié)點(diǎn)25GE網(wǎng)卡帶寬使用情況,監(jiān)控得到網(wǎng)卡最大吞吐量為1.17GB/s,僅為網(wǎng)卡標(biāo)稱帶寬的37.4%,因此驗(yàn)證了高速以太網(wǎng)使用TCP協(xié)議存在網(wǎng)絡(luò)吞吐量不高的性能問(wèn)題,使其不能滿足大規(guī)模地震數(shù)據(jù)處理的高網(wǎng)絡(luò)吞吐量和低時(shí)延應(yīng)用需求。2000年,國(guó)際組織IBTA(InfiniBand Trade Association)發(fā)布Infiniband(IB)協(xié)議[12](圖5),給出了一種用于高性能計(jì)算集群網(wǎng)絡(luò)通信標(biāo)準(zhǔn),IB采用全新硬件和網(wǎng)絡(luò)協(xié)議保障數(shù)據(jù)傳輸可靠性,并使用RDMA(Remote Direct Memory Access)[13]技術(shù)提供兩臺(tái)服務(wù)器用戶進(jìn)程間內(nèi)存直接存取(圖4b),實(shí)現(xiàn)系統(tǒng)內(nèi)核旁路和零拷貝等特性,使服務(wù)器網(wǎng)絡(luò)處理時(shí)延降低到1 μs,在高帶寬、低延遲與CPU占有率的需求場(chǎng)景下得到廣泛應(yīng)用[14]。但因IB網(wǎng)絡(luò)相對(duì)以太網(wǎng)存在應(yīng)用不夠廣泛、生態(tài)不夠成熟、價(jià)格相對(duì)較高等問(wèn)題,在大規(guī)模地震數(shù)據(jù)處理系統(tǒng)中應(yīng)用較少。

圖4 TCP/IP(a)與RDMA(b)處理流程

在地震數(shù)據(jù)處理主從并行計(jì)算中,存在主節(jié)點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)傳輸性能瓶頸。在主從并行模式中,由于主節(jié)點(diǎn)需要讀取原始數(shù)據(jù)并分發(fā)給計(jì)算節(jié)點(diǎn),同時(shí),收集從進(jìn)程計(jì)算的結(jié)果數(shù)據(jù)(數(shù)據(jù)量達(dá)GB級(jí)別)并存儲(chǔ),因此主節(jié)點(diǎn)網(wǎng)卡性能成為主從并行模式下數(shù)據(jù)網(wǎng)絡(luò)傳輸?shù)男阅芷款i之一。這個(gè)性能瓶頸在集群網(wǎng)絡(luò)配置時(shí)往往被忽視,主節(jié)點(diǎn)網(wǎng)卡配置往往與計(jì)算節(jié)點(diǎn)相同,例如在GPU集群網(wǎng)絡(luò)中主節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)均配置25GE網(wǎng)卡,主節(jié)點(diǎn)網(wǎng)卡性能不能滿足數(shù)據(jù)網(wǎng)絡(luò)傳輸需求,網(wǎng)絡(luò)擁塞問(wèn)題也較嚴(yán)重,集群監(jiān)控發(fā)現(xiàn),不少計(jì)算節(jié)點(diǎn)因等待主節(jié)點(diǎn)成果數(shù)據(jù)回收工作的完成而空閑,因而影響了計(jì)算節(jié)點(diǎn)計(jì)算性能的高效使用。

綜上所述,因高速網(wǎng)絡(luò)使用TCP協(xié)議存在的網(wǎng)絡(luò)帶寬低、高時(shí)延與CPU負(fù)載等網(wǎng)絡(luò)性能問(wèn)題,以及在主從并行模式下存在的主節(jié)點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)傳輸性能瓶頸,成為影響地震數(shù)據(jù)處理計(jì)算效率提升的兩個(gè)重要因素,隨著集群計(jì)算節(jié)點(diǎn)規(guī)模的線性增長(zhǎng),集群計(jì)算節(jié)點(diǎn)規(guī)??蓴U(kuò)展性下降明顯。本文在研究分析計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)發(fā)展的基礎(chǔ)上,提出了采用RoCE(RDMA over Converged Ethernet)[15]解決TCP協(xié)議的網(wǎng)絡(luò)性能問(wèn)題,采用100GE網(wǎng)卡解決主節(jié)點(diǎn)數(shù)據(jù)傳輸性能瓶頸問(wèn)題,采用UCX(Unified Communication X)提升應(yīng)用系統(tǒng)可移植性與使用便捷性的軟硬件優(yōu)化設(shè)計(jì)方案,實(shí)現(xiàn)高速可擴(kuò)展的大規(guī)模地震數(shù)據(jù)處理通信應(yīng)用方案,有效提升并行處理的計(jì)算效率。

2 高效的并行計(jì)算通信框架

采用RoCE協(xié)議替代TCP協(xié)議,在以太網(wǎng)上實(shí)現(xiàn)RDMA技術(shù),大幅提升網(wǎng)絡(luò)數(shù)據(jù)傳輸帶寬并降低服務(wù)器延時(shí)。2010年,IBTA發(fā)布了RoCEv1(圖5),在以太網(wǎng)鏈路層上用IB網(wǎng)絡(luò)層替代了TCP/IP協(xié)議,因不支持IP路由,只能在同一子網(wǎng)內(nèi)通訊,使其應(yīng)用受到限制。2014年IBTA發(fā)布了RoCEv2(圖5),用TCP/IP中的UDP/IP替代了RoCEv1中的IB網(wǎng)絡(luò)層,通過(guò)IP實(shí)現(xiàn)網(wǎng)絡(luò)路由,由UDP(User Datagram Protocol)承載RDMA并實(shí)現(xiàn)ECMP(Equal-Cost Multipath Routing),為解決UDP沒有可靠傳輸機(jī)制問(wèn)題,利用IEEE 802.1 DCB(Data Center Bridging)標(biāo)準(zhǔn)中PFC(Priority-based Flow Control)和ECN(Explicit Congestion Notification)[16]等技術(shù),構(gòu)建無(wú)損以太網(wǎng)支撐RDMA[14],RoCE網(wǎng)卡只需實(shí)現(xiàn)簡(jiǎn)單傳輸協(xié)議[11],無(wú)損RoCE帶寬與IB網(wǎng)絡(luò)的帶寬相當(dāng),時(shí)延比IB略高。由于10GE及以上以太網(wǎng)網(wǎng)卡和交換機(jī)基本都支持RoCEv2協(xié)議,因此無(wú)需更換以太網(wǎng)硬件,通過(guò)對(duì)網(wǎng)卡和交換機(jī)進(jìn)行相關(guān)配置,即可在現(xiàn)有高速以太網(wǎng)上實(shí)現(xiàn)RDMA,獲得其高吞吐量、低時(shí)延和CPU占有率等特性,從而大幅縮短大數(shù)據(jù)量成果數(shù)據(jù)的網(wǎng)絡(luò)傳輸時(shí)間,避免或降低網(wǎng)絡(luò)數(shù)據(jù)傳輸擁塞,更好應(yīng)對(duì)大規(guī)模地震數(shù)據(jù)處理的數(shù)據(jù)網(wǎng)絡(luò)傳輸壓力。

圖5 IB和RoCE協(xié)議框架

主節(jié)點(diǎn)配置高性能網(wǎng)卡并優(yōu)化集群網(wǎng)絡(luò)拓?fù)浼軜?gòu)(圖6),降低計(jì)算節(jié)點(diǎn)等待時(shí)間,提升計(jì)算節(jié)點(diǎn)使用效率和集群計(jì)算節(jié)點(diǎn)規(guī)模的可擴(kuò)展性。高速以太網(wǎng)端口應(yīng)用方案為:①對(duì)于主從并行模式,主節(jié)點(diǎn)配置更高性能的100GE網(wǎng)卡,利用其超高性能優(yōu)勢(shì)應(yīng)對(duì)主節(jié)點(diǎn)一對(duì)多通信模式及面臨的網(wǎng)絡(luò)數(shù)據(jù)傳輸壓力,快速完成與計(jì)算節(jié)點(diǎn)的網(wǎng)絡(luò)通信,減少計(jì)算節(jié)點(diǎn)的等待時(shí)間;②根據(jù)目前大規(guī)模地震數(shù)據(jù)處理數(shù)據(jù)網(wǎng)絡(luò)傳輸需求,建議計(jì)算節(jié)點(diǎn)配置25GE網(wǎng)卡,其具有較高性價(jià)比,可基本滿足應(yīng)用每次網(wǎng)絡(luò)傳輸高達(dá)數(shù)GB的數(shù)據(jù)網(wǎng)絡(luò)傳輸需求。

圖6 CPU計(jì)算集群網(wǎng)絡(luò)拓?fù)?/p>

集群網(wǎng)絡(luò)拓?fù)浼軜?gòu)優(yōu)化方案為:①對(duì)于計(jì)算節(jié)點(diǎn)規(guī)模不大的GPU集群網(wǎng)絡(luò),配置1臺(tái)64個(gè)100GE端口的盒式高性能以太網(wǎng)交換機(jī),就能滿足其100個(gè)計(jì)算節(jié)點(diǎn)接入需求,并可實(shí)現(xiàn)主從并行模式下主節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)間的數(shù)據(jù)網(wǎng)絡(luò)傳輸,傳輸網(wǎng)絡(luò)路徑最短,從而獲得更低的網(wǎng)絡(luò)延時(shí);②對(duì)于計(jì)算節(jié)點(diǎn)規(guī)模很大的CPU集群網(wǎng)絡(luò),建議采用更高性能的脊、葉交換機(jī),并將主節(jié)點(diǎn)直連脊交換機(jī),可使主節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)間網(wǎng)絡(luò)路徑長(zhǎng)度一致,主節(jié)點(diǎn)回收計(jì)算節(jié)點(diǎn)成果數(shù)據(jù)的網(wǎng)絡(luò)延遲基本一致,解決了部分計(jì)算節(jié)點(diǎn)等待時(shí)間長(zhǎng)的問(wèn)題。

應(yīng)用UCX技術(shù)提升地震數(shù)據(jù)處理系統(tǒng)可移植性與使用便捷性。UCX是一個(gè)為MPI、SHMEM等高性能并行計(jì)算編程開發(fā)的開源、統(tǒng)一、標(biāo)準(zhǔn)化通信編程框架。UCX屏蔽底層硬件技術(shù),支持不同網(wǎng)卡、處理器架構(gòu)和Linux操作系統(tǒng),以及TCP/IP、IB、RoCE、Shared Memory和Cray/uGNI等基礎(chǔ)通訊。UCX在對(duì)高性能并行計(jì)算編程使用的各種消息傳輸技術(shù)優(yōu)化基礎(chǔ)上,開發(fā)了一套高性能、可擴(kuò)展、易維護(hù)的通信庫(kù)。通過(guò)集成UCX通信庫(kù),OpenMPI與OpenSHMEM等高性能并行計(jì)算可在各種高速網(wǎng)絡(luò)平臺(tái)上實(shí)現(xiàn)高效通訊,國(guó)防科技大學(xué)開展了基于天河互連網(wǎng)絡(luò)的UCX通信框架實(shí)現(xiàn)和性能測(cè)試[17]。使用MPI+UCX通信模式,地震數(shù)據(jù)處理系統(tǒng)無(wú)需進(jìn)行程序修改,利用UCX的高性能、高兼容和可擴(kuò)展的特性,可使應(yīng)用系統(tǒng)在不同類型的計(jì)算資源和高速網(wǎng)絡(luò)上自適應(yīng)并高效實(shí)現(xiàn),大大提升應(yīng)用系統(tǒng)可移植性和使用的便捷性。

3 應(yīng)用實(shí)例

由于逆時(shí)偏移計(jì)算量巨大,如果原始地震數(shù)據(jù)達(dá)到TB級(jí)別規(guī)模,那么僅成像計(jì)算節(jié)點(diǎn)成果數(shù)據(jù)就高達(dá)數(shù)GB,所以本文以逆時(shí)偏移成像為例進(jìn)行通信框架優(yōu)化應(yīng)用方案的應(yīng)用研究,采用大規(guī)模實(shí)際生產(chǎn)數(shù)據(jù)進(jìn)行應(yīng)用測(cè)試。

3.1 基礎(chǔ)平臺(tái)搭建與網(wǎng)絡(luò)性能測(cè)試

對(duì)逆時(shí)偏移處理系統(tǒng)使用的以太網(wǎng)交換機(jī)和網(wǎng)卡進(jìn)行技術(shù)性能檢查。以太網(wǎng)交換機(jī)和網(wǎng)卡都支持RoCEv2協(xié)議,通過(guò)服務(wù)器和交換機(jī)系統(tǒng)升級(jí),并對(duì)網(wǎng)卡與交換機(jī)系統(tǒng)進(jìn)行相關(guān)配置,即可實(shí)現(xiàn)集群網(wǎng)絡(luò)RoCE協(xié)議。逆時(shí)偏移系統(tǒng)使用主從并行模式的OpenMPI,根據(jù)通信框架優(yōu)化應(yīng)用方案,采用OpenMPI(4.0或以上版本)+UCX通信庫(kù),為主節(jié)點(diǎn)配置100GE網(wǎng)卡,并直連至脊交換機(jī)。

對(duì)使用RoCE協(xié)議的主節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)進(jìn)行點(diǎn)對(duì)點(diǎn)的網(wǎng)卡帶寬性能實(shí)測(cè),測(cè)試結(jié)果如表1所示,可以看出,使用RoCE協(xié)議最大使用帶寬相比TCP協(xié)議可提高2.6倍以上。在25GE網(wǎng)卡測(cè)試基礎(chǔ)上,采用OpenMPI測(cè)試樣例對(duì)OpenMPI+UCX進(jìn)行性能測(cè)試,其最大使用帶寬可達(dá)2.98GB/s,與RoCE(3.06GB/s)測(cè)試結(jié)果相比下降很小,說(shuō)明UCX是一個(gè)高效的通信庫(kù)。

表1 TCP與RoCE協(xié)議網(wǎng)卡性能實(shí)測(cè)結(jié)果

3.2 應(yīng)用測(cè)試

對(duì)分別采用原有通信框架(主節(jié)點(diǎn)配置25GE網(wǎng)卡連接到葉交換機(jī)、OpenMPI+TCP)和優(yōu)化通信框架的逆時(shí)偏移處理時(shí)間進(jìn)行對(duì)比,測(cè)試數(shù)據(jù)選用實(shí)際生產(chǎn)中數(shù)據(jù)量較小的常規(guī)數(shù)據(jù)和數(shù)據(jù)量很大的大規(guī)模數(shù)據(jù)。

常規(guī)數(shù)據(jù)測(cè)試選用9864炮較低密度地震數(shù)據(jù),數(shù)據(jù)量大小為530GB。配置節(jié)點(diǎn)數(shù)量倍數(shù)增長(zhǎng)的25個(gè)、50個(gè)、100個(gè)GPU計(jì)算節(jié)點(diǎn),分別在兩種通信框架上進(jìn)行逆時(shí)偏移處理,獲得不同節(jié)點(diǎn)規(guī)模下逆時(shí)偏移處理時(shí)間,測(cè)試結(jié)果如表2所示。由測(cè)試結(jié)果得到的節(jié)點(diǎn)加速比結(jié)果如圖7所示,可以看出,在原有通信框架上逆時(shí)偏移處理隨著計(jì)算節(jié)點(diǎn)數(shù)成倍增長(zhǎng),節(jié)點(diǎn)加速比低于線性加速比,說(shuō)明使用TCP協(xié)議時(shí),隨著計(jì)算節(jié)點(diǎn)數(shù)量成倍增長(zhǎng),主節(jié)點(diǎn)配置25GE網(wǎng)卡進(jìn)行成像結(jié)果數(shù)據(jù)回收時(shí),其網(wǎng)絡(luò)擁塞問(wèn)題變得越來(lái)越嚴(yán)重;而在優(yōu)化通信框架上逆時(shí)偏移處理隨著計(jì)算節(jié)點(diǎn)數(shù)成倍增長(zhǎng),節(jié)點(diǎn)加速比高于線性加速比,說(shuō)明使用RoCE協(xié)議及主節(jié)點(diǎn)配置100GE網(wǎng)卡,有效解決了主節(jié)點(diǎn)成像結(jié)果數(shù)據(jù)回收的網(wǎng)絡(luò)擁塞問(wèn)題。使用100個(gè)計(jì)算節(jié)點(diǎn)時(shí),優(yōu)化通信框架逆時(shí)偏移處理時(shí)間縮短了1.05h。

表2 兩種通信框架常規(guī)數(shù)據(jù)逆時(shí)偏移處理的測(cè)試結(jié)果

圖7 優(yōu)化與原有通信框架節(jié)點(diǎn)加速比對(duì)比結(jié)果

大規(guī)模數(shù)據(jù)測(cè)試選用87838炮高密度地震數(shù)據(jù),數(shù)據(jù)量大小為7TB。因高密度地震數(shù)據(jù)逆時(shí)偏移成像處理對(duì)計(jì)算能力要求很高,故只采用100個(gè)GPU計(jì)算節(jié)點(diǎn)分別進(jìn)行兩種通信框架逆時(shí)偏移處理,兩種通信框架逆時(shí)偏移處理時(shí)間測(cè)試結(jié)果如表3所示,可見,優(yōu)化通信框架逆時(shí)偏移處理時(shí)間縮短了40.2h。

表3 兩種通信框架大規(guī)模數(shù)據(jù)逆時(shí)偏移處理測(cè)試結(jié)果

對(duì)兩種通信框架逆時(shí)偏移處理時(shí)間進(jìn)行分析,得到使用100個(gè)計(jì)算節(jié)點(diǎn)時(shí)優(yōu)化通信框架逆時(shí)偏移處理計(jì)算效率提升結(jié)果(圖8),在本次應(yīng)用測(cè)試中,優(yōu)化通信框架逆時(shí)偏移處理的計(jì)算效率提升范圍為32.8%~49.9%,說(shuō)明優(yōu)化通信框架逆時(shí)偏移處理對(duì)于不同規(guī)模數(shù)據(jù)的計(jì)算效率提升存在差別,主要是由于常規(guī)數(shù)據(jù)成像成果數(shù)據(jù)相對(duì)較小,優(yōu)化通信框架中主節(jié)點(diǎn)收集計(jì)算節(jié)點(diǎn)成像結(jié)果數(shù)據(jù)時(shí)間相對(duì)更短,且不存在網(wǎng)絡(luò)擁塞問(wèn)題,因此計(jì)算效率提升要更高一些。

圖8 不同數(shù)據(jù)規(guī)模及通信框架下逆時(shí)偏移處理時(shí)間與效率提升的對(duì)比結(jié)果(100個(gè)計(jì)算節(jié)點(diǎn))

4 結(jié)論與討論

針對(duì)大規(guī)模地震數(shù)據(jù)并行處理,采用100GE網(wǎng)卡與RoCE等高速可擴(kuò)展技術(shù)構(gòu)建的大規(guī)模地震數(shù)據(jù)并行處理通信應(yīng)用方案,解決了目前并行處理面臨的TCP協(xié)議效率低以及主節(jié)點(diǎn)或網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)網(wǎng)絡(luò)性能瓶頸等問(wèn)題,計(jì)算節(jié)點(diǎn)可快速完成數(shù)據(jù)通信,提升了大規(guī)模地震數(shù)據(jù)并行處理的計(jì)算效率以及大規(guī)模集群均衡擴(kuò)展能力,能夠縮短大規(guī)模地震數(shù)據(jù)并行處理時(shí)間,并減少計(jì)算能源消耗。

隨著網(wǎng)絡(luò)技術(shù)發(fā)展,超高性能交換芯片和200GE、400GE交換端口等相繼推出,將進(jìn)一步提升集群網(wǎng)絡(luò)傳輸帶寬。服務(wù)器方面,采用將網(wǎng)絡(luò)接口集成到CPU芯片的計(jì)算與網(wǎng)絡(luò)互連緊耦合架構(gòu),將進(jìn)一步降低網(wǎng)絡(luò)傳輸延遲并提升網(wǎng)絡(luò)傳輸效率。這些技術(shù)可使大規(guī)模地震數(shù)據(jù)并行處理通信應(yīng)用方案滿足規(guī)??焖僭鲩L(zhǎng)的地震數(shù)據(jù)并行處理應(yīng)用需求。未來(lái)隨著光交換技術(shù)的發(fā)展及其在E級(jí)超級(jí)計(jì)算集群網(wǎng)絡(luò)中的應(yīng)用,可以滿足巨大規(guī)模的地震數(shù)據(jù)并行處理應(yīng)用的需求。

猜你喜歡
網(wǎng)卡以太網(wǎng)數(shù)據(jù)處理
在DDS 中間件上實(shí)現(xiàn)雙冗余網(wǎng)卡切換的方法
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
基于1500以太網(wǎng)養(yǎng)豬場(chǎng)的智能飼喂控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
Server 2016網(wǎng)卡組合模式
談實(shí)時(shí)以太網(wǎng)EtherCAT技術(shù)在變電站自動(dòng)化中的應(yīng)用
電子制作(2017年24期)2017-02-02 07:14:44
基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
挑戰(zhàn)Killer網(wǎng)卡Realtek網(wǎng)游專用Dragon網(wǎng)卡
一種90W高功率以太網(wǎng)供電系統(tǒng)的設(shè)計(jì)
淺談EPON與工業(yè)以太網(wǎng)在貴遵高速公路中的應(yīng)用
南皮县| 平远县| 石嘴山市| 南通市| 鲁山县| 满洲里市| 望城县| 寿宁县| 浦东新区| 皮山县| 富裕县| 陕西省| 永修县| 定陶县| 澄城县| 伊宁市| 靖边县| 迁西县| 溧阳市| 香河县| 屏边| 奎屯市| 隆昌县| 遵义县| 惠州市| 溧水县| 资阳市| 营口市| 咸阳市| 双鸭山市| 托克托县| 航空| 高邮市| 咸宁市| 时尚| 赣榆县| 三亚市| 昌都县| 探索| 三穗县| 日照市|