国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

并行程序性能和功耗的測試分析工具研究

2021-08-02 03:35潘曉東孫曉樂鄭文旭
關(guān)鍵詞:功耗工具程序

潘曉東,孫曉樂,鄭文旭,吳 丹

(國防科技大學(xué) 計算機(jī)學(xué)院,湖南 長沙 410073)

0 引 言

高性能計算(high performance computing,HPC)現(xiàn)在已經(jīng)成為促進(jìn)軍事進(jìn)步、科技創(chuàng)新和經(jīng)濟(jì)發(fā)展的重要手段,無論是科學(xué)計算還是新興的人工智能都對HPC的性能提出了新的更高的要求。隨著Dennard縮放效應(yīng)的失效,處理器單核的頻率到達(dá)極限,多核、眾核并行以及異構(gòu)并行成為HPC發(fā)展的趨勢,同時隨之不斷增長的能耗成為阻礙HPC發(fā)展的重要因素[1],HPC開始轉(zhuǎn)向高能效并行方向。

HPC能量有效性提高的策略大致可以分為系統(tǒng)和應(yīng)用兩方面。從系統(tǒng)角度就是調(diào)節(jié)與運(yùn)行相關(guān)的系統(tǒng)硬件參數(shù)或者軟件環(huán)境參數(shù),例如靜態(tài)的基礎(chǔ)架構(gòu)節(jié)能、電路的低功耗設(shè)計、運(yùn)行時基于硬件的參數(shù)調(diào)優(yōu)[2];以及系統(tǒng)各部件的動態(tài)電源管理技術(shù)(DPM),包括任務(wù)映射(mapping)、器件動態(tài)休眠、動態(tài)電壓頻率縮放(dynamic voltage and frequency scaling,DVFS)[3]等。而從應(yīng)用角度而言是在應(yīng)用執(zhí)行之前通過對并行程序本身進(jìn)行優(yōu)化來達(dá)到節(jié)能的目的。包括常用的軟件代碼優(yōu)化、編譯優(yōu)化和運(yùn)行庫優(yōu)化[4]。

這兩方面策略的制定,都需要對應(yīng)用進(jìn)行性能和功耗的檢測分析,并作為基準(zhǔn)對策略部署后的情況進(jìn)行對比,以此來迭代修訂策略,同時在HPC運(yùn)行當(dāng)中往往也需要對性能和功耗數(shù)據(jù)進(jìn)行檢測匯總。并行計算的性能檢測分析與體系結(jié)構(gòu)、并行算法、并行程序設(shè)計一同構(gòu)成了并行計算研究的四大分支。

長期以來國內(nèi)高性能計算的基礎(chǔ)并行環(huán)境落后于計算機(jī)系統(tǒng)的發(fā)展[5],軟件的性能分析工具(performance analysis tools,PAT)也是如此。國內(nèi)出現(xiàn)過一些并行分析工具,如中科院的ParaVT、清華大學(xué)的VIMP、曙光上的Para Vision以及面向云計算資源監(jiān)控的并行科技的Paramon,盡管使用分析工具對于理解HPC應(yīng)用中的程序行為、性能瓶頸和優(yōu)化潛力很有幫助,但由于使用太復(fù)雜或者是售價和推廣的原因,這些工具并沒有流行起來。通過調(diào)查,發(fā)現(xiàn)許多實驗室在進(jìn)行性能和功耗檢測時,最常用的方法仍是手工插樁(使用時間戳)輸出日志,再進(jìn)行統(tǒng)計后處理的方法,這種方法雖然簡單直觀,但是工作量大,并且得到的信息量過少,缺少對軟件運(yùn)行的整體認(rèn)識,后續(xù)處理也相對困難,給并行程序的能耗和性能調(diào)優(yōu)帶來了不便。

隨著HPC系統(tǒng)復(fù)雜性的提高,以及大規(guī)模應(yīng)用軟件開發(fā)的需要,手工檢測和分析的方法已經(jīng)不能達(dá)到要求,因此該文介紹了性能和功耗檢測的原理和相關(guān)工具,并對4類跟蹤和分析工具進(jìn)行了對比分析,以便在后續(xù)工作中使用。

1 性能和功耗檢測原理

針對不同平臺和不同編程模型,性能和功耗檢測也有所區(qū)別。并行程序的編程模型分為消息傳遞和共享主存兩種模型,消息傳遞接口(message passing interface,MPI)和OpenMP(open multi-processing)已經(jīng)成為兩種模型的代表,而異構(gòu)計算引入了在加速器上使用的和OpenMP類似的CUDA(compute unified device architecture)、OpenCL(open computing language)以及OpenACC(open accelerators)?,F(xiàn)在的并行性能和功耗檢測多集中于采用MPI、OpenMP和CUDA,OpenCL和OpenACC在國內(nèi)超算集群中應(yīng)用較多,但目前缺乏成體系的檢測工具。

1.1 性能檢測

計算機(jī)的理論峰值性能是所有處理器性能的總和,而實際性能受限于系統(tǒng)和軟件,使得程序執(zhí)行過程中集群有很多處理器處于松弛狀態(tài)(即空閑或阻塞),這樣性能無法達(dá)到最優(yōu),松弛狀態(tài)的功耗也就浪費了。如果不能掌握程序的計算性能、通信狀況、處理器狀態(tài)、內(nèi)存狀態(tài)等性能數(shù)據(jù),對程序的優(yōu)化調(diào)整就無從下手。HPC程序測試中通常采用動態(tài)測試的辦法,在中小規(guī)模核心數(shù)目上進(jìn)行實際運(yùn)行并收集性能數(shù)據(jù),經(jīng)過整理得出分析結(jié)果匯報給使用者。

性能檢測一般分為確定數(shù)據(jù)采集種類、獲取和記錄數(shù)據(jù)、數(shù)據(jù)分析表達(dá)幾個步驟。性能檢測方式有追蹤(tracing)和輪廓(profiling)兩種方式[6]。前者采用插樁技術(shù)(instrumentation),對應(yīng)用程序進(jìn)行修改,在程序中插入附加指令,詳細(xì)記錄程序執(zhí)行過程中發(fā)生的事件,從而進(jìn)行事件跟蹤(event-based tracing),通過日志文件記錄,之后可以用時間軸的方式來呈現(xiàn)結(jié)果,幫助用戶了解程序執(zhí)行過程中的詳細(xì)特征。后者的典型形式是對路徑調(diào)用(call-path)信息或者硬件計數(shù)器進(jìn)行統(tǒng)計,即在并行程序執(zhí)行過程中,定期對程序當(dāng)前執(zhí)行的指令和對執(zhí)行過的函數(shù)堆棧進(jìn)行回溯,得到子程序、基本塊和語句的執(zhí)行時間和執(zhí)行次數(shù)等信息。

性能檢測的步驟如圖1所示。

圖1 性能檢測的三個步驟

1.1.1 數(shù)據(jù)選擇

并行程序一般用運(yùn)行時間、加速比和并行效率來衡量性能。因此通常會選擇MPI通信時間、通信量、程序各階段運(yùn)行時間,以及各硬件性能計數(shù)器數(shù)據(jù)作為需要采集的數(shù)據(jù)。

1.1.2 數(shù)據(jù)獲取和記錄

數(shù)據(jù)獲取主要有兩種方法,其中插樁技術(shù)也被稱為軟件打點技術(shù),目的是通過在程序中插入指令來獲取程序的狀態(tài),可以分為三種:(1)源代碼插樁,在程序源代碼或庫的源代碼中直接插入性能分析函數(shù),這種最為直觀,對于實驗中使用的測試程序的源代碼可以根據(jù)語法和語義信息,準(zhǔn)確進(jìn)行標(biāo)記。由于手工插樁較為繁瑣,因此也可以采用自動化分析插樁工具如Program Database Toolkit(PDT)來減少工作量;(2)二進(jìn)制插樁,通過對靜態(tài)或者運(yùn)行中的可執(zhí)行文件進(jìn)行二進(jìn)制代碼插入,不需要重新編譯程序,但是插樁的開銷較大,主要工具有Pin和Dyninst;(3)庫替換(instrumentation-library interposition),使用帶有測試接口的.so動態(tài)庫調(diào)用替換I/O、MPI、CUDA、OpenCL的API以及內(nèi)存分配/釋放例程,通過攔截應(yīng)用程序?qū)蚕韼斓暮瘮?shù)調(diào)用,來獲得調(diào)用數(shù)據(jù)。

而另一種是采樣,是一種統(tǒng)計方法,按照一定的周期程序的性能數(shù)據(jù)進(jìn)行采樣和記錄,據(jù)此來分析應(yīng)用程序部分代碼的性能特征,以代表整個應(yīng)用程序特征。采樣不需要對應(yīng)用程序做修改,操作簡單,開銷小,但是不能獲得應(yīng)用的完整性能視圖,并且很難確定合適的采樣頻率。

在獲取性能數(shù)據(jù)的過程中也會根據(jù)檢測目的來進(jìn)行選擇,或者是同時使用兩種采集方式。在采集的同時會將采集到的數(shù)據(jù)記錄到特定格式的文件中去,以便分析工具進(jìn)行處理。記錄的形式一般分為記錄的類型、記錄的時間戳、性能計數(shù)器的讀數(shù)等。

1.1.3 數(shù)據(jù)表達(dá)

數(shù)據(jù)表達(dá)也就是將采集到的數(shù)據(jù)通過報告或圖表的方式展示給用戶。根據(jù)數(shù)據(jù)分析整理的時機(jī)可以分為在線分析和離線分析,在線分析就是在程序運(yùn)行時實時分析程序的運(yùn)行狀態(tài)和性能特征,將分析結(jié)果實時展現(xiàn)給用戶;離線分析是在程序執(zhí)行期間收集性能數(shù)據(jù)并進(jìn)行存儲,在程序運(yùn)行完畢后,基于程序運(yùn)行時的全部性能數(shù)據(jù)進(jìn)行分析和展示。由于當(dāng)前高性能并行程序的規(guī)模大,運(yùn)行時間較長,需要對多節(jié)點多方面的性能數(shù)據(jù)進(jìn)行綜合分析,在線分析無法滿足要求,因此離線分析是實際中常用的研究方法。

1.2 功耗檢測

由于高功耗對高性能計算發(fā)展的制約,以及帶來的高昂運(yùn)行和維護(hù)成本,對HPC以及程序進(jìn)行功耗測量,以掌握其工作情況也變得相當(dāng)重要。早期的功耗研究使用基于模擬器的測量分析,可以在硬件設(shè)計階段用來平衡性能和功耗[7],但由于精度低和速度慢,實際難以推廣使用。實際使用的功耗檢測方法一般分為兩類[8]。

(1)基于設(shè)備直接測量結(jié)果的硬件測量法。是指用各種外接或者集成的傳感儀器設(shè)備來測量硬件設(shè)備的電流和電壓,接著使用測量值來計算被測對象的功耗值,如使用智能配電單元(intelligent power distribution units,iPDU)、傳感器電阻、Plug-wise智能插頭、Watts up pro功耗計、IPMI(intelligent platform management interface)、數(shù)字萬用表等[9]。這種方式精度很高,但是缺點也很明顯,如基于硬件的測量接口各異,數(shù)據(jù)只能夠離線記錄到運(yùn)行機(jī)器之外的設(shè)備上,不能夠?qū)Σ考?nèi)部的更小器件進(jìn)行功耗分析和測量,成本較高。

(2)基于性能事件或者寄存器讀數(shù)的軟件方法。操作系統(tǒng)提供的系統(tǒng)事件可以反映軟硬件狀態(tài),并且現(xiàn)代主流的處理器中都集成了硬件性能監(jiān)控計數(shù)器(performance counter,PMC),可以用來監(jiān)控硬件相關(guān)活動事件的發(fā)生次數(shù),更直觀反映其硬件使用情況[10]。因此結(jié)合系統(tǒng)事件和PMC事件的讀數(shù)來建立模型,可以做到實時性和非侵入性,現(xiàn)在使用的較多[11]。常見的采用軟件方法的功耗檢測工具有PowerTOP、Likwid-Power meter、PAPI。

其中PAPI(performance application progra-mming interface)[12]使用更為廣泛,PAPI是田納西大學(xué)開發(fā)的,可以在多種平臺上對硬件性能計數(shù)器進(jìn)行訪問的標(biāo)準(zhǔn)接口,可以監(jiān)測和采集由計數(shù)器記錄的處理器事件信息。對程序運(yùn)行中帶來的功耗,更多關(guān)注處理器,加速器及內(nèi)存的動態(tài)功耗。PAPI既提供了程序調(diào)用接口,也提供了一些組件的PAPI-C接口對上述部件進(jìn)行功耗檢測,如NVML(Nvidia management library)、RAPL(running average power level)、libmsr的接口組件。可以在外部工具中調(diào)用PAPI中的這些組件接口來獲取功耗值,因此為性能和功耗的協(xié)同檢測提供了可能,例如TAU、Extrae就已經(jīng)支持在追蹤性能數(shù)據(jù)的時候調(diào)用PAPI來提供性能和功耗數(shù)據(jù)。

2 性能和功耗分析工具

性能和功耗的檢測數(shù)據(jù)采集之后,往往需要某種方式來呈現(xiàn)給用戶,以便用戶從大量數(shù)據(jù)中找出規(guī)律,發(fā)現(xiàn)程序性能的瓶頸和能量優(yōu)化的機(jī)會。這樣就需要一些工具來對數(shù)據(jù)進(jìn)行處理,工具應(yīng)當(dāng)具有可視化、易操作等特性。由于當(dāng)前沒有比較完善的能耗可視化工具,通常是調(diào)用PAPI或者第三方硬件儀器的接口來采集能耗信息,并且在性能可視化工具中進(jìn)行展示,因此這里選用了幾類常見的支持PAPI的性能可視化工具。

2.1 基于Score-P檢測的工具

由于傳統(tǒng)的性能測試工具采用了各自不同的測量系統(tǒng)和輸出格式,給使用帶來不便。但是各種測量工具在MPI函數(shù)插樁、事件記錄和數(shù)據(jù)記錄格式上往往具有相同的特征,這給統(tǒng)一測量工具提供了可能。針對這個問題,SILC(scalable infrastructure for the automated performance analysis of parallel codes)項目開發(fā)了Score-P[13]測量系統(tǒng),采用了開源數(shù)據(jù)記錄格式CUBE4和OTF2(open trace format V2)[14]。Score-P支持MPI框架,支持CUDA、OpenACC和OpenCL,也支持使用PAPI來獲得硬件性能技術(shù)器和功耗信息。并得到了Vampir、Scalasca、TAU和Intel Trace Analyzer等分析軟件的支持(見圖2)。

圖2 基于Score-P檢測工具

Scope-P需要對用戶程序在編譯和鏈接時進(jìn)行插樁,需要在相應(yīng)命令前添加scorep前綴來替換成Score-P的插樁命令,如mpicc就需要更改為scorep mpicc。通過插樁后生成的可執(zhí)行程序通過mpirun或者直接執(zhí)行完成后,就會生成profile文件和trace文件,以供下列幾種工具分析。Score-P支持C/C++和Fotran,但是安裝和參數(shù)設(shè)置較為繁瑣,并且不能對未使用Score-P編譯的二進(jìn)制可執(zhí)行程序進(jìn)行檢測。

2.1.1 Vampir

Vampir(visual and analysis of MPI resource)是由Pallas GmnH公司開發(fā)的商業(yè)工具,主要用來分析并行程序執(zhí)行過程中的MPI調(diào)用,以便了解通信模式、發(fā)現(xiàn)程序熱區(qū)和性能瓶頸,可以提供事件和通信時間的詳細(xì)時間視圖、程序執(zhí)行分析、通信操作的統(tǒng)計分析等功能,廣泛應(yīng)用于許多超算中心。Vampir提供了時間線視圖,MPI通信矩陣,性能計數(shù)器視圖和MPI信息詳情。

Vampir的安裝和使用是在基于Score-P的可視化分析工具中最為方便的,并且提供了上述豐富的分析功能,可以直觀看出程序的MPI詳細(xì)通信過程。缺點是只針對MPI,沒有其余函數(shù)調(diào)用的分析。

2.1.2 Scalasca

Scalasca(scalable performance analysis of large scale applications)是由德國于利希研究中心以及模擬科學(xué)學(xué)院開發(fā)的開源工具,通過Scout中預(yù)定義的低效應(yīng)用程序行為模式,利用自動分析工具識別MPI中的不平衡到達(dá)(unbalanced process arrival,UPA)等問題。Scalasca更多像是一個列表式的分析工具,分析出結(jié)果之后,輸出給CUBE-GUI顯示分析結(jié)果,并可以通過輸出Cube4格式到Vampir或TAU中來進(jìn)行可視化,Scalasca和Cube不支持時間線視圖。

2.2 Intel Parallel Studio

Intel公司的Parallel Studio也是普遍使用的商業(yè)并行程序性能檢測和分析工具套件,ITAC(Intel trace analyzer and collector)是MPI通信的分析工具,Vtune Amplifier是其中的多線程性能分析組件。

ITAC主要關(guān)注基于MPI的通信,該部分提供基于事件的追溯機(jī)制,提供計算能力統(tǒng)計、線程跟蹤功能,對于資深的開發(fā)人員還可以通過插入二進(jìn)制指令對MPI函數(shù)調(diào)用以及MPI通信信息的參數(shù)進(jìn)行動態(tài)調(diào)試。ITAC支持底層MPI和硬件配置的調(diào)優(yōu),并且可以進(jìn)行MPI正確性的檢查,主要用于跨節(jié)點的并行程序通信性能分析。

Vtune針對程序運(yùn)行過程中產(chǎn)生的事件計數(shù),可以進(jìn)行多線程的代碼分析、堆棧采樣和硬件事件采樣,然后利用二進(jìn)制文件中的編譯信息將樣本統(tǒng)計數(shù)據(jù)對應(yīng)到進(jìn)程、線程、函數(shù)、反匯編代碼和源代碼中[15]。Vtune通過Intel處理器上的片上性能監(jiān)控單元,可以搜索由于緩存失效和錯誤分支預(yù)測而導(dǎo)致的系統(tǒng)停滯,幫助用戶識別性能瓶頸。Vtune主要用于各節(jié)點內(nèi)性能分析。

Intel Parallel Studio在并行程序應(yīng)用中也較為廣泛,但是缺乏對各類非MIC加速器和非Intel x86處理器的支持,并且由于是商業(yè)軟件,售價高昂,不利于在大規(guī)模集群上進(jìn)行使用。

2.3 Nvidia性能分析工具

在進(jìn)行基于CUDA的并行程序開發(fā)時,往往會使用Nvidia公司的開發(fā)工具和性能分析工具,如源代碼的可視化CUDA開發(fā)環(huán)境Nsight、可執(zhí)行文件的性能可視化分析工具Visual Profiler(NVVP)。工具對Nvidia的API支持最為全面,主要用來精確定位CPU和GPU之間的負(fù)載不平衡或GPU上的性能瓶頸,以優(yōu)化程序的配置。但是對于多節(jié)點的大規(guī)模并行并不適用,通常需要和MPI分析工具配合使用??梢圆榭床鍢堕_銷、GPU函數(shù)、主從設(shè)備交換等時間線,并可以通過Nvidia Tools Extension插樁來查看CPU上具體函數(shù)的時間線視圖,同時提供GPU的功耗和能耗的輸出。優(yōu)點是和本公司的計算卡結(jié)合緊密,在GPU異構(gòu)計算上結(jié)合開發(fā)、調(diào)試和性能分析于一體,使用方便。缺點是只支持本公司的計算卡,并且對于主設(shè)備如CPU上運(yùn)行的非OpenACC程序,就只能使用工具進(jìn)行手動插樁。

2.4 BSC Tools

BSC Tools是一個由西班牙巴塞羅那超級計算中心開發(fā)的開源工具集,主要由Paraver(可視化分析器)、Extrae(測量工具)組成,還有一些額外的集群性能分析工具。Extrae使用不同的插入機(jī)制(庫替換、手動插樁、dyninst二進(jìn)制插樁)將探針注入到目標(biāo)應(yīng)用程序中,以便收集性能指標(biāo)。Extrae還使用PAPI接口來收集有關(guān)硬件性能的信息,允許在并行調(diào)用發(fā)生時捕獲此類信息,而且還可以在用戶例程的入口和出口點捕獲這些信息。Paraver是一個非常強(qiáng)大的開源可視化分析工具,該工具主要是支持用戶自定義模式和全局概覽。Paraver通過時間線和概要統(tǒng)計來分析數(shù)據(jù)記錄中的運(yùn)行時間、函數(shù)調(diào)用、MPI以及硬件使用情況、PAPI事件、功耗等信息,并且通過自定義的cfg配置文件,可以靈活地對輸出形式進(jìn)行配置,可以將某幾項指標(biāo)綜合輸出展示[16],如將指令計數(shù)和周期計數(shù)進(jìn)行處理,可以輸出IPC(instructions per cycle)數(shù)據(jù)。所得到的每種事件的數(shù)據(jù)都可以導(dǎo)出為csv格式由其他程序進(jìn)行處理。

BSC Tools作為一款開源工具,在歐洲的巴塞羅那超算中心的多個集群長期開發(fā)使用,具有很多優(yōu)點。(1)安裝簡單,配置靈活。安裝通過一條指令就可以配置好依賴環(huán)境,并且Paraver有win和mac系統(tǒng)下的安裝包,可以將跟蹤數(shù)據(jù)導(dǎo)出后處理,也可以直接在Linux下使用官方已經(jīng)編譯好的壓縮包,直接解壓使用。Extrae通過在xml文件中簡單修改參數(shù)就可以進(jìn)行配置,其集成的庫劫持和二進(jìn)制插樁的功能可以使得在沒有源文件的情況下,對目標(biāo)應(yīng)用進(jìn)行性能和功耗的跟蹤分析,在集群實際使用中更為靈活。并且Paraver中可以自由定制多種cfg文件,對采集的數(shù)據(jù)進(jìn)行定制化輸出;(2)支持多種平臺,除了x86外,BSC Tools支持含arm和power,并且由于其對OpenCL的支持,理論上對CPU+xeon phi、CPU+FPGA、CPU+DSP都可以進(jìn)行跟蹤分析。但是由于配置過于靈活,BSC Tools并沒有提供詳細(xì)的使用引導(dǎo),其中Paraver的用戶說明長期未更新,已經(jīng)失效。

2.5 對比分析

通過對上述工具的功能和特點進(jìn)行對比,見表1,可以看出對于并行程序,作為硬件廠商自產(chǎn)的性能分析工具,Intel和Nvidia的工具套件對各自的產(chǎn)品針對性更強(qiáng),功能和可操作性也更勝一籌,但是也由于其閉源,不可能移植到其他平臺上,也就給自主的硬件平臺或者強(qiáng)調(diào)自主可控的應(yīng)用場景帶來了困難。

表1 幾種性能功耗測量工具的對比

Score-P對編程框架的支持最為廣泛,提供了對CUDA、OpenACC和OpenCL的支持。但是其安裝和配置較為復(fù)雜,并且需要對源程序進(jìn)行修改,不能對已經(jīng)生成的可執(zhí)行文件進(jìn)行性能和功耗的分析。在基于Score-P的分析工具中,Vampir使用最為方便,但是只有商業(yè)授權(quán)才可以使用完整功能。TAU的功能最強(qiáng),提供了豐富的說明文檔,但是安裝使用較為復(fù)雜。Scalasca提供了中文說明文檔,但是本身缺乏時間線視圖的輸出。

BSC Tools的使用很靈活。Extrae可以支持arm平臺,并且也提供對python程序的插樁跟蹤。官方提供了各種編程框架的跟蹤樣例,可以直接拷貝到需要測試的場景,經(jīng)過簡單修改即可使用。在Paraver中預(yù)制了大量的cfg配置文件,在進(jìn)行基本測試上非常容易上手。但是如果要進(jìn)階使用,自己定制跟蹤和分析時,配置較為繁瑣,也缺乏說明文件。

綜上所述,幾種工具各有優(yōu)缺,在實際應(yīng)用中,可以相互結(jié)合使用,對于Intel和Nvidia平臺無疑是官方軟件的支持最為強(qiáng)大,可以給出最全面的分析報告。對于定制化集群平臺,靈活配置Score-P和BSC Tools可以為優(yōu)化工作帶來很多便利。由于許多實驗室集群中并沒有專用的成套工具,因此使用開源工具也是一個很好的辦法。BSC Tools、Score-P都能在Github上找到完整的源代碼,可以對不同的硬件平臺進(jìn)行分析和移植,也可以作為基礎(chǔ)進(jìn)行二次開發(fā),使其更適用于特定應(yīng)用場景。

3 結(jié)束語

由于高性能并行程序在性能和功耗上有更高的需求,因此要對其進(jìn)行相關(guān)的檢測分析。由于傳統(tǒng)較多使用手動插樁輸出的辦法已經(jīng)不太適宜當(dāng)前的高性能并行軟件調(diào)優(yōu)工作,因此該文以并行程序的性能和功耗檢測為主線,對目前國外常用的性能和功耗檢測工具進(jìn)行了對比介紹,討論了其優(yōu)缺點,以便后續(xù)使用,并希望能激發(fā)相關(guān)研究人員使用這類工具來進(jìn)行軟硬件優(yōu)化的興趣。

猜你喜歡
功耗工具程序
波比的工具
波比的工具
給Windows添加程序快速切換欄
試論我國未決羈押程序的立法完善
準(zhǔn)備工具:步驟:
“程序猿”的生活什么樣
“巧用”工具
英國與歐盟正式啟動“離婚”程序程序
揭開GPU功耗的面紗
環(huán)保之功,從主板做起
长汀县| 潞城市| 三明市| 林州市| 宣汉县| 宣威市| 华容县| 榆林市| 新昌县| 万州区| 大洼县| 威海市| 深圳市| 赫章县| 城市| 绥棱县| 莒南县| 怀远县| 卫辉市| 寿宁县| 福安市| 佳木斯市| 行唐县| 达州市| 崇仁县| 调兵山市| 澜沧| 凭祥市| 山西省| 绥阳县| 萝北县| 盐边县| 阜新| 永新县| 新平| 九台市| 万年县| 都江堰市| 旬邑县| 鲁甸县| 新化县|