并行程序性能和功耗的測試分析工具研究

2021-08-02 03:35潘曉東孫曉樂鄭文旭

計算機(jī)技術(shù)與發(fā)展 2021年7期

潘曉東，孫曉樂，鄭文旭，吳丹

(國防科技大學(xué) 計算機(jī)學(xué)院，湖南長沙 410073)

0 引言

高性能計算(high performance computing，HPC)現(xiàn)在已經(jīng)成為促進(jìn)軍事進(jìn)步、科技創(chuàng)新和經(jīng)濟(jì)發(fā)展的重要手段，無論是科學(xué)計算還是新興的人工智能都對HPC的性能提出了新的更高的要求。隨著Dennard縮放效應(yīng)的失效，處理器單核的頻率到達(dá)極限，多核、眾核并行以及異構(gòu)并行成為HPC發(fā)展的趨勢，同時隨之不斷增長的能耗成為阻礙HPC發(fā)展的重要因素[1]，HPC開始轉(zhuǎn)向高能效并行方向。

HPC能量有效性提高的策略大致可以分為系統(tǒng)和應(yīng)用兩方面。從系統(tǒng)角度就是調(diào)節(jié)與運(yùn)行相關(guān)的系統(tǒng)硬件參數(shù)或者軟件環(huán)境參數(shù)，例如靜態(tài)的基礎(chǔ)架構(gòu)節(jié)能、電路的低功耗設(shè)計、運(yùn)行時基于硬件的參數(shù)調(diào)優(yōu)[2]；以及系統(tǒng)各部件的動態(tài)電源管理技術(shù)(DPM)，包括任務(wù)映射(mapping)、器件動態(tài)休眠、動態(tài)電壓頻率縮放(dynamic voltage and frequency scaling，DVFS)[3]等。而從應(yīng)用角度而言是在應(yīng)用執(zhí)行之前通過對并行程序本身進(jìn)行優(yōu)化來達(dá)到節(jié)能的目的。包括常用的軟件代碼優(yōu)化、編譯優(yōu)化和運(yùn)行庫優(yōu)化[4]。

這兩方面策略的制定，都需要對應(yīng)用進(jìn)行性能和功耗的檢測分析，并作為基準(zhǔn)對策略部署后的情況進(jìn)行對比，以此來迭代修訂策略，同時在HPC運(yùn)行當(dāng)中往往也需要對性能和功耗數(shù)據(jù)進(jìn)行檢測匯總。并行計算的性能檢測分析與體系結(jié)構(gòu)、并行算法、并行程序設(shè)計一同構(gòu)成了并行計算研究的四大分支。

長期以來國內(nèi)高性能計算的基礎(chǔ)并行環(huán)境落后于計算機(jī)系統(tǒng)的發(fā)展[5]，軟件的性能分析工具(performance analysis tools，PAT)也是如此。國內(nèi)出現(xiàn)過一些并行分析工具，如中科院的ParaVT、清華大學(xué)的VIMP、曙光上的Para Vision以及面向云計算資源監(jiān)控的并行科技的Paramon，盡管使用分析工具對于理解HPC應(yīng)用中的程序行為、性能瓶頸和優(yōu)化潛力很有幫助，但由于使用太復(fù)雜或者是售價和推廣的原因，這些工具并沒有流行起來。通過調(diào)查，發(fā)現(xiàn)許多實驗室在進(jìn)行性能和功耗檢測時，最常用的方法仍是手工插樁(使用時間戳)輸出日志，再進(jìn)行統(tǒng)計后處理的方法，這種方法雖然簡單直觀，但是工作量大，并且得到的信息量過少，缺少對軟件運(yùn)行的整體認(rèn)識，后續(xù)處理也相對困難，給并行程序的能耗和性能調(diào)優(yōu)帶來了不便。

隨著HPC系統(tǒng)復(fù)雜性的提高，以及大規(guī)模應(yīng)用軟件開發(fā)的需要，手工檢測和分析的方法已經(jīng)不能達(dá)到要求，因此該文介紹了性能和功耗檢測的原理和相關(guān)工具，并對4類跟蹤和分析工具進(jìn)行了對比分析，以便在后續(xù)工作中使用。

1 性能和功耗檢測原理

針對不同平臺和不同編程模型，性能和功耗檢測也有所區(qū)別。并行程序的編程模型分為消息傳遞和共享主存兩種模型，消息傳遞接口(message passing interface，MPI)和OpenMP(open multi-processing)已經(jīng)成為兩種模型的代表，而異構(gòu)計算引入了在加速器上使用的和OpenMP類似的CUDA(compute unified device architecture)、OpenCL(open computing language)以及OpenACC(open accelerators)?，F(xiàn)在的并行性能和功耗檢測多集中于采用MPI、OpenMP和CUDA，OpenCL和OpenACC在國內(nèi)超算集群中應(yīng)用較多，但目前缺乏成體系的檢測工具。

1.1 性能檢測

計算機(jī)的理論峰值性能是所有處理器性能的總和，而實際性能受限于系統(tǒng)和軟件，使得程序執(zhí)行過程中集群有很多處理器處于松弛狀態(tài)(即空閑或阻塞)，這樣性能無法達(dá)到最優(yōu)，松弛狀態(tài)的功耗也就浪費了。如果不能掌握程序的計算性能、通信狀況、處理器狀態(tài)、內(nèi)存狀態(tài)等性能數(shù)據(jù)，對程序的優(yōu)化調(diào)整就無從下手。HPC程序測試中通常采用動態(tài)測試的辦法，在中小規(guī)模核心數(shù)目上進(jìn)行實際運(yùn)行并收集性能數(shù)據(jù)，經(jīng)過整理得出分析結(jié)果匯報給使用者。

性能檢測一般分為確定數(shù)據(jù)采集種類、獲取和記錄數(shù)據(jù)、數(shù)據(jù)分析表達(dá)幾個步驟。性能檢測方式有追蹤(tracing)和輪廓(profiling)兩種方式[6]。前者采用插樁技術(shù)(instrumentation)，對應(yīng)用程序進(jìn)行修改，在程序中插入附加指令，詳細(xì)記錄程序執(zhí)行過程中發(fā)生的事件，從而進(jìn)行事件跟蹤(event-based tracing)，通過日志文件記錄，之后可以用時間軸的方式來呈現(xiàn)結(jié)果，幫助用戶了解程序執(zhí)行過程中的詳細(xì)特征。后者的典型形式是對路徑調(diào)用(call-path)信息或者硬件計數(shù)器進(jìn)行統(tǒng)計，即在并行程序執(zhí)行過程中，定期對程序當(dāng)前執(zhí)行的指令和對執(zhí)行過的函數(shù)堆棧進(jìn)行回溯，得到子程序、基本塊和語句的執(zhí)行時間和執(zhí)行次數(shù)等信息。

性能檢測的步驟如圖1所示。

圖1 性能檢測的三個步驟

1.1.1 數(shù)據(jù)選擇

并行程序一般用運(yùn)行時間、加速比和并行效率來衡量性能。因此通常會選擇MPI通信時間、通信量、程序各階段運(yùn)行時間，以及各硬件性能計數(shù)器數(shù)據(jù)作為需要采集的數(shù)據(jù)。

1.1.2 數(shù)據(jù)獲取和記錄

數(shù)據(jù)獲取主要有兩種方法，其中插樁技術(shù)也被稱為軟件打點技術(shù)，目的是通過在程序中插入指令來獲取程序的狀態(tài)，可以分為三種：(1)源代碼插樁，在程序源代碼或庫的源代碼中直接插入性能分析函數(shù)，這種最為直觀，對于實驗中使用的測試程序的源代碼可以根據(jù)語法和語義信息，準(zhǔn)確進(jìn)行標(biāo)記。由于手工插樁較為繁瑣，因此也可以采用自動化分析插樁工具如Program Database Toolkit(PDT)來減少工作量；(2)二進(jìn)制插樁，通過對靜態(tài)或者運(yùn)行中的可執(zhí)行文件進(jìn)行二進(jìn)制代碼插入，不需要重新編譯程序，但是插樁的開銷較大，主要工具有Pin和Dyninst；(3)庫替換(instrumentation-library interposition)，使用帶有測試接口的.so動態(tài)庫調(diào)用替換I/O、MPI、CUDA、OpenCL的API以及內(nèi)存分配/釋放例程，通過攔截應(yīng)用程序?qū)蚕韼斓暮瘮?shù)調(diào)用，來獲得調(diào)用數(shù)據(jù)。

而另一種是采樣，是一種統(tǒng)計方法，按照一定的周期程序的性能數(shù)據(jù)進(jìn)行采樣和記錄，據(jù)此來分析應(yīng)用程序部分代碼的性能特征，以代表整個應(yīng)用程序特征。采樣不需要對應(yīng)用程序做修改，操作簡單，開銷小，但是不能獲得應(yīng)用的完整性能視圖，并且很難確定合適的采樣頻率。

在獲取性能數(shù)據(jù)的過程中也會根據(jù)檢測目的來進(jìn)行選擇，或者是同時使用兩種采集方式。在采集的同時會將采集到的數(shù)據(jù)記錄到特定格式的文件中去，以便分析工具進(jìn)行處理。記錄的形式一般分為記錄的類型、記錄的時間戳、性能計數(shù)器的讀數(shù)等。

1.1.3 數(shù)據(jù)表達(dá)

數(shù)據(jù)表達(dá)也就是將采集到的數(shù)據(jù)通過報告或圖表的方式展示給用戶。根據(jù)數(shù)據(jù)分析整理的時機(jī)可以分為在線分析和離線分析，在線分析就是在程序運(yùn)行時實時分析程序的運(yùn)行狀態(tài)和性能特征，將分析結(jié)果實時展現(xiàn)給用戶；離線分析是在程序執(zhí)行期間收集性能數(shù)據(jù)并進(jìn)行存儲，在程序運(yùn)行完畢后，基于程序運(yùn)行時的全部性能數(shù)據(jù)進(jìn)行分析和展示。由于當(dāng)前高性能并行程序的規(guī)模大，運(yùn)行時間較長，需要對多節(jié)點多方面的性能數(shù)據(jù)進(jìn)行綜合分析，在線分析無法滿足要求，因此離線分析是實際中常用的研究方法。

1.2 功耗檢測

由于高功耗對高性能計算發(fā)展的制約，以及帶來的高昂運(yùn)行和維護(hù)成本，對HPC以及程序進(jìn)行功耗測量，以掌握其工作情況也變得相當(dāng)重要。早期的功耗研究使用基于模擬器的測量分析，可以在硬件設(shè)計階段用來平衡性能和功耗[7]，但由于精度低和速度慢，實際難以推廣使用。實際使用的功耗檢測方法一般分為兩類[8]。

(1)基于設(shè)備直接測量結(jié)果的硬件測量法。是指用各種外接或者集成的傳感儀器設(shè)備來測量硬件設(shè)備的電流和電壓，接著使用測量值來計算被測對象的功耗值，如使用智能配電單元(intelligent power distribution units，iPDU)、傳感器電阻、Plug-wise智能插頭、Watts up pro功耗計、IPMI(intelligent platform management interface)、數(shù)字萬用表等[9]。這種方式精度很高，但是缺點也很明顯，如基于硬件的測量接口各異，數(shù)據(jù)只能夠離線記錄到運(yùn)行機(jī)器之外的設(shè)備上，不能夠?qū)Σ考?nèi)部的更小器件進(jìn)行功耗分析和測量，成本較高。

(2)基于性能事件或者寄存器讀數(shù)的軟件方法。操作系統(tǒng)提供的系統(tǒng)事件可以反映軟硬件狀態(tài)，并且現(xiàn)代主流的處理器中都集成了硬件性能監(jiān)控計數(shù)器(performance counter，PMC)，可以用來監(jiān)控硬件相關(guān)活動事件的發(fā)生次數(shù)，更直觀反映其硬件使用情況[10]。因此結(jié)合系統(tǒng)事件和PMC事件的讀數(shù)來建立模型，可以做到實時性和非侵入性，現(xiàn)在使用的較多[11]。常見的采用軟件方法的功耗檢測工具有PowerTOP、Likwid-Power meter、PAPI。

其中PAPI(performance application progra-mming interface)[12]使用更為廣泛，PAPI是田納西大學(xué)開發(fā)的，可以在多種平臺上對硬件性能計數(shù)器進(jìn)行訪問的標(biāo)準(zhǔn)接口，可以監(jiān)測和采集由計數(shù)器記錄的處理器事件信息。對程序運(yùn)行中帶來的功耗，更多關(guān)注處理器，加速器及內(nèi)存的動態(tài)功耗。PAPI既提供了程序調(diào)用接口，也提供了一些組件的PAPI-C接口對上述部件進(jìn)行功耗檢測，如NVML(Nvidia management library)、RAPL(running average power level)、libmsr的接口組件。可以在外部工具中調(diào)用PAPI中的這些組件接口來獲取功耗值，因此為性能和功耗的協(xié)同檢測提供了可能，例如TAU、Extrae就已經(jīng)支持在追蹤性能數(shù)據(jù)的時候調(diào)用PAPI來提供性能和功耗數(shù)據(jù)。

2 性能和功耗分析工具

性能和功耗的檢測數(shù)據(jù)采集之后，往往需要某種方式來呈現(xiàn)給用戶，以便用戶從大量數(shù)據(jù)中找出規(guī)律，發(fā)現(xiàn)程序性能的瓶頸和能量優(yōu)化的機(jī)會。這樣就需要一些工具來對數(shù)據(jù)進(jìn)行處理，工具應(yīng)當(dāng)具有可視化、易操作等特性。由于當(dāng)前沒有比較完善的能耗可視化工具，通常是調(diào)用PAPI或者第三方硬件儀器的接口來采集能耗信息，并且在性能可視化工具中進(jìn)行展示，因此這里選用了幾類常見的支持PAPI的性能可視化工具。

2.1 基于Score-P檢測的工具

由于傳統(tǒng)的性能測試工具采用了各自不同的測量系統(tǒng)和輸出格式，給使用帶來不便。但是各種測量工具在MPI函數(shù)插樁、事件記錄和數(shù)據(jù)記錄格式上往往具有相同的特征，這給統(tǒng)一測量工具提供了可能。針對這個問題，SILC(scalable infrastructure for the automated performance analysis of parallel codes)項目開發(fā)了Score-P[13]測量系統(tǒng)，采用了開源數(shù)據(jù)記錄格式CUBE4和OTF2(open trace format V2)[14]。Score-P支持MPI框架，支持CUDA、OpenACC和OpenCL，也支持使用PAPI來獲得硬件性能技術(shù)器和功耗信息。并得到了Vampir、Scalasca、TAU和Intel Trace Analyzer等分析軟件的支持(見圖2)。

圖2 基于Score-P檢測工具

Scope-P需要對用戶程序在編譯和鏈接時進(jìn)行插樁，需要在相應(yīng)命令前添加scorep前綴來替換成Score-P的插樁命令，如mpicc就需要更改為scorep mpicc。通過插樁后生成的可執(zhí)行程序通過mpirun或者直接執(zhí)行完成后，就會生成profile文件和trace文件，以供下列幾種工具分析。Score-P支持C/C++和Fotran，但是安裝和參數(shù)設(shè)置較為繁瑣，并且不能對未使用Score-P編譯的二進(jìn)制可執(zhí)行程序進(jìn)行檢測。

2.1.1 Vampir

Vampir(visual and analysis of MPI resource)是由Pallas GmnH公司開發(fā)的商業(yè)工具，主要用來分析并行程序執(zhí)行過程中的MPI調(diào)用，以便了解通信模式、發(fā)現(xiàn)程序熱區(qū)和性能瓶頸，可以提供事件和通信時間的詳細(xì)時間視圖、程序執(zhí)行分析、通信操作的統(tǒng)計分析等功能，廣泛應(yīng)用于許多超算中心。Vampir提供了時間線視圖，MPI通信矩陣，性能計數(shù)器視圖和MPI信息詳情。

Vampir的安裝和使用是在基于Score-P的可視化分析工具中最為方便的，并且提供了上述豐富的分析功能，可以直觀看出程序的MPI詳細(xì)通信過程。缺點是只針對MPI，沒有其余函數(shù)調(diào)用的分析。

2.1.2 Scalasca

Scalasca(scalable performance analysis of large scale applications)是由德國于利希研究中心以及模擬科學(xué)學(xué)院開發(fā)的開源工具，通過Scout中預(yù)定義的低效應(yīng)用程序行為模式，利用自動分析工具識別MPI中的不平衡到達(dá)(unbalanced process arrival，UPA)等問題。Scalasca更多像是一個列表式的分析工具，分析出結(jié)果之后，輸出給CUBE-GUI顯示分析結(jié)果，并可以通過輸出Cube4格式到Vampir或TAU中來進(jìn)行可視化，Scalasca和Cube不支持時間線視圖。

2.2 Intel Parallel Studio

Intel公司的Parallel Studio也是普遍使用的商業(yè)并行程序性能檢測和分析工具套件，ITAC(Intel trace analyzer and collector)是MPI通信的分析工具，Vtune Amplifier是其中的多線程性能分析組件。

ITAC主要關(guān)注基于MPI的通信，該部分提供基于事件的追溯機(jī)制，提供計算能力統(tǒng)計、線程跟蹤功能，對于資深的開發(fā)人員還可以通過插入二進(jìn)制指令對MPI函數(shù)調(diào)用以及MPI通信信息的參數(shù)進(jìn)行動態(tài)調(diào)試。ITAC支持底層MPI和硬件配置的調(diào)優(yōu)，并且可以進(jìn)行MPI正確性的檢查，主要用于跨節(jié)點的并行程序通信性能分析。

Vtune針對程序運(yùn)行過程中產(chǎn)生的事件計數(shù)，可以進(jìn)行多線程的代碼分析、堆棧采樣和硬件事件采樣，然后利用二進(jìn)制文件中的編譯信息將樣本統(tǒng)計數(shù)據(jù)對應(yīng)到進(jìn)程、線程、函數(shù)、反匯編代碼和源代碼中[15]。Vtune通過Intel處理器上的片上性能監(jiān)控單元，可以搜索由于緩存失效和錯誤分支預(yù)測而導(dǎo)致的系統(tǒng)停滯，幫助用戶識別性能瓶頸。Vtune主要用于各節(jié)點內(nèi)性能分析。

Intel Parallel Studio在并行程序應(yīng)用中也較為廣泛，但是缺乏對各類非MIC加速器和非Intel x86處理器的支持，并且由于是商業(yè)軟件，售價高昂，不利于在大規(guī)模集群上進(jìn)行使用。

2.3 Nvidia性能分析工具

在進(jìn)行基于CUDA的并行程序開發(fā)時，往往會使用Nvidia公司的開發(fā)工具和性能分析工具，如源代碼的可視化CUDA開發(fā)環(huán)境Nsight、可執(zhí)行文件的性能可視化分析工具Visual Profiler(NVVP)。工具對Nvidia的API支持最為全面，主要用來精確定位CPU和GPU之間的負(fù)載不平衡或GPU上的性能瓶頸，以優(yōu)化程序的配置。但是對于多節(jié)點的大規(guī)模并行并不適用，通常需要和MPI分析工具配合使用?？梢圆榭床鍢堕_銷、GPU函數(shù)、主從設(shè)備交換等時間線，并可以通過Nvidia Tools Extension插樁來查看CPU上具體函數(shù)的時間線視圖，同時提供GPU的功耗和能耗的輸出。優(yōu)點是和本公司的計算卡結(jié)合緊密，在GPU異構(gòu)計算上結(jié)合開發(fā)、調(diào)試和性能分析于一體，使用方便。缺點是只支持本公司的計算卡，并且對于主設(shè)備如CPU上運(yùn)行的非OpenACC程序，就只能使用工具進(jìn)行手動插樁。

2.4 BSC Tools

BSC Tools是一個由西班牙巴塞羅那超級計算中心開發(fā)的開源工具集，主要由Paraver(可視化分析器)、Extrae(測量工具)組成，還有一些額外的集群性能分析工具。Extrae使用不同的插入機(jī)制(庫替換、手動插樁、dyninst二進(jìn)制插樁)將探針注入到目標(biāo)應(yīng)用程序中，以便收集性能指標(biāo)。Extrae還使用PAPI接口來收集有關(guān)硬件性能的信息，允許在并行調(diào)用發(fā)生時捕獲此類信息，而且還可以在用戶例程的入口和出口點捕獲這些信息。Paraver是一個非常強(qiáng)大的開源可視化分析工具，該工具主要是支持用戶自定義模式和全局概覽。Paraver通過時間線和概要統(tǒng)計來分析數(shù)據(jù)記錄中的運(yùn)行時間、函數(shù)調(diào)用、MPI以及硬件使用情況、PAPI事件、功耗等信息，并且通過自定義的cfg配置文件，可以靈活地對輸出形式進(jìn)行配置，可以將某幾項指標(biāo)綜合輸出展示[16]，如將指令計數(shù)和周期計數(shù)進(jìn)行處理，可以輸出IPC(instructions per cycle)數(shù)據(jù)。所得到的每種事件的數(shù)據(jù)都可以導(dǎo)出為csv格式由其他程序進(jìn)行處理。

BSC Tools作為一款開源工具，在歐洲的巴塞羅那超算中心的多個集群長期開發(fā)使用，具有很多優(yōu)點。(1)安裝簡單，配置靈活。安裝通過一條指令就可以配置好依賴環(huán)境，并且Paraver有win和mac系統(tǒng)下的安裝包，可以將跟蹤數(shù)據(jù)導(dǎo)出后處理，也可以直接在Linux下使用官方已經(jīng)編譯好的壓縮包，直接解壓使用。Extrae通過在xml文件中簡單修改參數(shù)就可以進(jìn)行配置，其集成的庫劫持和二進(jìn)制插樁的功能可以使得在沒有源文件的情況下，對目標(biāo)應(yīng)用進(jìn)行性能和功耗的跟蹤分析，在集群實際使用中更為靈活。并且Paraver中可以自由定制多種cfg文件，對采集的數(shù)據(jù)進(jìn)行定制化輸出；(2)支持多種平臺，除了x86外，BSC Tools支持含arm和power，并且由于其對OpenCL的支持，理論上對CPU+xeon phi、CPU+FPGA、CPU+DSP都可以進(jìn)行跟蹤分析。但是由于配置過于靈活，BSC Tools并沒有提供詳細(xì)的使用引導(dǎo)，其中Paraver的用戶說明長期未更新，已經(jīng)失效。

2.5 對比分析

通過對上述工具的功能和特點進(jìn)行對比，見表1，可以看出對于并行程序，作為硬件廠商自產(chǎn)的性能分析工具，Intel和Nvidia的工具套件對各自的產(chǎn)品針對性更強(qiáng)，功能和可操作性也更勝一籌，但是也由于其閉源，不可能移植到其他平臺上，也就給自主的硬件平臺或者強(qiáng)調(diào)自主可控的應(yīng)用場景帶來了困難。

表1 幾種性能功耗測量工具的對比

Score-P對編程框架的支持最為廣泛，提供了對CUDA、OpenACC和OpenCL的支持。但是其安裝和配置較為復(fù)雜，并且需要對源程序進(jìn)行修改，不能對已經(jīng)生成的可執(zhí)行文件進(jìn)行性能和功耗的分析。在基于Score-P的分析工具中，Vampir使用最為方便，但是只有商業(yè)授權(quán)才可以使用完整功能。TAU的功能最強(qiáng)，提供了豐富的說明文檔，但是安裝使用較為復(fù)雜。Scalasca提供了中文說明文檔，但是本身缺乏時間線視圖的輸出。

BSC Tools的使用很靈活。Extrae可以支持arm平臺，并且也提供對python程序的插樁跟蹤。官方提供了各種編程框架的跟蹤樣例，可以直接拷貝到需要測試的場景，經(jīng)過簡單修改即可使用。在Paraver中預(yù)制了大量的cfg配置文件，在進(jìn)行基本測試上非常容易上手。但是如果要進(jìn)階使用，自己定制跟蹤和分析時，配置較為繁瑣，也缺乏說明文件。

綜上所述，幾種工具各有優(yōu)缺，在實際應(yīng)用中，可以相互結(jié)合使用，對于Intel和Nvidia平臺無疑是官方軟件的支持最為強(qiáng)大，可以給出最全面的分析報告。對于定制化集群平臺，靈活配置Score-P和BSC Tools可以為優(yōu)化工作帶來很多便利。由于許多實驗室集群中并沒有專用的成套工具，因此使用開源工具也是一個很好的辦法。BSC Tools、Score-P都能在Github上找到完整的源代碼，可以對不同的硬件平臺進(jìn)行分析和移植，也可以作為基礎(chǔ)進(jìn)行二次開發(fā)，使其更適用于特定應(yīng)用場景。

3 結(jié)束語

由于高性能并行程序在性能和功耗上有更高的需求，因此要對其進(jìn)行相關(guān)的檢測分析。由于傳統(tǒng)較多使用手動插樁輸出的辦法已經(jīng)不太適宜當(dāng)前的高性能并行軟件調(diào)優(yōu)工作，因此該文以并行程序的性能和功耗檢測為主線，對目前國外常用的性能和功耗檢測工具進(jìn)行了對比介紹，討論了其優(yōu)缺點，以便后續(xù)使用，并希望能激發(fā)相關(guān)研究人員使用這類工具來進(jìn)行軟硬件優(yōu)化的興趣。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡