深度學習大數(shù)據(jù)分析計算平臺

2018-10-13 07:58郭泉

現(xiàn)代計算機 2018年23期

郭泉

（四川大學計算機學院，成都 610065）

0 引言

近年來，大數(shù)據(jù)所隱含的巨大價值越來越受到各行各業(yè)的重視。大數(shù)據(jù)通常是指在可容忍的時間內(nèi)用傳統(tǒng)信息技術(shù)和軟硬件工具難以對其進行獲取、管理、處理和分析的數(shù)據(jù)集合，具有體量浩大（Volume）、多源異構(gòu)（Variety）、生成快速（Velocity）、價值巨大但密度很低（Value）的4V特征。大數(shù)據(jù)分析是將大數(shù)據(jù)轉(zhuǎn)換為價值的重要一環(huán)[1]。大數(shù)據(jù)計算，則主要是面向大數(shù)據(jù)分析進行計算。深度學習已經(jīng)在大數(shù)據(jù)分析的各個領(lǐng)域取得突破性進展[1,2]。其需要大量計算，得益于GPU等計算資源高效的計算方式。然而如何管理好這些計算資源？本文提出利用Linux操作系統(tǒng)容器技術(shù)，通過對系統(tǒng)資源的分割和映射，管理其系統(tǒng)資源，尤其是計算資源，形成基于操作系統(tǒng)容器的深度學習大數(shù)據(jù)分析計算平臺。

1 研究現(xiàn)狀

深度神經(jīng)網(wǎng)絡模型成為國際上大數(shù)據(jù)分析領(lǐng)域中的研究熱點。Google、微軟等公司利用GPU加速建立的深度學習網(wǎng)絡已經(jīng)在圖像識別[3]、語音識別[4]等領(lǐng)域取得重大突破。然而大規(guī)模深度學習平臺的搭建仍處于摸索階段，尚缺乏統(tǒng)一的深度學習大數(shù)據(jù)分析計算的范式和可擴展的計算平臺搭建方法。除了傳統(tǒng)的CPU、GPU等通用處理器計算方式，還涌現(xiàn)了如FPGA、ASIC等專用處理器設計。中科院計算所陳云霽研究員等人在專用芯片設計上取得突破?；谏疃葘W習的大數(shù)據(jù)分析計算初露頭角，百花齊放，目前的挑戰(zhàn)是，如何建立一個深度學習并行計算平臺，更好地利用GPU和其他協(xié)處理器的計算特性。

2 基于容器技術(shù)的計算平臺

Linux操作系統(tǒng)容器（Linux Container，LXC），可以看做是實現(xiàn)了一種輕量級的虛擬化，為每個計算節(jié)點提供虛擬化運行環(huán)境，幾乎無額外性能開銷，同時便于管理和應用獨立性。Docker是一個LXC應用容器引擎，可通過Docker進行系統(tǒng)資源的管理和分配，尤其是GPU等計算資源。

圖1 系統(tǒng)架構(gòu)圖

我們在操作系統(tǒng)鏡像的基礎(chǔ)上，特定映射一個用戶工作目錄，用于管理該容器的工作范圍。其次映射GPU資源，包括設備文件、驅(qū)動文件和CUDA庫。最后為了方便操作，我們映射一個網(wǎng)絡端口方便在容器中通過網(wǎng)絡服務進行交互，例如通過Jupyter在瀏覽器上進行開發(fā)和維護工作等。

3 計算性能實驗

為了驗證本文提出的基于操作系統(tǒng)容器的深度學習大數(shù)據(jù)分析計算平臺的計算性能，我們進行以下幾組實驗。深度學習中的計算主要是矩陣乘法計算，對于m×k的矩陣A和k×n的矩陣B，其矩陣乘積為m×n的矩陣C，其中元素Cij為A中第i行元素與B中第j列元素對位相乘結(jié)果之和。矩陣乘法計算，在無特殊性質(zhì)無優(yōu)化的計算方式下，其計算代數(shù)操作數(shù)為m×k×n，其時間復雜度為O(n3)。我們設計一個大型計算圖，包括每個GPU上進行一個大型矩陣乘法，再匯聚到一個GPU上匯總求和。這符合深度學習中通常遇到的計算模式。這里我們令A為5120×10240的隨機矩陣，B為10240×7680的隨機矩陣，我們讓每個GPU計算C=AB，并對全部的C求和。注意，生成隨機矩陣也涉及GPU的代數(shù)操作，記入其代數(shù)計算次數(shù)，這也是深度學習訓練過程中常涉及到的操作過程。

接下來在提出的基于操作系統(tǒng)容器的深度學習大數(shù)據(jù)分析計算平臺，使用不同數(shù)量的GPU進行上述矩陣乘法實驗。

使用1塊GPU計算，任務包含代數(shù)計算805568512000次。重復進行10次實驗。

表1 使用1塊GPU計算的計算性能

以上實驗可以看出，10次實驗平均用時0.165秒，標準差0.107，平均計算吞吐量為6.150TFlops，標準差2.135。值得注意的是，第一次實驗的時間顯著高于其他9次，對應的，計算吞吐量也較后者低。這是因為系統(tǒng)中的計算卡的初始激活和分配被記入了時間統(tǒng)計過程。因此可以認為第一次實驗的結(jié)果為離群點，在統(tǒng)計中可以將其去除。去除離群點后實驗室平均用時0.131秒，標準差 0.042，平均計算吞吐量為6.640TFlops，標準差1.632。后面的實驗中我們也將以相同的原則去除離群點，并匯報兩種統(tǒng)計結(jié)果。

使用2塊GPU計算，該任務含有代數(shù)計算1611176345600次。重復進行10次實驗。

表2 使用2塊GPU計算的計算性能

以上實驗中，十次實驗平均用時0.227秒，標準差0.161，平均計算吞吐量為9.129TFlops，標準差3.255。去除離群點后實驗室平均用時0.177秒，標準差0.054，平均計算吞吐量為9.882TFlops，標準差2.470。

使用4塊GPU計算，該任務包含代數(shù)計算3222392012800次。重復進行10次實驗。

表3 使用4塊GPU計算的計算性能

可以發(fā)現(xiàn)，十次實驗平均用時0.302秒，標準差0.288，平均計算吞吐量為 14.499TFlops，標準差4.183。去除離群點后實驗室平均用時0.206秒，標準差 0.027，平均計算吞吐量為 15.802TFlops，標準差1.568。

以上四個實驗中的代數(shù)計算次數(shù)基與使用的GPU數(shù)量正相關(guān)，即每個卡上的平均計算量是一致的，因此我們可以認為這些任務中其卡均計算量是一定的，我們可以橫向比較這些吞吐量來觀察不同GPU數(shù)量下平臺計算性能變化情況。

圖2 相同卡均計算量下使用不同數(shù)量GPU卡的計算性能

這里采用去除離群點的吞吐量平均值反映計算能力?？梢钥闯?，在同樣的卡均計算量任務的情況下，隨著使用GPU數(shù)量增加，平臺的吞吐量增加顯著。這是由于平臺利用了計算任務之間的并行特性，通過并行提高了總體計算能力。

4 結(jié)語