楊喜寧 周一青 陳 洋
(中國科學(xué)院計(jì)算技術(shù)研究所處理器芯片全國重點(diǎn)實(shí)驗(yàn)室 北京 100190)
(中國科學(xué)院大學(xué) 北京 100049)
(移動(dòng)計(jì)算與新型終端北京市重點(diǎn)實(shí)驗(yàn)室 北京 100190)
為了應(yīng)對(duì)未來爆炸性的移動(dòng)數(shù)據(jù)流量增長(zhǎng)、海量的設(shè)備連接和不斷涌現(xiàn)的各類新業(yè)務(wù)和應(yīng)用場(chǎng)景,第5 代移動(dòng)通信技術(shù)(5G)應(yīng)運(yùn)而生[1-2]。不同于之前的移動(dòng)通信技術(shù),5G 網(wǎng)絡(luò)的服務(wù)對(duì)象從傳統(tǒng)的人與人通信拓展到人與物、物與物通信,5G 將開啟一個(gè)萬物互聯(lián)的新時(shí)代,滲透到工業(yè)、交通、農(nóng)業(yè)等各個(gè)行業(yè),成為各行各業(yè)創(chuàng)新發(fā)展的助推器[3-4]。支撐如此廣泛應(yīng)用的基礎(chǔ)是5G 的幾項(xiàng)核心指標(biāo),如1 Gbps的用戶體驗(yàn)速率、面向小包通信時(shí)毫秒級(jí)的端到端時(shí)延以及99.999%的傳輸可靠性[5]。不斷增長(zhǎng)的信道帶寬、算法復(fù)雜度和更低處理時(shí)延對(duì)于成本、計(jì)算資源和功耗體積等受到嚴(yán)格限制的終端設(shè)備來說是一個(gè)巨大挑戰(zhàn)[6]。
基帶芯片(又稱Modem)作為5G 終端設(shè)備的核心器件,對(duì)終端設(shè)備的通信功能和性能起著決定性的作用。因其復(fù)雜的數(shù)字信號(hào)處理算法和強(qiáng)實(shí)時(shí)的處理時(shí)延需求,通?;谲浻矃f(xié)同的異構(gòu)SoC(systems-on-chip)來實(shí)現(xiàn)[7-8]?;鶐酒ɑ鶐盘?hào)處理和協(xié)議處理兩大部分?;鶐盘?hào)處理廣泛采用基于ASIC(application specific integrated circuit)的硬件加速器來實(shí)現(xiàn),并且學(xué)術(shù)界已有大量針對(duì)性的研究[9-11]。文獻(xiàn)[12]提出一種數(shù)據(jù)流驅(qū)動(dòng)的可編程軟核處理器,可以滿足5G 對(duì)FFT(fast Fourier transform)/IFFT 在靈活性和實(shí)時(shí)性方面的需求。文獻(xiàn)[13]設(shè)計(jì)一種動(dòng)態(tài)可伸縮的多核SoC(MPSoC)來滿足5G 信號(hào)處理在吞吐率和時(shí)延指標(biāo)方面跨越幾個(gè)數(shù)量級(jí)的動(dòng)態(tài)范圍,以提升芯片資源利用率。文獻(xiàn)[14,15]分別對(duì)5G 下行同步算法和LDPC(lowdensity parity-check)譯碼算法展開了基于硬件加速器實(shí)現(xiàn)方案的研究。
但是對(duì)于協(xié)議處理,如高層用戶面層2(L2,layer 2),主流的基帶芯片[16-17]僅提供加解密和完整性保護(hù)校驗(yàn)的硬件加速功能,對(duì)協(xié)議處理的硬件加速和軟硬協(xié)同設(shè)計(jì)的研究較少。文獻(xiàn)[6]提出一種基于加速器處理架構(gòu),主要是針對(duì)LTE(long term evolution)協(xié)議的軟硬件聯(lián)合處理,取得了一定的性能增益。然而,隨著5G 的廣泛應(yīng)用,尤其是在工業(yè)領(lǐng)域,除了高帶寬外,時(shí)延、可靠性和低抖動(dòng)等方面的要求也在不斷提高,用戶面協(xié)議處理逐漸成為了制約基帶芯片總體性能的新瓶頸[18]。協(xié)議處理主要面臨以下挑戰(zhàn):首先,5G 協(xié)議支持多種調(diào)度時(shí)隙間隔,最小可到0.125 ms,在如此小的時(shí)間約束內(nèi)要進(jìn)行大量包的實(shí)時(shí)處理,基于多任務(wù)的純軟件協(xié)議處理架構(gòu)難以保證時(shí)延穩(wěn)定,而這恰是工業(yè)5G 應(yīng)用的一個(gè)重要需求;其次,為了提升有限的無線空口資源的利用率5G 協(xié)議中所有層的協(xié)議頭字段大多以比特為單位定義,CPU 軟件訪問這種非字長(zhǎng)對(duì)齊的數(shù)據(jù)時(shí)效率比較低;此外,5G 協(xié)議中承載業(yè)務(wù)數(shù)據(jù)的邏輯信道配置參數(shù)及各層的頭格式種類繁多,計(jì)算字段前后依賴,只能順序解析動(dòng)態(tài)識(shí)別后續(xù)字段的格式,這增加了解析的難度。傳統(tǒng)以CPU 軟件為主的協(xié)議處理架構(gòu)無法滿足高能效比和可預(yù)期的穩(wěn)定性時(shí)延[19]。
在此背景下,本文設(shè)計(jì)了一種基于軟硬件協(xié)同的協(xié)議棧處理器架構(gòu),利用硬件加速器卸載耗時(shí)處理減輕CPU 壓力,在提升5G 協(xié)議棧用戶面吞吐率的同時(shí)降低處理時(shí)延和抖動(dòng)。本文的主要貢獻(xiàn)如下。
(1)提出一種軟硬協(xié)同的5G 協(xié)議處理架構(gòu),充分利用異構(gòu)芯片資源,對(duì)軟硬件功能進(jìn)行了合理劃分,減少軟硬件之間的通信開銷,提升系統(tǒng)的執(zhí)行效率。
(2)設(shè)計(jì)針對(duì)5G 協(xié)議的數(shù)據(jù)面加速器(data path accelerator,DPA),將用戶面協(xié)議中頻繁執(zhí)行且比較耗時(shí)的協(xié)議數(shù)據(jù)解析功能從傳統(tǒng)的軟件處理中獨(dú)立出來,在降低CPU 負(fù)載的基礎(chǔ)上,提升用戶面的包處理速率。
(3)采用DPA 與安全加速器(security,SEC)聯(lián)動(dòng)設(shè)計(jì),在極少CPU 干預(yù)的前提下實(shí)現(xiàn)協(xié)議數(shù)據(jù)解析和解密操作的無縫銜接,保證了數(shù)據(jù)包處理時(shí)延的穩(wěn)定性。
論文的其余部分組織如下:第1 節(jié)介紹了本文提出的軟硬件協(xié)同的協(xié)議棧處理架構(gòu);第2 節(jié)詳細(xì)描述了軟硬件協(xié)同的協(xié)議處理架構(gòu)中的核心器件數(shù)據(jù)面加速器(DPA)的設(shè)計(jì)細(xì)節(jié)和并行化策略;第3節(jié)為實(shí)驗(yàn)設(shè)計(jì)與性能驗(yàn)證分析;第4 節(jié)對(duì)論文進(jìn)行總結(jié)。
協(xié)議處理子系統(tǒng)作為基帶芯片中的核心組件之一,主要負(fù)責(zé)5G 標(biāo)準(zhǔn)高層數(shù)據(jù)面和控制面協(xié)議處理。其系統(tǒng)架構(gòu)如圖1 所示,包括硬件平臺(tái)和協(xié)議軟件系統(tǒng)(protocol stack,PS)兩大部分。
硬件平臺(tái)的核心是一個(gè)4 核的CPU,可提供128 Bit 的AXI 總線連接高速DDR 控制器,并通過一個(gè)轉(zhuǎn)換橋連接到各個(gè)加速器和外設(shè)。硬件平臺(tái)還包括以下部分:
? 數(shù)據(jù)面加速器(DPA),負(fù)責(zé)協(xié)議棧層2(layer 2)協(xié)議數(shù)據(jù)解析及SEC 加速器控制。
? SEC 加速器,用于安全密鑰計(jì)算、數(shù)據(jù)與信令的加密解和完整性保護(hù)。在本文提出的架構(gòu)中,SEC 加速器即可以通過CPU 啟動(dòng),也可以不經(jīng)過CPU 直接由DPA 進(jìn)行啟動(dòng),以避免頻繁中斷造成的額外開銷。
? 中斷控制器和各種外部接口,如PLIC、UART 和PCIe 等。
? UGDMA(uplink gather DMA),控制DMA 執(zhí)行上行數(shù)據(jù)的復(fù)用與級(jí)聯(lián)操作的專用加速器。
其中DPA 的設(shè)計(jì)以及DPA 與SEC 加速器的并行化控制是本文研究的重點(diǎn)。
為提升工業(yè)5G 協(xié)議棧處理的吞吐率和硬件效率,本文基于軟硬協(xié)同設(shè)計(jì)思想,在對(duì)協(xié)議棧各層執(zhí)行時(shí)間進(jìn)行測(cè)量和時(shí)序分析的基礎(chǔ)上(分析結(jié)果詳見第3 節(jié)),對(duì)協(xié)議棧的軟硬件功能進(jìn)行了合理的劃分。具體來講,本文設(shè)計(jì)一款專用的協(xié)議棧數(shù)據(jù)面加速器(DPA),把用戶面中重復(fù)執(zhí)行、邏輯相對(duì)簡(jiǎn)單且比較耗時(shí)的傳輸塊(transport block,TB)各層協(xié)議數(shù)據(jù)單元(protocol data unit,PDU)解析功能從協(xié)議棧軟件中獨(dú)立出來。如圖2所示,DPA負(fù)責(zé)用戶面下行鏈路的協(xié)議處理,包含2 方面的功能:一是對(duì)從物理層收到的傳輸塊執(zhí)行快速解析和協(xié)議字段提取,并將結(jié)果中的有效協(xié)議字段按照一定的格式(定義為HFD,header field descriptor)按序存入片內(nèi)高速共享,存儲(chǔ)后中斷通知CPU 執(zhí)行用戶面L2(Layer 2)各層協(xié)議功能;二是在TB 塊解析過程,若解析出來的PDU 所屬的PDCP(packet data convergence protocol)實(shí)體打開了加密完保功能,則DPA為該P(yáng)DU 配置好相應(yīng)的算法和解密數(shù)據(jù)地址等參數(shù),直接啟動(dòng)SEC 加速器執(zhí)行完整性保護(hù)和解密操作。
圖2 用戶面加速器處理流程
為提升用戶面協(xié)議處理性能降低時(shí)延,基于DPA 的軟硬協(xié)同協(xié)議處理架構(gòu)進(jìn)行了并行化的創(chuàng)新設(shè)計(jì)。該架構(gòu)充分利用CPU +AISC 異構(gòu)資源對(duì)協(xié)議處理進(jìn)行了并行化分解,即DPA 進(jìn)行數(shù)據(jù)包的解析后將處理結(jié)果分發(fā)給CPU 和SEC 加速器分別執(zhí)行協(xié)議處理和解密完保操作。傳統(tǒng)的協(xié)議棧架構(gòu)通常是以串行的方式對(duì)單個(gè)PDU 交替執(zhí)行各層頭解析和協(xié)議處理、解密等操作。這種處理方式雖然可以借助多核分擔(dān)各個(gè)執(zhí)行環(huán)節(jié)形成流水以提升總體吞吐量,但各環(huán)節(jié)之間交互和銜接也有非常大的開銷,而且會(huì)增加每個(gè)包的處理時(shí)延。本文設(shè)計(jì)的基于DPA 軟硬協(xié)同架構(gòu),則對(duì)2 個(gè)關(guān)鍵環(huán)節(jié)的執(zhí)行時(shí)序進(jìn)行了并行化分解,如圖3 所示。
圖3 并行化設(shè)計(jì)
(1)MAC CE(control element)處理與MAC SDU(service data unit)處理的并行化。協(xié)議棧收到MAC TB 后,會(huì)先依次從中解析出MAC CE 和MAC SDU。MAC CE 如果存在的話會(huì)被排布在TB 的最前端[20]。DPA 一旦解析完MAC CE,在立即通知協(xié)議棧執(zhí)行MAC CE 的后續(xù)處理的同時(shí)可以繼續(xù)執(zhí)行其他MAC SDU 的解析。這樣可以保證協(xié)議棧對(duì)MAC CE 的處理與DPA 對(duì)MAC SDU 的解析同時(shí)進(jìn)行,因MAC CE 通常涉及底層無線資源集或配置參數(shù)的快速切換,盡可能提前處理MAC CE 可為物理層及射頻控制爭(zhēng)取更多的響應(yīng)時(shí)間。
(2)協(xié)議棧RLC(radio-link control)/PDCP 的處理與用戶面數(shù)據(jù)解密完保的并行化處理。當(dāng)DPA完成RLC、PDCP 和SDAP(service data application protocol)的頭解析后,數(shù)據(jù)流一分為二:一方面DPA通知協(xié)議棧執(zhí)行RLC 分段重組、ARQ(automatic repeat request)和PDCP 丟棄、排序等協(xié)議功能[21];另一方面DPA 啟動(dòng)SEC 加速器執(zhí)行解密和完保驗(yàn)證操作。待SEC 加速器處理完成后中斷通知協(xié)議棧PDCP,PDCP 按序遞交完保校驗(yàn)結(jié)果正確的數(shù)據(jù)給SDAP 進(jìn)行后續(xù)處理。因2 條數(shù)據(jù)流并行執(zhí)行,且解密處理耗時(shí)較長(zhǎng),因此協(xié)議棧完成了RLC、PDCP的相關(guān)處理之后,等解密處理一完成就可以遞交數(shù)據(jù)包。通過這種并行設(shè)計(jì),可以在解密過程中盡可能多地并行執(zhí)行其他協(xié)議處理任務(wù),進(jìn)而降低協(xié)議棧的總體處理時(shí)延。
如圖4 所示,DPA 主要包括控制單元、數(shù)據(jù)處理和接口3 個(gè)部分。控制單元中定義了DPA 的配置寄存器,包括邏輯信道、PDCP delivery Count 值、HFD 緩存地址信息、輸入的MAC TB 數(shù)據(jù)地址和DPA的控制寄存器等。數(shù)據(jù)處理單元包括的協(xié)議棧各層PDU 解析模塊、讀寫DMA(direct memory access)的控制以及輸出FIFO(first-in first-out)操作。接口單元包括獨(dú)立的時(shí)鐘、復(fù)位和中斷信號(hào)以及APB(advanced peripheral bus)和AXI(advanced extensible interface)總線。
圖4 DPA 硬件架構(gòu)
DPA 與協(xié)議棧CPU、SEC 加速器和存儲(chǔ)模塊(如SRAM/DDR)緊密配合,實(shí)現(xiàn)用戶面下行業(yè)務(wù)的高效處理。如圖5 所示,以DPA 為紐帶的協(xié)議數(shù)據(jù)流處理分為以下4 個(gè)階段。
圖5 DPA 數(shù)據(jù)流
階段1輸出數(shù)據(jù)準(zhǔn)備及DPA 初始化
該階段包括圖5 中步驟1~2,協(xié)議棧收到物理層的TB 數(shù)據(jù)到達(dá)中斷,對(duì)DPA 進(jìn)行初始化、參數(shù)配置后啟動(dòng)DPA。
階段2DPA 執(zhí)行協(xié)議數(shù)據(jù)解析并輸出HFD
該階段為圖中的步驟3~6,一方面DPA 控制RDMA 循環(huán)從DDR 中讀取一定長(zhǎng)度的TB 數(shù)據(jù)放入內(nèi)部輸入FIFO。首次讀取的長(zhǎng)度由協(xié)議棧配置,之后每次讀取的長(zhǎng)度由DPA 根據(jù)上一次數(shù)據(jù)處理的結(jié)果進(jìn)行動(dòng)態(tài)調(diào)整,其原則是保證DPA 每次都能從DDR 中讀出一個(gè)完整MAC sub PDU 的各協(xié)議層PDU 頭。另一方面,DPA 對(duì)輸入FIFO 中的數(shù)據(jù)按照協(xié)議格式進(jìn)行解析,包括MAC CE 和MAC sub PDU 的解析,同時(shí)按照設(shè)計(jì)的HFD 格式(見下節(jié)描述)將解析結(jié)果通過DPA 內(nèi)部的輸出FIFO 和WDMA(write DMA)寫入共享的SRAM,交由協(xié)議棧進(jìn)行后續(xù)處理。DPA 支持配置獨(dú)立的MAC CE 完成中斷和MAC SDU 解析完成中斷。這樣設(shè)計(jì)的考慮是為了及時(shí)優(yōu)先將MAC CE 處理結(jié)果遞交給協(xié)議棧,以提升MAC 層控制響應(yīng)的時(shí)效性。
階段3協(xié)議處理與SEC 解密并行
本階段為步驟7~10,包含兩大處理過程:一是協(xié)議棧基于DPA 的解析結(jié)果對(duì)各層PDU 進(jìn)行RLC級(jí)聯(lián)、重復(fù)檢測(cè)和ARQ 操作,以及PDCP 的排序、去重和丟棄等操作;二是DPA 為所有打開了加密和完保功能的PDU 批量準(zhǔn)備SEC 加速器需要的解密算法等參數(shù)后,啟動(dòng)SEC 加速器執(zhí)行解密、完保校驗(yàn)操作。
階段4協(xié)議棧按序遞交
該階段為步驟11~12,協(xié)議棧根據(jù)SEC 加速器處理結(jié)果,對(duì)完保校驗(yàn)失敗的包進(jìn)行丟棄操作,再按序?qū)⒔?jīng)過RLC 層處理并且完保校驗(yàn)成功的包遞交給SDAP 執(zhí)行QoS 流映射操作后轉(zhuǎn)發(fā)給應(yīng)用處理器(AP)。
HFD 是DPA 與協(xié)議棧之間進(jìn)行信息交互的數(shù)據(jù)格式,關(guān)系到軟硬件界面劃分的合理性,對(duì)數(shù)據(jù)傳遞效率有較大影響。在定義HFD 格式之前,首先介紹一下TB 數(shù)據(jù)的格式。如圖6 所示,每個(gè)下行TB中包含若干個(gè)MAC subPDU,共有3 種類型: MAC CE、MAC SDU 和padding。其中每個(gè)MAC SDU 包含著不同類型的RLC PDU、PDCP PDU 和SDAP PDU。DPA 需要設(shè)計(jì)合理的HFD 格式來應(yīng)對(duì)標(biāo)準(zhǔn)中控制類、數(shù)據(jù)類PDU、不同的RLC 模式和SN(sequence number)長(zhǎng)度等參數(shù)的變化。
圖6 MAC TB 格式
為減少各層之間頭字段的冗余信息,DPA 的HFD 采用了跨層扁平的格式定義。圖7 給出了AM分段PDU、基于RLCUM(unacknowledged mode)的PDCP 控制PDU 和SDAP 數(shù)據(jù)PDU 這3 種類型的HFD 格式,此外還可以定義出MAC CE 及其他各類型的HFD 共計(jì)10 種,可以完全覆蓋標(biāo)準(zhǔn)規(guī)定的所有協(xié)議頭類型。以UM_SDAP_DATA 為例,其表示該HFD 是一個(gè)非分段的基于RLC UM 信道且?guī)DAP 頭的業(yè)務(wù)數(shù)據(jù)包,它只定義了PDCP count 值、SN 等必要信息,而RLC SI(segment indication)和其他協(xié)議頭中的一些保留字段則被去除,以減少內(nèi)存占用。
此外,為保證CPU 對(duì)HFD 數(shù)據(jù)的讀取速度,HFD 的各個(gè)字段長(zhǎng)度均按CPU 字長(zhǎng)設(shè)定,并且將HFD 的輸出格式定義為基于靜態(tài)內(nèi)存的序列化存儲(chǔ)結(jié)構(gòu),并在HFD 緩沖區(qū)的開頭指示DPA 從TB 解析出的MAC sub PDU 的總數(shù)量,方便CPU 直接快速遍歷每一個(gè)PDU 的HFD。
DPA 完成協(xié)議字段解析后,最終可以得到MAC TB 中所包含的業(yè)務(wù)數(shù)據(jù)(即IP 包)信息。每個(gè)TB中包含大量IP 包,并且這些IP 包并非總是按序達(dá)到,而PDCP 要保證按序遞交,因此協(xié)議棧不得不先緩存這些IP 包,這就涉及到內(nèi)存分配的問題。最直接的做法是為每一個(gè)IP 包單獨(dú)分配內(nèi)存,這要求DPA 加速器實(shí)現(xiàn)一個(gè)內(nèi)存管理功能,這不僅增加了設(shè)計(jì)復(fù)雜度也會(huì)導(dǎo)致加速器與CPU 之間共享內(nèi)存競(jìng)爭(zhēng)訪問的問題。本文采用一種改進(jìn)的方法,在DPA 啟動(dòng)之前就由CPU 預(yù)先分配好足以容納MAC TB 中所有業(yè)務(wù)數(shù)據(jù)包的大塊內(nèi)存空間(稱其為業(yè)務(wù)緩存),DPA 只要計(jì)算每個(gè)IP 包的內(nèi)存偏移并將其存入HFD 中,CPU 中的PDCP 任務(wù)按序遞交一個(gè)IP包后標(biāo)記其釋放狀態(tài),待所有業(yè)務(wù)數(shù)據(jù)包均被遞交后,回收業(yè)務(wù)緩存。該方案大幅減少了內(nèi)存分配的次數(shù),可以提升協(xié)議數(shù)據(jù)處理速率。
為驗(yàn)證工業(yè)5G 不同業(yè)務(wù)模型下協(xié)議棧對(duì)處理資源的占用情況,本文基于課題組研發(fā)的5G 協(xié)議棧搭建了軟件驗(yàn)證環(huán)境。如圖1 所示,traffic config模塊可以根據(jù)需求配置不同的業(yè)務(wù)參數(shù),本文中定義了高頻次小包和大帶寬2 種典型的工業(yè)5G 業(yè)務(wù)場(chǎng)景,并利用物理層模擬器(PHY emulator)生成不同業(yè)務(wù)場(chǎng)景的MACTB 包并發(fā)送給協(xié)議棧(L2)進(jìn)行處理,同時(shí)對(duì)協(xié)議棧處理時(shí)間進(jìn)行測(cè)量統(tǒng)計(jì)。如圖8所示,在每個(gè)調(diào)度間隔內(nèi)數(shù)據(jù)包數(shù)量不變(如108包/TTI)的情況下,隨著數(shù)據(jù)包增大,層2的總處理時(shí)間(L2 time)及各部分的處理時(shí)間增長(zhǎng)平緩,帶寬增加40 多倍的前提下,協(xié)議棧用戶面的處理cycle數(shù)僅增加不到2 倍。而如圖9 所示,對(duì)于高頻次小數(shù)據(jù)業(yè)務(wù)(如500 包/TTI),在業(yè)務(wù)帶寬僅增加10 倍的情況下,協(xié)議棧層2 的處理cycle 數(shù)增加了約10 倍。這說明協(xié)議棧用戶面對(duì)數(shù)據(jù)包的數(shù)量比較敏感,工業(yè)5G 高頻次小包的業(yè)務(wù)特點(diǎn)嚴(yán)重制約協(xié)議包處理吞量。
圖9 不同小包數(shù)量處理性能
為驗(yàn)證本文設(shè)計(jì)的基于軟硬件協(xié)同的協(xié)議處理架構(gòu),開發(fā)了5G 用戶面協(xié)議處理加速器DPA 和SEC 加速器,并基于EDA 搭建了軟硬協(xié)同驗(yàn)證環(huán)境,其功能組成如圖1 所示。本節(jié)將從時(shí)延、時(shí)序、包處理通量等方面對(duì)DPA 及本文提出的協(xié)同架構(gòu)進(jìn)行性能分析。驗(yàn)證環(huán)境中CPU 的時(shí)鐘頻率為1.2 GHz,SEC 加速器、DPA 加速器的時(shí)鐘頻率為500 MHz。
3.2.1 時(shí)延和時(shí)序分析
首先基于軟硬協(xié)同的驗(yàn)證環(huán)境,對(duì)協(xié)議棧下行業(yè)務(wù)數(shù)據(jù)處理進(jìn)行時(shí)延分解和時(shí)序分析。每個(gè)調(diào)度周期,下行空口數(shù)據(jù)經(jīng)過物理層的處理后生成一個(gè)MAC TB 包,經(jīng)過協(xié)議棧的處理將TB 包中的業(yè)務(wù)數(shù)據(jù)解析、解密,再按序遞交給AP。
如表1 所示,基于64 字節(jié)包長(zhǎng)和每個(gè)調(diào)度間隔(TTI)500 包的業(yè)務(wù)負(fù)載對(duì)純軟件處理和軟硬協(xié)同處理(下文簡(jiǎn)稱協(xié)同架構(gòu))2 種方案進(jìn)行了模塊級(jí)的處理時(shí)延量化分析。其中Interrupt Delay 代表的是MAC/PHY 以及SEC 加速器與CPU 之間的中斷開銷,DPA Setup 代表CPU 軟件配置并啟動(dòng)DPA 的處理時(shí)延,PDU Parser 代表使用軟件方案實(shí)現(xiàn)DPA 功能的處理時(shí)間,MAC-RLC-PDCP1 代表協(xié)議棧MAC、RLC 以及PDCP 丟棄、排序功能的處理時(shí)間,PDCP2-SDAP 代表PDCP 根據(jù)完全校驗(yàn)結(jié)果進(jìn)行數(shù)據(jù)包遞交處理的處理時(shí)延,Decipher(AES)代表基于AES 解密算法的SEC 加速器對(duì)數(shù)據(jù)進(jìn)行解密處理的時(shí)延。需要特別說明的是,軟件方案和協(xié)同架構(gòu)中的解密操作均通過硬件加速器完成。另外,由于協(xié)同架構(gòu)中采用了并行化處理,因此總處理時(shí)間將以并行路徑中執(zhí)行時(shí)間較長(zhǎng)的路徑來計(jì)算,根據(jù)計(jì)算結(jié)果可知使用軟硬件協(xié)同的方案處理時(shí)延可以降低28.3%。
表1 時(shí)延分析
如圖10 所示,DPA 采用的并行化設(shè)計(jì),使得DPA 完成協(xié)議數(shù)據(jù)解析后SEC 解密操作與協(xié)議軟件處理并行進(jìn)行,相對(duì)于串行處理方案,其總體執(zhí)行時(shí)間可以下降48.1 μs。
圖10 不同小包數(shù)量處理性能
3.2.2 包處理通量分析
本文將包處理通量定義為每個(gè)TTI 內(nèi)可以處理的包數(shù)量。如圖11 所示,通過對(duì)每個(gè)TTI 內(nèi)不同包數(shù)量業(yè)務(wù)負(fù)載的測(cè)試,對(duì)比軟件方案和協(xié)同架構(gòu)的性能結(jié)果發(fā)現(xiàn),業(yè)務(wù)負(fù)載越大,協(xié)同架構(gòu)的性能提升增益也越高,處理性能平均提升38%。另外若將協(xié)議處理時(shí)間約束限制在200 μs 內(nèi),協(xié)同架構(gòu)的包處理通量提升了約67%,高達(dá)1000 包/s。而對(duì)于工業(yè)5G 網(wǎng)絡(luò)0.5 ms 的時(shí)隙周期配置,協(xié)同架構(gòu)的包通量大于2000 包/s,可以滿足工業(yè)5G 大規(guī)?,F(xiàn)場(chǎng)節(jié)點(diǎn)集中式數(shù)據(jù)采集的需求。
圖11 處理時(shí)延對(duì)比分析
基于對(duì)協(xié)議棧數(shù)據(jù)流的分析和并行化處理架構(gòu)研究以及DPA 硬件設(shè)計(jì)的成果,本文在SMIC 的12 nm工藝節(jié)點(diǎn)下實(shí)現(xiàn)了DPA 加速器,工作主頻為500 MHz。因與CPU 及SEC 加速器共享外部SRAM存儲(chǔ),DPA 加速器內(nèi)部不包含數(shù)據(jù)存儲(chǔ)單元,其核心單元面積僅約為0.014 mm2,具有較好的硬件效率。另外,本文將軟硬協(xié)同的架構(gòu)與文獻(xiàn)[19]中的以sDMA 加速器為核心的架構(gòu)進(jìn)行了性能對(duì)比。為保證對(duì)比公平,將本文協(xié)同架構(gòu)中的CPU 主頻與加速器主頻分別歸一化至sDMA 方案中的500 MHz 和200 MHz,并且采用與sDMA 中相同的SEC 加速器性能指標(biāo),業(yè)務(wù)負(fù)載統(tǒng)一設(shè)定為1 Gbps 吞吐率。對(duì)二者下行用戶面軟硬件總體處理時(shí)延進(jìn)行測(cè)量后發(fā)現(xiàn),本文基于DPA 的軟硬協(xié)同架構(gòu)總處理時(shí)延為623.3 μs,相對(duì)于sDMA 的1600 μs,性能提升大于50%。這主要得益于協(xié)同架構(gòu)中SEC 解密與協(xié)議處理的并行化實(shí)現(xiàn),以及軟硬協(xié)同架構(gòu)合理的軟硬件劃分和高效的時(shí)序控制流程。
本文面向工業(yè)5G 協(xié)議處理器架構(gòu)展開研究。針對(duì)工業(yè)應(yīng)用在吞吐率、時(shí)延和包處理通量等性能指標(biāo)方面對(duì)5G 基帶芯片協(xié)議處理帶來的挑戰(zhàn),本文提出一種軟硬件協(xié)同的協(xié)議處理架構(gòu)。首先,對(duì)該架構(gòu)的硬件組成、數(shù)據(jù)面加速器功能進(jìn)行了總體介紹,并重點(diǎn)分析了軟硬協(xié)同的并行化設(shè)計(jì)思路。該架構(gòu)對(duì)協(xié)議處理的軟硬件功能進(jìn)行了合理劃分,將用戶面協(xié)議中重復(fù)執(zhí)行、邏輯相對(duì)簡(jiǎn)單且比較耗時(shí)的協(xié)議數(shù)據(jù)解析功能從軟件中獨(dú)立出來,使用DPA 來實(shí)現(xiàn)。接著,本文從硬件設(shè)計(jì)、DPA-SEC 加速器協(xié)同執(zhí)行流程和HFD 定義3 個(gè)方面對(duì)DPA 加速器進(jìn)行了詳細(xì)的設(shè)計(jì)分析,并討論了DPA 在內(nèi)存管理方面的改進(jìn)。最后通過搭建系統(tǒng)級(jí)的驗(yàn)證環(huán)境對(duì)本文提出的協(xié)議處理架構(gòu)進(jìn)行了性能分析。實(shí)驗(yàn)結(jié)果表明,軟硬協(xié)同的處理架構(gòu)利用硬件加速及并行化等手段,在不同業(yè)務(wù)負(fù)載下,相比純軟件的實(shí)現(xiàn)方案,協(xié)議總體處理時(shí)延平均下降28.3%,包處理通量平均提升38%;在0.5 ms 的時(shí)隙周期配置下,協(xié)同架構(gòu)的包通量大于2000 包/s,可以滿足工業(yè)5G 大規(guī)?,F(xiàn)場(chǎng)節(jié)點(diǎn)集中式數(shù)據(jù)采集的需求。本文的研究成果對(duì)業(yè)內(nèi)5G 基帶芯片協(xié)議架構(gòu)設(shè)計(jì)具有一定的借鑒意義。未來研究重點(diǎn)是進(jìn)一步探索高層協(xié)議棧中排序、復(fù)用等其他功能基于硬件化實(shí)現(xiàn)的可行性和實(shí)現(xiàn)方案。