明 旭 何慧文 陳 磊
(北京中科網(wǎng)威信息技術(shù)有限公司 北京 100094)(mingx@netpower.com.cn)
處理器不自主,整個信息產(chǎn)業(yè)就是建筑在沙灘上的城堡.發(fā)展真正自主可控的處理器,對中國這樣一個正在崛起的大國而言,不僅意味著可以擁有更加安全可靠的信息基礎(chǔ)設(shè)施,更意味著在信息經(jīng)濟時代掌控著事關(guān)國家經(jīng)濟安全的重大技術(shù)話語權(quán).
申威處理器是經(jīng)過10多年的磨礪,凝結(jié)了無數(shù)科研人員的心血,獨立自主發(fā)展起來的國產(chǎn)處理器.10多年來,申威處理器從無到有,核心微結(jié)構(gòu)持續(xù)升級,生產(chǎn)工藝不斷改進,先后研發(fā)了core1,core2,core2a,core3這4代處理器微結(jié)構(gòu),生產(chǎn)工藝也從最早的0.13 μm提高到了現(xiàn)在的28 nm.全部采用申威26010眾核處理器的“太湖之光”超級計算機,這2年來大放異彩,連續(xù)4次登頂世界超算TOP500,在“太湖之光”上運行的應(yīng)用更是史無前例地連續(xù)2年獲得戈登貝爾獎[1].申威處理器在超算領(lǐng)域取得的巨大成就說明,和10多年前相比,申威處理器的性能、穩(wěn)定性都實現(xiàn)了跨越式的提升,已經(jīng)初步具備與當今國際先進處理器相抗衡的能力[2].
在網(wǎng)絡(luò)安全領(lǐng)域,圍繞申威多核處理器的自主可控安全生態(tài)從無到有,日漸發(fā)展,現(xiàn)在已經(jīng)初具規(guī)模,已經(jīng)有十幾家公司采用申威處理器推出了防火墻、網(wǎng)閘、入侵檢測、漏洞掃描、數(shù)據(jù)庫審計等各類網(wǎng)安產(chǎn)品[3].但這些產(chǎn)品與采用X86處理器的同類產(chǎn)品相比還是存在一些差距,主要體現(xiàn)在產(chǎn)品的性能上,其中的主要原因有2點:1)申威處理器單核性能與X86處理器相比還有50%左右的差距;2)X86等處理器的生態(tài),經(jīng)過幾十年發(fā)展,通過不斷的嘗試和探索,在與網(wǎng)安產(chǎn)品密切相關(guān)的網(wǎng)絡(luò)數(shù)據(jù)包處理技術(shù)方面,發(fā)展出了一系列較為成熟、高效的模型和框架,如:新浪的fastsocket,PowerPC的DPAA,Intel的DPDK.
在多核多線程處理器平臺上進行網(wǎng)絡(luò)數(shù)據(jù)包的處理,使用傳統(tǒng)的Linux內(nèi)核協(xié)議棧會存在嚴重的性能瓶頸.對于如何提高網(wǎng)絡(luò)數(shù)據(jù)包處理的性能,業(yè)界有著比較統(tǒng)一的認識和建議:
1) 盡量不要讓不同的線程訪問臨界資源,因為互斥上鎖會降低系統(tǒng)的執(zhí)行效率;理想情況是讓每個線程只訪問自己的資源和數(shù)據(jù)結(jié)構(gòu).
2) 線程數(shù)能少則少,因為線程在各個CPU核心上的調(diào)度會造成一定的切換開銷,并且造成Cache命中率的降低.
3) 優(yōu)化數(shù)據(jù)包的進出路徑,盡可能減少數(shù)據(jù)的拷貝,特別是內(nèi)核態(tài)和用戶態(tài)之間的數(shù)據(jù)拷貝.
在具體實踐中,綜合上述建議,有2個主要的優(yōu)化策略可供選擇:1)依照上述建議不斷優(yōu)化Linux內(nèi)核協(xié)議棧[3],代表項目如新浪的FastSocket.FastSocket對協(xié)議棧的優(yōu)化主要體現(xiàn)在單核處理性能的提升,相比傳統(tǒng)協(xié)議棧能夠提升20%~45%的性能;另外,在多核性能優(yōu)化上也有著一定的性能提升.2)采用全新的架構(gòu)設(shè)計,使數(shù)據(jù)處理的路徑繞過內(nèi)核協(xié)議棧,代表項目如Intel的DPDK.
DPDK(Intel data plane development kit)是Intel提供的數(shù)據(jù)平面開發(fā)工具集[4],為IA(Intel architecture)處理器架構(gòu)下用戶空間高效的數(shù)據(jù)包處理提供庫函數(shù)和驅(qū)動的支持.不同于Linux系統(tǒng)以通用性設(shè)計為目的,DPDK專注于網(wǎng)絡(luò)數(shù)據(jù)包的處理,針對X86處理器和網(wǎng)卡作了一系列的深度優(yōu)化,從而提升數(shù)據(jù)包吞吐量[5].
DPDK不使用原有的內(nèi)核協(xié)議棧,所有的應(yīng)用需要使用DPDK提供的函數(shù)進行重新開發(fā).但與使用內(nèi)核協(xié)議棧相比,DPDK的優(yōu)勢除了減少中斷次數(shù)和數(shù)據(jù)拷貝次數(shù)外,還使得相關(guān)應(yīng)用獲得了協(xié)議棧的控制權(quán),能夠通過定制降低協(xié)議棧復(fù)雜度.理論上,使用DPDK方案,應(yīng)用的網(wǎng)絡(luò)數(shù)據(jù)包處理性能可以達到采用傳統(tǒng)Linux協(xié)議棧方案10倍以上.
在處理器微架構(gòu)設(shè)計上,國產(chǎn)申威處理器與國際主流商用處理器已經(jīng)基本保持了一致, 如超標量、亂序執(zhí)行、大容量Cache、雙訪存流水線等.而且由于申威處理器采用的指令集架構(gòu)自身的特點,相比采用CISC架構(gòu)的X86處理器,可以高效集成更多的處理器核心;但由于生產(chǎn)工藝相對不高,特別是處理器的訪存能力仍需進一步提升,使得申威處理器的單核性能仍存在相當?shù)牟罹?
DPDK的出現(xiàn)給國產(chǎn)申威處理器在網(wǎng)絡(luò)應(yīng)用上揚長避短帶來了重大機會.首先,DPDK使用大頁緩存技術(shù)、內(nèi)存池和無鎖環(huán)形緩存管理等技術(shù)來提高內(nèi)存訪問效率;同時,利用PMD支持,提供應(yīng)用空間下驅(qū)動程序的支持,減少了報文的內(nèi)存間拷貝.這些技術(shù)都使得申威處理器訪存能力不足的問題得到了相當程度的彌補.另外,DPDK廣泛采用處理器核親和技術(shù),把各項處理作業(yè)分配到特定的處理器核上分別處理,從而發(fā)揮各個處理器核的潛能.這又使得申威處理器核多的優(yōu)勢得到較為充分地發(fā)揮.
結(jié)合申威處理器的自身特點,將DPDK高效地移植到申威處理器平臺上,可以大幅提高申威處理器平臺的網(wǎng)絡(luò)處理能力,在網(wǎng)絡(luò)數(shù)據(jù)包處理方面進一步縮小和X86等處理器之間的差距,可以為在申威處理器平臺上實現(xiàn)多種高速網(wǎng)絡(luò)應(yīng)用提供有效的技術(shù)支撐,從而拓寬國產(chǎn)申威處理器在網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)安全設(shè)備、存儲設(shè)備、高性能服務(wù)器等產(chǎn)品領(lǐng)域的應(yīng)用,同時也可以為DPDK向其他自主國產(chǎn)處理器上的移植提供有價值的參考.
從字面解釋上看,DPDK是專注于數(shù)據(jù)平面軟件開發(fā)的套件;本質(zhì)上,它是一組可以從用戶空間調(diào)用的軟件庫,提供了一種開銷更小的方法來代替?zhèn)鹘y(tǒng)的Linux系統(tǒng)調(diào)用,使得應(yīng)用程序可以繞過內(nèi)核直接和底層硬件交互.
網(wǎng)絡(luò)數(shù)據(jù)包不再通過內(nèi)核,而是直接走DPDK的專有路徑,從網(wǎng)卡直接到達用戶空間,交由用戶處理,從而將繁重的數(shù)據(jù)包過濾、數(shù)據(jù)包轉(zhuǎn)發(fā)工作從內(nèi)核態(tài)轉(zhuǎn)至用戶態(tài).
另外,DPDK實現(xiàn)了多核“無鎖”并行結(jié)構(gòu),使多處理器核心可以高效并行工作,并充分發(fā)揮速度越來越快的IO接口的能力,從而最大限度上提高網(wǎng)絡(luò)數(shù)據(jù)包處理效率.
使用DPDK,將不能再用原來的Linux內(nèi)核協(xié)議棧,而且所有的應(yīng)用都需要基于DPDK提供的函數(shù)庫進行重構(gòu).但由于網(wǎng)卡等設(shè)備的驅(qū)動程序都運行在用戶層,不容易崩潰,調(diào)試方便,可以大幅降低高性能網(wǎng)絡(luò)數(shù)據(jù)處理程序開發(fā)、調(diào)試的難度[6].
從總體架構(gòu)圖(圖1)我們可以看出,DPDK將全部功能都從內(nèi)核態(tài)搬到了用戶態(tài)[7].
1) EAL(environment abstraction layer)即環(huán)境抽象層,為應(yīng)用提供了一個通用接口,隱藏了與底層庫與設(shè)備打交道的相關(guān)細節(jié).EAL實現(xiàn)了DPDK運行的初始化工作,包括基于大頁表的內(nèi)存分配、多核親和性設(shè)置、原子操作和鎖操作,將PCI設(shè)備地址映射到用戶空間,方便應(yīng)用程序訪問.
2) Buffer Manager API通過預(yù)先從EAL上分配固定大小的多個內(nèi)存對象,避免了在運行過程中動態(tài)進行內(nèi)存分配和回收來提高效率,常常用作數(shù)據(jù)包緩沖來使用.
3) Queue Manager API以高效的方式實現(xiàn)了無鎖的FIFO環(huán)形隊列,適合與一個生產(chǎn)者多個消費者、一個消費者多個生產(chǎn)者模型來避免等待,并且支持批量無鎖的操作.
4) Flow Classification API通過Intel SSE基于多元組實現(xiàn)了高效的hash算法,以便快速地將數(shù)據(jù)包進行分類處理.該API一般用于路由查找過程中的最長前綴匹配,應(yīng)用中根據(jù)Flow五元組來標記不同用戶的場景也可以使用.
5) PMD則實現(xiàn)了Intel 1GbE,10GbE和40GbE網(wǎng)卡下基于輪詢收發(fā)包的工作模式,大大加速網(wǎng)卡收發(fā)包性能.
圖1 DPDK總體架構(gòu)圖
DPDK之所以可以提供高性能的數(shù)據(jù)處理能力,在于它從驅(qū)動、內(nèi)存、線程、Cache等各個方面所做的綜合性的深度優(yōu)化,這些優(yōu)化主要包括:
1) 使用大頁內(nèi)存,降低Cache miss,提高命中率,進而提升處理器訪問內(nèi)存的速度;
2) 使用PMD技術(shù),將報文直接拷貝到用戶態(tài)進行處理;
3) 通過CPU親和性綁定網(wǎng)卡和線程到固定的CPU核,減少處理器核間任務(wù)切換的開銷;
4) 使用無鎖隊列,減少資源競爭.
下面簡要介紹DPDK的這幾項關(guān)鍵技術(shù)[8]:
1) 使用大頁內(nèi)存(hugepage)提高內(nèi)存訪問效率.
TLB(translation look-side buffer) Cache是CPU中單獨的一塊高速緩存,為了實現(xiàn)虛擬地址到物理地址的轉(zhuǎn)換,Linux首先要查找TLB Cache來進行快速映射.如果在查找時TLB沒有命中,就會觸發(fā)一次缺頁中斷,處理器就需要到內(nèi)存中去訪問多級頁表,才能最終得到物理地址,從而導(dǎo)致極大的處理器開銷.
Linux默認頁大小為4 KB,在程序使用大內(nèi)存時,需要大量的頁表表項才能保證不出現(xiàn)TLB不命中的情況.而TLB Cache的大小是很有限的,一般只能容納100條頁表表項,只有使用hugepage才能確保TLB Cache的全命中.
為此,DPDK缺省提供了2 MB和1 GB這2種方式的hugepage支持.測試表明使用大頁表比使用4 KB的頁表性能提高10%~15%
2) 使用PMD(poll mode drivers),將網(wǎng)絡(luò)數(shù)據(jù)包處理工作全部遷移到用戶態(tài),并以全輪詢的模式進行處理.
NAPI明顯改善了傳統(tǒng)Linux系統(tǒng)的包處理能力,但由于收發(fā)包仍然以系統(tǒng)中斷為基礎(chǔ),首先是從中斷發(fā)生到應(yīng)用感知,還要經(jīng)過很長的軟件處理路徑;另外,數(shù)據(jù)包在內(nèi)核態(tài)和用戶態(tài)之間的拷貝也難以避免.總之,對內(nèi)核協(xié)議棧進行改良的NAPI等機制還是不能充分發(fā)揮底層硬件的能力,不能真正釋放出其網(wǎng)絡(luò)數(shù)據(jù)包處理的能力.
DPDK針對Intel網(wǎng)卡實現(xiàn)了基于全輪詢方式的PMD驅(qū)動,該驅(qū)動由API、用戶空間運行的驅(qū)動程序構(gòu)成,使用無中斷方式直接操作網(wǎng)卡的接收和發(fā)送隊列.PMD驅(qū)動從網(wǎng)卡上接收到數(shù)據(jù)包后,會直接通過DMA方式傳輸?shù)筋A(yù)分配的內(nèi)存中,同時更新無鎖環(huán)形隊列中的數(shù)據(jù)包指針,不斷輪詢的應(yīng)用程序很快就能感知收到數(shù)據(jù)包,并在預(yù)分配的內(nèi)存地址上直接處理數(shù)據(jù)包,這個過程非常簡潔.
另外,由于整個處理過程都在用戶空間完成,自然規(guī)避了報文在核心態(tài)和用戶態(tài)之間的拷貝[9].
目前PMD驅(qū)動支持Intel的大部分1 G,10 G和40 G的網(wǎng)卡.
3) 利用Linux親和性支持,避免線程在不同核間的切換.
在單個處理器核上,多線程可以提高各應(yīng)用的并發(fā)運行程度,從而提高CPU的整體利用率;但線程的創(chuàng)建和銷毀都有開銷,還會引入上下文切換、訪存沖突、Cache失效等諸多消耗性能的因素.在CPU多核時代,可以通過仔細規(guī)劃線程在CPU不同核上的分布,達到既保持應(yīng)用的高速并發(fā)運行,又減少線程切換開銷的目的[10].
DPDK就利用了Linux線程的CPU親和性,將特定任務(wù)綁定到只在某個CPU核上運行,從而避免線程在不同核間的頻繁切換,減少Cache miss和Cache write back等性能損失.
DPDK運行在用戶態(tài),但線程的調(diào)度仍然依賴內(nèi)核.作為更進一步的優(yōu)化,DPDK使用了限定某些核不參與Linux系統(tǒng)調(diào)度的技術(shù)手段,使特定的任務(wù)線程(如網(wǎng)絡(luò)收發(fā)包線程)可以獨占CPU核.這對網(wǎng)絡(luò)數(shù)據(jù)包的全輪詢處理起到了重要的支撐作用.
4) 提供無鎖環(huán)形緩沖區(qū)管理和緩存池,提高內(nèi)存訪問效率.
當前的多核處理器特別是服務(wù)器處理器通常提供4個、8個甚至更多的CPU核,在諸多高并發(fā)應(yīng)用中,多個CPU核之間訪問內(nèi)存等資源時產(chǎn)生的鎖競爭有時會比數(shù)據(jù)拷貝、上下文切換更加傷害系統(tǒng)的性能.因此,在多核環(huán)境下,如果能夠把重要的數(shù)據(jù)結(jié)構(gòu)從鎖的保護下遷移到無鎖機制中,可以極大地提升應(yīng)用軟件的性能.
DPDK基于無鎖環(huán)形緩沖的原理,實現(xiàn)了一套無鎖環(huán)形緩沖區(qū)隊列管理API,支持單生產(chǎn)者入列單生產(chǎn)者出列、多生產(chǎn)者入列多生產(chǎn)者出列的操作,很大程度上提高了內(nèi)存訪問的效率[11].
另外,DPDK提供的緩存池,可以將多個收發(fā)包集中到一個Cache line,進一步提升了Cache利用率.
DPDK是Intel專門為X86處理器定制的,將DPDK移植到申威處理器平臺上肯定會面臨諸多的技術(shù)挑戰(zhàn).為此,我們對申威處理器及其指令集以及DPDK本身都進行了較為深入的技術(shù)預(yù)研,從而在移植可行性、移植難度、所需資源上給后續(xù)的工程化研制提供評估基礎(chǔ).
本節(jié)首先介紹我們在先期研究中發(fā)現(xiàn)的移植上可能存在的一些技術(shù)難點,然后介紹我們應(yīng)對這些難點的策略,最后,介紹我們在預(yù)研中總結(jié)出的,基于國產(chǎn)申威處理器進行高性能網(wǎng)絡(luò)數(shù)據(jù)處理功能(包括但不限于DPDK)的研發(fā)的一些要點,希望能讓在國產(chǎn)申威處理器上研發(fā)各類網(wǎng)絡(luò)產(chǎn)品的同行有所借鑒.
第4節(jié)將介紹我們基于SW411硬件平臺,初步移植DPDK并搭建的防火墻原型機,主要用于驗證在類似DPDK的全用戶態(tài)輪詢模式下,網(wǎng)絡(luò)數(shù)據(jù)包收發(fā)系統(tǒng)的性能是否會有質(zhì)的提升,從而為使用基于非X86架構(gòu)的國產(chǎn)處理器研發(fā)高性能的網(wǎng)絡(luò)產(chǎn)品和網(wǎng)絡(luò)安全產(chǎn)品提供一定的實踐支撐.
通過預(yù)研,我們認為將DPDK移植到申威平臺上的技術(shù)難點主要有3個:
1) DPDK無協(xié)議棧
DPDK不能再使用原有的內(nèi)核協(xié)議棧,相關(guān)功能都需要依照DPDK提供的函數(shù)庫進行重構(gòu)開發(fā).理論上,需要在用戶態(tài)實現(xiàn)Linux內(nèi)核協(xié)議棧的大部分功能,這可能會導(dǎo)致所需的時間成本和人力成本難以接受[12].
2) 申威沒有專門的CAS指令
在X86處理器上運行的DPDK大量使用CAS(compare and swap)指令,為在多核間實現(xiàn)高效的數(shù)據(jù)同步發(fā)揮了極其重要的作用.基于RISC架構(gòu)的申威自主指令集采用的是LoadStore型指令系統(tǒng),沒有專門的CAS指令.這為移植工作帶來了很大的麻煩和風險.
3) 申威SIMD支持與Intel SIMD指令集不完全兼容
SIMD(Single Instruction Multiple Data)意為單指令多數(shù)據(jù)[13],以特定寬度(如64 b)為一個數(shù)據(jù)單元,多數(shù)據(jù)指的就是多個可以獨立操作的數(shù)據(jù)單元,SIMD指的就是單個指令可以同時作用到多個數(shù)據(jù)單元.
實現(xiàn)SIMD需要處理器硬件的支持,處理器需要集成專門的SIMD寄存器.Intel處理器提供了128 b的XMM寄存器或者256 b的YMM寄存器,也稱為SIMD擴展部件.
申威處理器也提供SIMD支持,但申威指令集中的SIMD指令與Intel的SIMD指令對應(yīng)性不強,移植中有大量相關(guān)代碼需要手工修改,對移植工作是一個重大挑戰(zhàn).
針對預(yù)研中發(fā)現(xiàn)的幾個難點,我們結(jié)合以往的研發(fā)經(jīng)驗,反復(fù)嘗試,基本都找到了比較滿意的解決途徑.
1) 構(gòu)建“慢速路徑+快速路徑”的處理構(gòu)架
針對DPDK無協(xié)議棧的問題,通用解決辦法一般有2種:1)自己開發(fā);2)使用開源協(xié)議棧與DPDK適配.自己開發(fā)工作量太大,而我們評估了幾個開源協(xié)議棧,其成熟度和穩(wěn)定性都和Linux協(xié)議棧相去甚遠,而且適配的工作量也不小.
為此,我們結(jié)合網(wǎng)絡(luò)數(shù)據(jù)包處理的特點,設(shè)計了一個穩(wěn)定、高效的框架,其基本原理在于:路由的確定、過濾規(guī)則的匹配在一個會話流的第1個數(shù)據(jù)包就可以決定[14].因此,可以基于DPDK構(gòu)建一個“慢速路徑+快速路徑”的處理框架,在網(wǎng)絡(luò)會話的建立、撤銷等階段,仍將數(shù)據(jù)包交由Linux內(nèi)核協(xié)議棧處理;會話成功建立后的后續(xù)數(shù)據(jù)包直接交由基于DPDK的上層應(yīng)用處理.這樣,只有極少量的數(shù)據(jù)包在“耗時”的慢速路徑上流轉(zhuǎn),大部分數(shù)據(jù)包將通過在快速路徑上建立的流表快速轉(zhuǎn)發(fā).
其原理圖如圖2所示:
圖2 DPDK+Linux協(xié)議棧的快速、慢速處理結(jié)構(gòu)
構(gòu)建“慢速路徑+快速路徑”的處理構(gòu)架的主要難點在于,要在用戶態(tài)下實現(xiàn)與內(nèi)核協(xié)議棧相匹配的、用于會話控制、會話狀態(tài)記錄的數(shù)據(jù)結(jié)構(gòu),并讓相關(guān)的會話記錄和會話狀態(tài)的改變保持實時的同步.另外,對于數(shù)據(jù)包7層以上協(xié)議數(shù)據(jù)的分析,要盡量保證在會話流起始的一個或者幾個數(shù)據(jù)包中完成判斷[15].
2) 高效模擬CAS指令
在申威指令集不提供CAS指令的情況下,用申威指令模擬實現(xiàn)一個功能完全一致的CAS函數(shù),可以最大程度上減少代碼移植的工作量.
在實際移植工作中我們反復(fù)實驗,最終確定了用11條申威匯編指令組成的最優(yōu)CAS模擬,經(jīng)過實際測試,效果令人滿意,不但功能滿足要求,性能表現(xiàn)也足夠優(yōu)異.
3) 封裝申威SIMD
SIMD技術(shù)廣泛應(yīng)用于通用處理器,為提升程序性能提供了硬件支持.實際工程經(jīng)驗顯示,如能充分發(fā)掘程序中的并行性,進行基于SIMD的優(yōu)化,可以使應(yīng)用的性能得到50%~70%的提升.DPDK中就大量使用了SIMD進行各類并行化數(shù)據(jù)處理.
申威指令集也提供了對SIMD的支持,而且出于超算的需要,技術(shù)上成熟、高效——通過使用申威的SIMD擴展指令系統(tǒng),可以完成256 b的8倍字整數(shù)數(shù)據(jù)的單指令存取,將8~64 b的待運算數(shù)據(jù)合并為一個256 b的超長數(shù)據(jù),然后使用一條指令完成傳統(tǒng)多條指令才能完成的運算.
但申威指令集與Intel的SIMD指令集對應(yīng)性不強,移植中有大量相關(guān)代碼需要手工修改,如不采取相關(guān)技術(shù)手段會導(dǎo)致移植工作繁瑣雜亂,并且給代碼以后的升級維護造成障礙.
我們?nèi)匀徊捎昧撕湍MCAS指令相類似的技術(shù)手段,通過一系列細致的分析和編程工作,對申威SIMD指令進行了較為徹底的封裝,使DPDK的代碼無需任何修改即可直接在申威處理器上運行,讓程序員從繁冗復(fù)雜的移植編碼工作中解脫出來,提高了移植工作的效率,并使得整個移植后的系統(tǒng)具備了較為良好的可擴展性.
DPDK的本質(zhì)是網(wǎng)絡(luò)數(shù)據(jù)處理的“最優(yōu)工程實踐經(jīng)驗”的總結(jié),在移植工作中只知道照搬照抄是很難體會其思想內(nèi)涵的.在本節(jié)內(nèi)容中,我們嘗試不局限于DPDK,總結(jié)了幾點我們對基于國產(chǎn)申威處理器進行高性能網(wǎng)絡(luò)數(shù)據(jù)處理功能研發(fā)的一些“實踐經(jīng)驗”,希望能讓在國產(chǎn)申威處理器上研發(fā)各類網(wǎng)絡(luò)產(chǎn)品的同行有所借鑒.
1) 網(wǎng)卡的多隊列機制和申威CPU多核的緊密結(jié)合
當前主流的千兆、萬兆網(wǎng)卡芯片都提供了內(nèi)置的負載均衡算法,能夠?qū)⒏咚俚木W(wǎng)絡(luò)數(shù)據(jù)流分為多個數(shù)據(jù)隊列,這些數(shù)據(jù)隊列以內(nèi)存硬件通道的形式展現(xiàn)在CPU的面前,CPU可以讓自己不同的核去訪問不同的通道,核之間對隊列的數(shù)據(jù)讀寫不會相互影響[16].
申威處理器相比X86處理器,可以高效集成更多的處理器核心,配以網(wǎng)卡的多隊列機制,理論上可以獲得更高的并發(fā)處理能力.
但是,如果對PCI-E總線的訪問不能做到高效,會導(dǎo)致并行數(shù)據(jù)流處理帶來的性能優(yōu)勢部分損失.
這就需要深入理解和分析申威處理器的PCI-E總線接口芯片的工作原理,理解申威處理器PCI-E事務(wù)的基本數(shù)據(jù)包交換單元TLP(transaction layer packet)和網(wǎng)卡數(shù)據(jù)包之間的關(guān)系.在此基礎(chǔ)上,可以通過調(diào)整網(wǎng)卡驅(qū)動對數(shù)據(jù)包的封裝,使之與TLP更匹配,從而做到網(wǎng)卡芯片與申威多核之間的緊密結(jié)合[17].
另外,減少MMIO的訪問頻度也是提升PCI-E并行傳輸能力的關(guān)鍵點.
2) 內(nèi)存的高效訪問
多個CPU核訪問同一段內(nèi)存池甚至同一個環(huán)形緩存區(qū)時,因為每次讀寫時都要進行Compare-and-Set操作來保證期間數(shù)據(jù)未被其他核心修改,所以存取效率較低.需要研究的是在應(yīng)用軟件中,通過包括DPDK支持在內(nèi)的手段,盡量讓每個核只訪問自己的數(shù)據(jù),從而使其所要處理的數(shù)據(jù)盡可能緩存在自己的Cache中.另外,盡量對環(huán)形緩存區(qū)進行塊讀寫操作,以減少訪問環(huán)形緩存區(qū)的次數(shù)[15].
3) 收發(fā)包批處理
收發(fā)包是一個相對復(fù)雜的軟件運算過程,其中主要包含緩存的分配與釋放、描述符的解析與構(gòu)造,涉及多個數(shù)據(jù)結(jié)構(gòu)的讀、寫訪問[18].
只要涉及比較多的數(shù)據(jù)訪問,就應(yīng)盡量讓數(shù)據(jù)訪問都能在處理器緩存中完成( Cache hit),這是實現(xiàn)高性能網(wǎng)絡(luò)數(shù)據(jù)包處理的重要手段.反之,Cache miss會導(dǎo)致內(nèi)存訪問,引人大量延遲,是性能殺手.
對收發(fā)包實現(xiàn)批處理是一項細致但物有所值的工作,其基本原理是把收發(fā)包復(fù)雜的處理過程進行分解,打散成不同的相對較小的處理階段,把相鄰的數(shù)據(jù)訪問、相似的數(shù)據(jù)運算集中處理.這樣就能盡可能減少對內(nèi)存或者低一級的處理器緩存的訪問次數(shù),用更少的訪問次數(shù)來完成更多次收發(fā)包運算所需要數(shù)據(jù)的讀或者寫.在這方面,我們還需要有更多的實踐經(jīng)驗積累[19].
4) 針對小包的Cache預(yù)取機制優(yōu)化
申威處理器的Cache line為128 B,Intel平臺的Cache line為64 B;對于64 B小包來說,一次Cache預(yù)取在Intel平臺下剛好完全使用,而申威會浪費一半的Cache資源.為了高效使用申威處理器的Cache,需要重新設(shè)定頻繁訪問的數(shù)據(jù)結(jié)構(gòu)的Cache align(Cache對齊)為128 B,并修正數(shù)據(jù)包內(nèi)存池,以便讓2個64 B小包連續(xù)存儲.這樣在進行數(shù)據(jù)包預(yù)取時,一個預(yù)取指令可以緩存2個小包,同時避免了寶貴的Cache資源的浪費,大大提升了申威處理器對小包的處理能力[20].
我們研制的原型機主要用來驗證影響網(wǎng)絡(luò)數(shù)據(jù)包處理的核心問題——性能,在基于申威處理器的DPDK框架下是否可以得到大幅提升.原型機在整體結(jié)構(gòu)和應(yīng)用邏輯上的設(shè)計應(yīng)該盡量簡潔,以方便發(fā)現(xiàn)整個系統(tǒng)在DPDK框架下的處理邏輯的性能瓶頸,從而針對相關(guān)瓶頸進行性能優(yōu)化.
原型機的成果可用于快速評估SW-DPDK在申威平臺上的應(yīng)用效果,相關(guān)測試參數(shù)和軟件構(gòu)架可以指引后續(xù)更復(fù)雜的防火墻、路由器、VPN等其他商用安全產(chǎn)品研發(fā)的可行性分析與架構(gòu)設(shè)計.
以DPDK平臺為基礎(chǔ)開發(fā)平臺,搭建調(diào)度模塊、配置模塊、規(guī)則匹配模塊(含靜態(tài)路由匹配)、流匹配模塊、收包模塊、發(fā)包模塊和日志模塊.
圖3給出了這些模塊的邏輯關(guān)系:
圖3 模塊的邏輯關(guān)系圖
1) 調(diào)度模塊負責加載運行其他模塊;
2) 由人工(或者從存儲數(shù)據(jù)中)輸入ACL規(guī)則、靜態(tài)路由規(guī)則,這些規(guī)則通過規(guī)則邏輯進入規(guī)則匹配模塊;
3) 人工操作(添加、刪除、修改)的ACL規(guī)則、靜態(tài)路由規(guī)則會被日志模塊記錄;
4) 流匹配模塊是根據(jù)收到的數(shù)據(jù)包和ACL規(guī)則、靜態(tài)路由規(guī)則動態(tài)構(gòu)建的;
5) 流匹配情況、規(guī)則匹配情況會被日志模塊記錄;
6) 收到數(shù)據(jù)包后先進行流匹配再進行規(guī)則匹配,允許通過的數(shù)據(jù)包會通過發(fā)模塊發(fā)出.
原型機的研發(fā)工作分為移植、優(yōu)化和應(yīng)用3個階段:
1) 移植階段:
① 在SW411環(huán)境下重新編譯DPDK代碼;
② 初步優(yōu)化匯編指令代碼,包括O3,RTC,CAS鎖等;
③ 實現(xiàn)轉(zhuǎn)發(fā)Demo:只做轉(zhuǎn)發(fā),不做查表處理等工作,并初步測試、評估DPDK的能力.
2) 優(yōu)化階段
① 在轉(zhuǎn)發(fā)Demo基礎(chǔ)上進行系列的匹配和優(yōu)化工作,主要包括:內(nèi)存訪問到chip的并行、盡量保證Cache的對齊和一致、申威處理器的SIMD功能應(yīng)用、按照core分配內(nèi)存、隊列HASH鎖等;
② 深度優(yōu)化:交叉內(nèi)存、Cache、SIMD;
③ 結(jié)構(gòu)設(shè)計:網(wǎng)卡多隊列、多核并行.
3) 應(yīng)用階段
① 面向邏輯處理完善系統(tǒng)功能,包括多核并行的表優(yōu)化,使用SIMD進行查表等;
② 提供基于申威DPDK的防火墻原型機,進行性能對比測試.
測試對象:SW411平臺通用型設(shè)備、基于DPDK技術(shù)加速的防火墻原型機.
測試條件:1對千兆口,100條流平均分配到多個處理器核,60 s時長,采用橋模式,默認全通配置,初始值100%.
測試標準:RFC2544吞吐、時延.
測試結(jié)果如表1所示.
測試結(jié)論:在基于SW411處理器的硬件平臺上應(yīng)用DPDK框架后,64 B小包吞吐率提升12倍以上,1 518 B大包時延降低95%左右.因為已達到線速,小包吞吐率應(yīng)該仍有進一步提升的空間,這將有賴于支持萬兆的原型機進行驗證.
表1 通用型設(shè)備和基于DPDK技術(shù)加速的防火墻原型機性能對比表
經(jīng)過10多年的持續(xù)發(fā)展,國產(chǎn)申威處理器在性能、穩(wěn)定性方面都取得了長足的進步,已經(jīng)基本具備了與當今國際先進處理器相抗衡的能力.在網(wǎng)絡(luò)安全領(lǐng)域,已經(jīng)有很多公司采用申威處理器推出了各類產(chǎn)品,但由于申威處理器單核性能的不足,以及缺少先進網(wǎng)絡(luò)數(shù)據(jù)包處理模型和框架的支撐,這些產(chǎn)品與采用X86處理器的同類產(chǎn)品相比,在產(chǎn)品性能等方面還存在一些差距.
DPDK等用戶態(tài)網(wǎng)絡(luò)數(shù)據(jù)包處理器框架的出現(xiàn)給國產(chǎn)申威處理器在網(wǎng)絡(luò)安全等產(chǎn)品的應(yīng)用上帶來了揚長避短的機會,將DPDK之類的框架移植到申威平臺上可以發(fā)揮申威處理器的多核優(yōu)勢.
本文分析了將DPDK移植到申威處理器平臺上存在的難點,并提出了應(yīng)對這些難點的解決策略和關(guān)鍵技術(shù).進一步,我們總結(jié)了幾點在國產(chǎn)申威處理器平臺上進行高性能網(wǎng)絡(luò)產(chǎn)品研發(fā)的實踐經(jīng)驗.最后,介紹了我們基于申威411芯片,在移植DPDK的基礎(chǔ)上研發(fā)的防火墻原型機,驗證了在DPDK的全用戶態(tài)輪詢模式下,網(wǎng)絡(luò)數(shù)據(jù)包收發(fā)系統(tǒng)的性能取得的巨大提升,64 B小包的吞吐率從原始的7.2%提升到了100%線速.
最后,在此次移植工作的基礎(chǔ)上,我們對未來基于申威處理器平臺和用戶態(tài)數(shù)據(jù)包處理框架的網(wǎng)絡(luò)安全產(chǎn)品的研發(fā)作如下預(yù)測和展望:
1) 申威處理器的持續(xù)發(fā)展將使DPDK等框架發(fā)揮更大潛力
申威1621處理器是基于增強版的第三代“申威64”核心的國產(chǎn)高性能多核處理器,單芯片集成了16個64 b RISC結(jié)構(gòu)的申威處理器核心.在指令集和微結(jié)構(gòu)方面,申威1621處理器也提供更多的功能支持,如預(yù)取指令支持、NUMA支持和虛擬化支持等.
我們初步評估,在申威1621的指令優(yōu)化和16核支撐下,DPDK等框架的潛能可以得到進一步的發(fā)揮,將可以實現(xiàn)線速的萬兆防火墻產(chǎn)品.
2) DPDK等框架會促進申威處理器指令集與微架構(gòu)的進一步提升
由于各種原因,申威處理器一直比較注重與超算相關(guān)的浮點運算等能力的提升,對網(wǎng)絡(luò)數(shù)據(jù)包處理能力的重視程度不高.有助于充分發(fā)揮申威多核優(yōu)勢的DPDK等框架的出現(xiàn),會提升申威多核服務(wù)器處理器對高性能網(wǎng)絡(luò)數(shù)據(jù)包處理領(lǐng)域的關(guān)注度.可以預(yù)見,申威處理器在指令集和微架構(gòu)優(yōu)化等關(guān)鍵技術(shù)上將會加大這方面的支持.我們非常期待CAS無鎖指令、類DDIO支持等功能在下一代申威服務(wù)器處理器中的出現(xiàn).
3) 基于申威處理器和先進網(wǎng)絡(luò)數(shù)據(jù)包處理器框架的自主可控網(wǎng)絡(luò)安全生態(tài)建設(shè)將大有可為DPDK等先進數(shù)據(jù)包處理框架與申威處理器的結(jié)合,使得多種以網(wǎng)絡(luò)數(shù)據(jù)包處理為基礎(chǔ)支撐的自主可控網(wǎng)絡(luò)安全產(chǎn)品,如自主可控防火墻、自主可控VPN、自主可控IDSIPS、自主可控加密機等,可以在申威處理器平臺上達到較高的性能水平,滿足對使用非自主可控處理器的安全產(chǎn)品實施自主可控替代的要求,從而推動自主可控安全產(chǎn)品在軍隊、軍工、政府重要部門的應(yīng)用,進一步推進我國自主可控安全生態(tài)的建設(shè).
[1]賈迅, 胡向東, 尹飛. 申威處理器硬件數(shù)據(jù)預(yù)取技術(shù)的實現(xiàn)[J]. 計算機工程與科學, 2015, 37(11)
[2]陳左寧,王廣益, 胡蘇太, 等. 大數(shù)據(jù)安全與自主可控[J]. 科學通報, 2015, 60(5/6): 427-432
[3]沈昌祥. 可信計算專題綜述[J]. 計算機安全, 2006 (6): 2-4
[4]DPDK: Data plane development kit[OL]. [2017-12-15]. http://dpdk.org/
[5]Casoni M, Grazia C A, Patriciello N. On the performance of Linux Container with Netmap/VALE for networks virtualization[C] //Proc of the 19th IEEE Int Conf on Networks (ICON). Piscataway, NJ: IEEE, 2013: 1-6
[6]Stevens W R. TCP/IP詳解(卷1)——協(xié)議[M]. 北京: 機械工業(yè)出版社, 2011
[7]Rizzo L. Netmap: A novel framework for fast packet I/O[C] //Proc of the 2012 USENIX Conf on Annual Technical Conf. Berkeley, CA: USENIX Association, 2012: 9-9
[8]Wright G R, Stevens W R, et al. TCP/IP詳解(卷2)——實現(xiàn)[M]. 北京: 人民郵電出版社, 2010
[9]劉軍衛(wèi). 用戶態(tài)驅(qū)動框架的研究與實現(xiàn)[D]. 合肥: 中國科學技術(shù)大學, 2011
[10]卡耐基梅隴大學并行實驗室[OL]. [2017-12-15]. http://www.pdl.cmu.edu/
[11]DPDK技術(shù)白皮書[M]. 廣州: 中國電信股份有限公司廣州研究院. 2015年10月
[12]Morari A, Gioiosa R, Wisniewski R W, et al. Evaluating the impact of TLB misses on future HPC systems[C] //Proc of the 26th IEEE Int Parallel and Distributed Processing Symp. Los Alamitos, CA: IEEE Computer Society, 2012: 1010-1021
[13]Koka P, Mccracken M O, Schwetman H D, et al. Combining a remote TLB lookup and a subsequent Cache miss into a single coherence operation: US, US9003163[P]. 2015-04-07
[14]蔣苑青. 多處理器系統(tǒng)的線程調(diào)度策略研究[D]. 成都: 電子科技大學, 2012
[15]肖月振, 華蓓, 基于多核處理器的無鎖零拷貝數(shù)據(jù)包轉(zhuǎn)發(fā)框架[J]. 計算機工程, 2013, 39(12): 35-39
[16]周偉明. 多核計算與程序設(shè)計[M]. 武漢: 華中科技大學出版社, 2009
[17]童浩, 陳興蜀, 嚴宏. 改進及優(yōu)化Linux網(wǎng)絡(luò)協(xié)議棧[J]. 電子科技大學學報, 2007, 36(S3): 1493-1496
[18]劉寶辰. 高性能數(shù)據(jù)包捕獲系統(tǒng)的研究與實現(xiàn)[D]. 上海: 上海交通大學, 2013
[19]Rizzo L, Lettieri G, Maffione V. Speeding up packet I/O in virtual machines[C] //Proc of Architectures for Networking and Communications Systems. Piscataway, NJ: IEEE, 2013: 47-58
[20]Rizzo L, Carbone M, Catalli G. Transparent acceleration of software packet forwarding using netmap[C] //Proc of IEEE INFOCOM 2012. Piscataway, NJ: IEEE, 2012: 2471-2479