余金清 章偉 王帆
【摘要】? ? 在無線通信領(lǐng)域,處理器需要處理的數(shù)據(jù)量非常大,這給數(shù)據(jù)處理及相應(yīng)的存儲(chǔ)帶來了很高的要求,特別是在基帶領(lǐng)域,數(shù)據(jù)量能達(dá)到幾十Gbps甚至更高,對(duì)存儲(chǔ)提岀了更髙的要求。本文描述一種新型數(shù)據(jù)存儲(chǔ)方式,能夠有效緩解片外數(shù)據(jù)存儲(chǔ)帶寬需求,同時(shí)進(jìn)一步提升數(shù)據(jù)傳輸效率并降低設(shè)備功耗。
【關(guān)鍵詞】? ? 動(dòng)態(tài)存儲(chǔ)? ? L3 Cache? ? 共享緩存
一、問題提出
隨著無線通信技術(shù)的發(fā)展,數(shù)據(jù)傳輸及處理的量越來越大。特別是在無線基帶領(lǐng)域,在接收端,接收機(jī)(或基站)接收的無線信號(hào),經(jīng)過處理后,變成軟比特?cái)?shù)據(jù),譯碼器( Turbo、LDPC)需要軟比特?cái)?shù)據(jù)譯碼成硬比特?cái)?shù)據(jù);這個(gè)數(shù)據(jù)量達(dá)到幾十Gbps甚至上百Gbps,這給數(shù)據(jù)存儲(chǔ)帶來了很高的要求。特別是在數(shù)據(jù)譯碼錯(cuò)誤情況下,需要進(jìn)行HARQ重傳然后再進(jìn)行譯碼。在重傳數(shù)據(jù)完成前,需要對(duì)之前譯碼錯(cuò)誤的數(shù)據(jù)先存起來,然后和新接收的重傳數(shù)據(jù)合并后再進(jìn)行譯碼,譯碼完成后,再將硬比特?cái)?shù)據(jù)回寫到存儲(chǔ)器中。如果譯碼不成功,需要再次重傳,然后將新的譯碼錯(cuò)誤數(shù)據(jù)和重傳數(shù)據(jù)合并再譯碼。
如圖1所示,考慮設(shè)計(jì)性能最大化,我們需要提供大量片外存儲(chǔ)空間及帶寬來滿足一些極端場(chǎng)景,這就對(duì)硬件設(shè)計(jì)、成本、功耗提出了更高的要求。
二、解決思路
片內(nèi)共享存儲(chǔ)區(qū)( Share store:SST,以下簡(jiǎn)稱SST),主要完成 modem數(shù)據(jù)的存儲(chǔ)以及 PHY CPU與 PS CPU交互數(shù)據(jù)存儲(chǔ);其操作場(chǎng)景如下圖2所示。
SST實(shí)現(xiàn)的是類L3 Cache功能,可以通過軟件配置為 cache模式、RAM模式或者 cache和RAM同時(shí)支持的模式。在配置為 cache模式時(shí), SST Cache實(shí)現(xiàn)與DDR內(nèi)存空間的映射,modem硬件或者CPU軟件通過AXI總線直接訪問DDR內(nèi)存空間,如果 cache hit,則 SST Cache完成DDR內(nèi)存空間映射;否則cache miss,modem硬件或者CPU軟件直接訪問DDR若SST配置為RAM模式, modem硬件可以通過直連線接口或者AⅪ總線接口,軟件通過AXI總線接口訪問 SST RAM;RAM的地址空間由軟件分配, modem硬件或者軟件下發(fā)的地址為軟件配置的RAM空間時(shí),則操作到 SST RAM中,否則操作指令 bypass到DDR中實(shí)踐情況。
三、實(shí)踐情況
3.1實(shí)踐框架
SST主要包括SST接口仲裁控制、 Cache控制管理以及存儲(chǔ)管理等功能,系統(tǒng)劃分如圖3所示。
下面分別介紹各個(gè)模塊和功能:
1. SST接口仲裁控制
將AXI總線送過來的操作進(jìn)行接口適配處理,將AXI總線接口轉(zhuǎn)換成內(nèi)部自定義讀寫請(qǐng)求接口,然后在送給仲裁處理模塊。通過AⅪ總線過來的操作模塊包括PHY、CPU、 PS CPU、DMA、EDCP以及 modem硬件等。
仲裁處理,選擇優(yōu)先級(jí)較高的一個(gè)請(qǐng)求優(yōu)先進(jìn)行處理,優(yōu)先級(jí)高低由軟件配置下發(fā),支持通過 AXI ID和地址空間兩種優(yōu)先級(jí)定義。
完成AⅪ端口仲裁處理后,完成不同子系統(tǒng)從AXI總線過來的讀寫處理操作的cache以及RAM操作模式判斷;cache和RAM操作模式通過訪問地址來判斷,并給出每個(gè)地址空間的屬性。
2. Cache控制管理 SST cache
SST cache完成 cache訪問操作,該操作不支持寫操作的 cache miss時(shí),將現(xiàn)有 cache空間內(nèi)的數(shù)據(jù)踢到DDR,并替換當(dāng)前數(shù)據(jù)操作;支持讀操作的 cache miss時(shí),將從DDR中讀出數(shù)據(jù)返回給源端請(qǐng)求的同時(shí),將現(xiàn)有 cache優(yōu)先級(jí)底的數(shù)據(jù)踢到DDR中。
如果判斷該筆訪問是需要 bypass到DDR,則直接將訪問通過AXI總線發(fā)給DDR。
3. RAM存儲(chǔ)管理 SST store
完成AXI總線過來的 cache、RAM訪問的到對(duì)應(yīng)RAM顆粒的讀寫選通操作。
完成自定義總線過來的RAM訪問到對(duì)應(yīng)RAM顆粒的讀寫選通操作。
3.2實(shí)踐思路
1. Cache組相連映射關(guān)系
Cache與物理地址的映射關(guān)系,采用組相連的映射關(guān)系。
其中,W定義 Cache Line大小;U為 Cache的組號(hào)(Set);Ⅴ確定了 Cache有多少Way。
Cache的映射,就是S與Ⅴ之間的映射。
映射過程是,使用U查TAG表,得到多個(gè)Way的數(shù)據(jù),每個(gè)Way內(nèi)有S的值。
使用DDR地址的S數(shù)據(jù),與TAG表內(nèi)的多個(gè)way的S值比較,如果有相等的,就是命中,得到這個(gè)Way的I,作為V的值,組成 Cache的地址。
如果不命中,就涉及分配策略等。
2. 16Way的情況
SST的 Cache特性:
1) Cache為16Way,則V為4bit;
2) Cache Line為64Byte,W為6bit;
3)Cache Size為256 Kbyte,則U+V+W=18Bit,則U為8bit;
4)DDR物理地址空間為30bit,則S+U+W=30,S為16bit。
Cache的命中表,深度為256(使用U8bit為地址),寬度為16*16=256bit。命中檢測(cè)使用U作為索引,一次讀出256bit的數(shù)據(jù),同時(shí)分析16個(gè)Way看是否包含有S的數(shù)值,如果有,則表示相同S的Way存貯該地址的數(shù)據(jù)。
四、效果評(píng)價(jià)
如圖4所示,通過設(shè)置不同的流量模型,并對(duì)比在不同的line大小以及way數(shù)量后進(jìn)行行為級(jí)仿真建??芍?,SST功能能夠有效減少數(shù)據(jù)對(duì)DDR的訪問,從而減少處理器功耗提升能效比性能。