国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向大數(shù)據(jù)的內(nèi)存計(jì)算技術(shù)研究?

2018-12-09 08:27
艦船電子工程 2018年3期
關(guān)鍵詞:計(jì)算技術(shù)數(shù)據(jù)處理內(nèi)存

張 偉

1 引言

隨著物聯(lián)網(wǎng)、云計(jì)算、人工智能等技術(shù)的高速發(fā)展,這些技術(shù)的發(fā)展都離不開大數(shù)據(jù)技術(shù),大數(shù)據(jù)技術(shù)幾乎成為新時(shí)代各個(gè)領(lǐng)域的研究基礎(chǔ)。大數(shù)據(jù)具有數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、價(jià)值密度低、數(shù)據(jù)增長(zhǎng)速度快、以及高時(shí)效性等顯著特征,針對(duì)大數(shù)據(jù)的諸多特點(diǎn),需要建立大數(shù)據(jù)處理生態(tài)體系,包含數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、數(shù)據(jù)抽取與轉(zhuǎn)換、數(shù)據(jù)查詢與分析、數(shù)據(jù)聚合、數(shù)據(jù)表示等多個(gè)層面,并對(duì)大數(shù)據(jù)的處理提出了高可擴(kuò)展、高可靠、高性價(jià)比、高適應(yīng)能力的需求。此外,如今的AlphaGO、無(wú)人駕駛、智能機(jī)器人等新型實(shí)時(shí)型大數(shù)據(jù)應(yīng)用對(duì)于實(shí)時(shí)、交互式分析等需求提出更高的要求。

然而,以計(jì)算為中心的系統(tǒng)架構(gòu)難以有效應(yīng)對(duì)新型實(shí)時(shí)型應(yīng)用對(duì)于實(shí)時(shí)、交互式分析的復(fù)雜業(yè)務(wù)訴求。同時(shí),大數(shù)據(jù)所表現(xiàn)出的高速增長(zhǎng)、體量驟增、數(shù)據(jù)類型差異大等特點(diǎn),進(jìn)一步加劇了以計(jì)算為中心的傳統(tǒng)計(jì)算模式所面臨的內(nèi)存容量有限、I/O壓力大、緩存命中率低、并發(fā)控制困難、數(shù)據(jù)處理總體性能較低等諸多問(wèn)題,難以取得性能、能耗與成本的最佳平衡,使得目前的計(jì)算機(jī)系統(tǒng)無(wú)法處理PB級(jí)以上的大數(shù)據(jù)。總的來(lái)看,大數(shù)據(jù)是一種以數(shù)據(jù)為中心的數(shù)據(jù)密集型技術(shù),現(xiàn)有的以計(jì)算為中心的技術(shù)體系難以滿足大數(shù)據(jù)的應(yīng)用需求,急需一種以數(shù)據(jù)為中心的計(jì)算架構(gòu)以滿足大數(shù)據(jù)處理的需求。

隨著新型非易失性存儲(chǔ)器件的快速發(fā)展和成本的不斷降低,客觀上為以數(shù)據(jù)為中心的大數(shù)據(jù)處理模式提供了新的思路。內(nèi)存計(jì)算技術(shù)應(yīng)運(yùn)而生,內(nèi)存計(jì)算能夠解決新型實(shí)時(shí)應(yīng)用所要求的數(shù)據(jù)處理速度以及時(shí)效性的問(wèn)題。在內(nèi)存計(jì)算模式下,所有的數(shù)據(jù)操作均在內(nèi)存中進(jìn)行,包括數(shù)據(jù)存儲(chǔ)、查詢、處理等。CPU直接從內(nèi)存讀取數(shù)據(jù),進(jìn)行實(shí)時(shí)的計(jì)算和分析,減少了磁盤數(shù)據(jù)訪問(wèn),降低了網(wǎng)絡(luò)與磁盤I/O的影響,大幅提升了計(jì)算處理的數(shù)據(jù)吞吐量與處理速度。因此,內(nèi)存計(jì)算技術(shù)成為大數(shù)據(jù)處理分析的利器,并成為工業(yè)界和學(xué)術(shù)界共同關(guān)注的研究熱點(diǎn)。

本文主要對(duì)內(nèi)存計(jì)算的概念、原理、技術(shù)特點(diǎn)、研究現(xiàn)狀、典型應(yīng)用、問(wèn)題與挑戰(zhàn)等角度進(jìn)行介紹分析。首先,介紹和分析了內(nèi)存計(jì)算的概念、原理和技術(shù)特點(diǎn);其次,從技術(shù)層面介紹了內(nèi)存計(jì)算技術(shù)的研究現(xiàn)狀;然后,介紹了內(nèi)存計(jì)算的幾種典型應(yīng)用;接下來(lái),分析內(nèi)存計(jì)算發(fā)展面臨的問(wèn)題與挑戰(zhàn);最后,對(duì)內(nèi)存計(jì)算的發(fā)展進(jìn)行總結(jié)和展望。

2 內(nèi)存計(jì)算簡(jiǎn)介

2.1 內(nèi)存計(jì)算技術(shù)的概念

內(nèi)存計(jì)算[1](In-Memory Computing),實(shí)質(zhì)上就是CPU直接從內(nèi)存而非硬盤上讀取數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行計(jì)算、分析,是對(duì)傳統(tǒng)數(shù)據(jù)處理方式的一種加速。內(nèi)存計(jì)算是以大數(shù)據(jù)為中心,依托計(jì)算機(jī)內(nèi)存器件的發(fā)展,依靠新型的軟件體系架構(gòu),將數(shù)據(jù)放入內(nèi)存中處理,而盡量避免I/O操作的一種新型的以數(shù)據(jù)為中心的并行計(jì)算模式。內(nèi)存計(jì)算主要用于數(shù)據(jù)密集型計(jì)算的處理,尤其是數(shù)據(jù)量極大且需要實(shí)時(shí)分析處理的計(jì)算。

內(nèi)存計(jì)算技術(shù)主要是在計(jì)算機(jī)軟硬件相結(jié)合的條件下,將數(shù)據(jù)庫(kù)的相關(guān)計(jì)算轉(zhuǎn)移到內(nèi)存中進(jìn)行。在內(nèi)存中進(jìn)行數(shù)據(jù)處理計(jì)算,可以有效突破I/O框架的限制,進(jìn)而采取并行處理技術(shù),大大提高數(shù)據(jù)處理計(jì)算的效率。

2.2 內(nèi)存計(jì)算技術(shù)的特點(diǎn)

內(nèi)存計(jì)算技術(shù)具有以下幾個(gè)方面的特點(diǎn)[2]:

1)操作都在內(nèi)存層面上進(jìn)行。基于內(nèi)存的高效數(shù)據(jù)讀取和處理硬件方面擁有大容量?jī)?nèi)存,待處理數(shù)據(jù)均在存放于內(nèi)存當(dāng)中,內(nèi)存既可以是單機(jī)內(nèi)存也可以是分布式內(nèi)存;數(shù)據(jù)庫(kù)放在內(nèi)存中,可以使相關(guān)數(shù)據(jù)處理通過(guò)更加開放更加高效的方式進(jìn)行。

2)行存儲(chǔ)和列存儲(chǔ)的混合模式。由于數(shù)據(jù)庫(kù)放在內(nèi)存中,列儲(chǔ)存和行儲(chǔ)存就打破了原有的束縛,可以進(jìn)行混合使用。

3)高效并行處理機(jī)制。支持更多的服務(wù)器或者處理器,能夠分拆數(shù)據(jù)模型進(jìn)行分步并行處理,還可以將分拆后的數(shù)據(jù)模塊配置到不同的服務(wù)器進(jìn)行分別處理。

4)數(shù)據(jù)高效壓縮。數(shù)據(jù)庫(kù)一般都是十分龐大的,只有將這些數(shù)據(jù)進(jìn)行高效壓縮,優(yōu)化內(nèi)存結(jié)構(gòu),才能提升內(nèi)存的運(yùn)轉(zhuǎn)效率,進(jìn)而提升數(shù)據(jù)處理效率。

5)面向數(shù)據(jù)密集型應(yīng)用。內(nèi)存計(jì)算的針對(duì)的應(yīng)用主要數(shù)據(jù)規(guī)模大、時(shí)效性要求高的新型大數(shù)據(jù)應(yīng)用。

6)具有良好的編程模型和編程接口。內(nèi)存計(jì)算技術(shù)需要軟硬件相結(jié)合,因此,對(duì)編程的要求較高。

3 內(nèi)存計(jì)算的國(guó)內(nèi)外研究現(xiàn)狀

隨著信息技術(shù)的高速發(fā)展,計(jì)算機(jī)硬件價(jià)格持續(xù)下降,尤其是內(nèi)存容量的不斷升高、內(nèi)存價(jià)格的持續(xù)走低,使服務(wù)器配置高容量?jī)?nèi)存成為可能,用內(nèi)存計(jì)算技術(shù)完成實(shí)時(shí)大數(shù)據(jù)處理已成為大數(shù)據(jù)處理的一個(gè)重要發(fā)展趨勢(shì)。

3.1 新型非易失性存儲(chǔ)器件

當(dāng)前主流的半導(dǎo)體存儲(chǔ)器件技術(shù),如動(dòng)態(tài)隨機(jī)存儲(chǔ)器和閃存等,無(wú)法滿足大數(shù)據(jù)處理的大容量和高速讀取的要求,日立、英特爾、IBM等公司都在競(jìng)相研發(fā)新一代半導(dǎo)體存儲(chǔ)器技術(shù),即新型非易失存儲(chǔ)器技術(shù)。

近年來(lái),隨著電阻存儲(chǔ)器(resistive randomac?cess memory,RRAM)[3]、鐵電存儲(chǔ)器(ferroelectric random accessmemory,F(xiàn)eRAM)[4]、相 變 存 儲(chǔ) 器(phase change memory,PCM)[5~6]等為代表的新興非易失性隨機(jī)存儲(chǔ)介質(zhì)(non-volatile memory,NVM)技術(shù)的發(fā)展,使得傳統(tǒng)的內(nèi)存與存儲(chǔ)分離的界限逐漸變得模糊,推進(jìn)了存儲(chǔ)技術(shù)的發(fā)展,為新型的內(nèi)存與存儲(chǔ)體系結(jié)構(gòu)的發(fā)展打下了良好的基礎(chǔ)。

新型非易失存儲(chǔ)器技術(shù)目前主要有相變存儲(chǔ)器(PCM)、磁存儲(chǔ)器(MRAM)、阻變存儲(chǔ)器(RRAM),隨著近些年器件技術(shù)的進(jìn)步,新型非易失存儲(chǔ)從早期的理論研究開始向產(chǎn)品化轉(zhuǎn)移,各主要廠商均有相應(yīng)的研發(fā)計(jì)劃,并預(yù)期逐步有相應(yīng)的樣片和產(chǎn)品推出。但目前仍受制于容量,主要用作小規(guī)模應(yīng)用,如應(yīng)用在數(shù)碼產(chǎn)品上。業(yè)界針對(duì)其容量限制正在積極研究,以期在未來(lái)可以應(yīng)用于大規(guī)模存儲(chǔ)系統(tǒng)中。

3.2 混合內(nèi)存系統(tǒng)架構(gòu)

目前,國(guó)內(nèi)外科研人員在基于PCM存儲(chǔ)設(shè)備構(gòu)造新的內(nèi)存體系這一領(lǐng)域的研究工作主要集中在如何構(gòu)造混合內(nèi)存體系結(jié)構(gòu)上。

在紛繁的NVM中,PCM作為一種新興的存儲(chǔ)設(shè)備,憑借其非易失性、非破壞性讀、讀完無(wú)須回寫、寫操作無(wú)須先擦除、存儲(chǔ)密度高等特性,逐漸成為大規(guī)模內(nèi)存系統(tǒng)中頗具潛力的DRAM替代品。在硬件體系結(jié)構(gòu)方面,人們圍繞PCM和DRAM的混合方案開展了很多研究,對(duì)何種混合內(nèi)存體系結(jié)構(gòu)能夠更加充分地利用這兩者的特性進(jìn)行了深入的探討。

近幾年國(guó)內(nèi)外學(xué)術(shù)界出現(xiàn)的混合內(nèi)存結(jié)構(gòu)包括[1]:

1)PDRAM[7]

PDRAM結(jié)構(gòu)由PCM和DRAM構(gòu)成,充分發(fā)揮了PCM在讀數(shù)據(jù)和存儲(chǔ)數(shù)據(jù)方面低功耗、非易失性和DRAM在寫數(shù)據(jù)時(shí)低功耗及超長(zhǎng)的寫壽命的特性,PCM和DRAM處于同等地位,無(wú)主次之分,對(duì)兩者線性編址,屬于線性結(jié)構(gòu)。

2)DRAMBuffer[8]

DRAMBuffer混合架構(gòu)由DRAM和PCM的混合型內(nèi)存系統(tǒng)構(gòu)成,PCM作為主存,DRAM作為PCM的緩存,它結(jié)合了PCM高容量以及DRAM快速訪問(wèn)的特點(diǎn)。

3)層次混合內(nèi)存[9]

這是一種由PCM和DRAM構(gòu)成的具有層次結(jié)構(gòu)的混合內(nèi)存,這種層次內(nèi)存分為片上和片下兩部分。片上內(nèi)存由單獨(dú)的DRAM構(gòu)成,片下部分則由PCM+DRAM混合構(gòu)成。其中,片上DRAM因內(nèi)置于處理器內(nèi)部而具有較小的延遲;片下的DRAM和PCM共用同一個(gè)內(nèi)存控制器且兩者分配線性的物理地址。

雖然各種新型NVM都有著各自的優(yōu)點(diǎn),在某些方面比當(dāng)前的DRAM更具有優(yōu)勢(shì),但要真正把它們無(wú)縫整合進(jìn)混合內(nèi)存中,還需要采取一定的策略對(duì)其做性能方面的優(yōu)化。

3.3 內(nèi)存數(shù)據(jù)管理系統(tǒng)

工業(yè)界和學(xué)術(shù)界在基于內(nèi)存計(jì)算的數(shù)據(jù)管理技術(shù),特別是主存數(shù)據(jù)庫(kù)領(lǐng)域已經(jīng)累積的大量的研究成果和經(jīng)驗(yàn)。在大數(shù)據(jù)發(fā)展初期,面向磁盤的分布式數(shù)據(jù)管理系統(tǒng)由于其高可擴(kuò)展性而廣泛應(yīng)用。但是其性能上的乏力,促使基于分布式內(nèi)存的數(shù)據(jù)管理系統(tǒng)的發(fā)展成為新的焦點(diǎn)。近些年工業(yè)界和學(xué)術(shù)界都針對(duì)于分布式內(nèi)存數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行了研究[10]。

工業(yè)界出現(xiàn)了很多相關(guān)產(chǎn)品,Memcached[11]是最著名的全內(nèi)存式數(shù)據(jù)存取系統(tǒng),該系統(tǒng)使用DHT實(shí)現(xiàn)網(wǎng)絡(luò)拓?fù)涞臉?gòu)建以及數(shù)據(jù)的布局及查詢,為上層應(yīng)用提供了高可用的狀態(tài)存儲(chǔ)和可伸縮的應(yīng)用加速服務(wù),被Facebook,Twitter,YouTube,Reddit等多家世界知名企業(yè)所使用。與Memcached類似,VMware的Redis也提供了性能卓越的內(nèi)存存儲(chǔ)功能,支持包括字符串、哈希表、鏈表、集合、有序集合等多種數(shù)據(jù)類型以及更加易于使用的API,相比于Memcached,Redis提供了更靈活的緩存失效策略和持久化機(jī)制。此外,還有微軟的Hekaton,SAP的HANA等內(nèi)存數(shù)據(jù)庫(kù)產(chǎn)品,隨著需求的發(fā)展仍在不斷涌現(xiàn)。

在學(xué)術(shù)界,MIT的H-Store是內(nèi)存數(shù)據(jù)處理環(huán)境下的原型系統(tǒng),其根據(jù)CPU Core進(jìn)行數(shù)據(jù)分區(qū),通過(guò)數(shù)據(jù)庫(kù)多副本來(lái)獲得數(shù)據(jù)的持久性。為解決處理數(shù)據(jù)超過(guò)內(nèi)存容量的問(wèn)題,布朗大學(xué)的DeBra?bant等還針對(duì)H-Store系統(tǒng)提出了Anti-Caching策略。慕尼黑工業(yè)大學(xué)開發(fā)的Hyper原型系統(tǒng)試圖利用內(nèi)存計(jì)算的特點(diǎn)基于統(tǒng)一的存儲(chǔ)模型將傳統(tǒng)上分離的OLTP和OLAP融合在一起進(jìn)行處理。

此外,在數(shù)據(jù)管理方面,由于新型介質(zhì)模糊了內(nèi)存與外存的界限,現(xiàn)有的數(shù)據(jù)管理軟件將無(wú)法完全發(fā)揮其潛在性能,因此需要研究相應(yīng)的內(nèi)存數(shù)據(jù)管理軟件,并考慮數(shù)據(jù)在存儲(chǔ)介質(zhì)上的組織、分配、回收以及路徑訪問(wèn)優(yōu)化等特性。

3.4 內(nèi)存編程模型

內(nèi)存計(jì)算技術(shù)離不開軟件的支撐,因此軟件的編程模型尤為重要。編程模型是架構(gòu)在硬件和應(yīng)用之間,涵蓋存儲(chǔ)模型、執(zhí)行模型、調(diào)度模型的綜合抽象。其可以在大規(guī)模廉價(jià)集群中以并行、可擴(kuò)展、容錯(cuò)、易用、透明的方式支持各種應(yīng)用的有效執(zhí)行。

UCBerkeley的基于內(nèi)存的分布式并行處理框架Spark[12],有效保證了處理的實(shí)時(shí)性并提供了交互式的迭代分析能力。Spark提供的最主要的即彈性分布式數(shù)據(jù)集(RDD),RDD是一個(gè)分布在一組節(jié)點(diǎn)之間的只讀的對(duì)象集合。這些集合是彈性的,能夠在部分?jǐn)?shù)據(jù)集丟失的情況下利用血統(tǒng)(lin?eage)容錯(cuò)機(jī)制進(jìn)行重建。為了提供操作的便捷性,Spark框架還提供了和Hive類似的類SQL命令接口Shark。同時(shí),基于Spark的內(nèi)存計(jì)算分析生態(tài)系統(tǒng),如處理流數(shù)據(jù)的Spark streaming,用于大圖計(jì)算的GraphX等,正在不斷的完善與開發(fā)之中。

此外,流式應(yīng)用也是一類對(duì)實(shí)時(shí)性要求很高的應(yīng)用類型,具有代表性的實(shí)時(shí)數(shù)據(jù)流計(jì)算模型有雅虎的S4、Facebook的Pumn、谷歌的MillWheel等,這些模型與企業(yè)自身的具體需求緊密結(jié)合,致力于解決實(shí)際的應(yīng)用問(wèn)題。

4 內(nèi)存計(jì)算的典型應(yīng)用

4.1 內(nèi)存數(shù)據(jù)庫(kù)

近年來(lái),隨著計(jì)算機(jī)硬件技術(shù)的迅猛發(fā)展,內(nèi)存容量不斷提高,價(jià)格不斷下跌,同時(shí)對(duì)數(shù)據(jù)庫(kù)系統(tǒng)實(shí)時(shí)響應(yīng)能力要求日益提高,充分利用內(nèi)存技術(shù)提升數(shù)據(jù)庫(kù)性能成為一個(gè)熱點(diǎn)。

其實(shí)內(nèi)存數(shù)據(jù)庫(kù)并不是一項(xiàng)新興技術(shù),其出現(xiàn)于20世紀(jì)60年代末,隨著市場(chǎng)需求的不斷增大在90年代后期開始得到快速發(fā)展。其原理就是將數(shù)據(jù)放在內(nèi)存中直接操作的數(shù)據(jù)庫(kù)。相對(duì)于磁盤,內(nèi)存的數(shù)據(jù)讀寫速度要高出幾個(gè)數(shù)量級(jí),將數(shù)據(jù)保存在內(nèi)存中相比從磁盤上訪問(wèn)能夠極大地提高應(yīng)用的性能。同時(shí),內(nèi)存數(shù)據(jù)庫(kù)系統(tǒng)帶來(lái)的優(yōu)越性能不僅僅在于對(duì)內(nèi)存讀寫比對(duì)磁盤讀寫快上,更重要的是,從根本上拋棄了磁盤數(shù)據(jù)管理的許多傳統(tǒng)方式,基于全部數(shù)據(jù)都在內(nèi)存中管理進(jìn)行了新的體系結(jié)構(gòu)的設(shè)計(jì),并且在數(shù)據(jù)緩存、快速算法、并行操作方面也進(jìn)行了相應(yīng)的改進(jìn),從而使數(shù)據(jù)處理速度一般比傳統(tǒng)數(shù)據(jù)庫(kù)的數(shù)據(jù)處理速度快很多,一般都在10倍以上,理想情況甚至可以達(dá)到1000倍[13]。

內(nèi)存數(shù)據(jù)庫(kù)的另外一個(gè)重要特點(diǎn)是可以對(duì)內(nèi)存中的數(shù)據(jù)實(shí)現(xiàn)全事務(wù)處理,相比僅僅把數(shù)據(jù)以數(shù)組等形式放在內(nèi)存中是完全不同的。內(nèi)存數(shù)據(jù)庫(kù)是與應(yīng)用無(wú)關(guān)的,對(duì)于內(nèi)存數(shù)據(jù)庫(kù)而言,實(shí)現(xiàn)了數(shù)據(jù)在內(nèi)存中的管理,而不僅僅是作為數(shù)據(jù)庫(kù)的緩存。不同于其它將磁盤數(shù)據(jù)塊緩存到主存中的數(shù)據(jù)庫(kù),內(nèi)存數(shù)據(jù)庫(kù)的內(nèi)存引擎使用了為隨機(jī)訪問(wèn)內(nèi)存而特別設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)和算法,這種設(shè)計(jì)使其避免了因使用排序命令而經(jīng)常破壞緩存數(shù)據(jù)庫(kù)性能的問(wèn)題。通過(guò)內(nèi)存數(shù)據(jù)庫(kù),大大減少了磁盤I/O處理,因此能夠達(dá)到以磁盤I/O為主的傳統(tǒng)數(shù)據(jù)庫(kù)無(wú)法與其相比擬的處理速度。

4.2 圖數(shù)據(jù)處理

圖計(jì)算分析是一種I/O密集型計(jì)算,大部分的應(yīng)用計(jì)算需要多次迭代,計(jì)算的狀態(tài)信息需要在計(jì)算節(jié)點(diǎn)間消息傳遞和頻繁更新,尤其是大規(guī)模的圖數(shù)據(jù),需要在集群的節(jié)點(diǎn)間進(jìn)行頻繁的消息傳遞和中間結(jié)果的存儲(chǔ)。如果把數(shù)據(jù)全部在內(nèi)存中計(jì)算,將極大地提高效率。

傳統(tǒng)的在單機(jī)運(yùn)行的圖數(shù)據(jù)計(jì)算算法庫(kù),例如LEDA,擴(kuò)展性不好,而對(duì)大規(guī)模的圖數(shù)據(jù)計(jì)算能力不足;Map Reduce計(jì)算框架容錯(cuò)性、擴(kuò)展性等方而較好,但是對(duì)于圖計(jì)算效率不高;現(xiàn)有的圖并行處理系統(tǒng),存在容錯(cuò)性不佳等問(wèn)題。

內(nèi)存計(jì)算能夠提升大規(guī)模圖數(shù)據(jù)計(jì)算的效率,圖的內(nèi)存計(jì)算系統(tǒng)大致可以分為三種:第一種是基于內(nèi)存分布式集群系統(tǒng),例如Trinity系統(tǒng);第二種是基于內(nèi)存共享的分布式系統(tǒng);第三種是在多核單機(jī)上多線程共享大內(nèi)存系統(tǒng),例如GRACE。

4.3 實(shí)時(shí)大數(shù)據(jù)處理

內(nèi)存計(jì)算技術(shù)依托計(jì)算存儲(chǔ)一體化體系結(jié)構(gòu),在內(nèi)存中建立內(nèi)存數(shù)據(jù)庫(kù),定期地將需要持久化的數(shù)據(jù)如歸檔文件同步到磁盤;計(jì)算時(shí)將全部數(shù)據(jù)加載到內(nèi)存中,計(jì)算過(guò)程的文件讀寫操作僅與內(nèi)存文件系統(tǒng)交互,不需要讀寫磁盤,有效解決數(shù)據(jù)網(wǎng)絡(luò)傳輸效率低、內(nèi)存/外存、I/O不匹配等問(wèn)題。

在內(nèi)存數(shù)據(jù)庫(kù)的基礎(chǔ)上,通過(guò)設(shè)計(jì)不同的內(nèi)存接口模塊、內(nèi)存存取模塊實(shí)現(xiàn)了內(nèi)存數(shù)據(jù)的存取和訪問(wèn),并通過(guò)內(nèi)存資源管理模塊對(duì)內(nèi)存進(jìn)行分配和管理?;趦?nèi)存計(jì)算的數(shù)據(jù)處理技術(shù)可使用內(nèi)存接口模塊將虛擬內(nèi)存管理系統(tǒng)和內(nèi)存數(shù)據(jù)庫(kù)連接起來(lái),使用內(nèi)存存取接口模塊連接分布式數(shù)據(jù)管理系統(tǒng)和物理內(nèi)存管理系統(tǒng),從而實(shí)現(xiàn)了透明地訪問(wèn)各節(jié)點(diǎn)上的內(nèi)存空間。

內(nèi)存計(jì)算技術(shù)對(duì)現(xiàn)有應(yīng)用數(shù)據(jù)采用列存儲(chǔ)的方式并進(jìn)行壓縮,然后進(jìn)行多核處理,既可以最大限度的使用內(nèi)存,又可以加快應(yīng)用程序的處理速度。首先,通過(guò)列存儲(chǔ)的方式對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),所以可以很方便地對(duì)數(shù)據(jù)進(jìn)行壓縮,從而便于服務(wù)器與前端移動(dòng)設(shè)備之間的數(shù)據(jù)傳輸量降到最小。其次,把數(shù)據(jù)存放在服務(wù)器的內(nèi)存中,可以直接在云端對(duì)數(shù)據(jù)進(jìn)行分析查詢操作,不需要把云端服務(wù)器的數(shù)據(jù)下載下來(lái),減少了數(shù)據(jù)傳輸?shù)臅r(shí)間。

5 內(nèi)存計(jì)算的問(wèn)題與挑戰(zhàn)

內(nèi)存計(jì)算模式主要包含如下幾個(gè)關(guān)鍵問(wèn)題[1]:異構(gòu)協(xié)同、能耗可控和高效并行。異構(gòu)協(xié)同是指在體系結(jié)構(gòu)和操作系統(tǒng)層面如何實(shí)現(xiàn)異構(gòu)層次內(nèi)存體系的協(xié)同管理、透明服務(wù)的數(shù)據(jù)處理支撐環(huán)境;能耗可控是指在體系結(jié)構(gòu)和編程模型層面如何基于內(nèi)存計(jì)算,實(shí)現(xiàn)大數(shù)據(jù)低能耗的管理與處理環(huán)境;高效并行是指在編程模型與并行處理層面,如何基于內(nèi)存計(jì)算,實(shí)現(xiàn)大數(shù)據(jù)高效率的并行處理環(huán)境。

這三個(gè)關(guān)鍵問(wèn)題遇到的挑戰(zhàn)和需要解決的技術(shù)難題分散在:體系結(jié)構(gòu)、系統(tǒng)軟件、編程模型和并行處理四個(gè)層面。四個(gè)層面需要面對(duì)的問(wèn)題為:1)在體系結(jié)構(gòu)層面,需要為異構(gòu)混合層次內(nèi)存設(shè)計(jì)專門的CPU訪存通道;2)在系統(tǒng)軟件層面,需要設(shè)計(jì)異構(gòu)層次內(nèi)存體系的一致性數(shù)據(jù)組織和高效、透明、可靠的新內(nèi)存訪問(wèn)與管理策略;3)在編程模型層面,需要依據(jù)新內(nèi)存的層次性特征設(shè)計(jì)數(shù)據(jù)與計(jì)算緊密藕合的編程模型、面向異構(gòu)層次內(nèi)存體系的數(shù)據(jù)局部性編程表達(dá)和多任務(wù)粒度劃分策略等;4)在并行處理層面,主要解決并行環(huán)境中的節(jié)點(diǎn)互聯(lián)問(wèn)題和任務(wù)調(diào)度問(wèn)題以及分布式環(huán)境下的一致性問(wèn)題。

因此,盡管內(nèi)存計(jì)算為當(dāng)前工業(yè)界和學(xué)術(shù)界高度關(guān)注的熱點(diǎn)問(wèn)題,內(nèi)存計(jì)算涉及硬件體系結(jié)構(gòu)、軟件體系結(jié)構(gòu)、操作系統(tǒng)、編程模型、大數(shù)據(jù)處理等諸多方面內(nèi)容,使得內(nèi)存計(jì)算從底層的硬件架構(gòu)到高層的編程模型都存在許多問(wèn)題面臨一系列挑戰(zhàn)。

由于內(nèi)存計(jì)算從硬件架構(gòu)看,不管是單節(jié)點(diǎn)、分布式,還是基于新型混合內(nèi)存系統(tǒng),最終表現(xiàn)為軟件層次的應(yīng)用,比如,內(nèi)存存儲(chǔ)系統(tǒng)表現(xiàn)內(nèi)存數(shù)據(jù)庫(kù),內(nèi)存數(shù)據(jù)處理系統(tǒng)表現(xiàn)為圖計(jì)算框架、深度學(xué)習(xí)算法處理框架、流處理框架等。

內(nèi)存數(shù)據(jù)庫(kù)將整個(gè)數(shù)據(jù)庫(kù)裝載進(jìn)內(nèi)存,避免了傳統(tǒng)數(shù)據(jù)庫(kù)I/O操作所帶來(lái)的開銷。這樣,內(nèi)存數(shù)據(jù)庫(kù)性能提升的瓶頸從傳統(tǒng)的I/O訪問(wèn)便轉(zhuǎn)為如何提高計(jì)算時(shí)間及減少訪存延遲,具體表現(xiàn)在索引建立、內(nèi)存數(shù)據(jù)組織以及并發(fā)控制策略等方面,以達(dá)到優(yōu)化內(nèi)存數(shù)據(jù)庫(kù)時(shí)間空間效率,優(yōu)化內(nèi)存及緩存的使用,保證系統(tǒng)性能的目的。另外,硬件的快速發(fā)展正在迅速改變商用處理器的場(chǎng)景,如NUMA架構(gòu),SIMD指令,RDMA網(wǎng)絡(luò),硬件事務(wù)內(nèi)存(HTM),非易失性存儲(chǔ)器(NVM),以及片上GPU,F(xiàn)PGA和其他硬件加速器,能夠以較低的開銷提供更高的性能。綜上,內(nèi)存數(shù)據(jù)庫(kù)性能的提升不僅面臨軟件方面的挑戰(zhàn)與機(jī)遇,同樣硬件加速為內(nèi)存數(shù)據(jù)庫(kù)提出了新的挑戰(zhàn)以及提供了新的發(fā)展前景。

圖計(jì)算在不同的硬件架構(gòu)平臺(tái)上存在內(nèi)存計(jì)算所面臨的不同挑戰(zhàn)?;诜植际降膬?nèi)存圖計(jì)算面臨數(shù)據(jù)通信時(shí)的I/O瓶頸問(wèn)題;單節(jié)點(diǎn)內(nèi)存圖計(jì)算則面臨內(nèi)存不足時(shí)系統(tǒng)性能下降的問(wèn)題,以及線程數(shù)增加所引起的內(nèi)存墻問(wèn)題。此外,圖數(shù)據(jù)本身有其自身特點(diǎn)及復(fù)雜性,因而存在特有的問(wèn)題需要解決。

深度學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域的熱點(diǎn)問(wèn)題。深度學(xué)習(xí)需要訓(xùn)練的數(shù)據(jù)量龐大,導(dǎo)致訓(xùn)練過(guò)程非常耗時(shí)。因此,為了加速訓(xùn)練過(guò)程,如何充分利用大規(guī)模集群的硬件資源,使數(shù)據(jù)自始至終保存在內(nèi)存中,成為內(nèi)存計(jì)算的研究熱點(diǎn)。針對(duì)深度學(xué)習(xí)算法方面的研究仍處于發(fā)展階段,基于內(nèi)存計(jì)算的深度學(xué)習(xí)框架更是面臨更多的問(wèn)題與挑戰(zhàn)。

6 結(jié)語(yǔ)

內(nèi)存計(jì)算消除了傳統(tǒng)計(jì)算模式中的I/O性能瓶頸,可以預(yù)見,大數(shù)據(jù)的處理性能將獲得顯著提升,并為海量數(shù)據(jù)實(shí)時(shí)處理打造了一條寬廣的“高速公路”。內(nèi)存計(jì)算作為一種新型信息處理模式,不僅將推動(dòng)計(jì)算機(jī)科學(xué)的發(fā)展,而且還為大數(shù)據(jù)信息處理提供核心技術(shù)支撐,從而廣泛服務(wù)于經(jīng)濟(jì)建設(shè)、科學(xué)研究和國(guó)家安全等領(lǐng)域。

隨著非易失性存儲(chǔ)器件的發(fā)展,傳統(tǒng)的以計(jì)算為中心的計(jì)算機(jī)體系架構(gòu)將面臨體系結(jié)構(gòu)、操作系統(tǒng)、編程模型方面的諸多挑戰(zhàn),內(nèi)存計(jì)算技術(shù)將迎來(lái)高速發(fā)展的機(jī)遇:

1)實(shí)時(shí)應(yīng)用對(duì)時(shí)效性的需求為內(nèi)存計(jì)算提供了發(fā)展的動(dòng)力;

2)新型硬件技術(shù)的發(fā)展為內(nèi)存計(jì)算提供了發(fā)展的基石;

3)新的數(shù)據(jù)處理特征為內(nèi)存計(jì)算提供了發(fā)展的契機(jī);

4)數(shù)據(jù)處理模式的變遷為內(nèi)存計(jì)算提供了發(fā)展的方向。

可以預(yù)見,內(nèi)存計(jì)算將會(huì)進(jìn)入新一輪的研究和發(fā)展高峰,并成為大數(shù)據(jù)實(shí)時(shí)處理領(lǐng)域的熱點(diǎn)。

[1]金海,廖小飛,葉晨成.內(nèi)存計(jì)算:大數(shù)據(jù)處理的機(jī)遇與挑戰(zhàn)[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2013,9(4):40-46.

[2]羅樂,劉軼,錢德沛.內(nèi)存計(jì)算技術(shù)研究綜述[J].軟件學(xué)報(bào),2016,27(8):2147-2167.

[3]Govoreanu B,Kar G S,Chen Y,et al.10×10nm2 Hf/HfOx crossbar resistive RAM with excellent performance,reliability and low-energy operation[J].Electron Devices Meeting. iedm.technical Digest.international,2012:31.6.1-31.6.4.

[4]Park BH,Kang BS,Bu SD,et al.Lanthanum-substitut?ed bismuth titanate for use in non-volatile memories[J].Nature,1999,401(6754):682-684.

[5]Lee B C,Zhou P,Yang J,et al.Phase-Change Technolo?gy and the Future of Main Memory[J].IEEE Micro,2010,30(1):143-143.

[6]Raoux S,Burr GW,Breitwisch M J,et al.Phase-change random access memory:A scalable technology[J].Ibm Journal of Research&Development,2010,52(4.5):465-479.

[7] Dhiman G,Ayoub R,Rosing T.PDRAM:a hybrid PRAM and DRAM main memory system[C]//Design Au?tomation Conference,DAC'09.IEEE,2009:664-669.

[8]Qureshi M K,Srinivasan V,Rivers JA.Scalable high per?formance main memory system using phase-change memo?ry technology[C]//International Symposium on Computer Architecture.ACM,2009:24-33.

[9]Park K H,Park S K,Seok H,et al.Efficient memory management of a hierarchical and a hybrid main memory for MN-MATE platform[C]//International Workshop on Programming MODELS and Applications for Multicores and Manycores.ACM,2012:83-92.

[10]嵇智源,潘巍.面向大數(shù)據(jù)的內(nèi)存數(shù)據(jù)管理研究現(xiàn)狀與 展 望[J]. 計(jì) 算 機(jī) 工 程 與 設(shè) 計(jì) ,2014(10):3499-3506.

[11]Memcached Team.Memcached:A Distributed Memory Object Caching System.http://memcached.org/. Re?trieved 2015.

[12]Zaharia M,Chowdhury M,F(xiàn)ranklin M J,et al.Spark:cluster computing with working sets[C]//Usenix Confer?ence on Hot Topics in Cloud Computing.USENIX Asso?ciation,2010:10-10.

[13]周烜,薛忠斌.批處理在內(nèi)存數(shù)據(jù)處理系統(tǒng)中的應(yīng)用[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(5):252-262.

猜你喜歡
計(jì)算技術(shù)數(shù)據(jù)處理內(nèi)存
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
基于低頻功率數(shù)據(jù)處理的負(fù)荷分解方法
無(wú)人機(jī)測(cè)繪數(shù)據(jù)處理關(guān)鍵技術(shù)及運(yùn)用
新時(shí)期計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)研究
筆記本內(nèi)存已經(jīng)在漲價(jià)了,但幅度不大,升級(jí)擴(kuò)容無(wú)須等待
“春夏秋冬”的內(nèi)存
高層建筑沉降監(jiān)測(cè)數(shù)據(jù)處理中多元回歸分析方法的應(yīng)用研究
高層建筑沉降監(jiān)測(cè)數(shù)據(jù)處理中多元回歸分析方法的應(yīng)用研究
計(jì)算機(jī)技術(shù)在通信中的應(yīng)用研究
云計(jì)算及其在地理信息工程中的應(yīng)用
景德镇市| 柳河县| 桂东县| 高青县| 兴海县| 龙门县| 离岛区| 兖州市| 集安市| 仁化县| 忻州市| 寿光市| 营山县| 通州区| 济阳县| 无为县| 鞍山市| 奉化市| 同江市| 高淳县| 江都市| 扬州市| 门源| 新竹县| 黄大仙区| 独山县| 古丈县| 曲阳县| 东安县| 巴林左旗| 富锦市| 都江堰市| 宣城市| 石渠县| 南通市| 宜章县| 容城县| 鄂伦春自治旗| 察隅县| 合阳县| 汨罗市|