數(shù)據(jù)管理系統(tǒng)發(fā)展趨勢與挑戰(zhàn)

2023-09-21 08:47韓銀俊HANYinjun牛家浩NIUJiahao屠要峰TUYaofeng

中興通訊技術(shù) 2023年4期

關(guān)鍵詞：數(shù)據(jù)管理架構(gòu)管理系統(tǒng)

韓銀俊/HAN Yinjun，牛家浩/NIU Jiahao，屠要峰/TU Yaofeng

（1. 中興通訊股份有限公司，中國深圳 518057；2. 移動網(wǎng)絡和移動多媒體技術(shù)國家重點實驗室，中國深圳 518055 ）

數(shù)據(jù)作為新型生產(chǎn)要素，對傳統(tǒng)生產(chǎn)方式變革具有重大影響，要構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的數(shù)字經(jīng)濟。數(shù)據(jù)、算法、算力是數(shù)字經(jīng)濟時代核心的3個要素。其中，數(shù)據(jù)具有可共享、可復制、可無限供給等特征，是推動數(shù)字經(jīng)濟發(fā)展的關(guān)鍵生產(chǎn)要素，已上升到國家戰(zhàn)略高度。

隨著應用需求的發(fā)展，數(shù)據(jù)管理系統(tǒng)也在不斷完善，每10 年會出現(xiàn)一次比較大的技術(shù)變革，產(chǎn)品形態(tài)不斷繁榮發(fā)展——從20 世紀60 年代的文件系統(tǒng)、數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖發(fā)展到現(xiàn)在的湖倉一體，產(chǎn)業(yè)規(guī)模也在持續(xù)擴大。數(shù)據(jù)管理系統(tǒng)如今已在各個行業(yè)得到廣泛應用，成為數(shù)字經(jīng)濟不可或缺的通用基礎設施。

隨著信息技術(shù)的高速發(fā)展和數(shù)據(jù)量的迅速膨脹，大規(guī)模、高性能的新型數(shù)據(jù)管理系統(tǒng)不斷涌現(xiàn)。云基礎設施的逐漸成熟以及企業(yè)用戶需求的推動，使得云原生數(shù)據(jù)管理系統(tǒng)近年來蓬勃發(fā)展，催生出各類基于云架構(gòu)的數(shù)據(jù)管理服務。人工智能（AI）技術(shù)和數(shù)據(jù)管理技術(shù)相輔相成：AI技術(shù)越來越多地應用在數(shù)據(jù)管理系統(tǒng)的計算、存儲和運維等方面，數(shù)據(jù)管理系統(tǒng)為AI 訓練和推理提供高效的數(shù)據(jù)服務。異構(gòu)處理器、新型存儲和網(wǎng)絡技術(shù)的快速發(fā)展，正在改變數(shù)據(jù)管理系統(tǒng)依賴的底層環(huán)境，給數(shù)據(jù)管理與分析技術(shù)的發(fā)展帶來新的機遇與挑戰(zhàn)。湖倉一體為用戶提供的數(shù)據(jù)管理平臺不僅具有數(shù)據(jù)倉庫的結(jié)構(gòu)化和治理優(yōu)點，還擁有數(shù)據(jù)湖的擴展性和機器學習的便利性。數(shù)據(jù)要素的可信流通使得數(shù)據(jù)安全成為熱點。如何保證數(shù)據(jù)的安全和隱私成為數(shù)據(jù)管理系統(tǒng)的關(guān)鍵訴求。

1 數(shù)據(jù)管理技術(shù)的迭代變遷

數(shù)據(jù)管理是計算機科學中一個非常重要的領(lǐng)域，涉及大量的技術(shù)創(chuàng)新和研究成果。該領(lǐng)域共獲得5 次計算機圖靈獎，并衍生出網(wǎng)狀層次數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、NoSQL（指非關(guān)系型數(shù)據(jù)庫）、NewSQL（指新型關(guān)系型數(shù)據(jù)庫）、數(shù)據(jù)湖、湖倉一體等面向不同場景、具有多種形態(tài)的數(shù)據(jù)管理系統(tǒng)。如圖1所示，以應用需求變更為主線，數(shù)據(jù)管理系統(tǒng)的發(fā)展歷程分為信息化初期、互聯(lián)網(wǎng)時代、云計算時代3個階段。

▲圖1 數(shù)據(jù)管理技術(shù)的迭代變遷

在信息化初期階段，數(shù)據(jù)管理系統(tǒng)主要針對少量、結(jié)構(gòu)化數(shù)據(jù)進行管理。第1 代數(shù)據(jù)管理系統(tǒng)是網(wǎng)狀層次數(shù)據(jù)庫。網(wǎng)狀層次數(shù)據(jù)庫很好地解決了數(shù)據(jù)集中和共享問題，但是在易用性、數(shù)據(jù)獨立性和抽象方面仍有很大欠缺[1]。1970 年，IBM 提出數(shù)據(jù)關(guān)系模型的概念[2]。關(guān)系模型把現(xiàn)實世界抽象為二維表，借助關(guān)系代數(shù)的集合運算和關(guān)系運算，具有強大的查詢表達能力，有力地支撐了信息化初期的數(shù)據(jù)管理需求。因此，關(guān)系模型迅速取代了層次模型和網(wǎng)狀模型，成為數(shù)據(jù)庫事實標準。早期的關(guān)系數(shù)據(jù)庫主要面向?qū)崟r交易，支持多并發(fā)、快速增刪改查。這類應用被稱為聯(lián)機事務處理（OLTP）[3]。20 世紀90 年代中期，以MySQL、PostgreSQL 為代表的OLTP開源數(shù)據(jù)庫迅猛發(fā)展。早期MySQL抓住了開源LAMP（指Linux-Apache-MySQL-PHP）架構(gòu)的先機，在互聯(lián)網(wǎng)的快速發(fā)展中獲得廣泛應用。近年來，由于擁有更強大的技術(shù)先進性和更友好的開源協(xié)議，PostgreSQL發(fā)展勢頭強勁。隨著累積的歷史數(shù)據(jù)越來越多，如何讓這些數(shù)據(jù)發(fā)揮更大的作用是一個亟待解決的問題。1991年B. INMON提出了數(shù)據(jù)倉庫建設方法。1993 年E. F. CODD 提出聯(lián)機分析處理（OLAP）[4]的概念，以便滿足決策支持、報表展示以及多維數(shù)據(jù)查詢的需求。

20 世紀90 年代，隨著互聯(lián)網(wǎng)的快速發(fā)展，數(shù)據(jù)量急劇增加。嚴格的事務一致性要求制約了關(guān)系數(shù)據(jù)庫的系統(tǒng)擴展能力，使得低成本的彈性擴展成為數(shù)據(jù)庫的首要需求。在此背景下，以Google 為代表的互聯(lián)網(wǎng)公司開發(fā)了NoSQL 數(shù)據(jù)庫，在犧牲數(shù)據(jù)庫的事務特性和某些結(jié)構(gòu)化查詢語言（SQL）功能的前提下獲得了較強的可擴展性。NoSQL 泛指非關(guān)系型數(shù)據(jù)庫，不同的NoSQL 數(shù)據(jù)庫有不同查詢語言，難以統(tǒng)一應用程序接口，不具備結(jié)構(gòu)化查詢功能。為了解決這些問題，NewSQL[5]數(shù)據(jù)庫被提出。NewSQL 是各種新的可擴展和高性能數(shù)據(jù)庫的簡稱，這類數(shù)據(jù)庫在具有高可擴展性的同時，又保留了傳統(tǒng)關(guān)系數(shù)據(jù)庫的原子性、一致性、隔離性、持久性（ACID）等特性。由于互聯(lián)網(wǎng)的高速發(fā)展，數(shù)據(jù)越來越多，數(shù)據(jù)類型也越來越豐富，傳統(tǒng)數(shù)據(jù)庫存不下、無法建模、無法及時入庫等問題逐漸凸顯。在此背景下，Google 相繼提出GFS[6]、MapReduce[7]和Bigtable[8]，開啟了大數(shù)據(jù)時代。2006年開源生態(tài)Hadoop[9]的誕生，改變了企業(yè)對數(shù)據(jù)的存儲、處理和分析的過程，加速了大數(shù)據(jù)的發(fā)展，帶來了行業(yè)變革。

隨著云計算的發(fā)展，數(shù)據(jù)形式及應用場景變得更加多樣化。數(shù)據(jù)管理系統(tǒng)需要基于云計算基礎設施提供更加靈活、高效、可靠、安全的解決方案。云原生數(shù)據(jù)管理是基于云計算架構(gòu)而設計和構(gòu)建的，充分利用云基礎設施的能力，具備彈性伸縮、多租戶、分布式部署等特性，滿足多源異構(gòu)的大規(guī)模數(shù)據(jù)處理需求。實時推薦、即時決策等場景提出了海量數(shù)據(jù)聯(lián)機處理與實時分析的需求。實時數(shù)據(jù)倉庫和流式計算引擎（Storm[10]、 Spark Streaming[11]、Flink[12]）等應運而生，可滿足一些實時性要求高的場景。Hadoop 因生態(tài)復雜、事務支持能力弱、交付及運維成本高，無法替代核心數(shù)倉，逐漸形成了自身特殊的定位——數(shù)據(jù)湖（Data Lake）。數(shù)據(jù)湖[13]是一種數(shù)據(jù)存儲方法，即在系統(tǒng)或存儲庫中以自然格式存儲數(shù)據(jù)的方法，通常是企業(yè)中全量數(shù)據(jù)的單一存儲，可提供各類報表、數(shù)據(jù)可視化、高級分析和機器學習等服務。數(shù)據(jù)湖提供了更為完善的數(shù)據(jù)管理能力，但仍無法滿足用戶在性能、事務等方面的要求。2020年Databricks提出了Lakehouse 和面向湖倉一體的體系架構(gòu)[14]。Lakehouse 是由Data Lakes 與Data Warehouses 組合而成的一種新的數(shù)據(jù)架構(gòu)，目的是打破數(shù)據(jù)湖與數(shù)據(jù)倉庫割裂的關(guān)系，結(jié)合數(shù)據(jù)倉庫企業(yè)級能力與數(shù)據(jù)湖的靈活性，同時滿足商業(yè)智能（BI）與AI 兩類場景需求。湖倉一體要在數(shù)據(jù)處理方面實現(xiàn)數(shù)據(jù)湖和數(shù)據(jù)倉庫的互通，是數(shù)據(jù)一體化思想的體現(xiàn)。隨著數(shù)據(jù)要素的流通和發(fā)展，湖倉一體將被賦予更多的含義和價值。

由數(shù)據(jù)管理技術(shù)60 多年的迭代變遷歷程可以看出，計算模式的改變和應用需求的變化，對數(shù)據(jù)管理系統(tǒng)形態(tài)的發(fā)展起到了至關(guān)重要的作用，數(shù)據(jù)管理技術(shù)和架構(gòu)也隨之不斷迭代更新。在負載特征方面，針對不同業(yè)務場景的數(shù)據(jù)管理系統(tǒng)不斷涌現(xiàn)，包括聯(lián)機事務處理（OLTP）、聯(lián)機分析處理（OLAP）、混合事務分析處理（HTAP），以及面向流批計算和湖倉融合的數(shù)據(jù)處理；在數(shù)據(jù)模式方面，數(shù)據(jù)模型從關(guān)系型向非關(guān)系型拓展，包括鍵值、文檔、圖、列族和時序等；在系統(tǒng)架構(gòu)方面，傳統(tǒng)單機數(shù)據(jù)庫通過主從復制的方式滿足數(shù)據(jù)庫的可用性，而分布式和多主架構(gòu)則進一步滿足數(shù)據(jù)管理容量和性能的需求。此外，云計算和AI 的普及，使得數(shù)據(jù)管理更具彈性和智能。

2 數(shù)據(jù)管理的關(guān)鍵技術(shù)及挑戰(zhàn)

近年來，云原生、AI、新型硬件、安全隱私以及大模型等技術(shù)迅速發(fā)展，為數(shù)據(jù)管理系統(tǒng)的創(chuàng)新帶來機遇和挑戰(zhàn)[15]。利用新型交叉學科技術(shù)構(gòu)建的新一代數(shù)據(jù)管理基礎設施正在興起。

2.1 云原生數(shù)據(jù)管理

隨著云基礎設施的逐漸成熟以及企業(yè)用戶需求的推動，云原生數(shù)據(jù)管理近年來得到了蓬勃發(fā)展，催生出各類基于云架構(gòu)的數(shù)據(jù)管理服務。目前云數(shù)據(jù)庫包含數(shù)據(jù)庫云服務和云原生數(shù)據(jù)庫兩大類。數(shù)據(jù)庫云服務主要采用云托管的形式，即云服務商將數(shù)據(jù)庫看作一種部署到云平臺的普通軟件，在架構(gòu)層面沒有質(zhì)變，無法充分復用云平臺的強大能力，存在計算存儲緊耦合、數(shù)據(jù)存儲冗余、同步延時嚴重等問題。云原生數(shù)據(jù)庫則是為云架構(gòu)而原生設計的數(shù)據(jù)庫。Amazon Aurora[16]和Snowflake[17]分別是云原生OLTP 數(shù)據(jù)庫和云原生OLAP數(shù)據(jù)庫的全球引領(lǐng)者。云原生數(shù)據(jù)庫采用計算存儲分離的架構(gòu)，遵循“日志即數(shù)據(jù)”的原則，計算層能夠自動實現(xiàn)讀寫分離，擴縮容過程對上層透明，存儲層采用分布式高可用存儲系統(tǒng)，該架構(gòu)實現(xiàn)了獨立的計算節(jié)點彈性伸縮和存儲節(jié)點彈性擴縮容，進而提升了數(shù)據(jù)庫性價比。

通過存儲與計算分離，云原生數(shù)據(jù)庫很好地解決了數(shù)據(jù)庫云服務的高可靠、高可用和高可擴展性問題，但還存在諸多挑戰(zhàn)：首先，存儲和計算分離帶來存儲和計算之間訪問時延的開銷；其次，當前云原生數(shù)據(jù)庫基本都只支持一寫多讀，不能實現(xiàn)多節(jié)點寫，造成了寫擴展性受限，特別是不能支持對寫需求大的應用；此外，當前云原生數(shù)據(jù)庫往往是針對一種負載類型設計的，對于HTAP的混合負載數(shù)據(jù)庫缺乏有效的支持。

為了應對上述挑戰(zhàn)，中興通訊基于電信云基礎設施（TCF）研發(fā)了云原生數(shù)據(jù)庫EBASE-C 和云原生數(shù)據(jù)倉庫EBASE-A。EBASE-C 采用存儲與計算分離架構(gòu)，利用全局事務處理模塊，將多個節(jié)點讀寫的事務ID 的分配和事務并發(fā)控制進行統(tǒng)一協(xié)調(diào)處理，支持基于多節(jié)點的讀寫功能，提升了數(shù)據(jù)庫的讀寫擴展性；引入全局緩存，通過高性能的網(wǎng)絡把各個節(jié)點的共享緩沖池連成一個整體，并對外提供高效、一致的緩存服務，減少了網(wǎng)絡數(shù)據(jù)傳輸；在計算節(jié)點之間僅同步Redo Log相關(guān)的元數(shù)據(jù)信息，降低了節(jié)點間的復制延遲。EBASE-A 在計算層引入向量化加速引擎，利用指令集的原生加速實現(xiàn)高效OLAP 查詢，借助算子下推能力將SQL 操作下推到存儲層中，在存儲層過濾掉不必要的數(shù)據(jù)，減少了計算節(jié)點和存儲節(jié)點之間數(shù)據(jù)傳輸?shù)拈_銷；在存儲層采用行列混合的存儲方式，支持數(shù)據(jù)壓縮，有效支持了HTAP混合負載的訪問；利用統(tǒng)一元數(shù)據(jù)架構(gòu)，提供統(tǒng)一數(shù)據(jù)資產(chǎn)視圖，管理全局事務和全局對象，打破了數(shù)據(jù)湖與數(shù)據(jù)倉庫之間的界限，實現(xiàn)了湖倉一體化實時分析。

Serverless 是云原生數(shù)據(jù)管理的下一個階段，通過隱藏服務器，提供突出的彈性伸縮和按需服務能力，兼容處理各種類型的負載，實現(xiàn)更細粒度、更精準的資源調(diào)度。

2.2 智能化數(shù)據(jù)管理

傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)在大規(guī)模服務、性能調(diào)優(yōu)和運維管理等方面面臨很多挑戰(zhàn)。AI 技術(shù)因其強大的學習、推理、規(guī)劃能力，為數(shù)據(jù)管理提供了新的發(fā)展機遇。AI 賦能的數(shù)據(jù)管理技術(shù)得到了廣泛關(guān)注。

以AI4DB 為代表的智能化數(shù)據(jù)管理將AI 技術(shù)應用到數(shù)據(jù)管理領(lǐng)域，提供自檢測、自配置、自調(diào)優(yōu)、自診斷、自愈、自安全和自組裝等功能。從AI 與數(shù)據(jù)管理系統(tǒng)的作用關(guān)系看，AI4DB 分為外置AI 優(yōu)化和內(nèi)置AI 優(yōu)化。其中，外置AI 優(yōu)化主要充當數(shù)據(jù)庫管理員（DBA）的角色，對數(shù)據(jù)庫進行調(diào)優(yōu)和診斷，包括參數(shù)配置、參數(shù)調(diào)優(yōu)、SQL 改寫、索引推薦、根因分析等；內(nèi)置AI 優(yōu)化則包括基數(shù)估計、查詢優(yōu)化和學習型索引等。基數(shù)估計是數(shù)據(jù)管理系統(tǒng)查詢優(yōu)化的一大核心問題，更精確的基數(shù)估計能夠幫助優(yōu)化器選擇更優(yōu)的查詢計劃。AI 驅(qū)動的學習型基數(shù)估計方法將基數(shù)估計作為回歸問題，該類方法收集具有真實基數(shù)（作為標簽的查詢池），提取查詢特征并將它們編碼為向量，隨后訓練模型并將查詢映射到基數(shù)。在推理時，查詢被編碼為特征向量，通過輸入回歸模型得出基數(shù)估計結(jié)果。由AI 驅(qū)動的學習型查詢優(yōu)化器受到研究者的廣泛關(guān)注。Neo[18]是第一個學習型查詢優(yōu)化器，通過強化學習方法生成延遲最低的執(zhí)行計劃。這類優(yōu)化器能夠以更少的代價取得更好的性能。麻省理工學院首次提出學習型索引[19]概念，使用機器學習模型替代傳統(tǒng)的索引結(jié)構(gòu)。學習型索引可以大幅降低傳統(tǒng)索引的空間代價，提高查詢性能。

中興通訊-北京大學聯(lián)合實驗室圍繞智能化數(shù)據(jù)管理進行創(chuàng)新和實踐，研發(fā)了智能化數(shù)據(jù)管理模塊DBRobot，如圖2所示。

▲圖2 中興智能化數(shù)據(jù)管理模塊DBRobot

DBRobot 包括外置智能優(yōu)化和內(nèi)核智能優(yōu)化兩大功能。外置智能優(yōu)化實現(xiàn)了業(yè)務無感一鍵式診斷優(yōu)化，包括智能監(jiān)控、智能診斷、智能優(yōu)化和數(shù)據(jù)庫（DB）大模型4個部分。其中，智能監(jiān)控模塊采集日志和參數(shù)等多維指標，進行趨勢預測和異常檢測，對發(fā)現(xiàn)的異常及時告警；智能診斷模塊通過細粒度性能診斷、異常分析和多指標關(guān)聯(lián)分析等手段實現(xiàn)慢SQL診斷、系統(tǒng)亞健康診斷和系統(tǒng)故障診斷，識別問題根因；智能優(yōu)化模塊針對問題根因通過智能參數(shù)調(diào)優(yōu)、索引智能推薦、SQL 智能重寫等技術(shù)，排除診斷出的故障；DB 大模型模塊利用大語言模型的上下文學習和思維鏈能力實現(xiàn)數(shù)據(jù)庫的智能問答、智能運維和Text-To-SQL等功能。

內(nèi)核智能優(yōu)化聚焦AI4DB和DB4AI兩個方向。在AI4DB方向，EBASE 實現(xiàn)了基于AI 的查詢優(yōu)化器LOGER[20]。LOGER 使用深度強化學習方法，在搜索過程中對部分查詢計劃進行評價，并生成完整的查詢計劃。在DB4AI方向，引入支持向量計算的訓練算子，可實現(xiàn)庫內(nèi)數(shù)據(jù)訓練和訓練模型的存儲；引入模型調(diào)用接口，使庫內(nèi)數(shù)據(jù)能夠在查詢后進行推理分析。

ChatGPT 引發(fā)的大模型浪潮，催生了向量數(shù)據(jù)的存儲、檢索需求。傳統(tǒng)的數(shù)據(jù)庫索引結(jié)構(gòu)難以有效地處理向量之間的相似度搜索和鄰近性查詢。向量數(shù)據(jù)庫應運而生。向量數(shù)據(jù)庫的核心思想是：將向量和對應的標識符存儲在數(shù)據(jù)庫中，并構(gòu)建索引以加速相似度搜索，滿足如圖像檢索、推薦系統(tǒng)、人臉識別和語義搜索等應用的需求。中興通訊向量數(shù)據(jù)庫EBASE-Vector 能夠高效地解決向量相似度檢索和高密度向量聚類等問題，支持拍字節(jié)（PB）級向量數(shù)據(jù)的管理，通過與大模型技術(shù)和LangChain 生態(tài)的融合，在高效存儲和檢索向量數(shù)據(jù)的同時，使得AI 應用開發(fā)更加高效便捷。中興通訊EBASE 在大模型與數(shù)據(jù)管理融合領(lǐng)域持續(xù)創(chuàng)新，發(fā)布了業(yè)界領(lǐng)先的數(shù)據(jù)庫大模型Nebula-EBASE。該模型具備Text-To-SQL、智能問答和智能運維等能力。

近幾年，AI 技術(shù)被廣泛應用在數(shù)據(jù)管理領(lǐng)域中?？傮w上講，AI 在智能運維和系統(tǒng)管理方面的應用較為成熟，但在系統(tǒng)內(nèi)核的智能化和DB4AI方面還需要不斷探索。

2.3 新型硬件適配

數(shù)據(jù)管理系統(tǒng)在基礎硬件和上層軟件之間起到“承上啟下”的作用，向上支撐上層應用，向下發(fā)揮硬件算力作用。以高性能處理器和硬件加速器、非易失內(nèi)存（NVM）和遠程直接內(nèi)存訪問（RDMA）高性能網(wǎng)絡為代表的新硬件技術(shù)，正在改變傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)的底層載體支撐。數(shù)據(jù)管理系統(tǒng)將向異構(gòu)計算架構(gòu)、混合存儲環(huán)境和高性能互聯(lián)網(wǎng)絡逐步演進[21]。在存儲層面，按字節(jié)存取的持久內(nèi)存（PMEM）在提供更高的事務吞吐量的同時，也引入了一致性挑戰(zhàn)。如何針對PMEM的特性管理設計高效的索引結(jié)構(gòu)是一個關(guān)鍵問題。在網(wǎng)絡層面，RDMA極大降低了主機間數(shù)據(jù)傳輸?shù)臅r延，有效改善了分布式系統(tǒng)的運行環(huán)境。但由于RDMA在內(nèi)存之間直接訪問，系統(tǒng)設計需要重新考慮如何有效管理和分配內(nèi)存資源，對事務一致性也提出了更高的要求。在計算層面，眾核高性能處理器和各類硬件加速器，例如圖形處理器（GPU）、現(xiàn)場可編程門陣列（FPGA）等，已被廣泛用于加速處理數(shù)據(jù)。在系統(tǒng)設計時需要重新優(yōu)化計算模型，以充分利用異構(gòu)處理器的并行計算能力，面臨著任務劃分、資源調(diào)度、數(shù)據(jù)分發(fā)和算法優(yōu)化等方面的挑戰(zhàn)。

中興通訊EBASE 圍繞新型硬件技術(shù)和軟硬協(xié)同進行創(chuàng)新研發(fā)。在PMEM 適配方面，EBASE 繞過原有的文件系統(tǒng)內(nèi)核輸入輸出（IO）層，直接對PMEM 進行操作，實現(xiàn)了PMEM原生的日志機制和存儲引擎。針對PMEM跨非統(tǒng)一內(nèi)存訪問（NUMA）帶來的數(shù)據(jù)訪問性能下降問題，EBASE實現(xiàn)了NUMA感知的數(shù)據(jù)訪問機制，能夠?qū)⑼粋€NUMA節(jié)點內(nèi)的中央處理器（CPU）和PMEM 設備進行綁定，確保了數(shù)據(jù)訪問的局部性。EBASE 利用PMEM 大容量來擴大內(nèi)存空間，基于DRAM/PMEM 兩級內(nèi)存的緩沖區(qū)，實現(xiàn)熱度感知的高速緩沖，提高系統(tǒng)查詢處理的性能。在異構(gòu)處理器加速方面，EBASE采用與CPU協(xié)作的加速器方式，將Join、Agg、Scan 等算子或算子組合卸載到異構(gòu)處理器FPGA 設備上，與CPU 協(xié)同完成查詢語句的執(zhí)行。如圖3 所示，異構(gòu)加速架構(gòu)通過加速擴展層實現(xiàn)異構(gòu)算子路徑注冊、異構(gòu)算子調(diào)用、數(shù)據(jù)傳輸?shù)裙δ埽刹樵儍?yōu)化器自動選擇最優(yōu)的物理計劃，無須上層業(yè)務干預，實現(xiàn)了異構(gòu)加速與數(shù)據(jù)管理系統(tǒng)的無縫集成。

▲圖3 異構(gòu)加速架構(gòu)示意圖

新的硬件還在不斷發(fā)展演進，以CXL[22]為代表的高速總線協(xié)議將有效提升處理器和設備之間的內(nèi)存互聯(lián)互通的效率，將帶來更大的內(nèi)存擴展空間。如何對此進行軟件層面的優(yōu)化和適配，是數(shù)據(jù)管理系統(tǒng)后續(xù)的改進方向。

2.4 湖倉融合的數(shù)據(jù)一體化

湖倉一體是新的概念，目前并沒有統(tǒng)一且成熟的定義。各大廠商均對湖倉一體進行探索和實踐。有些廠商基于數(shù)據(jù)湖架構(gòu)對數(shù)據(jù)倉庫進行能力擴展，通過在開放文件存儲格式之上構(gòu)建一套表格式Table Format 和元數(shù)據(jù)管理系統(tǒng)，使數(shù)據(jù)湖具備ACID事務能力，并提高了數(shù)據(jù)管理水平，如開源系統(tǒng)Apache Iceberg[23]、Apache Hudi[24]、DeltaLake[25]。有些廠商推出的方案基于數(shù)據(jù)倉庫向數(shù)據(jù)湖能力擴展，通過各種連接器以外部表的方式訪問數(shù)據(jù)湖底層存儲系統(tǒng)中的數(shù)據(jù)，多采用存算分離的架構(gòu)來完善自身的調(diào)度、計算、存儲功能，擴展自身的能力，使自身形成一個數(shù)據(jù)處理平臺。相關(guān)的技術(shù)方向往往更注重實時高并發(fā)場景應用和非結(jié)構(gòu)化數(shù)據(jù)治理。

湖倉一體在成本和性能上還不足以與傳統(tǒng)成熟的大數(shù)據(jù)存儲解決方案競爭，成熟的產(chǎn)品和系統(tǒng)較少。在海量存儲上搭建能夠保證ACID的高性能湖倉一體架構(gòu)仍然是主要挑戰(zhàn)。在湖倉存儲層，隨著文件數(shù)量大幅增長，數(shù)據(jù)湖存儲Hadoop分布式文件系統(tǒng)（HDFS）的NameNode節(jié)點遇到了元數(shù)據(jù)容量瓶頸，這限制了湖倉存儲能力。同時，大集群的NameNode 啟動速度非常緩慢，其全局鎖處理機制大大限制了并發(fā)訪問能力。湖倉元數(shù)據(jù)和計算層面臨著ACID事務性能提升、高效并發(fā)更新及寫入、海量元數(shù)據(jù)管理、查詢優(yōu)化等方面的挑戰(zhàn)[26-28]。

湖倉一體不僅僅在數(shù)據(jù)處理上將數(shù)據(jù)湖和數(shù)據(jù)倉庫互相打通，還實現(xiàn)了數(shù)據(jù)一體化。通過整合大數(shù)據(jù)、數(shù)據(jù)倉庫、AI 等技術(shù)，中興通訊研發(fā)了新一代面向湖倉融合的數(shù)據(jù)管理系統(tǒng)DAIP。DAIP 兼顧性能和成本效率，通過以表格式Table Format 為代表的新技術(shù)，將數(shù)據(jù)湖和數(shù)據(jù)倉庫功能融合，實現(xiàn)一體化存儲，形成一套基于統(tǒng)一元數(shù)據(jù)的數(shù)據(jù)服務系統(tǒng)；結(jié)合云原生技術(shù)，采用存算分離架構(gòu)，提供統(tǒng)一開放的存儲接口；對接多樣的計算引擎，實現(xiàn)存儲和計算靈活部署，實現(xiàn)資源按需使用。DAIP 能夠有效簡化企業(yè)的數(shù)據(jù)基礎設施架構(gòu)，讓數(shù)據(jù)管理的靈活性與成長性得到了統(tǒng)一。DAIP 架構(gòu)如圖4 所示，其中虛線內(nèi)功能模塊表示中興通訊自主研發(fā)的功能或者在開源基礎上實現(xiàn)的增強功能。

▲圖4 新一代面向湖倉融合的數(shù)據(jù)管理系統(tǒng)架構(gòu)圖

DAIP 基于自研大容量分布式元數(shù)據(jù)持久化技術(shù)，突破了原生NameNode 元數(shù)據(jù)全內(nèi)存架構(gòu)的限制，縱向擴展了單NameNode節(jié)點的元數(shù)據(jù)容量。目前，單個NameNode可支持的文件數(shù)量達到百億以上，與原生聯(lián)邦橫向擴展架構(gòu)兼容。二者疊加可滿足千億級文件存儲的需求，有效應對大容量湖倉存儲挑戰(zhàn)。在流處理場景下應用不斷向數(shù)據(jù)湖表中數(shù)據(jù)插入數(shù)據(jù)或者進行merge、update 等操作時，會產(chǎn)生大量的小文件。過多的小文件會導致計算引擎的查詢過程變慢，并且會引起系統(tǒng)擴展性和穩(wěn)定性問題。DAIP 研發(fā)了數(shù)據(jù)湖治理功能，支持壓縮合并表文件、物理老化和孤兒文件清理等，實現(xiàn)了自動數(shù)據(jù)布局和優(yōu)化，以保持文件訪問最佳性能，將查詢運行時間和占用存儲容量減少了10%以上。圍繞大規(guī)模元數(shù)據(jù)管理及查詢優(yōu)化技術(shù)進行創(chuàng)新和實踐，DAIP 構(gòu)建了一個面向湖倉融合的低成本索引系統(tǒng)，為湖倉不同計算引擎提供統(tǒng)一計算加速能力。通過將元數(shù)據(jù)管理與數(shù)據(jù)管理同等看待，以分布式方式管理和處理元數(shù)據(jù)，該系統(tǒng)可以存儲非常豐富的元數(shù)據(jù)并擴展到非常大的表，可同時嵌入到多個計算引擎中，結(jié)合查詢優(yōu)化技術(shù)允許各個計算引擎直接跳過無關(guān)文件，以提升實時數(shù)據(jù)分析及查詢效率。

湖倉一體技術(shù)仍在不斷迭代發(fā)展。中興通訊新一代面向湖倉融合的數(shù)據(jù)管理系統(tǒng)將以提升用戶體驗為目標，為湖倉提供更大的容量、更快的速度、更好的穩(wěn)定性，并構(gòu)建智能數(shù)倉、流式數(shù)倉等外圍生態(tài)，在數(shù)字經(jīng)濟建設中發(fā)揮更重要的作用。

2.5 數(shù)據(jù)要素可信流通

數(shù)據(jù)作為新型生產(chǎn)要素，是數(shù)字化、智能化的基礎，已快速融入生產(chǎn)、分配、流通、消費和服務等各環(huán)節(jié)。如何保證不同場景下數(shù)據(jù)要素安全可信流通，構(gòu)建數(shù)據(jù)治理新體系，是工業(yè)界與學術(shù)界研究的熱點問題。

隱私計算[29]是涵蓋眾多學科的交叉融合技術(shù)，目前主流的隱私計算技術(shù)主要分為三大方向：1）以多方安全計算為代表并基于密碼學的隱私計算技術(shù)；2）AI與隱私保護融合而衍生的技術(shù)；3）以可信執(zhí)行環(huán)境為代表并基于可信硬件的隱私計算技術(shù)。借助隱私計算機制，在技術(shù)層面可通過隱私計算技術(shù)，從數(shù)據(jù)采集、存儲、協(xié)作等方面提升數(shù)據(jù)安全和隱私保護水平，保護數(shù)據(jù)全生命周期的安全，將數(shù)據(jù)所有權(quán)與使用權(quán)分離，使計算過程中不發(fā)生數(shù)據(jù)所有權(quán)的轉(zhuǎn)移，從而實現(xiàn)“數(shù)據(jù)可用不可見”，為數(shù)據(jù)要素安全可信流通提供有力支撐。如何保證數(shù)據(jù)不受惡意篡改是數(shù)據(jù)維護中關(guān)乎數(shù)據(jù)安全的基礎性問題。隨著數(shù)據(jù)規(guī)模的不斷增長和云服務的逐漸普及，傳統(tǒng)防篡改機制難以適應在復雜環(huán)境下對大規(guī)模數(shù)據(jù)的保護要求。如何構(gòu)建高效的數(shù)據(jù)防篡改機制，如何在不可信環(huán)境下保護數(shù)據(jù)安全，都是亟待解決的問題。不可篡改性、去中心化、可追溯性等特性保證了區(qū)塊鏈能在不可信環(huán)境中構(gòu)建可信的計算環(huán)境。

中興通訊結(jié)合自身在區(qū)塊鏈和隱私計算領(lǐng)域的多年深耕與積淀，提出數(shù)據(jù)要素可信流通1+2+3+N架構(gòu)[30]，成功實現(xiàn)了兩者的融合部署應用，如圖5所示。

▲圖5 中興通訊數(shù)據(jù)要素可信流通平臺“1+2+3+N”架構(gòu)

隱私計算技術(shù)能解決區(qū)塊鏈的擴展和隱私保護問題，區(qū)塊鏈技術(shù)也能使得隱私計算技術(shù)更加安全、更加可信賴。通過兩者結(jié)合，中興通訊進一步拓展了各個垂直行業(yè)應用的場景，實現(xiàn)了數(shù)據(jù)在存儲、流通和計算過程中端到端的安全和可審計，為數(shù)據(jù)要素可靠、安全、合規(guī)和高效流通奠定了扎實技術(shù)基礎。

3 數(shù)據(jù)管理技術(shù)發(fā)展展望

回顧數(shù)據(jù)管理60 年的發(fā)展歷程，計算模式和應用需求的變化對數(shù)據(jù)管理系統(tǒng)形態(tài)產(chǎn)生了重要影響，推動了數(shù)據(jù)管理架構(gòu)和技術(shù)迭代更新。近年來，全球數(shù)據(jù)管理新技術(shù)蓬勃發(fā)展，但仍然存在兩個亟待解決的問題：1）數(shù)據(jù)規(guī)模高速增長，計算處理能力依然是主要瓶頸；2）數(shù)據(jù)雖上升為生產(chǎn)要素，但數(shù)據(jù)價值釋放不充分。

全球數(shù)據(jù)量的持續(xù)高速增長，“碳達峰、碳中和”目標的提出，都要求數(shù)據(jù)域技術(shù)棧必須走低碳高效、可持續(xù)發(fā)展的路線。因此，高能效數(shù)據(jù)管理技術(shù)是可持續(xù)發(fā)展的關(guān)鍵。云數(shù)據(jù)管理系統(tǒng)具有資源共享、節(jié)能高效的特點，將是未來數(shù)據(jù)管理的主要基礎形態(tài)。數(shù)據(jù)管理與處理的成本成為重要考量因素。數(shù)據(jù)管理系統(tǒng)的設計理念從傳統(tǒng)的“擴展性優(yōu)先”向“以性能優(yōu)先”轉(zhuǎn)變。智能化數(shù)據(jù)管理、近數(shù)處理、新型硬件驅(qū)動等新興管理和處理方法，成為性能優(yōu)先設計的重要技術(shù)手段。GPU、FPGA、深度學習處理器（DPU）等專用加速器從專用領(lǐng)域走向通用計算，對數(shù)據(jù)管理技術(shù)產(chǎn)生重要影響，特別是在高維數(shù)據(jù)分析和大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)處理方面。近年來，不少國家在云數(shù)據(jù)管理的基礎上開始探索國家范圍內(nèi)的一體化高能效數(shù)據(jù)管理。中國提出了算力網(wǎng)絡的概念并制定相關(guān)國際標準，正式啟動“東數(shù)西算”工程。由于算力和數(shù)據(jù)要素的大規(guī)模調(diào)度與流通，如何在云數(shù)據(jù)管理基礎上進行云、邊、端以及多云之間數(shù)據(jù)和計算的協(xié)同，實現(xiàn)全國一體化的高能效數(shù)據(jù)管理，形成低碳發(fā)展新格局，成為未來數(shù)據(jù)管理的主要方向。

在海量數(shù)據(jù)和豐富應用場景的驅(qū)動下，更多的數(shù)據(jù)技術(shù)和應用創(chuàng)新將全面落地。數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)流通、數(shù)據(jù)開發(fā)利用、數(shù)據(jù)安全保護等各方面將協(xié)同推進。數(shù)據(jù)要素規(guī)?；a(chǎn)業(yè)集群和規(guī)范化產(chǎn)業(yè)生態(tài)將逐步形成。數(shù)據(jù)要素的價值將得到充分挖掘和釋放，從而進一步促進數(shù)字經(jīng)濟和實體經(jīng)濟深度融合，助力數(shù)字經(jīng)濟高質(zhì)量可持續(xù)發(fā)展。中興通訊將持續(xù)致力于新型數(shù)據(jù)管理系統(tǒng)的研發(fā)，協(xié)同推動數(shù)據(jù)一體化、新硬件加速、智能化數(shù)據(jù)管理等新技術(shù)的快速商用落地，實現(xiàn)橫向跨域拉通和智能敏捷賦能，繁榮生態(tài)合作，助力客戶在數(shù)字經(jīng)濟時代建立可持續(xù)的競爭優(yōu)勢。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡