楊 柳
(國網(wǎng)上海市電力公司信息通信公司 上海 200072)
隨著我國科學技術水平的不斷提升,對于數(shù)據(jù)和科學實驗的發(fā)展速度也不斷加快,雖然當下信息和數(shù)據(jù)的存儲系統(tǒng)已經(jīng)具備可靠性、可用性和高效性優(yōu)勢,但是隨著數(shù)據(jù)總量的不斷增大,其數(shù)據(jù)的復雜性也隨之提升,引進溯源管理越發(fā)重要。
在溯源對象產(chǎn)生的數(shù)據(jù)收集、儲存以及分析過程中,技術人員經(jīng)常要對產(chǎn)生的數(shù)據(jù)和信息進行處理與發(fā)布。由于在實際的實驗過程中,數(shù)據(jù)總數(shù)產(chǎn)生規(guī)模較大,并且數(shù)據(jù)的整體結構相對來說比較復雜,加上可能沒有全部記錄其中的細節(jié),因此極易出現(xiàn)數(shù)據(jù)產(chǎn)生所使用的版本或者數(shù)據(jù)來源以及運算過程缺失,導致其流程或者環(huán)節(jié)缺乏準確性。利用對象存儲下的溯源收集技術,可以把最終結果作為運算的起源,并且精準地分辨數(shù)據(jù)在運算過程中產(chǎn)生的詳細數(shù)據(jù)參數(shù)。即使數(shù)據(jù)大部分缺失,利用溯源系統(tǒng)也能夠輕松地獲取未知的依賴集,并且以此為基礎,提供當前系統(tǒng)和數(shù)據(jù)依賴的注冊信息文件、文件結構系統(tǒng)所描述的運行結構等。由此可以得出相關結論,在實際的科研實驗或者數(shù)據(jù)計算過程中,依靠溯源收集系統(tǒng),可以有效地保障數(shù)據(jù)的準確性。
計算機的普及使科學研究以及數(shù)據(jù)的計算共享變得更加簡便,在技術人員進行相關的數(shù)據(jù)實驗以及操作之前,需要驗證相關的數(shù)據(jù)集合,進行系統(tǒng)的分辨,驗證所使用的數(shù)據(jù)集合在實際產(chǎn)生過程中的準確性[1]。溯源系統(tǒng)能夠有效地在數(shù)據(jù)儲存、整理以及分析方面協(xié)助技術人員,比如數(shù)據(jù)集合的版本信息、參數(shù)信息設置,以及數(shù)據(jù)集合過程中經(jīng)過一些步驟,重新生成的數(shù)據(jù)集合體等。
在數(shù)據(jù)進行運作和收集過程中,數(shù)據(jù)的安全至關重要。溯源系統(tǒng)可以精準地追溯數(shù)據(jù)系統(tǒng)攻擊的主要來源。用戶一旦對某些數(shù)據(jù)和系統(tǒng)操作識別出有害攻擊,就可以利用相關的技術措施通過溯源表格中的總體進程,尋找出實驗過程中攻擊區(qū)域的來源。除此之外,用戶還可以利用溯源系統(tǒng)表格,明確系統(tǒng)對于外部干涉可能面臨的危險,或者數(shù)據(jù)模糊問題,最終檢查出危險來源,從根本上保證科學實驗數(shù)據(jù)的安全性[2]。
(1)非結構存儲:對象存儲適用于存儲非結構化的數(shù)據(jù),我們?nèi)粘I钪幸姷降奈臋n、文本、圖片、XML、HTML、報表、音視頻信息等都是非結構化數(shù)據(jù)。據(jù)統(tǒng)計,自社交網(wǎng)絡發(fā)展以來,非結構化數(shù)據(jù)占總數(shù)據(jù)量的75%。
(2)多節(jié)點:以騰訊云對象存儲COS為例,COS的存儲機房遍布全球,簡單來說,不管你身處何地,都可以選擇將數(shù)據(jù)存儲在就近的機房,加快數(shù)據(jù)的傳輸訪問。
(3)扁平結構:對象存儲中沒有文件夾的概念,所有數(shù)據(jù)均存儲在同一個層級中,如上述介紹提到,對于存在對象存儲中的數(shù)據(jù),你不需要知道它存在哪里,只需要通過“憑證”就可以快速獲取數(shù)據(jù)。
(4)彈性擴容:對象存儲的容量是EB級以上的,這個容量還在不斷的上升,簡單來說,不管你有多少數(shù)據(jù),請放心的存,容量管夠!
對于溯源收集結構框架的設計需要利用科學、合理的方式,該系統(tǒng)主要由對象存儲客戶端和對象存儲結構設備端共同組成。其中對象存儲客戶端包括文件狀態(tài)技術分析、文件格式技術分析、文件應用程序audit等三個溯源模塊,并且分別對設備系統(tǒng)狀態(tài)、系統(tǒng)文件格式及系統(tǒng)普通應用程序執(zhí)行等相關的溯源信息進行全面收集,然后將所收集到的數(shù)據(jù)和溯源信息進行傳送,最終到達對象文件系統(tǒng)的終端。不影響溯源感知存儲系統(tǒng)卷上文件狀態(tài)的進程、管道以及非溯源感知存儲系統(tǒng)卷上的文件是非永久性對象,這些對象的湖源都是沒有利用價值的溯源。把有利用價值的洲源提取出來進行存儲可以減少對存儲空間的需求。本節(jié)研究了洲源存儲格式并介紹了提取有價值的測源的方法、對非永久性對象的處理以及溯源的消環(huán)處理。數(shù)據(jù)在對象系統(tǒng)客戶端中,主要的功能是將溯源相關數(shù)據(jù)信息存儲到緩沖區(qū)域,并且通過對象的相關命令接口,將溯源產(chǎn)生的數(shù)據(jù)信息在此傳送,最終到達對象文件系統(tǒng)的設備終端。而對象存儲結構設備端在實際的運轉(zhuǎn)和操作過程中,負責針對對象命令進行全面收集、管理以及解析,以此提取出內(nèi)部相關的溯源信息,并且將所收集的溯源信息重新寫入創(chuàng)建的對象數(shù)據(jù)信息文件中。對象存儲結構設備端在日常的運轉(zhuǎn)過程中,可以進一步讀取數(shù)據(jù)文件相關數(shù)據(jù),并且將相關數(shù)據(jù)逐步存儲到BerkeleyDB的相應數(shù)據(jù)庫中。隨后通過溯源查詢的相關模塊,根據(jù)需要查詢的關鍵字,對數(shù)據(jù)庫進行相關區(qū)域檢索,最后將所查詢到的數(shù)據(jù)信息以文字報表的方式進行展示。
4.2.1 對象概論
對象是系統(tǒng)中數(shù)據(jù)存儲的基本單位,一個對象實際上就是文件的數(shù)據(jù)和一組屬性信息(Meta Data)的組合,這些屬性信息可以定義基于文件的RAID參數(shù)、數(shù)據(jù)分布和服務質(zhì)量等,而傳統(tǒng)的存儲系統(tǒng)中用文件或塊作為基本的存儲單位,在塊存儲系統(tǒng)中還需要始終追蹤系統(tǒng)中每個塊的屬性,對象通過與存儲系統(tǒng)通信維護自己的屬性。在存儲設備中,所有對象都有一個對象標識,通過對象標識OSD命令訪問該對象。通常有多種類型的對象,存儲設備上的根對象標識存儲設備和該設備的各種屬性,組對象是存儲設備上共享資源管理策略的對象集合等。對象文件系統(tǒng)在日常的操作和使用中,主要的功能是封裝相關的溯源信息,對象的主要定義與其所在的相關系統(tǒng)以及數(shù)據(jù)文件溯源模型有關。對于數(shù)據(jù)庫中已經(jīng)存在的溯源信息相關系統(tǒng)來說,文字文件是數(shù)據(jù)的基礎元組;對于現(xiàn)有的儲存系統(tǒng)來說,所獲取的溯源信息對象既可以是文件形式、文件形式中的某一部分、文件相關目錄也可以是文件內(nèi)部結構中,暫時存在的對象,比如文件管道或文件進程等。
4.2.2 對象操作流程
在溯源信息進行通道傳輸時,需要從對象數(shù)據(jù)文件存儲的客戶端傳送到相關的設備終端,并且具有儲存以及訪問對象[3],功能的實際命令流程如下。
第一,對象文件存儲客戶終端進行溯源信息的收集后,針對其收集的相關信息讀取到數(shù)據(jù)文件的客戶端緩沖區(qū)中。第二,一旦數(shù)據(jù)信息進入客戶端緩沖區(qū)后,需要相關系統(tǒng)利用osd_create_and_write相關的函數(shù),將設備文件溯源信息進行相關傳輸,最終傳輸?shù)綄ο笪募鎯υO備終端,并且利用文件收集系統(tǒng)的相關功能,重新寫入到所建立全新的對象文件內(nèi)部中。其中,對象文件內(nèi)部結構的通道路徑主要由無符號整數(shù)PID模式和 UID模式進行共同標識。PID模式和UID模式分別代表了系統(tǒng)結構中的分區(qū)標識符號,以及用戶對象標識度,比如:在進行文件操作時,應針對設備終端端口的端目錄路徑文件進行相關的操作。
由此可見,本文運用對象溯源數(shù)據(jù)處理技術,有效地提升了文件以及數(shù)據(jù)信息進行儲存時的可靠性以及延展性。并且根據(jù)系統(tǒng)結構終端內(nèi)核環(huán)節(jié)、文件結構屬性以及各種應用相關程序,進行數(shù)據(jù)和信息的收集、分析以及儲存功能的探索。