吳叔坤,胡文灼
(廣東省地震局,廣州510070)
廣東臺網(wǎng)地震資料產出的存儲方式探討
吳叔坤,胡文灼
(廣東省地震局,廣州510070)
隨著“廣東數(shù)字地震觀測網(wǎng)絡”項目的建設完成,由此產生的地震信息的數(shù)據(jù)量越來越大。結合廣東臺網(wǎng)實際情況,探討建立安全有效的存儲這些海量地震數(shù)據(jù),降低地震數(shù)據(jù)的丟失風險問題介紹,主要是網(wǎng)絡存儲方式,希望在地震臺網(wǎng)同行起到借鑒作用。
廣東臺網(wǎng);地震資料;數(shù)據(jù)存儲
圖1 編目臺站分布圖Fig.1 Distribution map of catalog stations
廣東臺網(wǎng)中心處理系統(tǒng)軟件的服務器中存儲數(shù)據(jù)的有AWS波形服務器和數(shù)據(jù)庫服務器,磁盤大小均為3TB,考慮系統(tǒng)文件及測震軟件占有的磁盤空間將來會呈現(xiàn)指數(shù)級增長,用于存儲連續(xù)波形數(shù)據(jù)用的磁盤空間有3 TB,每天產生的臺站及臺網(wǎng)波形數(shù)據(jù)文件有6.5 GB;波形服務器目前設置成緩存大約3個月的連續(xù)波形數(shù)據(jù),數(shù)據(jù)庫服務器存儲事件波形及編目等數(shù)據(jù)約有767 GB(截至到2015年)約占整個服務器硬盤空間的20%。隨著地震觀測和地震科學研究水平的提高,大量寶貴的地震科學數(shù)據(jù)不斷產出,現(xiàn)有的服務器磁盤空間有可能不能滿足長期存儲數(shù)據(jù)的要求。如何安全有效地存儲這些海量地震數(shù)據(jù),是目前迫切需要解決的問題。本文將要論述幾種安全方法,對地震數(shù)據(jù)產出進行備份存儲,有效降低地震數(shù)據(jù)丟失的風險問題。
如何安全有效地存儲這些海量地震科學數(shù)據(jù),是廣東臺網(wǎng)目前迫切需要解決的問題。廣東臺網(wǎng)依據(jù)當前需求,硬件上采取了光盤和磁盤陣列的傳統(tǒng)方式保存數(shù)據(jù),軟件上采用ZFS文件系統(tǒng)管理維護數(shù)據(jù),不但簡化了硬件間的配置,還大大降低了系統(tǒng)維護成本。這種方式也是未來廣東臺網(wǎng)數(shù)據(jù)管理的主要技術手段。
廣東臺網(wǎng)中心系統(tǒng)主要包括通信網(wǎng)絡接入、臺站觀測數(shù)據(jù)接入?yún)R集、數(shù)據(jù)傳輸與共享服務、地震數(shù)據(jù)處理、數(shù)據(jù)庫管理與服務、系統(tǒng)管理與備份、技術系統(tǒng)運行監(jiān)控等七大部分。另外,為保證臺網(wǎng)系統(tǒng)安全連續(xù)可靠的運行建立了臺站及臺網(wǎng)中心環(huán)境的管理監(jiān)控體系。
臺網(wǎng)軟件系統(tǒng)采用Jopens系統(tǒng)0.5.2版本(SSS、數(shù)據(jù)庫、RTS、MSDP、JOPENS控制臺)。臺網(wǎng)中心硬件配置見表1。
2.1 網(wǎng)絡存儲
網(wǎng)絡存儲是指借助于網(wǎng)絡存儲設備,通過原有網(wǎng)絡或者構建專有的存儲網(wǎng)絡,為用戶提供統(tǒng)一的數(shù)據(jù)存儲與數(shù)據(jù)共享服務,它是基于網(wǎng)絡的存儲方式。網(wǎng)絡存儲可將數(shù)據(jù)存儲任務從服務器主機中分離出來,這樣可減輕服務器的負荷,并將傳統(tǒng)的數(shù)據(jù)存儲獨立出來,作為網(wǎng)絡的一部分,為網(wǎng)絡用戶共享。同時網(wǎng)絡存儲的目標是整合廣泛的存儲設備,包括磁盤驅動器、備份磁帶驅動器、磁盤陣列、光盤庫等所有的存儲設備。
廣東臺網(wǎng)目前采取的存儲方式是網(wǎng)絡附加存儲方式,也就是俗稱的NAS。對數(shù)據(jù)要求持久存儲的比如地震事件波形、目錄等,我們將其放在磁盤陣列的數(shù)據(jù)庫里;對數(shù)據(jù)要求臨時存儲的,對臺網(wǎng)實例來說大多數(shù)是連續(xù)波形,我們設計將其放在按年分好分區(qū)的磁盤陣列上,為考慮數(shù)據(jù)增長及預留空間,一般設置連續(xù)波形臨時存儲3個月。磁盤陣列分區(qū)一般是本年度下半年會刪除前一年的分區(qū),然后再新建一個未來一年分區(qū),以此循環(huán)。
表1 廣東測震臺網(wǎng)主要配置與部署Table 1 Hardware environment and configuration
2.1.2 網(wǎng)絡安全存儲技術特點
磁盤陣列和網(wǎng)絡附加存儲組成的大數(shù)據(jù)在線存儲能力超過1PBytes,多臺高性能服務器承擔地震波形數(shù)據(jù)實時接收、校驗、地震事件波形數(shù)據(jù)截取、連續(xù)地震波形數(shù)據(jù)重采樣、數(shù)據(jù)在線共享服務等。
對數(shù)據(jù)的威脅通常比較難于防范,這些威脅一旦變?yōu)楝F(xiàn)實,不僅會毀壞數(shù)據(jù),也會毀壞訪問數(shù)據(jù)的系統(tǒng)。造成數(shù)據(jù)丟失和毀壞的原因主要如下幾個方面。
(1)數(shù)據(jù)處理和訪問軟件平臺故障。
(2)操作系統(tǒng)的設計漏洞。
(3)系統(tǒng)的硬件故障。
(4)人為的操作失誤。
(5)網(wǎng)絡內非法訪問者的惡意破壞。
(6)網(wǎng)絡供電系統(tǒng)故障等。
2.1.2 三層存儲機制
建立三層存儲服務機制,內存緩沖(Memory Cache)、內存文件系統(tǒng)(MFS)和常規(guī)文件系統(tǒng)。最新數(shù)據(jù)放在內存緩沖中,次之數(shù)據(jù)放在內存文件系統(tǒng)中,更次之數(shù)據(jù)按照命名規(guī)律放在常規(guī)文件系統(tǒng)。最新數(shù)據(jù)總能得到優(yōu)先快速的服務。
2.1.3 存儲容量的易于擴展特性
在基于ZFS文件系統(tǒng)的基礎上,存儲系統(tǒng)采用數(shù)據(jù)文件和索引的方式存儲數(shù)據(jù),當數(shù)據(jù)存儲容量快飽和時,只需增加磁盤陣列等類型的數(shù)據(jù)存儲設備,包括iSCSI設備、SAN設備和InfiniBand網(wǎng)絡設備等,掛載入到ZFS文件系統(tǒng)里,借助于ZFS文件系統(tǒng)的主要高級特性,ZFS文件系統(tǒng)就會在原來存儲容量的基礎上,按新接入設備的容量自動擴大原來存儲的容量。隨著硬件設備的不斷發(fā)展,系統(tǒng)的存儲容量可以持續(xù)擴大,幾乎不受存儲空間容量的限制,至少可以提供10年以上數(shù)據(jù)的在線服務。
2.1.4 存儲數(shù)據(jù)遷移方便
為了數(shù)據(jù)遷移的方便,高效地管理和查詢數(shù)據(jù),我們采用最簡單的數(shù)據(jù)文件方式存儲數(shù)據(jù),為數(shù)據(jù)做查詢索引的基本思想,結合地震臺站觀測數(shù)據(jù)的特點設計數(shù)據(jù)服務系統(tǒng)。系統(tǒng)在特定的網(wǎng)絡端口為用戶提供鏈接服務,在數(shù)據(jù)管理服務器上掛載多個存儲數(shù)據(jù)的磁盤陣列,服務器的內存中存儲著磁盤陣列上數(shù)據(jù)的索引,用戶調用數(shù)據(jù)時,系統(tǒng)按規(guī)則查找數(shù)據(jù)文件存放路徑,在內存中找數(shù)據(jù)的索引,通過索引快速從文件中讀取相關數(shù)據(jù)段提供給用戶。
圖2 系統(tǒng)結構示意圖Fig.2 System Diagram
2.1.5 系統(tǒng)結構
為了保持系統(tǒng)存儲容量的可擴展性,我們采用網(wǎng)絡文件系統(tǒng)(NFS)和iSCSI等方式掛載數(shù)據(jù)存儲設備到系統(tǒng)主機中去,當一個系統(tǒng)存儲設備(例如磁盤陣列)快滿時,可以追加掛載一個新的存儲設備到系統(tǒng)主機中,這樣后續(xù)的數(shù)據(jù)就往新存儲設備中寫,系統(tǒng)的存儲空間可以持續(xù)地擴展。當然隨著數(shù)據(jù)量的增多,系統(tǒng)主機內存中的索引數(shù)據(jù)量也會持續(xù)增大,因要求系統(tǒng)主機具有超大容量的內存空間存儲數(shù)據(jù)索引。系統(tǒng)結構示意圖如圖2所示。
數(shù)據(jù)服務系統(tǒng)可以從實時數(shù)據(jù)流服務器(SSS)中接收實時數(shù)據(jù),立即對用戶進行數(shù)據(jù)服務,也可以提供舊數(shù)據(jù)的在線服務,一般情況下對實時數(shù)據(jù)的使用需求較大,因此系統(tǒng)對數(shù)據(jù)實行分期管理,把數(shù)據(jù)分為當期數(shù)據(jù)和過期數(shù)據(jù),分別從內存緩沖、內存文件系統(tǒng)和磁盤陣列中提供服務,當期數(shù)據(jù)的訪問效率高于過期數(shù)據(jù)。當期數(shù)據(jù)是指當前時間之后一段時間內(具體的時間長度視主機內存大小而定)的數(shù)據(jù),過期數(shù)據(jù)是指時間比當期數(shù)據(jù)還早的數(shù)據(jù)。我們在主服務器的內存中開辟一個內存文件系統(tǒng),把當期數(shù)據(jù)存儲在內存文件系統(tǒng)中,數(shù)據(jù)過期后就寫入磁盤陣列的文件系統(tǒng),當用戶訪問當期數(shù)據(jù)時,主機可以從直接內存文件系統(tǒng)中提供數(shù)據(jù),不需要從NFS的文件系統(tǒng)查詢和傳輸數(shù)據(jù),數(shù)據(jù)的服務效率會非常高。
2.2 刻錄光盤存儲
光盤存儲技術是近二十多年才發(fā)展起來的,分為LD、CD、DVD、CD-ROM、MO等品種,其中大多用來保存聲音和圖像,真正用于數(shù)據(jù)存儲的只有CD-ROM和MO等。大多數(shù)光盤是只讀型或一次性寫人型,只有MO光盤(MO光盤實質上已超出了早期光盤的范疇,它是種光學與磁學原理相結合的新式盤)等可以重復完成讀/寫操作。廣東臺網(wǎng)“九五”時期和“十五”前期,地震波形數(shù)據(jù)采用CD光盤存儲,后來隨著“十五廣東數(shù)字地震觀測網(wǎng)絡”項目建設完成后,共享了本省與鄰省臺站達到90多個,一張CD光盤已經無法存儲一天地震波形數(shù)據(jù),因此采用容量比較大的DVD光盤存儲。
廣東臺網(wǎng)目前也保持著光盤刻錄存儲備份,但光盤存儲技術目前在地震數(shù)據(jù)存儲領域還沒有得到很好應用。也許隨著光盤存儲及管理技術的發(fā)展和完善,更高機械強度和更好安全性的光盤將會問世,那時采用光盤存儲地震數(shù)據(jù)也許是更經濟的選擇。
2.3 打印紙質存儲
采用紙質材料為載體進行保存,優(yōu)點較多,便于管理和利用。當前主要的檔案文獻資料都是采用紙質材料為載體進行保存,例如:地震觀測報告。重視紙質文獻的保存和修復工作是檔案工作人員必須要注意和認真對待的重要問題。紙質保存方面需要注意,防老化,防潮、防蟲、防洇方面都有各種技術要求?,F(xiàn)代人在保存檔案文獻時往往不會考慮對紙質文獻如何保存的問題,以至于經常造成許多無法彌補的損失,因而對紙質檔案的保存問題,必須引起檔案文獻管理工作者的重視。對紙質檔案的保護主要有三種方式,一是直接修復,二是制作副本,三是電子化存檔。無論采用哪種保存方式,都無法保持檔案的原始狀態(tài),具有一定的非檔案化風險。
[1]黃志斌,莊燦濤.DVD盤庫與地震數(shù)據(jù)的存儲[J].地震地磁觀測與研究,2000,21(3):77-80.
[2]冉慧敏,史勇軍.磁盤陣列技術在新疆遙測地震臺網(wǎng)數(shù)據(jù)存儲中的應用[J].內陸地震,2010,24(2):160-167.
[3]李剛,楊奕,孫路強,等.iSCSI技術在天津地震數(shù)據(jù)存儲中的應用[J].震災防御技術,2013,8(3):319-325.
[4]蔣春曦,俞冠群,宣興耕.安徽省地震信息網(wǎng)絡數(shù)據(jù)動態(tài)備份措施的研究[J].地震地磁觀測與研究,2005,26(3):95-99.
[5]郭燕平,鄭重,鄒立曄,等.地震數(shù)據(jù)存儲的設備安全與應用安全[J].地震地磁觀測與研究,2006,27(4):93-97.
[6]張晨俠,丁廣,溫巖.省級地震數(shù)據(jù)容災備份技術初探[J].防災減災學報,2012,28(2):80-83.
數(shù)字地震臺網(wǎng)產出的數(shù)字地震資料對進行科學研究作出了很大貢獻。廣東數(shù)字地震臺網(wǎng)所取得的觀測資料,在確定地震震源參數(shù)、地震矩張量、地球自由震蕩、環(huán)球面波震相識別、地殼和上地幔的橫向不均勻性和各向異性等地震學方面的研究起到了基礎性作用。因此對產出的觀測資料數(shù)據(jù)進行有效安全備份、管理,使得地震數(shù)據(jù)丟失風險降得最低要求,更好服務于各項研究工作。
Discussion on Seismic Data Storage Management from Guangdong Seismic Network
WU Shukun,HU WenZhuo
(Earthquake Administration of Guangdong Province,Guangzhou 501170,China)
With the completion of the project of“Guangdong Digital Seismic Observation Network”,the amount of seismic data is increasing.Combining with it's actual situation,this paper explored how to build up an effective and safe storage machnism,minimise data loss risk,mainly at network storage part.at last we hope it can giving a reference in seismic network.
Guangdong seismic network;Seismic data;Storage
P315.78
A
1001-8662(2016)03-0051-05
10.13512/j.hndz.2016.03.007
0 引言
2015-12-20
地震行業(yè)科研專項(201308008)
吳叔坤(1977-),男,工程師,主要從事地震監(jiān)測與數(shù)據(jù)管理等工作.
E-mail:wsk@gddsn.org.cn
吳叔坤,胡文灼.廣東臺網(wǎng)地震資料產出的存儲方式探討[J].華南地震,2016,36(3):51-55.[WU Shukun,HU WenZhuo.Discussion on Seismic Data Storage Management from Guangdong Seismic Network[J].South china journal of seismology,2016,36(3):51-55.]
廣東省地震臺承擔著廣東省及鄰近地區(qū)的地震速報和地震編目工作,廣東數(shù)字地震臺網(wǎng)是廣東省人民政府和中國地震局共同投資建設的區(qū)域地震臺網(wǎng)?!笆鍙V東數(shù)字地震觀測網(wǎng)絡”項目建設完成后,廣東省地震數(shù)字測震臺站增加到44個(其中5個為國家臺、39個為區(qū)域臺)。共享了本省與鄰省的臺站50個(其中地方地震臺8個,香港天文臺地震站1個、福建臺網(wǎng)地震臺12個、江西臺網(wǎng)地震臺8個、廣西臺網(wǎng)地震臺12個、湖南臺網(wǎng)地震臺4個、海南臺網(wǎng)地震臺5個)。2013年12月新加入新建的區(qū)域臺16個、陽江臺陣臺站1個參與分析?,F(xiàn)在參與地震速報、地震編目的臺站達到111個(見圖1),臺網(wǎng)的主要配置與部署(見表1)。