侯朋輝/中石化河南油田分公司石油物探技術(shù)研究院
地震解釋系統(tǒng)中集群并行存儲(chǔ)系統(tǒng)研究與應(yīng)用
侯朋輝/中石化河南油田分公司石油物探技術(shù)研究院
本文討論了全局統(tǒng)一命名空間的集群并行并行存儲(chǔ)系統(tǒng)在地震資料解釋中的應(yīng)用。針對(duì)高性能計(jì)算技術(shù)中地震資料解釋系統(tǒng)中成功運(yùn)用分布式并行存儲(chǔ)系統(tǒng)、建立存儲(chǔ)池、優(yōu)化存儲(chǔ)存取鏈路、基于全局統(tǒng)一命名空間對(duì)存儲(chǔ)管理以及存儲(chǔ)整合。
地震解釋;集群;存儲(chǔ);并行存儲(chǔ);存儲(chǔ)池
隨著地震勘探技術(shù)的發(fā)展,產(chǎn)生海量地震數(shù)據(jù)飛速的增長(zhǎng),對(duì)數(shù)據(jù)存儲(chǔ)帶來(lái)的挑戰(zhàn)也是非常明顯的,由此地震解釋系統(tǒng)中對(duì)存儲(chǔ)系統(tǒng)對(duì)高性能、穩(wěn)定性、和可擴(kuò)展性等也提出了更高等要求。運(yùn)用集群并行存儲(chǔ)技術(shù)、將存儲(chǔ)資源池化、從而有效的優(yōu)化存儲(chǔ)鏈路、存儲(chǔ)資源整合、存儲(chǔ)I/O帶寬性能、滿足了地震解釋對(duì)存儲(chǔ)的新的需求。
1)使用環(huán)境
河南油田物探院地震資料處理中心擁有多套計(jì)算機(jī)集群和近2PB的分布式集群并行存儲(chǔ)系統(tǒng)。在本文中我們討論一個(gè)地震資料解釋項(xiàng)目應(yīng)用分布式并行存儲(chǔ)系統(tǒng)的案例。
在該地震解釋項(xiàng)目中我們使用的地震資料解釋硬件平臺(tái)是31節(jié)點(diǎn)刀片服務(wù)器集群系統(tǒng)、并針對(duì)地震資料解釋系統(tǒng)的需求對(duì)該集群系統(tǒng)環(huán)境進(jìn)行了相應(yīng)對(duì)優(yōu)化。
存儲(chǔ)系統(tǒng)使用BaseCluster分布式并行存儲(chǔ)集群中抽取4個(gè)存儲(chǔ)控制器提供200TB對(duì)存儲(chǔ)系統(tǒng)。
所有的集群計(jì)算節(jié)點(diǎn)和存儲(chǔ)系統(tǒng)全部采用全線速萬(wàn)兆網(wǎng)絡(luò)連接。
2)BaseCluster并行存儲(chǔ)簡(jiǎn)介
怡立BaseCluster并行存儲(chǔ)系統(tǒng),是一個(gè)集群設(shè)計(jì)和全局命名空間的基于對(duì)象的并行文件系統(tǒng),采用并行共享文件系統(tǒng),來(lái)統(tǒng)一管理存儲(chǔ),為在網(wǎng)的各類計(jì)算機(jī)主機(jī)提供統(tǒng)一的存儲(chǔ),當(dāng)一個(gè)項(xiàng)目和工作組需要存儲(chǔ)時(shí),動(dòng)態(tài)地分配所需存儲(chǔ)空間,項(xiàng)目完成釋放存儲(chǔ)空間給其他項(xiàng)目使用,非常便捷。
怡立BaseCluster并行存儲(chǔ)系統(tǒng)是一個(gè)多功能結(jié)構(gòu)一體化存儲(chǔ)解決方案,在每存儲(chǔ)個(gè)設(shè)備上集成了并行存儲(chǔ)控制器、磁盤陣列控制器、并行存儲(chǔ)管理軟件等,使用彈性Hash算法定位數(shù)據(jù)位置,摒棄元數(shù)據(jù)服務(wù),高效穩(wěn)定。在配置條帶化的數(shù)據(jù)卷,所有并行存儲(chǔ)控制器同時(shí)并行讀寫數(shù)據(jù),具有很高的效率。
3)存儲(chǔ)規(guī)劃
在使用BaseCluster之前,要根據(jù)本單位的實(shí)際進(jìn)行存儲(chǔ)規(guī)劃,把用戶和所使用的空間(Volume)、數(shù)據(jù)塊對(duì)應(yīng)起來(lái),以便設(shè)置和日后的維護(hù)。
BaseCluster并行存儲(chǔ)的RAID控制器是基于空間的RAID技術(shù),除了具有優(yōu)越的讀寫性能外,在使用的靈活性方面也比較優(yōu)秀。它可以在一個(gè)控制器里設(shè)置多個(gè)任意容量任意級(jí)別RAID組,所以我們只需考慮一個(gè)最小和最大的用戶卷所需的數(shù)據(jù)塊的大小設(shè)置。通過(guò)不同的chunk數(shù)據(jù)塊,為用戶生成不同容量的并行存儲(chǔ)卷。
zoning規(guī)劃:
每臺(tái)并行存儲(chǔ)分為兩個(gè)zoning, 分別為zoning Group8、zoning Group9。
Zoning Group8包含1到12槽位磁盤驅(qū)動(dòng)器、Master并行控制器、Master RAID控制器。
Group8的Zoning端口:phy0-phy3,phy12-phy23。
Zoning Group9包含13到24槽位磁盤驅(qū)動(dòng)器、Slave并行控制器、Slave RAID控制器。
Group9的Zoning端口:phy4-phy7,phy24-phy35。
RAID規(guī)劃:
每個(gè)zoning中化分一個(gè)RAID組,每個(gè)RAID組建立兩個(gè)20TB的RAID卷和一個(gè)10TB的RAID卷。
生成用戶卷規(guī)劃見(jiàn)表2-1:
用戶卷規(guī)劃表2 -1
一般情況下,一個(gè)用戶卷設(shè)定后,你可以在Volume管理中增加chunk的方式來(lái)增加用戶卷的容量容量,在使用過(guò)程是不可以進(jìn)行減少容量,更不能進(jìn)行刪除操作,這是防止管理員誤刪數(shù)據(jù)而設(shè)定的機(jī)制。如果你需要減少容量的話,需要先確認(rèn)你當(dāng)前的容量的數(shù)據(jù)量大小和你減少之后的存儲(chǔ)容量大小是否能夠匹配。也就是說(shuō)你的數(shù)據(jù)能不在您的減少之后的存儲(chǔ)設(shè)備里存儲(chǔ)下的問(wèn)題。
通過(guò)存儲(chǔ)資源池化,使得多個(gè)文件存儲(chǔ)設(shè)備的環(huán)境中的文件訪問(wèn)和管理得以簡(jiǎn)化。如圖3-1管理員除了可以管理目標(biāo)為單個(gè)命名空間的文件映射,還可配置目標(biāo)為統(tǒng)一全局命名空間的文件映射。此外,因?yàn)榭蛻舳送ㄟ^(guò)全局命名空間訪問(wèn)文件,所以其文件可跨統(tǒng)一存儲(chǔ)池中的多個(gè)設(shè)備存儲(chǔ)。存儲(chǔ)容量的這種聯(lián)合,讓組織可以高效利用存儲(chǔ)容量,并集成現(xiàn)有基礎(chǔ)架構(gòu)中的各種存儲(chǔ)技術(shù),將文件的邏輯訪問(wèn)與文件的物理位置相脫離,使文件的物理位置變更能以對(duì)客戶端系統(tǒng)透明的方式進(jìn)行。因此,管理員在執(zhí)行需對(duì)物理環(huán)境進(jìn)行更改的管理任務(wù)時(shí),僅會(huì)造成最少的中斷和停機(jī)。
圖3-1 管理界面
在本項(xiàng)目中我們將其中的兩臺(tái)并行存儲(chǔ)劃進(jìn)一個(gè)存儲(chǔ)池中,每臺(tái)并行存儲(chǔ)都具備雙并行控制器,分別把每個(gè)控制器都加入到該存儲(chǔ)池中,根據(jù)之前到規(guī)劃,我們分別在存儲(chǔ)池中到各個(gè)控制器里取不同到chunk數(shù)據(jù)塊分別建立一個(gè)80TB的分布式卷,一個(gè)80TB的條帶化卷和一個(gè)備份卷輸出給用戶使用。
在最初測(cè)試我們把landmark 應(yīng)用直接安裝在BaseCluster集群并行存儲(chǔ)系統(tǒng)之上并且把landmark地震工區(qū)也創(chuàng)建在BaseCluster集群并行存儲(chǔ)系統(tǒng)之上。我打開(kāi)任意大小的拋面時(shí)發(fā)現(xiàn)會(huì)比較慢的現(xiàn)象,我對(duì)系統(tǒng)進(jìn)行里讀寫測(cè)試發(fā)現(xiàn)速度并不慢如圖4-1。
圖4-1 速度測(cè)試
后來(lái)我通過(guò)排查發(fā)現(xiàn),landmark應(yīng)用在運(yùn)行時(shí)會(huì)頻繁對(duì)向系統(tǒng)寫入很小對(duì)log日志。每次寫入并行存儲(chǔ)都要進(jìn)行哈希計(jì)算,從而影響里并行存儲(chǔ)的性能。
最后我們我們把landmark 應(yīng)用安裝在計(jì)算節(jié)點(diǎn)系統(tǒng)本地,只把landmark地震工區(qū)創(chuàng)建在BaseCluster集群并行存儲(chǔ)系統(tǒng)之上。再打開(kāi)范圍大小內(nèi)的地震剖面時(shí)就很理想。如圖4-2
在該項(xiàng)目中我們,按照之前的規(guī)劃,我們創(chuàng)建的的三個(gè)存儲(chǔ)卷,我們把80TB的分布式卷用做lanmark的存儲(chǔ)數(shù)據(jù)的主存儲(chǔ),另外80TB的條帶化的存儲(chǔ),我們做做三維或者時(shí)在做jason應(yīng)用的反演時(shí)用該存儲(chǔ)卷,因?yàn)闂l帶化的卷的I/O存取帶寬較高,做三維或反演時(shí)用戶體檢較好。另外的20TB的備份卷,它具有自動(dòng)對(duì)寫入對(duì)數(shù)據(jù)進(jìn)行分布式對(duì)備份復(fù)制功能,我們主要將該卷用做存儲(chǔ)成果數(shù)據(jù)和安全級(jí)別較高的數(shù)據(jù)。
通過(guò)對(duì)并行存儲(chǔ)在地震解釋系統(tǒng)中的應(yīng)用研究,不斷的完善和改進(jìn)了并行存儲(chǔ)的使用方法過(guò)程并且優(yōu)化了并行存儲(chǔ)系統(tǒng)應(yīng)用效果達(dá)到最優(yōu)I/O,進(jìn)一步提高了集群并行存儲(chǔ)系統(tǒng)在地震解釋系統(tǒng)中的利用率和工作效率。
圖4-2 地震剖面圖
[1] Rajkumar Buyya.鄭緯民,石威,江東升等譯.高性能集群[M].電子科技.2010.5
[2] 戴志敏.存儲(chǔ)虛擬化技術(shù)研究[M ]高性能計(jì)算.2012.12
[3] 劉仲,章文嵩,王召福等.基于對(duì)象存儲(chǔ)的集群存儲(chǔ)系統(tǒng)[M].計(jì)算機(jī)工程與科學(xué).2009.4