本刊記者 | 黃海峰
遼寧移動(dòng)探索“小機(jī)x86化”成星星之火點(diǎn)亮運(yùn)營(yíng)商數(shù)據(jù)庫(kù)轉(zhuǎn)型之路
本刊記者 | 黃海峰
通過(guò)在x86服務(wù)器上部署分布式軟件的方式,遼寧移動(dòng)把所有服務(wù)器的本地硬盤組織成一個(gè)虛擬存儲(chǔ)資源池,提供塊存儲(chǔ)功能。
“又慢、又貴、利用率又低?!边@是中國(guó)移動(dòng)多省現(xiàn)網(wǎng)數(shù)據(jù)庫(kù)的真實(shí)寫照。
曾經(jīng)強(qiáng)大的運(yùn)營(yíng)商數(shù)據(jù)庫(kù),采用“小型機(jī)+老舊式傳統(tǒng)存儲(chǔ)”方式部署,但面對(duì)業(yè)務(wù)的快速發(fā)展、數(shù)據(jù)量指數(shù)式增長(zhǎng),開始存在業(yè)務(wù)風(fēng)險(xiǎn)高、投資費(fèi)用高和資源利用率低等問(wèn)題,已經(jīng)無(wú)法滿足新類型業(yè)務(wù)發(fā)展的需求。
現(xiàn)在,運(yùn)營(yíng)商已到了不得不改變的時(shí)刻。在諸多改造方案中,小型機(jī)“x86化”探索如“星星之火”在全國(guó)各地燃起。而中國(guó)移動(dòng)遼寧公司(以下簡(jiǎn)稱遼寧移動(dòng))攜手華為進(jìn)行的分布式x86數(shù)據(jù)庫(kù)改造十分成功,其實(shí)踐經(jīng)驗(yàn)被業(yè)內(nèi)所推崇。
遼寧移動(dòng)是中國(guó)移動(dòng)在東北的重要省公司,其下轄14個(gè)市級(jí)分公司,56個(gè)縣級(jí)分公司。遼寧移動(dòng)正不斷開拓進(jìn)取,創(chuàng)新發(fā)展,致力于肩負(fù)起“創(chuàng)無(wú)限通信世界,做信息社會(huì)棟梁”的企業(yè)使命。
目前,遼寧移動(dòng)采用“小型機(jī)+老舊式傳統(tǒng)存儲(chǔ)”的方式部署了60多套Oracle數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)小型機(jī)60多臺(tái),承載計(jì)費(fèi)、網(wǎng)管、管信、數(shù)據(jù)增值業(yè)務(wù)、位置業(yè)務(wù)等100多套系統(tǒng),數(shù)據(jù)總量近700TB。
但是這些數(shù)據(jù)庫(kù)系統(tǒng)慢慢成為了業(yè)務(wù)發(fā)展的重要瓶頸,主要問(wèn)題是“慢、貴、低”。
具體而言,一是在業(yè)務(wù)風(fēng)險(xiǎn)方面,隨著業(yè)務(wù)數(shù)據(jù)不斷增長(zhǎng),現(xiàn)有數(shù)據(jù)庫(kù)數(shù)據(jù)運(yùn)行越來(lái)越慢,導(dǎo)致業(yè)務(wù)處理周期越來(lái)越長(zhǎng);現(xiàn)網(wǎng)老舊存儲(chǔ)故障恢復(fù)需要手動(dòng)從硬盤恢復(fù)數(shù)據(jù),故障恢復(fù)時(shí)間長(zhǎng),業(yè)務(wù)在故障恢復(fù)期間無(wú)法提供服務(wù)。
二是擴(kuò)容投資、維保費(fèi)用高:如某廠商的DMX 4存儲(chǔ)必須整柜擴(kuò)容,每次擴(kuò)容成本非常高昂;維保服務(wù)費(fèi)高昂,甚至高于新購(gòu)設(shè)備價(jià)格。
三是資源利用率低:不同功能小型機(jī)間負(fù)載差別較大;部分設(shè)備負(fù)載峰值較高但均值很低,長(zhǎng)時(shí)間處在低負(fù)荷運(yùn)轉(zhuǎn)狀態(tài)。
這種糟糕的現(xiàn)狀,讓遼寧移動(dòng)IT系統(tǒng)運(yùn)維人員苦不堪言。工程師們特別希望有新的方案帶來(lái)4方面的改變:降低業(yè)務(wù)風(fēng)險(xiǎn)、提高業(yè)務(wù)性能、降低維護(hù)成本和提高資源利用率。
比如在降低業(yè)務(wù)風(fēng)險(xiǎn)方面,新方案要能解決老舊傳統(tǒng)存儲(chǔ)故障導(dǎo)致業(yè)務(wù)數(shù)據(jù)庫(kù)無(wú)法繼續(xù)使用的問(wèn)題,提高業(yè)務(wù)連續(xù)性,解耦軟硬件關(guān)聯(lián);存儲(chǔ)需要快速部署,能夠按需分配;提高業(yè)務(wù)可用性、連續(xù)性和穩(wěn)定性。
為解決上述數(shù)據(jù)庫(kù)面臨的問(wèn)題,兩條發(fā)展路徑浮出水面。路徑一是開源數(shù)據(jù)庫(kù)解決方案,顛覆性地變更,傳統(tǒng)應(yīng)用大量修改,部分復(fù)雜關(guān)系數(shù)據(jù)模型無(wú)法支持。路徑二是分布式x86數(shù)據(jù)庫(kù)解決方案,分布式存儲(chǔ)+x86實(shí)現(xiàn)I+E替換,數(shù)據(jù)庫(kù)無(wú)需修改。
到底哪種方案更適合遼寧移動(dòng)呢?通過(guò)測(cè)試驗(yàn)證發(fā)現(xiàn):互聯(lián)網(wǎng)公司的數(shù)據(jù)類型以非結(jié)構(gòu)化和半結(jié)構(gòu)化為主,因此適合采用開源非關(guān)系型數(shù)據(jù)庫(kù)解決方案;而遼寧移動(dòng)公司主要處理結(jié)構(gòu)化數(shù)據(jù),且業(yè)務(wù)系統(tǒng)改造難度極大,因此路徑二更適合遼寧移動(dòng)現(xiàn)狀、更易實(shí)現(xiàn)并節(jié)省投資。
經(jīng)過(guò)仔細(xì)地對(duì)比測(cè)試,遼寧移動(dòng)最終選擇了華為FusionStorage解決方案:通過(guò)在x86服務(wù)器上部署分布式軟件的方式,把所有服務(wù)器的本地硬盤組織成一個(gè)虛擬存儲(chǔ)資源池,提供塊存儲(chǔ)功能。
據(jù)了解,傳統(tǒng)架構(gòu)被改造為分布式x86架構(gòu),經(jīng)過(guò)了應(yīng)用層、平臺(tái)層以及數(shù)據(jù)層“三步走”。第一步在應(yīng)用層,遼寧移動(dòng)實(shí)現(xiàn)上層應(yīng)用系統(tǒng)的分布式改造;第二步在平臺(tái)層,遼寧移動(dòng)搭建分布式X86集群環(huán)境,安裝分布式存儲(chǔ)系統(tǒng)和數(shù)據(jù)庫(kù)管理系統(tǒng);第三步在數(shù)據(jù)層,遼寧移動(dòng)將業(yè)務(wù)系統(tǒng)數(shù)據(jù)從集中式數(shù)據(jù)庫(kù)導(dǎo)出,并導(dǎo)入至分布式x86數(shù)據(jù)庫(kù)中。
其主要工作包括以下5方面:一是計(jì)算節(jié)點(diǎn):高性能x86服務(wù)器替代傳統(tǒng)小型機(jī);二是存儲(chǔ)節(jié)點(diǎn):FusionStorage+服務(wù)器本地存儲(chǔ)替代傳統(tǒng)老舊式存儲(chǔ),存儲(chǔ)資源統(tǒng)一管理,I/O性能大幅提升;三是網(wǎng)絡(luò):InfiniBand網(wǎng)絡(luò)替代傳統(tǒng)SAN網(wǎng)絡(luò),存儲(chǔ)帶寬由10G擴(kuò)展至128G;四是備份:存儲(chǔ)平面?zhèn)浞萏娲鷤鹘y(tǒng)帶庫(kù)式備份,無(wú)須通過(guò)物理帶庫(kù)和虛擬帶庫(kù)進(jìn)行數(shù)據(jù)備份,直接將數(shù)據(jù)庫(kù)數(shù)據(jù)備份至分布式備份資源池;五是容災(zāi):分布式容災(zāi)復(fù)制替代傳統(tǒng)集中式容災(zāi)同步,分布式x86數(shù)據(jù)庫(kù)系統(tǒng)將源數(shù)據(jù)打散后分別同步給多個(gè)目標(biāo)服務(wù)器,通過(guò)軟件實(shí)現(xiàn)了分布式容災(zāi)數(shù)據(jù)的一致性復(fù)制。
以業(yè)務(wù)支撐的經(jīng)營(yíng)分析系統(tǒng)為例,隨著數(shù)據(jù)量的快速膨脹,日?qǐng)?bào)、月報(bào)業(yè)務(wù)的處理時(shí)間需要10個(gè)小時(shí)以上。系統(tǒng)主要的性能瓶頸是高端存儲(chǔ)與小機(jī)之間的I/O吞吐。
系統(tǒng)采用大吞吐、低時(shí)延的InfiniBand交換機(jī)打破FC交換機(jī)的網(wǎng)絡(luò)帶寬瓶頸;采用分布式存儲(chǔ)技術(shù),徹底打破高端存儲(chǔ)的機(jī)頭限制,實(shí)現(xiàn)性能的線性擴(kuò)展;利用SSD存儲(chǔ)介質(zhì)及分布式Cache技術(shù),讓I/O性能大幅提升。通過(guò)對(duì)經(jīng)營(yíng)分析系統(tǒng)的現(xiàn)場(chǎng)測(cè)試,月報(bào)性能可提升到1小時(shí)15分鐘。
此次改造項(xiàng)目,遼寧移動(dòng)的收益十分顯著,具體表現(xiàn)在系統(tǒng)提升、成本節(jié)省以及未來(lái)發(fā)展方面。
首先,改造后應(yīng)用系統(tǒng)性能實(shí)現(xiàn)大幅度提升。針對(duì)100T經(jīng)分?jǐn)?shù)據(jù)進(jìn)行分析處理,效果明顯,處理時(shí)長(zhǎng)由10小時(shí)18分縮短至2小時(shí)9分,性能提升5~6倍;支持最大并發(fā)用戶數(shù)由400增加至1000。
其次,經(jīng)濟(jì)效益表現(xiàn)出色。遼寧移動(dòng)采用通用的x86服務(wù)器,代替原有的小機(jī)及高端存儲(chǔ)設(shè)備,降低IT建設(shè)的整體投資;同時(shí)有效地降低了主機(jī)服務(wù)器的維保費(fèi)用,以替換1臺(tái)小型機(jī)為例,每年可節(jié)省維保費(fèi)用59萬(wàn);以替換1T傳統(tǒng)老舊存儲(chǔ)為例,每年可節(jié)省維保費(fèi)用1.8萬(wàn)。
最后,社會(huì)效益十分突出。遼寧移動(dòng)采用新的數(shù)據(jù)庫(kù)云平臺(tái),可以實(shí)現(xiàn)日?qǐng)?bào)、月報(bào)的及時(shí)性,進(jìn)而提升服務(wù)質(zhì)量和用戶滿意度;通過(guò)降低小型機(jī)和高端存儲(chǔ)的采購(gòu)數(shù)量,實(shí)現(xiàn)節(jié)能減排、綠色環(huán)保的健康持續(xù)發(fā)展;有力地推進(jìn)了遼寧移動(dòng)業(yè)務(wù)支撐網(wǎng)建設(shè)卓越運(yùn)營(yíng)體系的進(jìn)程。
華為方面表示,在該改造項(xiàng)目實(shí)施初期,遼寧移動(dòng)各方面經(jīng)濟(jì)效益即得到很大提高,相信隨著傳統(tǒng)數(shù)據(jù)中心向云計(jì)算業(yè)務(wù)中心轉(zhuǎn)型的不斷深入,一定會(huì)為企業(yè)創(chuàng)造更大的經(jīng)濟(jì)收益。