魏學(xué)鋒
摘要:油田生產(chǎn)數(shù)據(jù)量巨大,而大數(shù)據(jù)在生產(chǎn)網(wǎng)絡(luò)中反復(fù)流轉(zhuǎn)給整個(gè)系統(tǒng)的穩(wěn)定與性能帶來了極大的壓力。為解決這一問題,本文提出了基于訪問熱點(diǎn)預(yù)測(cè)的油田大數(shù)據(jù)負(fù)載均衡算法,該算法基于就近訪問原則,通過測(cè)算大數(shù)據(jù)塊在存儲(chǔ)網(wǎng)絡(luò)中的訪問熱點(diǎn),將其部署在對(duì)應(yīng)的服務(wù)器上,從而避免其反復(fù)在生產(chǎn)網(wǎng)絡(luò)中生滅與流轉(zhuǎn)。實(shí)地測(cè)試表明:該算法具有良好的存儲(chǔ)負(fù)載均衡效能,能夠節(jié)約大量的流量與存儲(chǔ)開支,具有一定的實(shí)用價(jià)值。
關(guān)鍵詞:大數(shù)據(jù)系統(tǒng);負(fù)載均衡;訪問熱點(diǎn);預(yù)測(cè)
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)12-0014-02
油田生產(chǎn)中的工況數(shù)據(jù)量巨大,因而相關(guān)企業(yè)與單位均采用了分布式大數(shù)據(jù)存儲(chǔ)系統(tǒng);此類系統(tǒng)可以將海量數(shù)據(jù)分散存儲(chǔ)于多臺(tái)服務(wù)器,并實(shí)現(xiàn)統(tǒng)一的管理與訪問,其透明的服務(wù)模式受到了一致的好評(píng)。但實(shí)際應(yīng)用中發(fā)現(xiàn),目前的大數(shù)據(jù)存儲(chǔ)系統(tǒng)在存儲(chǔ)負(fù)載均衡方面還有所欠缺,集中表現(xiàn)在數(shù)據(jù)經(jīng)常被部署在距離訪問節(jié)點(diǎn)較遠(yuǎn)的存儲(chǔ)服務(wù)器中,訪問時(shí)需要通過多跳接力才能完成數(shù)據(jù)的獲取,占用了過多的網(wǎng)絡(luò)流量與多個(gè)節(jié)點(diǎn)的存儲(chǔ)空間。針對(duì)這一問題,國內(nèi)外研究人員提出了多種解決思路與方案,例如:李彥等人在大數(shù)據(jù)城市交通調(diào)度系統(tǒng)中提出了就近存儲(chǔ)的解決思路。許道強(qiáng)等人基于異構(gòu)分布式存儲(chǔ)環(huán)境,提出了一種面向標(biāo)簽化管理的大數(shù)據(jù)調(diào)度算法,取得了一定的成效。李瑋瑤基于存儲(chǔ)資源感知理論,提出了一種大數(shù)據(jù)處理任務(wù)調(diào)度算法,并對(duì)它進(jìn)行了仿真測(cè)試,證明了其有效性。董春濤等人針對(duì)Hadoop YARN大數(shù)據(jù)系統(tǒng)中的實(shí)際問題,研究了分布式存儲(chǔ)一計(jì)算優(yōu)化模式及其存儲(chǔ)資源調(diào)度算法,證明了就近存儲(chǔ)的可行性。劉鑫研究了一種分布式數(shù)據(jù)庫環(huán)境的海量數(shù)據(jù)服務(wù)器間遷移算法,證明通過訪問記錄等方式能夠有效地平衡數(shù)據(jù)存儲(chǔ),并降低NAS系統(tǒng)中的流量。劉汪根等人設(shè)計(jì)了一種云環(huán)境中的分布式大數(shù)據(jù)感知與存儲(chǔ)資源調(diào)度算法,并在實(shí)際應(yīng)用中驗(yàn)證了其有效性。鐘健等人基于物聯(lián)網(wǎng)環(huán)境研究了大數(shù)據(jù)的分級(jí)分段調(diào)度與流轉(zhuǎn)算法;翁利國等人基于Spark數(shù)據(jù)處理平臺(tái)研究了動(dòng)態(tài)的存儲(chǔ)資源分配與調(diào)度算法,并在通用Hadoop系統(tǒng)中對(duì)其進(jìn)行了驗(yàn)證。而上述成果在大港油田的實(shí)際應(yīng)用中暴露出訪問熱點(diǎn)預(yù)測(cè)精度差、存儲(chǔ)與流量負(fù)載均衡效果不佳等問題,因此本研究提出了一種基于訪問熱點(diǎn)預(yù)測(cè)的油田大數(shù)據(jù)負(fù)載均衡算法,并取得了一定的應(yīng)用效果。
1算法結(jié)構(gòu)與基本流程
新算法的基本結(jié)構(gòu)與流程如圖1所示;其中的主要步驟如下:
Step1:各生產(chǎn)單位在自身的服務(wù)器上生成大數(shù)據(jù)塊,提取其中的數(shù)據(jù)塊特征,以報(bào)文形式將其發(fā)送給自身距離最近的存儲(chǔ)服務(wù)器。
Step2:各存儲(chǔ)服務(wù)器采集自身存儲(chǔ)容量等資源信息,并分發(fā)給其他存儲(chǔ)服務(wù)器;接收數(shù)據(jù)塊特征報(bào)文,進(jìn)行匹配計(jì)算,發(fā)送數(shù)據(jù)接收回持報(bào)文或轉(zhuǎn)發(fā)給其他存儲(chǔ)服務(wù)器。
Step3:各存儲(chǔ)服務(wù)器接到其他服務(wù)器的資源信息,將存儲(chǔ)在本地,刷新大數(shù)據(jù)存儲(chǔ)資源視圖,基于自身情況和該視圖進(jìn)行訪問熱點(diǎn)預(yù)測(cè)。
Step4:接收完大數(shù)據(jù)塊后,各存儲(chǔ)服務(wù)器將刷新大數(shù)據(jù)存儲(chǔ)資源視圖,并發(fā)布更新報(bào)文給其他服務(wù)器。
2核心算法描述
首先,本研究生產(chǎn)單位發(fā)來的大數(shù)據(jù)塊形成了待存儲(chǔ)隊(duì)列:X,而其特征隊(duì)列是y,二者之間關(guān)系可以表述為:
從上表1中的測(cè)試結(jié)果可以看出:新型算法的大數(shù)據(jù)負(fù)載均衡性能指標(biāo)均勝過現(xiàn)有算法,表明其綜合性能良好;特別是:在服務(wù)器峰值存儲(chǔ)負(fù)荷與峰谷存儲(chǔ)負(fù)荷之差方面,新算法遠(yuǎn)低于既有算法,說明其外存(硬盤)負(fù)載均衡效果很好,將大數(shù)據(jù)塊較為均勻的配置在各臺(tái)服務(wù)器中,避免了存儲(chǔ)瓶頸問題的發(fā)生。該算法在訪問熱點(diǎn)預(yù)測(cè)過程中并未占用過多的系統(tǒng)資源,因而CPU占用率等資源消耗指標(biāo)也與現(xiàn)有算法相差不多,而平均服務(wù)器內(nèi)存占用量則遠(yuǎn)低于現(xiàn)有算法,體現(xiàn)了很高的性價(jià)比。綜上所述,上述測(cè)試結(jié)果表明:新型算法能夠在現(xiàn)有軟/硬件環(huán)境中,節(jié)省大數(shù)據(jù)存儲(chǔ)配置帶來的遷移與流轉(zhuǎn)資源消耗,因而能夠用于大數(shù)據(jù)分布式存儲(chǔ)系統(tǒng)的升級(jí)與增效,適用性與實(shí)用性較高。
4結(jié)論
本研究針對(duì)油田大數(shù)據(jù)帶來的巨大信息管理壓力,提出了基于訪問熱點(diǎn)預(yù)測(cè)的油田大數(shù)據(jù)負(fù)載均衡算法。該算法具有良好的負(fù)載均衡效能,能夠節(jié)約大量的流量與存儲(chǔ)開支;在未來,將對(duì)該算法的大規(guī)模與超大規(guī)模油田數(shù)據(jù)集群應(yīng)用展開深入研究。