国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)的模糊時(shí)間序列預(yù)測模型的HDFS副本選擇策略

2016-02-13 01:08莫文導(dǎo)孫全忠
廣東公安科技 2016年4期
關(guān)鍵詞:論域副本客戶端

莫文導(dǎo) 孫全忠

(廣東省公安廳科技信息化處,廣東廣州510050)

基于改進(jìn)的模糊時(shí)間序列預(yù)測模型的HDFS副本選擇策略

莫文導(dǎo) 孫全忠

(廣東省公安廳科技信息化處,廣東廣州510050)

隨著公安機(jī)關(guān)大數(shù)據(jù)計(jì)算和警務(wù)云平臺(tái)的建設(shè)、推廣,云存儲(chǔ)改變了以往數(shù)據(jù)本地存儲(chǔ)和處理的傳統(tǒng)模式,能夠通過網(wǎng)絡(luò)根據(jù)需求快捷訪問計(jì)算與存儲(chǔ)等服務(wù)。為了滿足云存儲(chǔ)系統(tǒng)的動(dòng)態(tài)性、復(fù)雜性以及實(shí)時(shí)性的要求,本文提出了基于改進(jìn)的模糊時(shí)間序列預(yù)測模型的HDFS副本選擇策略。對模糊時(shí)間序列預(yù)測模型進(jìn)行改進(jìn),利用改進(jìn)后的模糊時(shí)間序列預(yù)測模型對副本讀取時(shí)間進(jìn)行預(yù)測,并在hadoop平臺(tái)的數(shù)據(jù)訪問實(shí)驗(yàn),證明了改進(jìn)后的模糊時(shí)間序列預(yù)測模型相比于經(jīng)典模型能夠較好地刻畫云存儲(chǔ)數(shù)據(jù)副本讀取時(shí)間的變化,并在數(shù)據(jù)訪問耗時(shí)方面有明顯的性能提升。

云存儲(chǔ)副本選擇預(yù)測模型模糊時(shí)間序列

隨著大數(shù)據(jù)時(shí)代的到來,越來越多的公安業(yè)務(wù)應(yīng)用場景對數(shù)據(jù)的分析從離線轉(zhuǎn)向在線,而數(shù)據(jù)價(jià)值隨著時(shí)間的流逝而衰減的特點(diǎn),導(dǎo)致對數(shù)據(jù)處理的實(shí)時(shí)性要求越來越高。云存儲(chǔ)系統(tǒng)作為大數(shù)據(jù)的主要存儲(chǔ)平臺(tái),應(yīng)滿足大數(shù)據(jù)處理的高速訪問性能的需求。因此,提高云存儲(chǔ)平臺(tái)的數(shù)據(jù)訪問速率,是改進(jìn)大數(shù)據(jù)處理性能,保證數(shù)據(jù)處理和公安科技信息化應(yīng)用系統(tǒng)實(shí)時(shí)性的重要手段。

云存儲(chǔ)系統(tǒng)通過引入副本機(jī)制提高數(shù)據(jù)的可靠性并降低訪問延遲,以HDFS為代表的云存儲(chǔ)系統(tǒng)副本選擇決策機(jī)制,根據(jù)主控節(jié)點(diǎn)(NameNode)統(tǒng)一計(jì)算的結(jié)果,決定讀取哪個(gè)數(shù)據(jù)塊副本(一般為網(wǎng)絡(luò)距離最小的),沒有考慮數(shù)據(jù)節(jié)點(diǎn)負(fù)載、集群內(nèi)部帶寬變化、磁盤IO和多客戶端并發(fā)訪問等因素對數(shù)據(jù)讀取性能造成的影響。導(dǎo)致主控節(jié)點(diǎn)的計(jì)算負(fù)荷大幅度增加,難以控制客戶端的數(shù)據(jù)副本讀取性能和預(yù)測響應(yīng)時(shí)間變化。本文利用預(yù)測的方法來優(yōu)化HDFS副本的選擇策略,在客戶端訪問HDFS副本時(shí),基于模糊時(shí)間序列預(yù)測模型來選擇HDFS副本,從而減少數(shù)據(jù)訪問時(shí)間和優(yōu)化數(shù)據(jù)訪問性能。

1 改進(jìn)的模糊時(shí)間序列預(yù)測模型

普通時(shí)間序列預(yù)測模型是建立在數(shù)據(jù)完整性、準(zhǔn)確性和確定性基礎(chǔ)上的一種規(guī)律分析方法,對應(yīng)用環(huán)境的要求高,并需要大量的歷史數(shù)據(jù)支撐。而實(shí)際應(yīng)用環(huán)境的復(fù)雜性使得觀測到的數(shù)據(jù)準(zhǔn)確性不高,存在大量無法用精確數(shù)據(jù)表示的模糊變量,導(dǎo)致普通時(shí)間序列預(yù)測模型的實(shí)用性不高。為了解決普通時(shí)間序列預(yù)測模型存在的不足,Song和Chissom[1][2]在模糊集理論[3]的基礎(chǔ)上提出了第一個(gè)模糊時(shí)間序列預(yù)測模型,并衍生出大量的改進(jìn)模型,但這些模型要么過于復(fù)雜,要么沒有考慮實(shí)際應(yīng)用的數(shù)據(jù)動(dòng)態(tài)性,難以適應(yīng)復(fù)雜而多變的云存儲(chǔ)系統(tǒng)環(huán)境。

為了能在可接受的時(shí)間內(nèi)給出預(yù)測結(jié)果,使得預(yù)測過程的計(jì)算時(shí)間對副本響應(yīng)時(shí)間的影響降到最低,且能夠從新獲取到的訓(xùn)練數(shù)據(jù)里提取有用信息并逐步更新模糊計(jì)算邏輯關(guān)系。本文在Chen[4]模型的基礎(chǔ)上,結(jié)合文獻(xiàn)[5]提出的改進(jìn)方法,對經(jīng)典預(yù)測模型進(jìn)行優(yōu)化調(diào)整。

1.1 論域動(dòng)態(tài)調(diào)整

由于網(wǎng)絡(luò)狀態(tài)、磁盤IO速度、并發(fā)訪問數(shù)等因素均會(huì)對副本響應(yīng)時(shí)間產(chǎn)生影響,云存儲(chǔ)環(huán)境下,長期的數(shù)據(jù)特征穩(wěn)定性較差,經(jīng)典模糊時(shí)間序列預(yù)測模型并不適合對副本響應(yīng)時(shí)間進(jìn)行長期預(yù)測,因此,該模型的預(yù)測應(yīng)用重點(diǎn)應(yīng)放在副本響應(yīng)時(shí)間短期預(yù)測上。

將HDFS集群的副本響應(yīng)時(shí)間歷史數(shù)據(jù)窗口定義為W,大小為|W|=k,k個(gè)時(shí)刻上的時(shí)間序列為W(t)={w1(t),w2(t),…,wk(t)}。由于數(shù)據(jù)離群點(diǎn)(Outlier)會(huì)影響到確定論域、劃分模糊區(qū)間等過程,導(dǎo)致預(yù)測準(zhǔn)確性降低,因此確定論域前,需預(yù)先剔除捕獲訓(xùn)練數(shù)據(jù)的離群點(diǎn)。

本文使用3σ準(zhǔn)則剔除離群點(diǎn),設(shè)歷史數(shù)據(jù)窗口為W,數(shù)據(jù)平均值為xˉ,標(biāo)準(zhǔn)差為σ,如果W的觀測值中有wp(t)滿足以下條件:wp(t)<xˉ-3σ或者wp(t)>xˉ+3σ,則將滿足條件的wp(t)作為離群點(diǎn)進(jìn)行剔除預(yù)處理。如將預(yù)處理操作后的時(shí)間序列表示為:W′(t)={…,wi(t),wj(t),…,wm(t),…},則歷史數(shù)據(jù)窗口W上的論域?yàn)閁W=[min(W′(t)),max(W′(t))]。

根據(jù)獲取到的新副本響應(yīng)時(shí)間,動(dòng)態(tài)調(diào)整歷史數(shù)據(jù)窗口W的大小。每當(dāng)獲取到新的響應(yīng)時(shí)間相關(guān)數(shù)據(jù)時(shí),首先判斷該數(shù)據(jù)值是否處于UW的范圍內(nèi),若新的響應(yīng)時(shí)間數(shù)據(jù)值處于論域UW內(nèi),則在歷史數(shù)據(jù)窗口W的末端添加該數(shù)據(jù)值,窗口大小相應(yīng)增加1個(gè)單位,并利用模糊邏輯關(guān)系矩陣更新模型數(shù)據(jù);若新的響應(yīng)時(shí)間數(shù)據(jù)值不處于論域UW內(nèi),則從歷史數(shù)據(jù)窗口W中截取||Wmin個(gè)歷史數(shù)據(jù),和新的響應(yīng)時(shí)間數(shù)據(jù)值共同構(gòu)成新的歷史數(shù)據(jù)窗口,其中,截取歷史數(shù)據(jù)的數(shù)量||Wmin,應(yīng)根據(jù)歷史數(shù)據(jù)窗口大小、論域范圍等具體情況進(jìn)行規(guī)定。新的歷史數(shù)據(jù)窗口確定后,重新執(zhí)行論域調(diào)整、模糊預(yù)測區(qū)間劃分、模糊關(guān)系矩陣生成和更新等過程。

1.2 模糊邏輯關(guān)系矩陣動(dòng)態(tài)更新

由于經(jīng)典預(yù)測模型對模糊邏輯關(guān)系不進(jìn)行多次(重復(fù))計(jì)算,因此該類模型的模糊邏輯關(guān)系矩陣不能體現(xiàn)由模糊邏輯關(guān)系出現(xiàn)頻繁度產(chǎn)生的影響。本文在重新建立模糊邏輯關(guān)系的權(quán)重矩陣時(shí),將模糊邏輯關(guān)系出現(xiàn)的頻繁程度作為重要計(jì)算參考因素。

經(jīng)調(diào)整后的模糊時(shí)間序列預(yù)測算法流程如圖1所示。首先,選取最小樣本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其中,應(yīng)根據(jù)不同系統(tǒng)規(guī)定的最小樣本個(gè)數(shù),選取符合系統(tǒng)預(yù)測要求的樣本數(shù)量。其次,對訓(xùn)練數(shù)據(jù)做預(yù)處理,剔除對預(yù)測結(jié)果影響較大的離群數(shù)據(jù);接著定義樣本論域并劃分模糊區(qū)間。與經(jīng)典模型不同,調(diào)整后的模糊時(shí)間序列預(yù)測算法根據(jù)LEM2規(guī)則[6]來生成模糊邏輯關(guān)系矩陣,并給出最后的預(yù)測結(jié)果,隨后執(zhí)行論域動(dòng)態(tài)調(diào)整過程(見“1.1論域動(dòng)態(tài)調(diào)整”)。

圖1 調(diào)整后的模糊時(shí)間序列預(yù)測算法流程圖

2 基于預(yù)測的副本選擇策略

在改進(jìn)的模糊時(shí)間序列預(yù)測模型算法的基礎(chǔ)上,重新設(shè)計(jì)分布式副本的選擇和讀取策略:

設(shè)R={r1,r2,…rn}表示HDFS集群的文件F中數(shù)據(jù)塊B的候選副本集,候選副本ri響應(yīng)時(shí)間為客戶端C選擇候選副本ri并將其讀取到內(nèi)存的時(shí)間。

當(dāng)安裝了副本選擇服務(wù)的客戶端向HDFS集群主控節(jié)點(diǎn)(NameNode)發(fā)出讀取請求時(shí),NameNode將擬讀取的數(shù)據(jù)塊副本的位置信息反饋給客戶端,安裝在客戶端上的副本選擇服務(wù)根據(jù)反饋的數(shù)據(jù)塊副本位置信息,區(qū)分相同數(shù)據(jù)塊內(nèi)的不同副本,同時(shí)記錄所有成功訪問的副本響應(yīng)時(shí)間。則基于改進(jìn)的模糊時(shí)間序列預(yù)測模型重新設(shè)計(jì)的數(shù)據(jù)副本選擇和讀取策略如下:

(1)如果客戶端訪問數(shù)據(jù)時(shí),候選副本集中有新創(chuàng)建的副本,此時(shí),由于缺少副本響應(yīng)時(shí)間的歷史樣本數(shù)據(jù),客戶端直接讀取新創(chuàng)建的副本并記錄響應(yīng)時(shí)間;

(2)若存在候選副本集響應(yīng)時(shí)間的歷史樣本數(shù)小于||Wmin的情況,則選擇并讀取訪問次數(shù)最少的副本,記錄響應(yīng)時(shí)間,并納入歷史樣本數(shù)進(jìn)行統(tǒng)計(jì);

(3)在候選副本集響應(yīng)時(shí)間的歷史樣本數(shù)據(jù)充足的情況下,用調(diào)整后的模糊時(shí)間序列預(yù)測模型,預(yù)測候選副本集中所有副本的響應(yīng)時(shí)間,選擇并讀取預(yù)測響應(yīng)時(shí)間最小的副本,記錄實(shí)際的副本響應(yīng)時(shí)間;

(4)結(jié)合實(shí)際的應(yīng)用系統(tǒng)需求,設(shè)定一個(gè)訪問時(shí)間閥值,當(dāng)副本最近被訪問的時(shí)間超過了閥值,將該副本標(biāo)記為長時(shí)間未被訪問數(shù)據(jù)副本,并當(dāng)作新創(chuàng)建副本進(jìn)行處理。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)環(huán)境與配置

為了驗(yàn)證改進(jìn)的模糊時(shí)間序列預(yù)測模型及其副本選擇策略的有效性,設(shè)計(jì)了一個(gè)Hadoop集群實(shí)驗(yàn)環(huán)境,其中包括1個(gè)NameNode和4個(gè)DataNode,實(shí)驗(yàn)環(huán)境的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖2所示。

圖2 Hadoop集群實(shí)驗(yàn)環(huán)境網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)

實(shí)驗(yàn)環(huán)境中的集群角色(NameNode、DataNode和Client等)使用1個(gè)路由器實(shí)現(xiàn)互聯(lián),等同于所有節(jié)點(diǎn)均處于同一個(gè)機(jī)架內(nèi)。根據(jù)Hadoop集群的網(wǎng)絡(luò)距離計(jì)算模式,實(shí)驗(yàn)環(huán)境中的2個(gè)節(jié)點(diǎn)相互之間的網(wǎng)絡(luò)距離均為2,符合使用HDFS副本隨機(jī)選擇策略的條件和要求。Hadoop集群實(shí)驗(yàn)環(huán)境中NameNode與DataNode節(jié)點(diǎn)的配置參數(shù)如表1所示。

表1 Hadoop集群實(shí)驗(yàn)環(huán)境節(jié)點(diǎn)硬件配置參數(shù)

由于Hadoop沒有直接操作數(shù)據(jù)塊副本的接口,無法直接測量數(shù)據(jù)塊副本的響應(yīng)時(shí)間,因此,實(shí)驗(yàn)過程采用場景模擬的方式測量并收集副本響應(yīng)時(shí)間。先將實(shí)驗(yàn)環(huán)境中的Hadoop集群默認(rèn)副本因子設(shè)置為1,然后每次僅選擇1個(gè)且與上次不同的DataNode節(jié)點(diǎn)上傳目標(biāo)測試文件,目標(biāo)測試文件大小均為60MB,具有相同的數(shù)據(jù)內(nèi)容,分別命名為TestFiles0~3,重復(fù)4次上傳操作,歷遍所有DataNode節(jié)點(diǎn)后,同時(shí)啟動(dòng)4個(gè)DataNode節(jié)點(diǎn),在不使用HDFS的Bal?ancer工具平衡各節(jié)點(diǎn)存儲(chǔ)空間利用率的情況下,確保每個(gè)DataNode節(jié)點(diǎn)中存在唯一的目標(biāo)測試文件。

在使用5個(gè)客戶端(Client)不間斷、隨機(jī)訪問集群文件,模擬現(xiàn)實(shí)的集群環(huán)境中網(wǎng)絡(luò)狀態(tài)、磁盤IO速度、并發(fā)訪問數(shù)等影響副本響應(yīng)時(shí)間的場景和因素的情況下,用另外1個(gè)獨(dú)立的客戶端,以2秒的時(shí)間間隔,讀取4個(gè)DataNode節(jié)點(diǎn)上的目標(biāo)測試文件(TestFiles0~3)并記錄響應(yīng)時(shí)間,重復(fù)讀取操作直到獲取足夠的實(shí)驗(yàn)數(shù)據(jù)。

3.2 經(jīng)步驟調(diào)整的模糊時(shí)間序列預(yù)測效果對比

本實(shí)驗(yàn)選取單個(gè)時(shí)間序列前20個(gè)(||Wmin=20)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),應(yīng)用經(jīng)典模糊時(shí)間序列預(yù)測算法和調(diào)整后的預(yù)測模型,對從目標(biāo)測試文件(TestFiles0~3)的響應(yīng)時(shí)間序列中隨機(jī)選取的30個(gè)序列進(jìn)行預(yù)測,通過與實(shí)際副本讀取響應(yīng)時(shí)間進(jìn)行對比,得出兩者的預(yù)測效果如圖3、圖4所示。

圖3 經(jīng)典模糊時(shí)間序列模型預(yù)測結(jié)果

圖4 經(jīng)調(diào)整的模糊時(shí)間序列模型預(yù)測結(jié)果

由圖可知,經(jīng)典模糊時(shí)間序列預(yù)測模型難以反映真實(shí)響應(yīng)時(shí)間的趨勢。調(diào)整后的模糊時(shí)間序列預(yù)測模型的預(yù)測結(jié)果雖然具有一定的滯后性,但能夠較好地反映數(shù)據(jù)的變化趨勢,更適合云存儲(chǔ)環(huán)境下副本響應(yīng)時(shí)間的動(dòng)態(tài)預(yù)測。3.3基于預(yù)測的副本選擇策略與隨機(jī)選擇策略

的比較

使用重新設(shè)計(jì)的副本選擇策略,選擇目標(biāo)測試文件(TestFiles0~3)中,預(yù)測響應(yīng)時(shí)間最小的副本進(jìn)行讀取,其預(yù)測效果如圖5所示。

圖5 基于預(yù)測的讀取時(shí)間與隨機(jī)策略讀取時(shí)間對比

由圖可知,經(jīng)過30次的副本讀取比較,重新設(shè)計(jì)的模糊時(shí)間序列預(yù)測模型選取副本讀取時(shí)間為1093.7s,比隨機(jī)選擇副本所耗費(fèi)時(shí)間(1504.2s)減少了410.5s的時(shí)間,平均每個(gè)副本節(jié)省訪問時(shí)間約13.7s,說明重新設(shè)計(jì)的模糊時(shí)間序列預(yù)測模型的副本訪問性能得到了有效提升。

4 結(jié)語

本文針對HDFS在讀取文件時(shí)所采用的副本選擇策略的不足,對經(jīng)典模糊時(shí)間序列預(yù)測模型進(jìn)行了適當(dāng)調(diào)整,提出了基于模糊時(shí)間序列預(yù)測模型的副本選擇策略,并通過Hadoop集群上模擬實(shí)驗(yàn)環(huán)境,驗(yàn)證了基于改進(jìn)的模糊時(shí)間序列預(yù)測方法應(yīng)用在HDFS副本選擇策略時(shí),可以更好地體現(xiàn)出用戶讀取數(shù)據(jù)的規(guī)律性,獲得更好的數(shù)據(jù)訪問性能,更加適合云存儲(chǔ)系統(tǒng)環(huán)境下動(dòng)態(tài)預(yù)測的需求。

[1]Song,Q.and B.S.Chissom,Forecasting enrollments with fuzzy time series—part I.Fuzzy sets and systems, 1993.54(1):p.1-9.

[2]Song,Q.and B.S.Chissom,Forecasting enrollments with fuzzy time series—part II.Fuzzy sets and systems, 1994.62(1):p.1-8.

[3]Zadeh,L.A.,B.Yuan,and G.J.Klir.Fuzzy sets,fuzzy logic,and fuzzy systems:selected papers by LotfiA.Za?deh.1996:World Scientific Publishing Co.,Inc.

[4]Chen,S.-M.Forecasting enrollments based on fuzzy time series.Fuzzy sets and systems,1996.81(3):p. 311-319.

[5]Teoh,H.J.,et al.,Fuzzy time series model based on probabilistic approach and rough set rule induction for empirical research in stock markets.Data&Knowl?edge Engineering,2008.67(1):p.103-117.

[6]Grzymala-Busse JW.A new version of the rule induc?tion system LERS[J].Fundamenta Informaticae,1997, 31(1):27-39.

猜你喜歡
論域副本客戶端
基于變論域模糊控制的Taylor逼近型內(nèi)模PID算法
如何看待傳統(tǒng)媒體新聞客戶端的“斷舍離”?
使用卷影副本保護(hù)數(shù)據(jù)
面向流媒體基于蟻群的副本選擇算法①
縣級臺(tái)在突發(fā)事件報(bào)道中如何應(yīng)用手機(jī)客戶端
孵化垂直頻道:新聞客戶端新策略
大樞紐 云平臺(tái) 客戶端——中央人民廣播電臺(tái)的探索之路
大眾文化視域下流行音樂的論域、對象與定義
分布式系統(tǒng)數(shù)據(jù)復(fù)制的研究
基于雙論域的一般多粒度模糊粗糙集