楊 斐
(阜陽職業(yè)技術(shù)學院 工程科技學院,安徽 阜陽 236031)
在現(xiàn)代國民經(jīng)濟發(fā)展中,數(shù)據(jù)挖掘的地位與重要性日益增強,在民用及軍用方面均取得了不俗的成效,為人們的生活提供了諸多便利[1-3]。根據(jù)混沌系統(tǒng)對原始值較為敏感的特點,可將輸入資源管理信號的細小變化都迅速呈現(xiàn)在輸出信號內(nèi),反映出信號的真實狀況[4]?;煦鐣r間序列根據(jù)其內(nèi)部的確定性規(guī)律,可以對目標進行精準預(yù)判,在經(jīng)濟預(yù)測、地震勘測等諸多領(lǐng)域發(fā)揮了重要作用。
由此,本文提出一種基于混沌時間序列的資源管理大數(shù)據(jù)挖掘方法。其創(chuàng)新之處在于依據(jù)混沌時間序列模型,找到預(yù)測點的相鄰?fù)蜣D(zhuǎn)換形態(tài)及其后續(xù)時間序列的函數(shù)關(guān)聯(lián),完成對被測目標位置的正確預(yù)判;其關(guān)鍵在于,在保持信號穩(wěn)定性的情況下,利用基于峰值點修正的資源管理大數(shù)據(jù)挖掘方法,降低挖掘偏差幾率,最大限度提升挖掘的精準度,使其廣泛使用在各個領(lǐng)域。
為了提升資源管理大數(shù)據(jù)挖掘的挖掘效率,本文使用混沌時間序列模型對被測資源區(qū)域位置采取精準預(yù)測,達到減少挖掘誤差的目的[5-7]。
可將混沌時間序列當作某一時間參變量獲得的動力系統(tǒng)解析式:
X=f(x)
(1)
其中,f(x)表示反映動力系統(tǒng)伴隨時間推移的函數(shù)關(guān)系式。
按照混沌及分形原則,可獲取具備n個形態(tài)參變量xi隨著時間推移的非線性動力系統(tǒng),具體的控制方程可描述為
(2)
對于離散狀態(tài)的管理時間序列而言,可使用不持續(xù)時序x(t)及其在(n-1)時滯的管理信息,共同組合為動力軌跡:
x(t)=(x(ti),x(ti+τ),…,x(ti+(n-1)τ))
(3)
利用此種手段把數(shù)據(jù)的固有時間進行推遲,重新建立一個等價的多維狀態(tài)空間,反復(fù)此過程得到不同時段的推遲數(shù)量,可生成一個在n維相空間的相點演變路線。在進行演算時,要把初始管理數(shù)據(jù){xi}根據(jù)相應(yīng)的時間間隙τ(τ=k*Δt)擴充成n維空間的相型分布。因此,將時間序列的相空間描述成:
xi(t)=(x(ti),x(ti+τ),…,x(ti+(m-1)τ))
(4)
(4)中的相位分布包含m個相位點,每個相位點都包含n個分量。相位點之間的線段表示系統(tǒng)在n維空間中的演化。
相空間的混沌吸引子具備一定的平穩(wěn)性及分形性,通過尋找預(yù)測點的相鄰?fù)蜣D(zhuǎn)換形態(tài)和其后續(xù)時間序列的函數(shù)關(guān)聯(lián),以此完成對目標資源的區(qū)域位置判斷。與此同時,因為相鄰的每個狀態(tài)點與預(yù)測點的空間大數(shù)據(jù)是不相等的,所以對預(yù)測的影響也不相同[8-9]。由此,本文提出一種基于鄰近點權(quán)重的混沌時間序列模型。
若與X(t)大數(shù)據(jù)待挖掘點最近的點為Xr(t),r=1,2,…,n, 且相應(yīng)點至預(yù)測點X(t)的間距是dr, 將dr中的最小值設(shè)置成dmin,那么第r個相鄰點權(quán)重為
(5)
想要完成在X(t)領(lǐng)域中采取下一步預(yù)測,可利用式(6)的演變關(guān)聯(lián)得到下一個預(yù)測數(shù)值。
Φ[X(t)]=(Φ1(X),Φ2(X),…,Φm+1(X))T=(1,x(τ),x(t-τ),x(t-2τ),…,x(t-mτ+τ))T
(6)
X(t)每個相鄰點在t+τ時段會演變成Xr(t+τ), 使用加權(quán)最小二乘法將其進行最小化,具體表示為
(7)
資源管理大數(shù)據(jù)挖掘的流程通常是將待測目標資源輸入到資源管理模式中,進行樣本采集,用觸動發(fā)射機的時間挖掘系統(tǒng)開始計時[10-11],生成信號后終止計時,然后按照管理流程推算出目標大數(shù)據(jù),具體運算方程為
D=c×t/2
(8)
其中,D表示探測器至探測目標的間距,t表示資源管理模式迭代消耗的時間,c表示管理流程代號,為常數(shù)。在資源管理過程中向平臺云服務(wù)器射出資源管理模式信號后,其反射的回波信號強度會伴隨大數(shù)據(jù)的減少產(chǎn)生平方衰減,信號會產(chǎn)生大的噪聲,嚴重影響挖掘結(jié)果的精確度,因此,對回波信號進行去噪是極其重要的。
根據(jù)經(jīng)驗?zāi)J椒纸?empirical mode decomposition,EMD),可以自適應(yīng)地將信號分解成有限個IMF,其中每個IMF分量都是一個振蕩信號x(n), 包含初始信號的頻率分量的一個子集。最小二乘法應(yīng)遵循兩個原則:①極值點數(shù)與過零點數(shù)必須相等,②由極值點決定的上下包絡(luò)平均值必須等于0。
經(jīng)驗?zāi)B(tài)分解對IMFs的提取過程就是一個擇優(yōu)挑選的過程,最后就會得到IMFs與殘差相加的初始信號:
(9)
其中,h(i)(n)表示第i個IMF分量,L表示獲得的IMFs數(shù)量,res(n)表示殘差。
在已知實際信號y(n)的前提下,對其引入噪聲信號e(n), 則引入噪聲后的信號可描述為
x(n)=y(n)+e(n)
(10)
針對傳統(tǒng)EMD去噪手段,其原理是把包含可用信號的有關(guān)分量采取重構(gòu),具體表示為
(11)
其中,kth的取值取決于根據(jù)初始信號x(n)和IMF分量之間的關(guān)聯(lián)性。也可將重構(gòu)后的信號描述為
(12)
(13)
其中,N表示IMF分量長短,m是ρ(m)初始階段不大于常數(shù)C時的相對值。ρ(m)的值逐步變小,直到變成一個最小值,利用C值的確定,可以判斷出kth的所處范圍,也就是第一個關(guān)聯(lián)分量范圍:
(14)
其中,last為ρ(m)內(nèi)最后一個大于等于C的值,C值的擇取范圍是[0.55,0.65],本文將C值選定位0.65,L表示IMF分量數(shù)目。
經(jīng)過上面的步驟就能夠得到kth的具體位置,把前kth-1項IMFs當作互不關(guān)聯(lián)分量,則其余IMFs就是關(guān)聯(lián)分量。
當干擾強度較大時,用EMD分解后向散射信號,將信號與噪聲分離到相同的IMF分量。可靠的信號經(jīng)常在使用emd-d去噪時被忽略。利用軟閾值對不相關(guān)分量進行處理,得到可靠的隱藏信號,處理流程如式(15)。
(15)
其中,h(i)(n)表示第i個IMF分量,Ti表示臨界值,具體描述為
(16)
其中,N表示IMF分量的長短。
針對關(guān)聯(lián)分量,本文通過粗糙懲罰對其采取平滑處理。使用粗糙懲罰的目的是解決最小二乘法計算的不穩(wěn)定性,其根本原理就是在最小二乘法的基礎(chǔ)上引入懲罰項當作光滑模型
(17)
粗糙懲罰的主要功能是控制擬合函數(shù)的平滑度,使擬合結(jié)果在不損失真實數(shù)據(jù)的情況下保持穩(wěn)定。這既能增強回波信號的平滑性,又能防止信號失真,極大地提高了資源管理中數(shù)據(jù)挖掘數(shù)據(jù)的真實性。
平臺云服務(wù)器的資源管理大數(shù)據(jù)信號是對稱sinc函數(shù)波形,其波峰位置不會產(chǎn)生移動,因此只要找到波峰的所在位置,按照發(fā)射與接收信號的時間間隔就能得到被測目標的大數(shù)據(jù)。為了進一步縮小挖掘偏差,保證挖掘結(jié)果的精確度,本文利用指數(shù)函數(shù)修正sinc函數(shù)的方法來改善尋峰精度,具體可描述為
(18)
其中
r(x)=A·sinc(Bx)
(19)
(20)
(21)
(22)
(23)
按照接收回波的非對稱原則,將修正函數(shù)描述為
(24)
其中,τ′是修正常量,AL、AR依次表示將τB作為回波峰值點的左半峰和右半峰面積,通過sinc函數(shù)回波模型可進行如下推理:
σ=ΔτB
Wd=2ΔτB
(25)
其中ΔτB是回波的-3 dB帶寬。將式(25)引入式(21)~式(23),可獲得如下關(guān)系式:
(26)
探尋峰值的精準位置關(guān)鍵在于峰值原始定位及峰值補償糾正兩方面。首先使用多迭代下的累計方法,把每個幀回波按照主波的發(fā)射時間對應(yīng)累加,獲得一個全新的迭代信號P(i),同時將該信號剔除噪聲,存留實際波峰及噪聲引發(fā)的偽峰值點,對迭代信號P(i)采用差分求解獲得信號c(i),符合差分信號為0的點就是全部可能的峰值點,對斜率臨界值進行設(shè)定能夠去除偽峰值點。
因為噪聲形成的偽峰也符合c(i)等于0的狀況,為了達到去除噪聲的目的,需將信號c(i)進行高斯濾波處理,然后使用幅度臨界值將信號內(nèi)幅度小的偽峰值點進行過濾剔除。經(jīng)過上述步驟即可大致斷定波峰的具體位置。
進行峰值點補償糾正,因為峰值點補償是解決系統(tǒng)振蕩的有效手段,也可對溫度變化引起的采峰點非線性漂移自動跟蹤補償,所以按照探尋到的波峰位置將信號采取波形重建,推算出波峰左半部分面積AL與右半部分面積AR,同時對比兩者的大小,即可依次將兩部分波形使用指數(shù)修正函數(shù)f(x)采取相對的指數(shù)修正。具體操作:將τB作為中心,依次求出左半邊與右半邊波形的面積,選擇適當?shù)闹笖?shù)函數(shù),采取波形擬合改正,借此獲得糾正后的峰值點位置τP。
如果AL=AR,就利用sinc函數(shù)擬合,獲得的τB就是τP的位置;
按照修正后獲得的峰值點τP所處位置,就能精確推算出云服務(wù)平臺發(fā)射信號與接收間的時間差,以此降低挖掘偏差,使資源管理大數(shù)據(jù)挖掘的精度最大化。
為了驗證本文方法的可靠性,在KDNuggets(http://www.kdnuggets.com/datasets/index.html)中,隨機選取一個數(shù)據(jù)集,在保證該數(shù)據(jù)集可用的情況下,將其作為數(shù)據(jù)來源,并將本文方法與傳統(tǒng)單點資源管理模式挖掘方法進行挖掘精度實驗對比,實驗平臺為MATLAB7.0仿真軟件。
想要更為直觀地比較兩種方法的挖掘精度,下面對其進行挖掘誤差對比,具體結(jié)果如圖1所示。
圖1 挖掘誤差對比
從圖1中可以看到,本文方法的挖掘誤差較小,具備極高的穩(wěn)定性,在-50~50 mm波動,而傳統(tǒng)方法(文獻[4])的挖掘誤差波動較大,在100~300 mm波動,且伴隨挖掘次數(shù)的增加,挖掘誤差也隨之增多,證明該方法的適用性較差。
為了增強資源管理大數(shù)據(jù)挖掘的挖掘精度,確保挖掘數(shù)據(jù)的可用性,本文提出一種基于混沌時間序列的資源管理大數(shù)據(jù)挖掘方法。首先通過相空間重構(gòu)及探尋預(yù)測點函數(shù)關(guān)聯(lián),構(gòu)建出混沌時間序列模型,以此預(yù)測目標資源的具體方位,為后續(xù)的精準挖掘提供先決條件;其次,對資源管理大數(shù)據(jù)的回波信號采取去噪處理,最大限度減少信號損失,保證信號傳輸真實性;最后利用基于峰值點修正的資源管理大數(shù)據(jù)挖掘方法,對回波波形進行擬合糾正,能夠更加準確地發(fā)現(xiàn)峰值點位置,挖掘誤差在-50~50 mm波動,運用幅度臨界值把信號中幅度較小的偽峰值點進行過濾剔除,以此提升挖掘精準度,保證挖掘結(jié)果的可靠性。