陳傳毅,戴衛(wèi)軍
(澳門城市大學(xué),澳門 999078)
高維數(shù)據(jù)就是指多維數(shù)據(jù),是一維數(shù)據(jù)或者能夠?qū)懗杀磉_(dá)式的二維數(shù)據(jù),而高維數(shù)據(jù)同樣可以類推,不過在維數(shù)較高時(shí),很難直觀地表示,因此目前高維數(shù)據(jù)挖掘是重點(diǎn)研究對象。高維數(shù)據(jù)挖掘是指在大量的數(shù)據(jù)內(nèi),找出事先未知、隱含的,同時(shí)有用知識的一項(xiàng)任務(wù)[1]。是計(jì)算技術(shù)研究中一個(gè)非常具有價(jià)值的新領(lǐng)域,主要融合了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、人工智能以及數(shù)據(jù)庫等多個(gè)領(lǐng)域的技術(shù)以及理論,成為數(shù)據(jù)庫領(lǐng)域以及國際信息的最新研究方向之一,受到工業(yè)界以及學(xué)術(shù)界的廣泛關(guān)注[2]。
文獻(xiàn)[3]采用無線傳輸技術(shù),對異常數(shù)據(jù)進(jìn)行降噪處理,結(jié)合FFD技術(shù)完成數(shù)據(jù)互通,根據(jù)FIFO挖掘思想,挖掘數(shù)據(jù)并設(shè)計(jì)挖掘流程,實(shí)現(xiàn)大規(guī)模高維數(shù)據(jù)挖掘算法。該方法的數(shù)據(jù)挖掘可靠性強(qiáng)。文獻(xiàn)[4]運(yùn)用分段向量量化編碼技術(shù),分析云數(shù)據(jù)空間存儲結(jié)構(gòu),根據(jù)閉頻繁項(xiàng)集檢測方法,信息融合處理云數(shù)據(jù)并提關(guān)聯(lián)規(guī)則特征,結(jié)合尺度分解方法,降維處理云數(shù)據(jù),采用模糊聚類方法,對云數(shù)據(jù)進(jìn)行分類挖掘。該方法數(shù)據(jù)挖掘的聚類性能較好。當(dāng)前高維數(shù)據(jù)隱藏模式挖掘能夠利用降維把數(shù)據(jù)從高維降低至低維,通過增量方法以及并行方法來提升計(jì)算性能。而當(dāng)前高維數(shù)據(jù)隱藏模式挖掘精度較低,挖掘執(zhí)行時(shí)間較長,且挖掘過程工作量較大,挖掘過程較為復(fù)雜,很難滿足實(shí)際需求。
針對上述問題,本文提出一種基于貝葉斯網(wǎng)的高維數(shù)據(jù)隱藏模式挖掘方法,通過有向無環(huán)圖像以及概率表所構(gòu)成貝葉斯網(wǎng)絡(luò),利用信號處理的方法來對數(shù)據(jù)信息進(jìn)行特征提取,對子空間降維處理,采用自適應(yīng)級聯(lián)濾波完成數(shù)據(jù)的降噪,將多通道聲的傳感信息數(shù)據(jù)完成自適應(yīng)進(jìn)行波束構(gòu)成,聚焦數(shù)據(jù),從而完成高維數(shù)據(jù)的隱藏挖掘。
貝葉斯網(wǎng)絡(luò)構(gòu)成,具體步驟有以下兩個(gè)部分:
第一步:有向無環(huán)圖像(DAG),其中所有節(jié)點(diǎn)都表示一個(gè)數(shù)據(jù)變量Xi,Pai表示Xi父節(jié)點(diǎn)集合。
第二步:另外一個(gè)條件的概率表(CPT),在表內(nèi)所有元素代表數(shù)據(jù)變量Xi條件的概率密度p(Xi,Pai)。
貝葉斯網(wǎng)絡(luò)主要是針對概率推理與圖理論所建立的模型,此模型具體表示為有向無環(huán)圖,是利用節(jié)點(diǎn)與弧進(jìn)行構(gòu)成的,在其中節(jié)點(diǎn)表示變量的關(guān)系,具體表示為證據(jù)或者事件,在兩個(gè)節(jié)點(diǎn)之間,弧表示時(shí)間之間的關(guān)聯(lián)性,是作為單項(xiàng)式的,而進(jìn)行反饋環(huán)路并不存在[6]。根據(jù)此特性,就能夠?qū)Ω缸庸?jié)點(diǎn)間的關(guān)系或者是相連節(jié)點(diǎn)之間的互相關(guān)聯(lián)概率進(jìn)行確認(rèn)。
貝葉斯網(wǎng)絡(luò)在應(yīng)用于條件概率時(shí),假如某些已經(jīng)發(fā)生的證據(jù)事件E是針對假設(shè)性H的,那么H與E二者則同時(shí)具有的概率P(H,E)能夠被定義成P(H,E)=P(H)P(E|H)。
具體網(wǎng)絡(luò)結(jié)構(gòu)的表達(dá)節(jié)點(diǎn)之間具有條件獨(dú)立的聯(lián)系,且存在3種局部構(gòu)造[7],具體如下所示:
順連圖像:
圖1 貝葉斯網(wǎng)絡(luò)順連結(jié)構(gòu)示意圖
具體公式為:
P(A,B,C)=P(C|B)P(B|A)P(A)
(1)
分連圖像:
圖2 貝葉斯網(wǎng)絡(luò)分連結(jié)構(gòu)示意圖
具體公式為:
P(A,B,C)=P(C|B)P(A|B)P(B)
(2)
匯連圖像:
圖3 貝葉斯網(wǎng)絡(luò)匯連結(jié)構(gòu)示意圖
具體公式為:
P(A,B,C)=P(B|C,A)P(C)P(A)
(3)
根據(jù)乘法定律的交換性質(zhì),假如H與E二者相關(guān),則說明E就一定會與H有關(guān)系,基于此聯(lián)合概率代表公式為
P(H,E)=P(H)P(E|H)=P(E)P(H|E)
(4)
所以
(5)
式(5)為葉貝斯公式,依據(jù)統(tǒng)計(jì)學(xué)角度,P(H)表示因假設(shè)H所引起的E產(chǎn)生條件概率,被稱為H對于E似然估計(jì)[8]。證明了H是在真實(shí)情況中E所產(chǎn)生的信度。P(H|E)是后驗(yàn)的概率,如:E產(chǎn)生條件中H所出現(xiàn)概率。
貝葉斯網(wǎng)推斷的基本步驟是:首先選取一個(gè)概率密度的函數(shù)π(θ),代表在獲取數(shù)據(jù)前某一個(gè)參數(shù)θ信念,將其稱為先驗(yàn)的分布,對一個(gè)模型π(x|θ)進(jìn)行選取,能夠反映出給定參數(shù)θ狀態(tài)中對于x信念,在獲取數(shù)據(jù)X1,X2,…,Xn之后,對信念進(jìn)行更新,同時(shí)計(jì)算后驗(yàn)的分布π(θ|X1,X2,…,Xn),在后驗(yàn)分布內(nèi)獲取點(diǎn)的估計(jì)與區(qū)間的估計(jì)。
貝葉斯網(wǎng)絡(luò)可以提供一種便利的表示因果知識路徑,在其網(wǎng)絡(luò)中,節(jié)點(diǎn)是能夠作為“輸出節(jié)點(diǎn)”來對類符號的屬性進(jìn)行表示,且能夠同時(shí)存在多個(gè)輸出節(jié)點(diǎn),而對于分類過程所返回類標(biāo)號的屬性分布概率,就可以對所有類概率完成預(yù)測[9]。具體主要來源不確定:
1)該方面的領(lǐng)域?qū)<覍τ谧约赫莆盏闹R的不確定性。
2)在建模的領(lǐng)域自身中存在的不確定因素。
3)知識工程師的表示知識、試圖翻譯而造成的不確定因素。
4)對于知識本身準(zhǔn)確性以及所獲取的知識方面,所具有不確定的因素。
通過概率方法完成不準(zhǔn)確性步驟的推理,具體過程如下:
第一步:將待處理的問題域,進(jìn)行抽象成一組隨機(jī)的變量集X=X1,X2,…,Xn。
第二步:將相關(guān)此問題的知識,代表成一個(gè)聯(lián)合概率的分布P(X)。
基于數(shù)據(jù)挖掘質(zhì)量分析的系統(tǒng)框架結(jié)構(gòu)圖像,具體如圖4所示。
圖4 數(shù)據(jù)挖掘與質(zhì)量的框架分析
數(shù)據(jù)挖掘的質(zhì)量分析一般分成4步:
數(shù)據(jù)預(yù)處理:當(dāng)轉(zhuǎn)換規(guī)則與對照表的指導(dǎo)下,來對初始數(shù)據(jù)進(jìn)行元素化以及標(biāo)準(zhǔn)化的處理,構(gòu)成預(yù)處理之后的數(shù)據(jù)信息,而元素化就是解析地址等自由的格式化的文本數(shù)據(jù)信息[10]。
挖掘規(guī)則:該步驟是在預(yù)處理之后的數(shù)據(jù)上,選取數(shù)據(jù)的挖掘方法,隱藏挖掘規(guī)則等。
數(shù)據(jù)分析:利用挖掘出的規(guī)則對異常數(shù)據(jù)進(jìn)行發(fā)現(xiàn),同時(shí)進(jìn)行對應(yīng)的標(biāo)記或者結(jié)合領(lǐng)域內(nèi)知識完成修正。
類似重復(fù)的記錄匹配與合并:對相似對象識別,清除重復(fù)記錄與冗余字段,完成記錄合并。
利用信號處理方法對數(shù)據(jù)信息進(jìn)行特征提取,完成數(shù)據(jù)高維數(shù)據(jù)隱藏信息的挖掘。首先對高維數(shù)據(jù)進(jìn)行子空間降維,利用貝葉斯網(wǎng)絡(luò)對高維數(shù)據(jù)縮小開銷計(jì)算,而相對于高維數(shù)據(jù)的時(shí)間序列x1,x2,…,xn,…,能夠?qū)⑵湓O(shè)置成采樣數(shù)據(jù)時(shí)間的序列長度是N,而序列{Xi}時(shí)間的延遲是jτ,具體數(shù)據(jù)構(gòu)造之間的自相關(guān)函數(shù)公式是
(6)
以此可以固定j,獲取高維數(shù)據(jù)特征的矢量子空間,具體的子空間函數(shù)公式是
Xq=UDXTRxx(jτ)
(7)
式(7)中:U表示正交函數(shù),把上述奇異值(SVD)分解,D表示高維數(shù)據(jù)的子空間類間的平均距離大小排序,XT表示非零的特征值。經(jīng)過以上的子空間降維,完成數(shù)據(jù)的維度降低。然后以此作為基礎(chǔ),利用自適應(yīng)級聯(lián)濾波完成數(shù)據(jù)的降噪[11]。
如果數(shù)據(jù)的挖掘背景噪聲內(nèi),具有Nx個(gè)正弦的信號,那么就說明所有的結(jié)構(gòu)單元Hi(z)都是可變參數(shù)θ1i(k),最后選取可以使系統(tǒng)輸出噪聲更小的,具體濾波器傳遞函數(shù)公式為
(8)
與簡化梯度的算法進(jìn)行結(jié)合,利用級聯(lián)的Nv個(gè)陷波器將濾波函數(shù)改成
(9)
式(9)中:陷波器頻率的參數(shù)a與帶寬的參數(shù)r,φi(k)主要是作為第i級梯度的信號,在經(jīng)過上述處理,就能夠完成對數(shù)據(jù)降噪,提升數(shù)據(jù)的挖掘精度。
經(jīng)過上述的降維處理與降噪濾波之后,能夠?qū)⒍嗤ǖ赖膫鞲行畔?shù)據(jù)完成自適應(yīng)的波束構(gòu)成,然后利用提取特征的方式來對數(shù)據(jù)完成聚焦[12],具體輸入高維數(shù)據(jù)的噪聲p(ek|uk),方差與均值服從的分布公式為
(10)
相對于多個(gè)已知的干擾線譜內(nèi)的高維特征矢量,建立自適應(yīng)的波束形成器公式為
xmin,j=min{H(z)(xmax,j-xmin,j)}
(11)
xmax,j=max{H(z)(xmax,j-xmin,j)}
(12)
(13)
經(jīng)過自適應(yīng)的波束構(gòu)成,其高維數(shù)據(jù)的矢量x(t)以及波束的聚焦核K-P(t,u)是作為基函數(shù)所展開的,具體構(gòu)成新的映射公式為
(14)
將up軸定義成po階段的Fourier域,則噪聲與干擾的情況,就能夠利用自適應(yīng)的波束所形成,以此完成高維數(shù)據(jù)的隱藏挖掘。
為了驗(yàn)證所提方法的有效性,在仿真為MATLABR2014的環(huán)境下,選擇浪潮XEON服務(wù)器,CPU主頻選擇2.4GHz,內(nèi)存選擇4GB,軟件選擇Windows 2003,程序選擇Delphi7編寫進(jìn)行實(shí)驗(yàn)。在實(shí)驗(yàn)中的6組數(shù)據(jù)集是T40.I30.D8000K,其項(xiàng)目數(shù)分別為5000、10000、15000、20000、25000,事務(wù)量分別為2000、4000、6000、8000、10000,通過IBM數(shù)據(jù)發(fā)生器構(gòu)成,存在高維大數(shù)據(jù)集特征。分別采用文獻(xiàn)[3]方法、文獻(xiàn)[4]方法和所提方法對高維數(shù)據(jù)隱藏模式挖掘的執(zhí)行時(shí)間進(jìn)行對比,具體對比結(jié)果如圖5所示。
圖5 不同方法高維數(shù)據(jù)隱藏模式挖掘執(zhí)行時(shí)間
分析圖5可知,隨著事務(wù)量的增加,不同方法的高維數(shù)據(jù)隱藏模式挖掘執(zhí)行時(shí)間均增加。其中,文獻(xiàn)[3]方法的高維數(shù)據(jù)隱藏模式挖掘平均執(zhí)行時(shí)間為28.8s,文獻(xiàn)[4]方法的高維數(shù)據(jù)隱藏模式挖掘平均執(zhí)行時(shí)間為24.4s,而所提方法的高維數(shù)據(jù)隱藏模式挖掘平均執(zhí)行時(shí)間為9s。由此可知,所提方法的高維數(shù)據(jù)隱藏模式挖掘執(zhí)行時(shí)間較短,本文主要采用貝葉斯網(wǎng)絡(luò)確認(rèn)父子節(jié)點(diǎn)間的關(guān)系或相連節(jié)點(diǎn)之間的互相關(guān)聯(lián)概率,從而有效縮短高維數(shù)據(jù)隱藏模式挖掘執(zhí)行時(shí)間。
在此基礎(chǔ)上分別采用文獻(xiàn)[3]方法、文獻(xiàn)[4]方法與所提方法對高維數(shù)據(jù)隱藏模式挖掘工作量進(jìn)行對比。minlen是評價(jià)高維數(shù)據(jù)隱藏模式挖掘過程工作量大小的指標(biāo)。minlen越大,說明高維數(shù)據(jù)隱藏模式挖掘工作量越少,反之,minlen越小,說明高維數(shù)據(jù)隱藏模式挖掘工作量越多,如果minlen太小了,則交集的事務(wù)量增加明顯,導(dǎo)致高維數(shù)據(jù)隱藏模式挖掘執(zhí)行時(shí)間較長,從而影響了整體的性能。具體對比結(jié)果如圖6所示。
圖6 不同方法高維數(shù)據(jù)隱藏模式挖掘工作量
分析圖6可知,當(dāng)項(xiàng)目數(shù)為25×103時(shí),文獻(xiàn)[3]方法的minlen值最大為4,文獻(xiàn)[4]方法的minlen值最大為10,而所提方法的minlen值最大為17。由此可知,所提方法的高維數(shù)據(jù)隱藏模式挖掘工作量越少,挖掘過程較為簡單。
為了進(jìn)一步驗(yàn)證所提方法的精度,在同一條件下,選取6組數(shù)據(jù)集,將所提方法與文獻(xiàn)[3]方法、文獻(xiàn)[4]方法進(jìn)行對比,具體對比結(jié)果如圖7所示。
圖7 不同方法高維數(shù)據(jù)隱藏模式挖掘精度
通過圖7能夠看出,文獻(xiàn)[3]方法和文獻(xiàn)[4]方法的高維數(shù)據(jù)隱藏模式挖掘精度僅在70%左右,在實(shí)際應(yīng)用時(shí),經(jīng)常會出現(xiàn)部分?jǐn)?shù)據(jù)挖掘遺漏的情況。而所提方法的高維數(shù)據(jù)隱藏模式挖掘精度在90%左右,雖然同樣存在部分遺漏,但相對于文獻(xiàn)[3]方法和文獻(xiàn)[4]方法遺漏的數(shù)量較少,在實(shí)際應(yīng)用效果較好。由此可以看出,所提方法的高維數(shù)據(jù)隱藏模式挖掘精度較高,本文主要利用自適應(yīng)級聯(lián)濾波對高維數(shù)據(jù)降噪處理,有效提升數(shù)據(jù)的挖掘精度。
目前計(jì)算機(jī)技術(shù)各種類型數(shù)據(jù)收集工作量越來越大,致使數(shù)據(jù)庫的規(guī)模逐漸變大,數(shù)據(jù)維度也越來越高。而這些高維的數(shù)據(jù)中,僅有部分的數(shù)據(jù)是有用的,所以需要在其中進(jìn)行挖掘,尋找出有用的數(shù)據(jù)進(jìn)行利用。而當(dāng)前數(shù)據(jù)挖掘方法,由于挖掘精度低,執(zhí)行時(shí)間較長,且挖掘過程工作量較大,過程較為復(fù)雜,很難達(dá)到實(shí)際應(yīng)用需求。本文提出一種基于貝葉斯網(wǎng)的高維數(shù)據(jù)隱藏模式挖掘方法,先闡述貝葉斯網(wǎng)絡(luò)的構(gòu)成,通過貝葉斯網(wǎng)來計(jì)算高維數(shù)據(jù),減少計(jì)算開銷,利用信號的方式來對數(shù)據(jù)特征信息提取,完成高維數(shù)據(jù)子空間信息的降維操作,采用自適應(yīng)級聯(lián)濾波對高維數(shù)據(jù)進(jìn)行降噪,最終把多通道聲傳感信息的數(shù)據(jù)完成自適應(yīng)進(jìn)行波束構(gòu)成,聚焦數(shù)據(jù),完成數(shù)據(jù)挖掘。實(shí)驗(yàn)結(jié)果表明,所提方法能夠有效縮短高維數(shù)據(jù)隱藏模式挖掘執(zhí)行時(shí)間,且數(shù)據(jù)挖掘精度,其挖掘過程工作量較小,挖掘過程較為簡單。