趙燕萍
摘要:針對(duì)傳統(tǒng)的壓縮圖像數(shù)據(jù)挖掘方法中由于頻繁項(xiàng)集過(guò)多造成的方法復(fù)雜性增加的問(wèn)題,提出基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法研究。以壓縮圖像數(shù)據(jù)庫(kù)作為基礎(chǔ),利用完全項(xiàng)集前綴樹(shù)獲得所有頻繁項(xiàng)集,根據(jù)計(jì)算的置信度和支持度,從頻繁項(xiàng)集中提取出強(qiáng)關(guān)聯(lián)規(guī)則,考慮壓縮圖像數(shù)據(jù)的安全性,對(duì)強(qiáng)關(guān)聯(lián)規(guī)則集合進(jìn)行進(jìn)一步的處理,獲得候選規(guī)則集合,掃描集合中的每個(gè)規(guī)則,選擇最少錯(cuò)誤的規(guī)則,形成分類(lèi)器,利用分類(lèi)器實(shí)現(xiàn)數(shù)據(jù)挖掘。實(shí)驗(yàn)結(jié)果表明:設(shè)計(jì)的基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法的計(jì)算時(shí)間和通信時(shí)間所需較少,數(shù)據(jù)挖掘效率高,該方法適合應(yīng)用在實(shí)際項(xiàng)目中。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;壓縮圖像;數(shù)據(jù)挖掘;壓縮數(shù)據(jù)集
中圖分類(lèi)號(hào):TP309.2? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)03-0055-02
作為在互聯(lián)網(wǎng)和商業(yè)系統(tǒng)中誕生出的新的研究領(lǐng)域,數(shù)據(jù)挖掘技術(shù)有廣泛的研究方向,但是其核心從未改變,其核心就是將大量數(shù)據(jù)中的有價(jià)值的數(shù)據(jù)提取或挖掘出來(lái),為決策者提供重要的知識(shí)或信息,幫助經(jīng)濟(jì)效益增長(zhǎng)[1]。數(shù)據(jù)挖掘技術(shù)逐步被社會(huì)各領(lǐng)域所應(yīng)用,以數(shù)據(jù)挖掘分析行業(yè)數(shù)據(jù),便于行業(yè)發(fā)展決策確立,當(dāng)前,數(shù)據(jù)挖掘技術(shù)已成為重要的數(shù)據(jù)分析工具[2]。
考慮現(xiàn)階段網(wǎng)絡(luò)中數(shù)據(jù)規(guī)模和其安全性,當(dāng)前多通過(guò)數(shù)據(jù)壓縮技術(shù)來(lái)管理海量數(shù)據(jù),可以在一定程度上提升數(shù)據(jù)管理效率,但是在數(shù)據(jù)挖掘中,對(duì)此類(lèi)數(shù)據(jù)的挖掘有一定的困難,特別是壓縮圖像數(shù)據(jù)[3]。國(guó)外對(duì)于數(shù)據(jù)挖掘技術(shù)的發(fā)展取得了不錯(cuò)的成果,如美國(guó)斯坦福大學(xué)智能數(shù)據(jù)庫(kù)系統(tǒng)實(shí)驗(yàn)室開(kāi)發(fā)的商用化數(shù)據(jù)挖掘系統(tǒng),應(yīng)用范圍十分廣泛,可以在多種平臺(tái)上運(yùn)行,并且還引入了在線分析挖掘技術(shù)[4]。相比之下,國(guó)內(nèi)對(duì)于數(shù)據(jù)挖掘技術(shù)的研究稍稍落后一點(diǎn),目前主要集中數(shù)據(jù)挖掘算法的研究,由此看出,數(shù)據(jù)挖掘的研究與應(yīng)用已經(jīng)越來(lái)越受到各界人士的重視。目前,比較成熟數(shù)據(jù)挖掘方法有基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法和基于遺傳算法的數(shù)據(jù)挖掘方法,這兩種挖掘方法主要依賴(lài)其內(nèi)部的算法,在實(shí)際應(yīng)用中,會(huì)產(chǎn)生大量無(wú)用數(shù)據(jù),生成過(guò)多的頻繁項(xiàng)集,增加數(shù)據(jù)挖掘負(fù)擔(dān),使得數(shù)據(jù)的計(jì)算時(shí)間和通信時(shí)間增加,影響數(shù)據(jù)挖掘的效率[5-7]。因此,將關(guān)聯(lián)規(guī)則應(yīng)用與壓縮圖像數(shù)據(jù)挖掘中,以解決當(dāng)前數(shù)據(jù)挖掘中存在的問(wèn)題。
1 基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法設(shè)計(jì)
1.1 獲取所有頻繁項(xiàng)集
基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法主要是通過(guò)數(shù)據(jù)獲得所有頻繁項(xiàng)集,從中獲得強(qiáng)關(guān)聯(lián)規(guī)則,利用關(guān)聯(lián)規(guī)則實(shí)現(xiàn)數(shù)據(jù)挖掘。獲取頻繁項(xiàng)集具體流程如下圖所示。
為了能夠高效地對(duì)壓縮圖像數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,使用完全項(xiàng)集前綴樹(shù)結(jié)構(gòu),產(chǎn)生頻繁項(xiàng)集。假設(shè)壓縮圖像數(shù)據(jù)集合為[Q=q1,q2,…,qn],對(duì)應(yīng)的屬性集合為[E=E1,E2,…,Em],屬性[Ei]的值域?yàn)閇domEi]。將壓縮數(shù)據(jù)集合看作是(屬性,值)對(duì)的集合,將(屬性,值)稱(chēng)為項(xiàng),其中的值為[q],記為[q=c1,c2,…,cm],其中[ci]的值域與屬性的值域相同。將具有[β]個(gè)項(xiàng)的集合稱(chēng)為[β-]集合。壓縮數(shù)據(jù)集合中共有[i=1,mdomEi]個(gè)[1-]項(xiàng)集。
在獲取所有頻繁項(xiàng)集過(guò)程中使用的完全項(xiàng)集前綴樹(shù)是一個(gè)項(xiàng)集枚舉樹(shù),由節(jié)點(diǎn)標(biāo)簽項(xiàng)和擴(kuò)展項(xiàng)集組成了樹(shù)中的節(jié)點(diǎn)。擴(kuò)展項(xiàng)集中按照1~m的排位順序,根節(jié)點(diǎn)內(nèi)的標(biāo)簽為空,擴(kuò)展項(xiàng)集為所有的[1-]項(xiàng)集[8]。
對(duì)于樹(shù)上任意節(jié)點(diǎn),假設(shè)其擴(kuò)展項(xiàng)集數(shù)與子節(jié)點(diǎn)個(gè)數(shù)相同,將項(xiàng)集內(nèi)的所有相都看作樹(shù)的子節(jié)點(diǎn),由此,每一個(gè)經(jīng)過(guò)由根節(jié)點(diǎn)到子節(jié)點(diǎn)路徑上的節(jié)點(diǎn)都從屬于子節(jié)點(diǎn)的集合。每一個(gè)根節(jié)點(diǎn)的子節(jié)點(diǎn)共同組成了項(xiàng)集前綴樹(shù),在前綴樹(shù)內(nèi)的第一層,每一個(gè)節(jié)點(diǎn)長(zhǎng)度都為1,第二層項(xiàng)集內(nèi)所有長(zhǎng)度均為2,以此類(lèi)推,項(xiàng)集前綴樹(shù)共有[m]層。
確定完全項(xiàng)集前綴樹(shù)層數(shù)后,建立一個(gè)可容納[β]層的項(xiàng)集前綴樹(shù),把前綴樹(shù)設(shè)置于內(nèi)存中。對(duì)圖像數(shù)據(jù)庫(kù)進(jìn)行掃描,將數(shù)據(jù)庫(kù)內(nèi)的所有數(shù)據(jù)進(jìn)行項(xiàng)集前綴樹(shù)處理,假如節(jié)點(diǎn)所在項(xiàng)集屬于當(dāng)前數(shù)據(jù)庫(kù),則在節(jié)點(diǎn)計(jì)數(shù)上加1,遍歷壓縮圖像數(shù)據(jù)庫(kù)中所有數(shù)據(jù),完成后,以預(yù)設(shè)的最小支持度閾值為對(duì)比依據(jù),將每一個(gè)長(zhǎng)度小于[β]的數(shù)據(jù)進(jìn)行項(xiàng)集。
1.2 量化強(qiáng)關(guān)聯(lián)規(guī)則
在獲得所有頻繁項(xiàng)集后,從中提取出關(guān)聯(lián)規(guī)則并量化,用于后續(xù)的數(shù)據(jù)挖掘中。定義一個(gè)事務(wù)數(shù)據(jù)庫(kù)為[T=T1,T2,…,Tn],其中包含[N]個(gè)事務(wù),每個(gè)事務(wù)都是項(xiàng)的集合,一個(gè)事務(wù)中包含有項(xiàng)集為[W]當(dāng)且僅當(dāng)[W?T],獲得的頻繁項(xiàng)集為[β-]項(xiàng)集。從頻繁項(xiàng)集中提取出強(qiáng)關(guān)聯(lián)規(guī)則,其表現(xiàn)形式為[W?R],并且[W?R=?]。定義的關(guān)聯(lián)規(guī)則[W?R]的支持度表示為:
支持度主要是數(shù)據(jù)庫(kù)中既包含[W]又包含[R]的數(shù)據(jù)所占數(shù)據(jù)庫(kù)總事務(wù)數(shù)的百分比,相應(yīng)的關(guān)聯(lián)規(guī)則[W?R]的置信度公式表示為:
[confW?R]表示的是既包含[W]又包含[R]的事務(wù)占包含[W]的事務(wù)的百分比。獲得的頻繁項(xiàng)集為所有大于最小支持度的項(xiàng)集集合,從中獲取關(guān)聯(lián)規(guī)則主要是挖掘出所有值為1的屬性值之間的關(guān)聯(lián)規(guī)則,在關(guān)聯(lián)規(guī)則的作用下,數(shù)據(jù)庫(kù)中事務(wù)對(duì)應(yīng)一個(gè)數(shù)據(jù)元組,每個(gè)項(xiàng)對(duì)應(yīng)一個(gè)屬性域。如果屬性域的值為1,則表示數(shù)據(jù)元組中,對(duì)應(yīng)的事務(wù)中包含屬性域?qū)?yīng)的項(xiàng)。當(dāng)數(shù)據(jù)庫(kù)中只存在量化屬性值域比較小時(shí),每個(gè)屬性在映射后的關(guān)系數(shù)據(jù)庫(kù)中所占的列數(shù)和其值域大小是相同的,當(dāng)某一元組在屬性[x]的取值為value1時(shí),在映射的數(shù)據(jù)庫(kù)中,此條數(shù)據(jù)上的屬性域的取值為1,屬性[x]的其余列則為0。此時(shí),就可以利用關(guān)聯(lián)規(guī)則挖掘壓縮圖像數(shù)據(jù)庫(kù)中的數(shù)據(jù)了。
1.3 實(shí)現(xiàn)數(shù)據(jù)挖掘
通過(guò)上述過(guò)程得到的強(qiáng)關(guān)聯(lián)規(guī)則,需要再進(jìn)一步選擇出用于挖掘壓縮圖像數(shù)據(jù)的高質(zhì)量規(guī)則集。以支持度為標(biāo)準(zhǔn),將集合中的關(guān)聯(lián)規(guī)則按照從高到低進(jìn)行排列,并以此排序順序作為掃描順序,將所有數(shù)據(jù)庫(kù)元組進(jìn)行掃描處理,找出首個(gè)符合[W?R]規(guī)則,并且正確判別的規(guī)則[rule1],同時(shí)找到第一個(gè)滿(mǎn)足[W?R],但是判別錯(cuò)誤的規(guī)則[rule2],判斷兩者的大小,哪一方支持度更高,則表示該規(guī)則,并將規(guī)則加入候選規(guī)則集中,否則加入錯(cuò)誤子集中。
以支持度為排列依據(jù),對(duì)將所有候選的規(guī)則進(jìn)行排序,在排序前需要對(duì)規(guī)則集合內(nèi)的所有規(guī)則進(jìn)行簡(jiǎn)單處理:
若集合內(nèi)的所有規(guī)則[u]在其所在屬類(lèi)別上的覆蓋計(jì)數(shù)為零,說(shuō)明規(guī)則[u]至少正確判別出一個(gè)壓縮圖像數(shù)據(jù)實(shí)例,對(duì)于集合中的每一個(gè)元素,需判定以dID為標(biāo)識(shí)的數(shù)據(jù)是否已經(jīng)被規(guī)則[u]前面的規(guī)則覆蓋住。假設(shè)判定結(jié)果為覆蓋,需對(duì)覆蓋計(jì)數(shù)減小1;假設(shè)判斷結(jié)果顯示還沒(méi)被覆蓋,則規(guī)則[u]對(duì)應(yīng)的屬性類(lèi)別上的覆蓋技術(shù)不變,獲得當(dāng)前的默認(rèn)屬性類(lèi)別,將規(guī)則[u]加入分類(lèi)器中。重復(fù)以上過(guò)程,處理完候選規(guī)則集合中的每一個(gè)規(guī)則,把所有排序在規(guī)則[u]之后規(guī)則進(jìn)行刪除,把[u]的所屬類(lèi)別看作是規(guī)則分類(lèi)器的默認(rèn)類(lèi)別。
將壓縮圖像數(shù)據(jù)庫(kù)中的數(shù)據(jù)作為輸入,利用包含高支持度、高質(zhì)量關(guān)聯(lián)規(guī)則的分類(lèi)器挖掘出用戶(hù)所需數(shù)據(jù)。至此,設(shè)計(jì)的基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法設(shè)計(jì)完成。
2 壓縮圖像數(shù)據(jù)挖掘方法實(shí)驗(yàn)研究
2.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備
對(duì)于壓縮圖像數(shù)據(jù),數(shù)據(jù)挖掘需要解決好圖像自身的表示問(wèn)題,因此對(duì)于壓縮圖像數(shù)據(jù)的挖掘往往需要更多的計(jì)算時(shí)間和通信時(shí)間,影響數(shù)據(jù)挖掘效率。因此,在壓縮圖像數(shù)據(jù)挖掘方法研究中,以數(shù)據(jù)挖掘時(shí)間為衡量標(biāo)準(zhǔn),結(jié)合傳統(tǒng)的基于遺傳算法的數(shù)據(jù)挖掘方法和基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法,設(shè)計(jì)對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中使用的數(shù)據(jù)集為UCI公共數(shù)據(jù)庫(kù)中的Breast cancer數(shù)據(jù)集,因?yàn)榈谝粋€(gè)屬性是編號(hào),去除第一個(gè)屬性,保留其中的第2-11個(gè)屬性,將最后一個(gè)屬性設(shè)置為類(lèi)別屬性,基數(shù)為2。在實(shí)驗(yàn)之前,將數(shù)據(jù)集中缺失屬性值的記錄刪除,同時(shí)擴(kuò)大數(shù)據(jù)集整體20倍,最終得到13660條數(shù)據(jù)記錄。
2.2 數(shù)據(jù)挖掘時(shí)間實(shí)驗(yàn)與分析
在實(shí)驗(yàn)中,采用VC++開(kāi)發(fā)環(huán)境,以C語(yǔ)言作為宿主語(yǔ)言,嵌入MPI消息傳遞函數(shù)庫(kù),實(shí)現(xiàn)數(shù)據(jù)挖掘方法的運(yùn)行與計(jì)算。實(shí)驗(yàn)中的機(jī)群環(huán)境為6臺(tái)普通的計(jì)算機(jī)作為工作站,1臺(tái)DELL服務(wù)器,計(jì)算機(jī)之間網(wǎng)絡(luò)通過(guò)以太網(wǎng)交換機(jī)連接,結(jié)合MPI消息傳遞機(jī)制特點(diǎn),在每個(gè)計(jì)算機(jī)看作信息節(jié)點(diǎn),并在所有節(jié)點(diǎn)建立統(tǒng)一的登錄賬戶(hù),在機(jī)群內(nèi)確定一個(gè)相同路徑的共享空間,存放實(shí)現(xiàn)不同數(shù)據(jù)挖掘算法的程序。將三種不同的數(shù)據(jù)挖掘方法應(yīng)用在局域網(wǎng)內(nèi)構(gòu)建的機(jī)群中,基于上述中的數(shù)據(jù)集對(duì)算法進(jìn)行測(cè)試,主要計(jì)算出不同數(shù)據(jù)挖掘算法的通信時(shí)間和計(jì)算時(shí)間。其計(jì)算時(shí)間主要通過(guò)MPI提供的MPI_Wtime函數(shù)獲取。則數(shù)據(jù)挖掘時(shí)間實(shí)驗(yàn)結(jié)果如下表所示。
觀察表中結(jié)果,從整體上看,設(shè)計(jì)的基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法在工作過(guò)程中所需時(shí)間最少,并且效率更高,再結(jié)合非頻繁項(xiàng)集分布實(shí)驗(yàn)結(jié)果可知,設(shè)計(jì)的數(shù)據(jù)挖掘方法非頻繁項(xiàng)集分布滿(mǎn)足壓縮圖像數(shù)據(jù)挖掘的需求,需要的時(shí)間較少,效率更高。
3 結(jié)束語(yǔ)
互聯(lián)網(wǎng)隨著人類(lèi)的使用,產(chǎn)生了越來(lái)越多的信息,其中包含了大量無(wú)用信息,用戶(hù)及時(shí)從中獲得自己所需的有效的信息十分困難。因此,本文利用壓縮圖像數(shù)據(jù)作為基礎(chǔ),以關(guān)聯(lián)規(guī)則為主,提出一種基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法。經(jīng)過(guò)深入研究與探討,在原有的關(guān)聯(lián)規(guī)則基礎(chǔ)上,做了更深層次的處理,實(shí)現(xiàn)了基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘。通過(guò)設(shè)計(jì)的對(duì)比實(shí)驗(yàn)證明了,設(shè)計(jì)的基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法效率更高,解決了傳統(tǒng)的壓縮圖像數(shù)據(jù)挖掘方法中由于頻繁項(xiàng)集過(guò)多造成的復(fù)雜性過(guò)高的問(wèn)題。但是研究過(guò)程中受到技術(shù)和實(shí)驗(yàn)環(huán)境的限制,方法中存在不足之處,對(duì)壓縮圖像數(shù)據(jù)挖掘研究還處于初期階段,在后續(xù)研究中,可就其適應(yīng)范圍進(jìn)行更深入的探討與分析。
參考文獻(xiàn):
[1] 王丹.基于數(shù)據(jù)挖掘的三維圖像無(wú)損恢復(fù)研究[J].現(xiàn)代電子技術(shù),2018,41(7):67-70.
[2] 孫紅,李存進(jìn).融合遺傳算法和關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法改進(jìn)[J].數(shù)據(jù)采集與處理,2019,34(5):863-871.
[3] 孫豐杰,王承民,謝寧.面向智能電網(wǎng)大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的頻繁模式網(wǎng)絡(luò)模型[J].電力自動(dòng)化設(shè)備,2018,38(5):110-116.
[4] 毛曉菊.基于模糊關(guān)聯(lián)規(guī)則的海量數(shù)據(jù)挖掘方法研究[J].微電子學(xué)與計(jì)算機(jī),2018,35(2):89-93.
[5] 顧廣華,曹宇堯,崔冬,等.基于形式概念分析和語(yǔ)義關(guān)聯(lián)規(guī)則的目標(biāo)圖像標(biāo)注[J].自動(dòng)化學(xué)報(bào),2020,46(4):767-781.
[6] 曹蒙蒙,郭朝有.面向動(dòng)力監(jiān)測(cè)數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則算法改進(jìn)研究[J].船舶工程,2018,40(S1):355-357.
[7] 于超,王璐,程道文.基于圖像降階的紋理特征挖掘方法在醫(yī)學(xué)上的應(yīng)用[J].東北師大學(xué)報(bào)(自然科學(xué)版),2018,50(3):53-57.
[8] 張定祥,張躍進(jìn).基于改進(jìn)多層次模糊關(guān)聯(lián)規(guī)則的定量數(shù)據(jù)挖掘算法[J].計(jì)算機(jī)應(yīng)用研究,2019,36(12):3619-3622.
【通聯(lián)編輯:張薇】