王曉英
(赤峰學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 內(nèi)蒙古 赤峰 024000)
?
海量冗余數(shù)據(jù)干擾下數(shù)據(jù)庫中數(shù)據(jù)優(yōu)化檢索方法
王曉英
(赤峰學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 內(nèi)蒙古 赤峰 024000)
針對(duì)傳統(tǒng)方法對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行檢索的過程中,在海量冗余數(shù)據(jù)干擾時(shí)存在無法區(qū)分檢索數(shù)據(jù)類別,降低數(shù)據(jù)檢索的效率和精度的問題,提出一種基于特征模糊接近的海量冗余數(shù)據(jù)干擾下數(shù)據(jù)庫中數(shù)據(jù)優(yōu)化檢索方法.利用數(shù)據(jù)模糊集間的接近度表述海量冗余數(shù)據(jù)干擾下數(shù)據(jù)庫中數(shù)據(jù)的一致度,結(jié)合數(shù)據(jù)融合技術(shù),對(duì)類間數(shù)據(jù)實(shí)現(xiàn)分類處理.利用模糊集算法準(zhǔn)確查詢分類數(shù)據(jù),對(duì)分類數(shù)據(jù)實(shí)現(xiàn)二次聚類計(jì)算,細(xì)分其類邊緣,通過加載辨別函數(shù)實(shí)現(xiàn)數(shù)據(jù)定位,完成數(shù)據(jù)檢索.實(shí)驗(yàn)結(jié)果表明:該方法進(jìn)行數(shù)據(jù)檢索時(shí)具有較高的檢索效率和精度,且抗干擾能力較強(qiáng).
數(shù)據(jù)檢索; 冗余數(shù)據(jù); 特征模糊; 模糊集算法; 抗干擾
在不同類型網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)檢索過程中,由于數(shù)據(jù)庫信息資源的存儲(chǔ)資源具有多源屬性,對(duì)數(shù)據(jù)庫進(jìn)行信息檢索過程中會(huì)產(chǎn)生海量干擾數(shù)據(jù).如何在海量數(shù)據(jù)的干擾下對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行有效檢索,提高數(shù)據(jù)庫數(shù)據(jù)檢索精度,是該領(lǐng)域亟待解決的問題,具有重要的應(yīng)用價(jià)值[1-3].在傳統(tǒng)的數(shù)據(jù)庫中,數(shù)據(jù)優(yōu)化檢索方法有:基于虛擬數(shù)據(jù)加速分布重組的數(shù)據(jù)庫索引技術(shù)[4]、多源數(shù)據(jù)相位譜補(bǔ)償?shù)臄?shù)據(jù)庫索引算法[5]、弱關(guān)聯(lián)字符型數(shù)據(jù)的密文檢索模型優(yōu)化方法[6].然而,傳統(tǒng)方法進(jìn)行海量冗余數(shù)據(jù)干擾下數(shù)據(jù)庫中數(shù)據(jù)檢索時(shí),存在無法區(qū)分檢索數(shù)據(jù)類別,降低數(shù)據(jù)檢索的效率和精度的問題.本文提出一種基于特征模糊接近的海量冗余數(shù)據(jù)干擾下數(shù)據(jù)庫中數(shù)據(jù)優(yōu)化檢索方法[7-8].
1.1 模糊接近分類技術(shù)
模糊接近分類技術(shù)將存在類間集數(shù)據(jù)之間的關(guān)系進(jìn)行連接、歸類,實(shí)現(xiàn)數(shù)據(jù)檢索[9-10].數(shù)據(jù)間的模糊接近分類具體實(shí)現(xiàn)過程如下.
計(jì)算數(shù)據(jù)集間特征的偏斜度,假設(shè)在t時(shí)域內(nèi),將第i個(gè)類間檢索的數(shù)據(jù)用xi(t),i=1,2,…,n表示.如果xi(t),xj(t)間差異性較大,則表明不同分類獲取的數(shù)據(jù)一致性較低,偏斜度較大.高度一致的數(shù)據(jù)可保障數(shù)據(jù)檢索模型擁有較高的精準(zhǔn)度,利用數(shù)據(jù)模糊集間近似度代表數(shù)據(jù)間的一致性,有
(1)
將t時(shí)域偏斜度置信矩陣表示為
(2)
由于數(shù)據(jù)集間特征偏斜度的置信矩陣擁有空間及時(shí)間兩個(gè)維度的數(shù)據(jù)置信性,在t時(shí)域內(nèi)檢索相同數(shù)據(jù)的偏斜度表示為
(3)
利用式(3)的偏斜度對(duì)數(shù)據(jù)進(jìn)行模糊分類,可得到最高一致性的置信數(shù)據(jù).為提高這種類間偏斜度的分類性能,利用反向傳輸(BP)神經(jīng)網(wǎng)絡(luò)對(duì)偏斜度計(jì)算的方法進(jìn)行優(yōu)化.為保障神經(jīng)網(wǎng)絡(luò)實(shí)際輸出的偏斜度與期望輸出的偏斜度誤差及均方差均為最小,在神經(jīng)網(wǎng)絡(luò)中代入最小二乘法,保障偏斜度運(yùn)算的精準(zhǔn)度[11-12].
圖1 神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)模型Fig.1 Neural network data model
若數(shù)據(jù)庫神經(jīng)的隱層數(shù)為L(zhǎng),代入偏斜度計(jì)算,則第i個(gè)輸出為
(4)
(5)
利用式(5)的偏斜度基準(zhǔn)對(duì)偏斜度權(quán)值矩陣第p行實(shí)現(xiàn)微分轉(zhuǎn)換,有
(6)
(7)
對(duì)BP網(wǎng)絡(luò)以輸出層為起始方向,向輸入層實(shí)現(xiàn)反向遞推,對(duì)第r層的偏斜度權(quán)值進(jìn)行修正,提高偏斜度計(jì)算的精度,實(shí)現(xiàn)模糊接近分類的優(yōu)化,有
(8)
(9)
數(shù)據(jù)模糊分類技術(shù)可避免數(shù)據(jù)間的近似性干擾,為高效、準(zhǔn)確地進(jìn)行數(shù)據(jù)檢索奠定基礎(chǔ).
1.2 海量數(shù)據(jù)干擾下數(shù)據(jù)庫中數(shù)據(jù)優(yōu)化檢索
引入三角模糊集算法:將設(shè)定論域F內(nèi)的某一個(gè)模糊集表示為對(duì)任意x∈q,均有一個(gè)數(shù)μ(x)∈[0,1]與之相互對(duì)應(yīng).將x對(duì)q的隸屬度表示為μ(x),μ為隸屬函數(shù),設(shè)定q為模糊數(shù)目的上限,s為模糊數(shù)的下限,可能性最大的值為m,T={t1,…,tn}代表檢索目標(biāo)數(shù)據(jù)的組合,組合序號(hào)為j的記錄為tj,I={i1,…,im+1}代表數(shù)據(jù)集T的特征集,其中,數(shù)特征為i1,…,im,類特征為im+1,利用模糊C算法使i1,…,im劃分為不同的三角模糊集,詳細(xì)實(shí)現(xiàn)過程如下.
1) 假設(shè)循環(huán)次數(shù)表示為s,建立F(0)∈Mf,c初始化矩陣,即
(10)
2) 計(jì)算初始化矩陣中的向量vi,有
(11)
3) 執(zhí)行S+1次循環(huán)對(duì)初始化矩陣進(jìn)行更新,對(duì)于任意vi,當(dāng)滿足1≤vi≤n,且vi=d(xi,vi)大于零時(shí),轉(zhuǎn)至步驟4);
4) 設(shè)置結(jié)束參數(shù)λ,滿足‖F(xiàn)(s+1)-F(s)‖≤λ時(shí),停止分割循環(huán);否則,返回步驟2),繼續(xù)循環(huán).
(12)
通過以上步驟可以將i1,…,im分解成l1,…,lm個(gè)模糊集,完成分類數(shù)據(jù)實(shí)現(xiàn)二次聚類計(jì)算,細(xì)分其類邊緣.對(duì)于模糊數(shù)據(jù)屬性集H,設(shè)懲罰參數(shù),當(dāng)出現(xiàn)海量數(shù)據(jù)干擾時(shí),利用該懲罰參數(shù)對(duì)海量數(shù)據(jù)進(jìn)行消除,有
(13)
針對(duì)劃分為不同類型l1,…,lm個(gè)數(shù)據(jù)模糊集,建立數(shù)據(jù)辨別函數(shù),通過加載辨別函數(shù)對(duì)待檢測(cè)數(shù)據(jù)定位進(jìn)行定位,完成數(shù)據(jù)庫中的數(shù)據(jù)檢索優(yōu)化,有
(14)
為證明文中提出基于特征模糊接近算法的海量數(shù)據(jù)干擾下數(shù)據(jù)優(yōu)化檢索方法的有效性,對(duì)文中算法與傳統(tǒng)算法進(jìn)行對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)平臺(tái)為Windows 7操作系統(tǒng).
實(shí)驗(yàn)1 采用文中算法對(duì)數(shù)據(jù)庫中的不同數(shù)據(jù)集進(jìn)行檢索實(shí)驗(yàn).文中算法的測(cè)試結(jié)果,如表1所示.表1中:ST為檢索時(shí)間;RA為檢索精準(zhǔn)度;RE為檢索誤差率實(shí)驗(yàn)結(jié)果與目標(biāo)數(shù)據(jù)的距離平方根.由表1可知:文中算法在處理海量數(shù)據(jù)干擾下數(shù)據(jù)庫的子類數(shù)據(jù)集檢索時(shí)間較短,且檢索精準(zhǔn)度較高,具有可執(zhí)行性.
不同算法數(shù)據(jù)檢索結(jié)果與目標(biāo)距離,如表2所示.由表2可知:文中算法聚類檢索整體優(yōu)越性遠(yuǎn)高于其他兩種算法.這主要因?yàn)槲闹蟹椒ㄏ壤脭?shù)模糊集間的接近度表述海量冗余數(shù)據(jù)干擾下數(shù)據(jù)庫中數(shù)據(jù)的一致度,利用模糊集算法準(zhǔn)確查詢目標(biāo)數(shù)據(jù),對(duì)目標(biāo)數(shù)據(jù)實(shí)現(xiàn)二次聚類計(jì)算,細(xì)化其類邊緣,保障
表1 文中算法的測(cè)試結(jié)果Tab.1 Testresultsofalgorithminthepaper數(shù)據(jù)集ST/sRA/%RE/%A19.52198.21.8A210.25197.92.1A310.29696.73.3A48.96497.92.1表2 算法數(shù)據(jù)檢索結(jié)果與目標(biāo)距離Tab.2 Algorithmsdataretrievalresultandtargetdistance數(shù)據(jù)量/T傳統(tǒng)方法文獻(xiàn)[8]方法文中方法190.2569.5416.542198.20201.3042.393412.30506.30163.204598.20649.40298.20
了數(shù)據(jù)優(yōu)化檢索的高效、精準(zhǔn)性.
實(shí)驗(yàn)2 多次實(shí)驗(yàn)求取平均值,傳統(tǒng)算法與文中算法搜索最優(yōu)查詢方法的搜索代價(jià)消耗比變化,如圖2所示.執(zhí)行最優(yōu)查詢方案查詢代價(jià)消耗比變化,如圖3所示.圖3中:n為連接數(shù).
圖2 不同算法的檢索代價(jià)消耗比 圖3 不同算法的數(shù)據(jù)查詢代價(jià)消耗比Fig.2 Retrieval cost consumption ratio Fig.3 Data query cost consumption ratio of different algorithms of different algorithms
由圖2,3可知:文中提出的基于特征模糊接近的海量冗余數(shù)據(jù)干擾下數(shù)據(jù)庫數(shù)據(jù)優(yōu)化檢索方案算法,降低了數(shù)據(jù)庫查詢執(zhí)行的時(shí)間與代價(jià).這主要因?yàn)槲闹兴惴▽?shù)據(jù)模糊集間的接近度表述數(shù)據(jù)的一致度,利用模糊集算法準(zhǔn)確查詢目標(biāo)數(shù)據(jù),通過加載辨別函數(shù)實(shí)現(xiàn)數(shù)據(jù)定位,實(shí)現(xiàn)海量冗余數(shù)據(jù)干擾下數(shù)據(jù)的最優(yōu)檢索.
針對(duì)傳統(tǒng)方法檢索效率低且精度差等缺點(diǎn),基于特征模糊接近提出海量冗余數(shù)據(jù)干擾下數(shù)據(jù)優(yōu)化檢索方法.首先,運(yùn)用數(shù)據(jù)模糊集間的接近度描述數(shù)據(jù)的一致度,結(jié)合數(shù)據(jù)融合技術(shù),實(shí)現(xiàn)對(duì)類間數(shù)據(jù)的分類處理.其次,利用模糊集算法準(zhǔn)確查詢分類數(shù)據(jù),對(duì)其進(jìn)行二次聚類計(jì)算,細(xì)分其類邊緣,加載辨別函數(shù)以定位數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)優(yōu)化檢索.結(jié)果表明:用文中方法檢索數(shù)據(jù)具有較高的檢索精度和效率,且具有較強(qiáng)的抗干擾能力.
[1] 祝鋼.數(shù)據(jù)庫中密文檢索優(yōu)化模型仿真與研究[J].計(jì)算機(jī)仿真,2014,31(11):336-339.
[2] 劉興明.采用頻域波束分級(jí)聚焦的多源數(shù)據(jù)庫冪級(jí)檢索[J].科技通報(bào),2015,31(10):202-204.
[3] 馮祥斌,陳永紅.應(yīng)用P-Fibonacci加密的模糊自適應(yīng)水印算法[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,35(3):287-292.
[4] 潘曉萌,王維哲.基于虛擬數(shù)據(jù)加速分布重組的數(shù)據(jù)庫索引技術(shù)[J].科技通報(bào),2015,31(8):135-137.
[5] 王小瓊,王艷淑.引入多源數(shù)據(jù)相位譜補(bǔ)償?shù)臄?shù)據(jù)庫索引算法[J].科技通報(bào),2015,31(12):173-175.
[6] 王小英,白靈,孫曉玲,等.弱關(guān)聯(lián)字符型數(shù)據(jù)的密文檢索模型優(yōu)化仿真[J].計(jì)算機(jī)仿真,2014,31(2):432-435.
[7] 劉靜.數(shù)據(jù)挖掘技術(shù)在教務(wù)管理實(shí)踐中的應(yīng)用研究[J].電子設(shè)計(jì)工程,2014,22(24):1-3.
[8] 徐新愛.無人機(jī)海量飛行數(shù)據(jù)快速檢索方法研究[J].計(jì)算機(jī)測(cè)量與控制,2014,22(12):4181-4183.
[9] 王艷,劉繼華.基于多維索引樹編碼的數(shù)據(jù)庫分層訪問技術(shù)研究[J].軟件導(dǎo)刊,2016,15(5):173-175.
[10] 孫皓.基于神經(jīng)網(wǎng)絡(luò)的上海光源光束故障預(yù)警的方法研究[D].上海:中國(guó)科學(xué)院研究生院(上海應(yīng)用物理研究所),2016:15-20.
[11] 彭良睿,李學(xué)明.一種基于樹型結(jié)構(gòu)的P2P系統(tǒng)高維數(shù)據(jù)檢索方法[J].計(jì)算機(jī)應(yīng)用研究,2015,32(3):842-845.
[12] 張興忠,王運(yùn)生,曾智,等.一種高效過濾提純音頻大數(shù)據(jù)檢索方法[J].計(jì)算機(jī)研究與發(fā)展,2015,52(9):2025-2032.
(責(zé)任編輯: 錢筠 英文審校: 吳逢鐵)
Optimization Method of Retrieving Data in the Database Under the Interference of Lage Redundant Data
WANG Xiaoying
(Institute of Mathematics and Statistics, Chifeng University, Chifeng 024000, China)
In the process of using traditional method to retrieve data in the database, the interference of large redundant data is unable to distinguish when retrieving data category, which reduces the efficiency and accuracy of data retrieval. The paper puts forward an optimization method of retrieving data in the database under the interference of large redundant data based on the characteristics of fussy approaching mass. The method is to use the proximity in the fussy data regions to show the consistency of data in the database under the interference of large redundant data, combine the data fusion technology to classify the indirect data, use fussy set algorithm to query classified data accurately to realise secondary clustering calculation of classified data and segment the edge of class, position the data and complete the data retrieval by loading identification function. The experimental results show that the method for data retrieval has higher retrieval efficiency and accuracy, and strong anti-interference capability.
data retrieval; redundant data; fuzzy feature; fuzzy set algorithm; anti-interference
10.11830/ISSN.1000-5013.201606019
2016-10-13
王曉英(1979-),女,副教授,主要從事應(yīng)用數(shù)學(xué)的研究.E-mail:527514533@qq.com.
國(guó)家自然科學(xué)基金資助項(xiàng)目(11402039)
TP 311.5
A
1000-5013(2016)06-0758-04