許德斌
(1.武漢大學(xué) 信息管理學(xué)院,湖北 武漢 430072;2.合肥職業(yè)技術(shù)學(xué)院,安徽 合肥 238000)
隨著智慧數(shù)字化檔案館建設(shè)技術(shù)的發(fā)展,在信息化體系架構(gòu)下,非常有必要進(jìn)行海量數(shù)字化檔案信息模糊檢索設(shè)計(jì)[1]。在進(jìn)行海量數(shù)字化檔案設(shè)計(jì)和檢索過程中,受到海量數(shù)字化檔案信息分布差異性的影響,導(dǎo)致對海量數(shù)字化檔案信息檢索的精準(zhǔn)度不高,所以對于相關(guān)的海量數(shù)字化檔案信息模糊檢索方法研究受到人們極大的關(guān)注[2]。
現(xiàn)階段對于此方面的研究很多,并取得了一定的研究成果。例如文獻(xiàn)[3]中提出基于大數(shù)據(jù)分析的多媒體信息檢索系統(tǒng)設(shè)計(jì)方法,該方法結(jié)合耦合參數(shù)匹配和信息重組方法,從數(shù)據(jù)源追蹤組件、數(shù)據(jù)挖掘組件、系統(tǒng)預(yù)警組件對檢索系統(tǒng)進(jìn)行優(yōu)化設(shè)計(jì),實(shí)現(xiàn)對海量數(shù)字化檔案多媒體信息語義參數(shù)分析,但該方法在進(jìn)行多媒體檔案信息檢索時(shí)時(shí)間較長,實(shí)際應(yīng)用效果并不好。文獻(xiàn)[4]中提出基于圖結(jié)構(gòu)優(yōu)化的自適應(yīng)多度量非監(jiān)督特征選擇的檔案信息檢索方法,采用聯(lián)合關(guān)聯(lián)規(guī)則性挖掘的方法,實(shí)現(xiàn)海量數(shù)字化檔案信息檢索的特征分析,建立海量數(shù)字化檔案信息檢索的聯(lián)合特征匹配模型,通過模糊度檢測實(shí)現(xiàn)海量數(shù)字化檔案信息檢索,并對相似矩陣的秩進(jìn)行約束,在優(yōu)化圖局部結(jié)構(gòu)的同時(shí)簡化了計(jì)算,但該方法進(jìn)行海量數(shù)字化檔案信息檢索的精準(zhǔn)度不高。
針對上述問題,本文提出基于密度聚類的海量數(shù)字化檔案信息模糊檢索方法。分析海量數(shù)字化檔案信息存儲(chǔ)結(jié)構(gòu),根據(jù)分析結(jié)果對檔案信息進(jìn)行檢索特征匹配。在此基礎(chǔ)上建立海量數(shù)字化檔案信息融合模型,并對融合結(jié)果進(jìn)行密度聚類。根據(jù)平穩(wěn)時(shí)間序列之間線性相關(guān)性,對海量數(shù)字化檔案信息聚類結(jié)果進(jìn)行模糊檢索。最后進(jìn)行仿真測試分析,證明了本文方法在海量數(shù)字化檔案信息模糊檢索能力方面的優(yōu)越性能。
為了實(shí)現(xiàn)海量數(shù)字化檔案信息檢索,結(jié)合高層語義之間的語義特征分析和密度聚類分析,構(gòu)建海量數(shù)字化檔案信息檢索的特征匹配模型,采用關(guān)聯(lián)規(guī)則融合和相似度特征檢測,進(jìn)行海量數(shù)字化檔案信息檢索的數(shù)據(jù)管理[5],根據(jù)結(jié)果對新增海量數(shù)字化檔案進(jìn)行學(xué)習(xí),實(shí)現(xiàn)海量數(shù)字化檔案檢索庫的增量擴(kuò)容,結(jié)合密度聚類分析,實(shí)現(xiàn)對海量數(shù)字化檔案信息的檢索,檢索模型的總體結(jié)構(gòu)如圖1所示。
圖1 數(shù)字化檔案信息模糊檢索的總體結(jié)構(gòu)模型
根據(jù)圖1所示的海量數(shù)字化檔案信息模糊檢索總體結(jié)構(gòu)模型,提取海量數(shù)字化檔案的HOG特征,結(jié)合粗糙模糊集特征匹配技術(shù),構(gòu)建海量數(shù)字化檔案信息檢索的梯度學(xué)習(xí)模型[6],構(gòu)建海量數(shù)字化檔案信息檢索的語義關(guān)聯(lián)分布特征集,得到海量數(shù)字化檔案信息分布的粗糙樣本集為:
(1)
公式(1)中,PT-elec為海量數(shù)字化檔案的語義屬性,R為語義本體特征,LDATA為自由度,LACK為聯(lián)合概率密度特征分量,設(shè)定海量數(shù)字化檔案信息檢索的時(shí)間長度為t,采用海量數(shù)字化檔案信息的聯(lián)合分布式融合方法,計(jì)算給定數(shù)據(jù)集S={x1,x1x2,x1x2x3,…,xm+1}的特征,用向量x=[x1,x1x2,…,xk+1]表示海量數(shù)字化檔案信息檢索的統(tǒng)計(jì)特征量,根據(jù)M1,M2,…,MN的聚類性,得到海量數(shù)字化檔案信息檢索的數(shù)字化特征密度聚類問題描述為:
(2)
其中
(3)
(4)
上式中,DIFS為數(shù)字化檔案的描述統(tǒng)計(jì)特征量,tDATA為數(shù)據(jù)的檢索時(shí)間間隔,tslot為鎖定周期時(shí)間,tT-start為檢索開始時(shí)間,SIFS為差異化概率密度[7]。對海量數(shù)字化檔案信息的存儲(chǔ)結(jié)構(gòu)分析后,下一步需要對海量數(shù)字化檔案進(jìn)行檢索特征匹配,以期為后續(xù)檢索方法的設(shè)計(jì)奠定堅(jiān)實(shí)的基礎(chǔ)。
根據(jù)海量數(shù)字化檔案信息檢索飽和度差異值,搭建海量數(shù)字化檔案信息梯度幅值加權(quán)的梯度聚類函數(shù)為:
(5)
其中,l為數(shù)字化檔案低層特征,Ecomm為檔案的文本特征差異度[8],pdrop為檔案檢索的聯(lián)合分布集,根據(jù)海量數(shù)字化檔案信息檢索的分層檢測結(jié)果,通過模糊字節(jié)特征匹配方法得到海量數(shù)字化檔案信息的模糊集分布為:
(6)
其中,v表示檢索過程中特征匹配的速度,c(v)為梯度方向直方圖分布維數(shù)[9],結(jié)合海量數(shù)字化檔案信息模糊聚類分布,得到數(shù)字化檔案信息檢索的區(qū)域劃分單元格為:
(7)
(8)
基于層次化海量數(shù)字化檔案語義檢索的決策模型,建立海量數(shù)字化檔案信息檢索的資源負(fù)載均衡模型,得到海量數(shù)字化檔案信息檢索的排序列表,由此得到海量數(shù)字化檔案信息檢索的語義特征提取更新公式如式(9)所示。
(9)
其中,N為語義序列長度,x為檢索時(shí)間序列,τ為時(shí)間延遲。
采用神經(jīng)網(wǎng)絡(luò)的方法,將海量數(shù)字化檔案按語義組成目錄,采用非層次化的分類進(jìn)行海量數(shù)字化檔案檢索[12],得到層次聚類中心為Mi+1與Mj+1,采用粗糙集特征匹配的方法,得到海量數(shù)字化檔案信息檢索的層次密度聚類輸出為Clustdist(Mi+1,Mj+1,當(dāng)(i=j,1≤i≤q,1≤j≤q),得到數(shù)字化檔案語義屬性的聚類輸出的時(shí)間概率密度函數(shù)表示為:
(10)
其中,Xp為海量數(shù)字化檔案信息語義分布的源信息,u為數(shù)字化檔案的粗糙度,v為檔案信息的匹配度特征量。
(11)
其中,σs為海量數(shù)字化檔案信息檢索的待估參數(shù),E為能量泛函,X1為初始化聚類中心,H為信息熵。通過上述海量數(shù)字化檔案信息融合處理,結(jié)合層次化的密度聚類,實(shí)現(xiàn)檔案信息模糊檢索研究。
通過分塊特征檢測和語義相關(guān)分析,實(shí)現(xiàn)對海量數(shù)字化檔案信息的關(guān)聯(lián)規(guī)則調(diào)度和專家系統(tǒng)識(shí)別,結(jié)合機(jī)器語義的可靠性識(shí)別算法,實(shí)現(xiàn)對海量數(shù)字化檔案信息模糊檢索過程中的密度聚類,根據(jù)信息聚類結(jié)果,得到分塊特征檢測最優(yōu)決策函數(shù)如式(12)所示。
(12)
(13)
其中,R為檢索半徑,c為細(xì)粒度,φ(xi)為空間檢測函數(shù)。層次密度聚類的最佳尋優(yōu)函數(shù)為:
(14)
其中,pi為形狀命名語義屬性,σx12為均方根誤差,β2為有歧義的語句描述語義屬性分量,結(jié)合機(jī)器語義的可靠性識(shí)別算法,實(shí)現(xiàn)對海量數(shù)字化檔案信息模糊檢索過程中的密度聚類,根據(jù)信息聚類結(jié)果,得到海量數(shù)字化檔案信息檢索的輸出結(jié)果描述如式(15)-式(19)所示。
(15)
(16)
(17)
xij=0
(18)
st=1
(19)
其中,xij=1表示海量數(shù)字化檔案信息檢索的輸出滿足收斂性,xij=0表示海量數(shù)字化檔案信息檢索輸出發(fā)散,綜上分析,計(jì)算密度分布的差異性,根據(jù)平穩(wěn)時(shí)間序列之間線性相關(guān)性,實(shí)現(xiàn)對海量數(shù)字化檔案信息的優(yōu)化檢索。實(shí)驗(yàn)流程如圖2所示。
圖2 檢索實(shí)驗(yàn)流程
通過仿真實(shí)驗(yàn)驗(yàn)證本文方法在實(shí)現(xiàn)海量數(shù)字化檔案信息檢索的應(yīng)用性能,對數(shù)字化檔案信息檢索的統(tǒng)計(jì)特征量分布集為1206,時(shí)間序列的長度為200,測試集為120,數(shù)字化檔案信息分布的統(tǒng)計(jì)特征信息見表1。
表1 數(shù)字化檔案信息分布的統(tǒng)計(jì)特征信息
根據(jù)表1的參數(shù)分布,進(jìn)行海量數(shù)字化檔案信息檢索,得到海量數(shù)字化檔案信息的樣本特征分布如圖3所示。
圖3 海量數(shù)字化檔案信息的樣本特征分布
分析圖3中的數(shù)據(jù)可知,海量數(shù)字化檔案信息測試集的分散程度較低,海量數(shù)字化檔案信息樣本集的分散程度適中,海量數(shù)字化檔案信息訓(xùn)練集的分散程度較高,原因是利用更為分散的數(shù)據(jù)進(jìn)行訓(xùn)練,可以提升訓(xùn)練精度,而后續(xù)測試過程中可以使用分散程度較低的數(shù)據(jù)進(jìn)行測試,使所得結(jié)果具有普適性。
根據(jù)圖3的樣本分布構(gòu)造,進(jìn)行數(shù)字化檔案信息檢索,得到檢索的頻域分布如圖4所示。
圖4 數(shù)字化檔案信息檢索頻域分布
分析圖4中的數(shù)據(jù)可知,傳統(tǒng)方法的數(shù)字化檔案信息檢索頻域分布較為集中,而與傳統(tǒng)方法相比,本文方法的數(shù)字化檔案信息檢索頻域分布較為分散,所以檢索出結(jié)果的查全率與查準(zhǔn)率均較高,驗(yàn)證了該方法的優(yōu)越性。
根據(jù)頻域分布特征,進(jìn)行數(shù)字化檔案信息的密度聚類,得到聚類結(jié)果如圖5所示。
圖5 密度聚類結(jié)果
分析圖5得知,本文方法的數(shù)字化檔案信息密度聚類幅值變化大約在0.2左右,說明該方法的聚類過程比較穩(wěn)定,數(shù)字化檔案信息檢索的聚類性較好。
為了驗(yàn)證本文方法的檢索性能,對比大數(shù)據(jù)分析檢索方法和圖結(jié)構(gòu)優(yōu)化檢索方法,進(jìn)行數(shù)字化檔案信息檢索的查全率,得到對比結(jié)果如圖6所示。
圖6 檢索性能對比
分析圖6得知,本文方法進(jìn)行數(shù)字化檔案信息檢索的查全率高于另兩種檢索方法,證明本文方法的檢索性能較好。
為了驗(yàn)證本文方法的實(shí)用性,對比大數(shù)據(jù)分析檢索方法和圖結(jié)構(gòu)優(yōu)化檢索方法測試檢索時(shí)間和檢索精度,如圖7、圖8所示。
圖7 檢索時(shí)間對比
圖8 檢索精度對比
通過圖7可以看出,圖結(jié)構(gòu)優(yōu)化檢索方法的檢索時(shí)間在1.2s以上,大數(shù)據(jù)分析檢索方法的檢索時(shí)間在1.8s以上,而本文方法的檢索時(shí)間始終低于0.6s,檢索時(shí)間較短。通過圖8可以看出,圖結(jié)構(gòu)優(yōu)化檢索方法的檢索精度低于-0.1,大數(shù)據(jù)分析檢索方法的檢索精度低于-0.2,而本文方法的檢索精度始終保持在-0.05與0.05之間,檢索精度較高。
由此可以得出,本文方法相比于另外兩種方法使用的檢索時(shí)間相對較短,檢索精度較高,檢索性能好,在實(shí)際應(yīng)用中有較好的效果,實(shí)用性強(qiáng)。
構(gòu)建數(shù)字化檔案信息和文獻(xiàn)資源的數(shù)據(jù)分析模型,采用模糊信息聚類和大數(shù)據(jù)特征重組,實(shí)現(xiàn)對海量數(shù)字化檔案信息模糊檢索識(shí)別,提高檔案信息檢索的識(shí)別能力。本文提出基于密度聚類的海量數(shù)字化檔案信息模糊檢索方法。根據(jù)海量數(shù)字化檔案信息的樣本特征分布,提取海量數(shù)字化檔案的HOG特征,結(jié)合粗糙模糊集特征匹配技術(shù),構(gòu)建海量數(shù)字化檔案信息檢索的梯度學(xué)習(xí)模型,實(shí)現(xiàn)檢索算法優(yōu)化設(shè)計(jì)。分析得知,本文方法進(jìn)行數(shù)字化檔案信息檢的查全率較高,檢索聚類性較好,檢索時(shí)間短,檢索精度高,在數(shù)字化檔案信息檢索的實(shí)際應(yīng)用上效果好。