陳春陽
摘 要: 海量圖書館檔案信息的快速檢索對實現(xiàn)圖書館的發(fā)展具有重要意義,成為加強圖書館檔案管理工作的主要策略和發(fā)展方向。傳統(tǒng)方法主要是利用圖書館檔案信息的分類順序進行分析,忽略了檔案信息的查全率和查準率。因此,提出一種基于模糊集的海量圖書館檔案信息快速檢索方法。利用多個向量代表檔案信息的對象,建立特征向量模型對圖書館檔案信息進行處理,需要在數(shù)據(jù)庫中對檔案信息的語義索引和語義特征向量進行處理。在對圖書館檔案信息處理完成的基礎上,計算索引項在檔案信息中的頻率,并且計算索引項的大小來決定檔案信息項位置的權重,對圖書館檔案信息檢索式進行量化和劃分,并建立權重向量,獲得檔案信息向量,利用檔案信息向量計算相似度函數(shù),最終實現(xiàn)模糊集的圖書館檔案信息快速檢索方法。實驗結果表明,所提方法具有查全率和查準率高的優(yōu)點,對海量圖書館檔案信息檢索起到重要作用。
關鍵詞: 圖書館檔案信息; 快速檢索; 模糊集; 分類順序; 查全率; 查準率
中圖分類號: TN911.2?34; TP311 文獻標識碼: A 文章編號: 1004?373X(2018)20?0042?03
Abstract: In the traditional method, the classification order of library archive information is mainly used for analysis, in which the recall rate and precision rate of archive information are ignored. Therefore, a rapid retrieval method of massive library archive information is proposed based on fuzzy sets, in which multiple vectors are used to represent the objects of archive information. The feature vector model is established to process library archive information, which needs to process the semantic indexes and semantic feature vectors of archive information in the database. On the basis of completion of library archive information processing, the frequency of the index item in archive information is calculated, and the size of the index item is calculated to determine the location weight of the archive information item. The retrieval formulas of library archive information are quantified and divided, and the weight vector is established, so as to obtain the archive information vector. The similarity function is calculated by using the archive information vector to realize the fuzzy set based rapid retrieval method of library archive information. The experimental results show that the proposed method has the advantages of high recall ratio and precision rate, which plays an important role in retrieval of massive library archive information.
Keywords: library archive information; rapid retrieval; fuzzy set; classification order; recall ratio; precision rate
在信息無序的社會中,有價值的檔案信息和無價值的檔案信息相互交錯并且混亂,需要從海量的圖書館檔案信息中檢索出所需要的檔案信息進行整理[1],這一方法成為人們研究的難題和熱點,信息快速檢索方法也是計算機科學與技術專業(yè)的重要學習方法。在信息豐富的時代,海量圖書館檔案信息的快速檢索方法能夠緩解檢索工具與圖書館檔案信息之間的問題,在圖書館的服務中心,信息的快速檢索方法起到不可替代的作用[2]。
文獻[3]提出一種基于關鍵詞關系算法的海量圖書館檔案信息快速檢索方法。對圖書館檔案信息建立模型,并計算模型的參數(shù),檢索到隱藏的檔案信息,對其進行主題分布,在主題分布的基礎上計算并檢索檔案信息關鍵詞的相似度,得到檢索后的圖書館檔案信息。但該方法不能夠將圖書館的重要檔案信息全部檢索出來,說明存在查全率低的缺點。文獻[4]提出一種基于空間自相關統(tǒng)計算法的海量圖書館檔案信息快速檢索方法,對圖書館檔案信息中的數(shù)據(jù)在不同空間間隔上進行相關計算,測試聚集程度,獲得檔案信息的自相關參數(shù)。檔案信息的檢索具有有序性,但該方法對檔案信息的檢索不夠準確,說明查準率較低。
針對上述兩種方法存在的問題,提出基于模糊集的海量圖書館檔案信息快速檢索方法。
1.1 圖書館檔案信息處理
在對圖書館檔案信息進行處理時,可以參考向量空間模型,檔案信息的向量模型需要建立一個關鍵詞條字典,包括單詞、短語等[5]。把圖書檔案信息當作多維向量,利用二進制或者反轉檔案信息等不同的表示方式將圖書館檔案信息表示出來;利用本體庫來代替檔案信息關鍵詞;利用對檔案信息的描述,將信息屬性構成的向量來代替圖書館檔案[6],對圖書館檔案信息進行處理,處理方式與用戶查詢方式相似,每一份檔案信息都有固定的內容和編號。檔案中的每一部分也可以對概念信息進行描述,提取出圖書館檔案中的關鍵信息,使用關鍵信息的屬性和概念進行概括,對于概念信息來說[7],在檔案中提取的信息屬性值,可以構成描述圖書館檔案信息的語義向量。具體分析如表1所示。
為了提高圖書館檔案信息的處理效率,對檔案進行分類,利用效率高的管理形式和檔案整理方式。在檔案語義特征向量處理的結果中[8],利用本體的檔案概念樹當作信息分類的依據(jù)。分類處理后的圖書館檔案信息,通常每個檔案的特征向量都是由多個屬性和概念組成。在概念的類中對檔案信息進行映射,為了對檔案信息進行處理,在圖書館檔案信息庫中建立管理結構,并建立檔案信息的語義索引。將處理后的檔案信息進行索引,按照順序排列。在此基礎上建立有序鏈表,包括檔案信息的語義特征向量[9]。在檔案信息索引文件中插入指針,可以利用指針快速了解和處理海量圖書館檔案信息。
1.2 基于模糊集的圖書館檔案信息快速檢索方法
在對圖書館檔案信息處理完成的基礎上,利用索引項在檔案信息中出現(xiàn)頻率和索引項的大小計算檔案信息項位置的權重;對圖書館檔案信息檢索式進行量化,對圖書館檔案信息從結構上進行劃分,并建立權重向量[10],得到多層的檔案信息向量;利用檔案信息向量計算相似度函數(shù)。最終實現(xiàn)模糊集的圖書館檔案信息快速檢索方法。
假設有4個檔案信息[D1],[D2],[D3]和[D4],[T]表示信息索引項,4個檔案中均包含[T],并且出現(xiàn)的次數(shù)一樣,在檔案信息[D1]中,[T]包含在檔案開頭;在檔案信息[D2]中,[T]包含在檔案信息中間部分,在[D3]和[D4]中,[T]包含在檔案信息的最后部分。檔案信息的信息搜索引擎會理解為4部分檔案信息的索引[T]作用相同[11]。根據(jù)上述分析,出現(xiàn)在檔案信息開頭的索引比出現(xiàn)在檔案信息中間部分的索引作用更大些,出現(xiàn)在檔案信息最后部分的[D3]和[D4]中的索引主要作用在結尾部分。
式中,[ηt]表示可以調節(jié)的參數(shù)。海量圖書館檔案信息的快速檢索分以下幾個步驟:
1) 利用查詢條件檢索出圖書館檔案中的信息權重,得到檢索后的信息表達形式。
2) 抽取圖書館檔案信息中索引項來代替原圖書館檔案,將其出現(xiàn)的頻率當作權重,獲取檔案的表達形式。
3) 建立圖書館檔案信息的權重向量。
2.1 查全率
本文利用模糊集的圖書館檔案信息快速檢索方法來進行實驗。選取www.ustc.edu.cn等網(wǎng)頁來對圖書館檔案信息進行查詢,實驗采用的計算機內存為4 GB,計算機系統(tǒng)為Windows 7,測試提出方法的查全率和查準率。檔案信息的檢索次數(shù)為52次,一共有1 000條實際的檔案信息,需要全部檢索出來。建立數(shù)據(jù)集對檔案信息進行統(tǒng)計,統(tǒng)計如表2所示。
由表2可知,本文方法能夠把實際檔案信息數(shù)全部檢索出來,其他兩種方法只能檢索出800條和825條實際檔案信息。說明所提方法具有較高的查全率,可以避免有遺漏的檔案信息,且不存在信息丟失現(xiàn)象,實現(xiàn)了海量圖書館中實際檔案信息數(shù)的檢索,為圖書館檔案信息的管理提高效率。
2.2 查準率
在此基礎上,利用檔案信息索引項的權重值對圖書館檔案信息檢索的查準率進行實驗,實驗對比如圖1、圖2所示。
分析圖1、圖2可知,本文方法中權重為2時,檔案信息的查準率為60%;權重為3~6時,檔案信息的查準率為80%;當權重為7和8時查準率逐漸升高接近100%。文獻[4]方法中,權重為2~6時的檔案信息查準率為40%;權重為6~8時,檔案信息的查準率為40%~60%。對比結果得到,本文方法的查準率更高,可以準確檢索出圖書館的檔案信息。
本文對海量圖書館檔案信息進行快速檢索,檢索出重要的檔案信息,并對其進行統(tǒng)計,獲得所提方法檔案信息查全率高的優(yōu)點。在分析檔案信息檢索查全率基礎上,利用檔案信息索引項的權重值對圖書館檔案信息的查準率進行測試。實驗結果表明,本文方法的圖書館檔案信息檢索具有較高的查全率和查準率。
參考文獻
[1] 王莉軍.海量數(shù)據(jù)下的文本信息檢索算法仿真分析[J].計算機仿真,2016,33(4):429?432.
WANG Lijun. Text information retrieval algorithm simulation analysis under massive data [J]. Computer simulation, 2016, 33(4): 429?432.
[2] 程鋒利,胡文娟,楊瑞.基于概率統(tǒng)計的小差異數(shù)據(jù)的分類模型仿真[J].科技通報,2016, 32(3):114?117.
CHENG Fengli, HU Wenjuan, YANG Rui. The small difference data classification model based on probability and statistics simulation [J]. Bulletin of science and technology, 2016, 32(3): 114?117.
[3] 張曉民,祁薇,張俊,等.T?STAR:一種基于關鍵詞的關系數(shù)據(jù)庫時態(tài)信息檢索方法[J].計算機應用研究,2017,34(10):3051?3056.
ZHANG Xiaomin, QI Wei, ZHANG Jun, et al. T?STAR: keywords?based temporal information retrieval method over relational databases [J]. Application research of computers, 2017, 34(10): 3051?3056.
[4] 季斌,周濤發(fā),袁峰,等.地球化學的空間自相關異常信息提取方法[J].測繪科學,2017,42(8):24?27.
JI Bin, ZHOU Taofa, YUAN Feng, et al. A method for identifying geochemical anomalies based on spatial autocorrelation [J]. Science of surveying and mapping, 2017, 42(8): 24?27.
[5] 崔道江,陳琳,李勇.智能檢索引擎中的網(wǎng)絡數(shù)據(jù)挖掘技術優(yōu)化研究[J].計算機測量與控制,2017,25(6):189?191.
CUI Daojiang, CHEN Lin, LI Yong. Research on optimization of network data mining technology in intelligent retrieval engine [J]. Computer measurement & control, 2017, 25(6): 189?191.
[6] 曲朝陽,孫立擎,潘峰,等.基于流形排序的電網(wǎng)截面數(shù)據(jù)檢索[J].科學技術與工程,2016,16(15):239?244.
QU Zhaoyang, SUN Liqing, PAN Feng, et al. The grid section data retrieval based on manifold ranking [J]. Science technology and engineering, 2016, 16(15): 239?244.
[7] 谷參.基于分布式結構的圖書館信息檢索服務系統(tǒng)研究[J].現(xiàn)代電子技術,2017,40(1):83?85.
GU Shen. Research on library information retrieval service system based on distributed structure [J]. Modern electronics technique, 2017, 40(1): 83?85.
[8] 閆瑤瑤,李永先.基于“稀缺理論”的信息檢索認知模型研究[J].情報雜志,2016,35(11):136?140.
YAN Yaoyao, LI Yongxian. Research on cognitive information retrieval model based on the "scarcity theory" [J]. Journal of intelligence, 2016, 35(11): 136?140.
[9] 李愛勤.多級索引驅動的地名信息檢索方法[J].測繪科學,2017,42(4):103?107.
LI Aiqin. Multilevel index?driven place name information retrieval method [J]. Science of surveying and mapping, 2017, 42(4): 103?107.
[10] 劉萍,李斐雯,楊宇.國外交互式信息檢索研究進展[J].情報理論與實踐,2017,40(5):132?138.
LIU Ping, LI Feiwen, YANG Yu. Research progress of interactive information retrieval at abroad [J]. Information studies: theory & application, 2017, 40(5): 132?138.
[11] 韓其琛,李冬梅.基于敘詞表的林業(yè)信息語義檢索模型[J].計算機科學與探索,2016,10(1):122?129.
HAN Qichen, LI Dongmei. Semantic model with thesaurus for forestry information retrieval [J]. Journal of frontiers of computer science & technology, 2016, 10(1): 122?129.
[12] 程煜華,賴茂生.基于D?S證據(jù)理論的信息檢索模型研究[J].圖書情報工作,2017,61(21):5?12.
CHENG Yuhua, LAI Maosheng. Research on the information retrieval model based on D?S theory [J]. Library and information service, 2017, 61(21): 5?12.