吳國芳
(紹興職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,浙江 紹興312000)
紹興圖書館圖書檢索垂直引擎研究及應(yīng)用
吳國芳
(紹興職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,浙江 紹興312000)
通用的搜索引擎所采集信息的速度跟不上網(wǎng)絡(luò)資源的增長速度,而且檢索詞的命中率不到75%.以紹興市圖書館為研究對(duì)象,將具有“專、精、深”特點(diǎn)的垂直搜索引擎引入其檢索系統(tǒng),設(shè)計(jì)了圖書檢索垂直引擎系統(tǒng),以提高圖書檢索的查準(zhǔn)率、查全率.該系統(tǒng)利用知識(shí)組織方式重新標(biāo)引圖書資源,通過建立用戶畫像實(shí)現(xiàn)個(gè)性化垂直搜索.
垂直搜索引擎;知識(shí)組織系統(tǒng);智能信息檢索
紹興圖書館數(shù)字化工程經(jīng)過10余年的建設(shè),目前已擁有較為完善的軟、硬件設(shè)施,積累了一定規(guī)模的數(shù)字資源,在特色數(shù)據(jù)庫建設(shè)以及公共圖書館數(shù)字資源整合門戶建設(shè)方面已具雛形,相繼開通了多項(xiàng)數(shù)字化服務(wù)項(xiàng)目.2011年紹興圖書館數(shù)字資源訪問、下載量突破了80萬篇(冊(cè))次.但同時(shí),紹興圖書館這些數(shù)字資源本身是零散的、孤立的,不利于讀者的利用,而且紹興地區(qū)各個(gè)圖書館之間資源因缺少有效的整合統(tǒng)籌途徑,各自獨(dú)立為營,資源重復(fù)建設(shè)的情況比較突出.因此,實(shí)現(xiàn)具有實(shí)用性、整合性、統(tǒng)一認(rèn)證、可擴(kuò)展、可配置的數(shù)字資源門戶(共享)平臺(tái),從而為讀者提供統(tǒng)一服務(wù)入口,從各類資源與應(yīng)用中獲取個(gè)性化信息是很有必要的.提高數(shù)字圖書館的查準(zhǔn)率、查全率是實(shí)現(xiàn)智能化知識(shí)服務(wù)的基礎(chǔ).在圖書檢索中,用戶的查詢請(qǐng)求一般用一個(gè)或幾個(gè)關(guān)鍵詞來表示,而這往往很難忠實(shí)表達(dá)用戶的檢索請(qǐng)求,導(dǎo)致用戶真正需要的文檔因關(guān)鍵詞的選擇不當(dāng)而無法檢索出來.通用搜索引擎采集信息的速度跟不上網(wǎng)絡(luò)資源的增長速度,檢索詞的命中率不到75%[1].紹興市圖書館數(shù)字圖書館于2012年建成,為紹興市圖書館量身定制一個(gè)垂直搜索引擎,提供個(gè)性化知識(shí)服務(wù),對(duì)其數(shù)字圖書館建設(shè)是有意義和必要的.
目前,國內(nèi)基于垂直搜索引擎方面的研究大都集中在原理、算法等方面.鄒嵩等[2]通過研究最大長度匹配算法,提出了改進(jìn)后的最大長度匹配算法以提高檢索效率.夏斌等[3]以用戶對(duì)農(nóng)業(yè)信息搜索需求為研究背景,采用向量空間模型對(duì)農(nóng)業(yè)主題進(jìn)行識(shí)別,并采用網(wǎng)頁內(nèi)容和鏈接分析相結(jié)合的方法,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)中文農(nóng)業(yè)信息垂直搜索引擎.汲業(yè)等[4]根據(jù)生活服務(wù)領(lǐng)域網(wǎng)頁信息的特點(diǎn),提出了一種面向生活服務(wù)領(lǐng)域的垂直搜索引擎模型,給出了該模型在信息采集、信息抽取、索引建立和信息檢索等4個(gè)功能模塊的具體算法及實(shí)現(xiàn)方式.劉博卿[5]從軍事工程兵的角度出發(fā),對(duì)垂直搜索引擎進(jìn)行系統(tǒng)研究,研究表明垂直搜索引擎具有很強(qiáng)的針對(duì)性、智能性和實(shí)時(shí)性.
而基于用戶行為分析方面的研究,國內(nèi)主要集中在算法研究階段.王微微等[6]針對(duì)現(xiàn)有的用戶模型不能及時(shí)根據(jù)用戶自身興趣偏移進(jìn)行更新的問題,提出了一種基于用戶行為反饋的興趣度模型更新算法,實(shí)現(xiàn)用戶興趣的自動(dòng)更新,得到針對(duì)新用戶興趣的推薦商品列表以及推薦商品的個(gè)性化排序,從而向用戶進(jìn)行個(gè)性化推薦.于升峰等[7]從全面分析用戶上網(wǎng)行為入手,構(gòu)建網(wǎng)絡(luò)行為數(shù)據(jù)庫,采取區(qū)別不同用戶的個(gè)性化主動(dòng)RSS推送服務(wù)方式,提出了一種基于用戶行為數(shù)據(jù)庫的主動(dòng)式知識(shí)服務(wù)模式.王存睿等[8]結(jié)合用戶行為時(shí)間序列和操作頻次,融合FP-GROWTH算法設(shè)計(jì)了用戶特征挖掘算法,建立網(wǎng)絡(luò)形式的用戶行為特征表達(dá)方法,并設(shè)計(jì)了相應(yīng)的用戶行為采集系統(tǒng).張宇紅[9]介紹地方文獻(xiàn)作為特色館藏進(jìn)行主題標(biāo)引的案例,其目的在于資源的共建共享.
2.1 知識(shí)組織系統(tǒng)
知識(shí)組織系統(tǒng)(Knowledge Organization Systems,KOS),是隨著數(shù)字信息組織技術(shù)及人們對(duì)信息組織需求的發(fā)展,由信息組織向知識(shí)組織變革而產(chǎn)生的各種語義工具的統(tǒng)稱.知識(shí)組織系統(tǒng)的類型最早期是分類法,其后出現(xiàn)了敘詞表、概念地圖、語義網(wǎng)絡(luò)以及本體等.利用知識(shí)組織方式對(duì)圖書等資源進(jìn)行重新標(biāo)引,能夠揭示其語義特征從而支持相關(guān)推理.利用領(lǐng)域知識(shí)對(duì)資源進(jìn)行二次加工和整合,能夠賦予資源專業(yè)化、語義化特征,因而克服了通用搜索引擎基于關(guān)鍵詞匹配查全率不足的問題.
特色數(shù)據(jù)庫正是利用知識(shí)組織系統(tǒng)進(jìn)行再加工而形成的能夠滿足用戶個(gè)性化需求的文獻(xiàn)資源庫,它依托圖書館館藏文獻(xiàn)資源,針對(duì)特定讀者的信息需求,對(duì)某一學(xué)科領(lǐng)域或某一專題中有利用和收藏價(jià)值的文獻(xiàn)信息進(jìn)行收集、整理、分析、評(píng)價(jià)、處理、存儲(chǔ)等,并按照某一標(biāo)準(zhǔn)數(shù)據(jù)格式和規(guī)范將其數(shù)字化.
2.2 垂直搜索引擎
垂直搜索引擎又稱專業(yè)或主題搜索引擎,是專門針對(duì)普通搜索引擎查詢的信息量大而且查詢不準(zhǔn)確、深度不夠等特點(diǎn)提出的新查詢服務(wù)工具[10].垂直搜索引擎具有濃郁的行業(yè)和領(lǐng)域特色,是專為檢索某一學(xué)科或主題的信息而產(chǎn)生的查詢工具,專門收錄某一方面、某一行業(yè)或某一主題的信息,對(duì)解決實(shí)際查詢問題要比搜索引擎門戶有效得多,其特點(diǎn)就是“專、精、深”.相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入.垂直搜索引擎憑借明確的檢索目標(biāo)定位,對(duì)網(wǎng)頁進(jìn)行選擇性收集,信息采集量小,更新及時(shí),因而能有效解決通用搜索引擎的弊端[11].垂直搜索引擎正在以其日趨精準(zhǔn)化、人性化的信息檢索服務(wù),提升人們對(duì)搜索引擎的使用率和認(rèn)同度,助推了搜索引擎的快速發(fā)展.
垂直檢索引擎主要由內(nèi)容抓取、建立索引以及檢索系統(tǒng)組成.內(nèi)容抓取——主要是通過蜘蛛程序從信息源抓取數(shù)據(jù).內(nèi)容抓取涉及的關(guān)鍵技術(shù)點(diǎn)有爬行路徑分析、增量抓取與全抓取、信息構(gòu)造完整性、信息唯一性識(shí)別、多網(wǎng)頁信息整合、自動(dòng)標(biāo)引等.建立索引——是指把抓來的信息建立類似書目的數(shù)據(jù)文件,以實(shí)現(xiàn)高速檢索.檢索系統(tǒng)——就是提供搜索功能的網(wǎng)站,網(wǎng)站的具體表現(xiàn)形式大不相同,但是都提供全文搜索功能. 垂直搜索是對(duì)行業(yè)信息進(jìn)行深度的加工,有效的整合.本文重點(diǎn)研究利用知識(shí)組織系統(tǒng),對(duì)其圖書檢索內(nèi)容進(jìn)行分析,提供網(wǎng)頁搜索無法做到的專業(yè)性、功能性,為用戶提供深一步的服務(wù)和完整的體驗(yàn).
圖1 系統(tǒng)原理圖
本系統(tǒng)以紹興市圖書館為應(yīng)用環(huán)境,利用知識(shí)組織方式對(duì)圖書資源進(jìn)行標(biāo)引形成特色數(shù)據(jù)庫,同時(shí)通過用戶畫像的建立,實(shí)現(xiàn)用戶個(gè)性化垂直搜索服務(wù).紹興圖書館圖書檢索垂直引擎系統(tǒng)的原理如圖1所示,本系統(tǒng)主要由3個(gè)功能模塊組成:用戶建模模塊、知識(shí)加工模塊以及垂直搜索服務(wù)模塊.
3.1 用戶建模模塊
用戶建模模塊,是指通用對(duì)用戶瀏覽網(wǎng)站等行為和用戶相關(guān)的日志進(jìn)行分析從而形成用戶模板庫等.IP地址是系統(tǒng)用戶最主要的特征,瀏覽器Cookie能夠?qū)⑾嗤琁P地址下的用戶進(jìn)一步細(xì)分.紹興圖書館圖書檢索垂直引擎系統(tǒng)正式采用兩者結(jié)合進(jìn)行用戶識(shí)別.用戶的行為可以通過如下方式表示:userInfor =
紹興圖書館圖書檢索垂直引擎系統(tǒng)通過用戶識(shí)別、頁面行為跟蹤,以及建立用戶畫像三個(gè)過程實(shí)現(xiàn)用戶行為分析.
3.2 知識(shí)加工模塊
知識(shí)加工模塊用于系統(tǒng)對(duì)資源進(jìn)行加工,資源的加工精度決定了對(duì)外服務(wù)的質(zhì)量,主要包括元數(shù)據(jù)管理以及知識(shí)加工等內(nèi)容.系統(tǒng)各類用戶各負(fù)其責(zé),知識(shí)專家和領(lǐng)域?qū)<覍?duì)元數(shù)據(jù)進(jìn)行管理,知識(shí)編輯人員通過知識(shí)組織庫對(duì)圖書資源進(jìn)行標(biāo)引等知識(shí)加工,從而形成特色數(shù)據(jù)庫.本文中的特色數(shù)據(jù)庫,可以采用順序文件、索引文件、倒排文件等形式來組織.經(jīng)過知識(shí)加工后,能夠揭示隱含的有價(jià)值的信息.
元數(shù)據(jù)管理包括元數(shù)據(jù)更新以及發(fā)布.元數(shù)據(jù)存儲(chǔ)在專用的數(shù)據(jù)庫中,分為索引目錄和關(guān)系映射數(shù)據(jù)庫.索引目錄用于檢索,關(guān)系數(shù)據(jù)庫用于元數(shù)據(jù)與原文的關(guān)聯(lián)記錄.元數(shù)據(jù)倉儲(chǔ)提供OAI-DP服務(wù),供其它應(yīng)用系統(tǒng)調(diào)用,并返回XML格式的結(jié)果.
在紹興圖書館圖書檢索垂直引擎系統(tǒng)中知識(shí)組織庫采用本體來描述.本體可以使用資源表(t_resource)將類和屬性等信息組織起來.本體中的資源采用URI進(jìn)行唯一標(biāo)識(shí),而URI是由namespace 和localname組成的.字段type記錄資源的類型:類、實(shí)例、屬性.紹興圖書館圖書檢索垂直引擎系統(tǒng)存儲(chǔ)表結(jié)構(gòu)信息如表1所示.
表1 知識(shí)組織存儲(chǔ)表結(jié)構(gòu)
圖書檢索服務(wù)主要涉及到的類包括書籍(Book)、作者(Author)、出版社(Publisher)和讀者(Reader).圖書檢索涉及到的圖書類的主要關(guān)系有hasPublisher,hasPublishTime,hasCategory,hasKeyWords,hasPrice,hasWords,hasLanguage,hasAuthor,hasBorrowedTimes等,主要包括書籍的中文名稱、語種、行業(yè)、出版時(shí)間、字?jǐn)?shù)、價(jià)格、作者和借閱次數(shù)等信息.系統(tǒng)通過關(guān)系的連接,來達(dá)到添加信息語義的目的,例如“中文”與類“圖書名”相關(guān)聯(lián)形成“中文圖書”,“出借次數(shù)”與“行業(yè)”相關(guān)聯(lián)形成“行業(yè)熱門書籍”.
實(shí)例的基本信息存儲(chǔ)在單獨(dú)的實(shí)例表t_ instance中,實(shí)例存儲(chǔ)的主要字段有instanceID和instanceName,以及每個(gè)實(shí)例的屬性及屬性值.系統(tǒng)采用基于三元組的存儲(chǔ)思想,將instanceID,propertyID和value視為一個(gè)三元組,直接存儲(chǔ)在表中.
3.3 垂直搜索服務(wù)模塊
垂直搜索服務(wù)模塊是紹興圖書館圖書檢索垂直引擎系統(tǒng)對(duì)外服務(wù)的模塊,面對(duì)用戶輸入的響應(yīng),盡可能提供給用戶滿意的結(jié)果,提供垂直搜索和個(gè)性化資源推薦等服務(wù).
相對(duì)傳統(tǒng)搜索引擎,垂直搜索引擎由于覆蓋整個(gè)行業(yè),搜索相關(guān)性更高,更符合用戶意圖.同時(shí),紹興圖書館圖書檢索垂直引擎系統(tǒng)由于知識(shí)組織系統(tǒng)的介入,數(shù)據(jù)結(jié)構(gòu)化的因素,檢索結(jié)果更是少而精.垂直搜索流程如圖2所示.用戶輸入檢索詞后,系統(tǒng)提取用戶畫像確定其關(guān)注的領(lǐng)域信息,然后對(duì)用戶輸入的檢索詞進(jìn)行擴(kuò)展等推理,并將推理結(jié)果交給檢索模塊進(jìn)行檢索,最后向用戶返回檢索結(jié)果.
個(gè)性化推薦是以用戶滿意為中心的主動(dòng)推送服務(wù),是根據(jù)用戶的不同興趣和特點(diǎn),提供有針對(duì)性的服務(wù).系統(tǒng)根據(jù)不同時(shí)間用戶行為的變化不斷調(diào)整、豐富用戶畫像,尋找用戶最相近興趣和特點(diǎn)的人的最近情況,直接推送用戶感興趣的圖書等信息.
紹興市圖書館在主題標(biāo)引方面已經(jīng)取得了一定的成果,為數(shù)字圖書館圖書檢索垂直引擎的應(yīng)用打下了基礎(chǔ).本文利用知識(shí)組織方式對(duì)數(shù)字圖書館圖書資源進(jìn)行標(biāo)引等加工,形成特色數(shù)據(jù)庫;同時(shí),通過跟蹤用戶行為建立用戶畫像,在圖書檢索中引入垂直搜索引擎,以其“專、精、深”的特點(diǎn),將顯著提高查準(zhǔn)率、查全率.特色數(shù)據(jù)庫的建設(shè)以及個(gè)性化的服務(wù),為紹興市圖書館等中小型圖書館在知識(shí)時(shí)代的發(fā)展提供新的契機(jī).
[1]張敏.基于本體的垂直搜索引擎的研究[J].軟件導(dǎo)刊,2010,9(2):13-15.
[2]鄒嵩,趙詩陽,周新志.垂直搜索引擎中分詞技術(shù)的算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(2):131-137.
[3]夏斌,丁立,喬紅波,等.中文農(nóng)業(yè)信息垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J].河南農(nóng)業(yè)大學(xué)學(xué)報(bào),2010,44(6):715-717.
[4]汲業(yè),陳燕,楊健,等.生活服務(wù)領(lǐng)域垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2010,36(24):24-26.
[5]劉博卿.基于軍事工程兵的垂直搜索引擎研究[J].科技創(chuàng)新導(dǎo)報(bào),2011(18):6.
[6]王微微,夏秀峰,李曉明.一種基于用戶行為反饋的興趣度模型更新算法[J].遼寧大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,38(1):40-45.
[7]于升峰,藍(lán)潔.基于用戶行為挖掘和RSS技術(shù)的知識(shí)服務(wù)模式研究[J].情報(bào)探索,2011(8):93-95.
[8]王存睿,王元?jiǎng)?陳婧,等.基于行為采集系統(tǒng)的用戶特征挖掘及分析[J].大連民族學(xué)院學(xué)報(bào),2011,13(3):296-300.
[9]張宇紅.地方文獻(xiàn)的主題標(biāo)引.圖書館研究與工作,2004(2):67-68.
[10]趙德平,王延臣,李鵬,等.面向高校信息的垂直搜索引擎的研究與實(shí)現(xiàn)[J].沈陽建筑大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,28(3):555-562.
[11]張敏,杜華.垂直搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)科學(xué),2011(3):421-424,439.
(責(zé)任編輯 鄧穎)
Research and Application of Vertical Engine in Shaoxing Library
Wu Guofang
(College of Information Engineering, Shaoxing Vocational &Technical College, Shaoxing, Zhejiang 312000)
The general search engine of collecting information cannot keep in pace with the growth rate of cyber sources, and the hit rate of retrieval words is less than 75%. Taking the Shaoxing City Library as the research object, a book information retrieval system was designed to improve the precision rate and recall rate through the introduction of the vertical search engine characterized as “specialized, refined, broad and profound”. The system uses a knowledge organization system to annotate book information and a user profile to realize personalized vertical search.
vertical search engine; knowledge organization system; intelligent information retrieval
2014-02-17
浙江省教育廳高等學(xué)校訪問學(xué)者專業(yè)發(fā)展資助項(xiàng)目(FX2013236)
吳國芳(1978-),女,浙江東陽人,碩士,講師,研究方向:智能信息處理、數(shù)據(jù)庫技術(shù)、圖形圖像處理.
TP391.3
A
1008-293X(2014)07-0018-04