朱玲 崔海媛 聶華
摘要 近年來,網(wǎng)絡(luò)級發(fā)現(xiàn)服務(wù)在圖書館業(yè)界迅速興起。方案選定之后如何實施,就成為發(fā)現(xiàn)服務(wù)從評估走向應(yīng)用、從產(chǎn)品推向服務(wù)的關(guān)鍵。文章以“未名學(xué)術(shù)搜索”的實踐為基礎(chǔ),介紹了網(wǎng)絡(luò)級發(fā)現(xiàn)服務(wù)在北大圖書館的實施背景、目標(biāo)和組織方式及以下實施要點:本地館藏的映射與同步,商業(yè)電子資源的訂購與配置,檢索機制的優(yōu)化,界面和檢索框架的客制化,系統(tǒng)發(fā)布與服務(wù)。
關(guān)鍵詞 發(fā)現(xiàn)服務(wù) 實施 未名學(xué)術(shù)搜索
1 引言
網(wǎng)絡(luò)級發(fā)現(xiàn)服務(wù)自問世以來就受到圖書館業(yè)界的強烈關(guān)注,并在全球迅速得到廣泛應(yīng)用。市場上的幾種主流產(chǎn)品分別是:OCLC的WorldCat Lo-cal(2008年正式推出),SerialsSolutions的Sum-mon(2009年7月發(fā)布),Exlibris的Primo Cen-tral(2010年6月正式發(fā)布),EBSCO的EBSCODiscovery Service(EDS)(2010年1月發(fā)布),以及Innovatives的Encore Synergy(2010年4月發(fā)布)。近幾年來,國內(nèi)對幾種主流發(fā)現(xiàn)產(chǎn)品和方案的考察和評估一直是數(shù)字圖書館領(lǐng)域的研究熱點,但對于其具體實施過程未有專門論述。2011年6月,北大圖書館在引進美國SerialsSolut-ions公司發(fā)現(xiàn)服務(wù)方案所含產(chǎn)品(Summon,360Link,Knowledgeworks)后隨即啟動實施工作,主要任務(wù)包括:資源的全面整合、檢索機制的優(yōu)化、界面的客制化、上線籌備等。經(jīng)過實施小組的通力協(xié)作和緊張籌備,“未名學(xué)術(shù)搜索”在同年11月順利向讀者推出,標(biāo)志著發(fā)現(xiàn)服務(wù)在北大圖書館率先進入應(yīng)用階段。本文以上述實踐為基礎(chǔ),詳細介紹和探討了發(fā)現(xiàn)服務(wù)在北大圖書館的實施細節(jié),包括背景、目標(biāo)、組織方式和要點。
2 背景與思路
2.1 背景
2011年6月,北大圖書館與美國SerialsSolut-ions公司正式簽訂了購買該公司發(fā)現(xiàn)服務(wù)方案所含產(chǎn)品的合同,成為網(wǎng)絡(luò)級發(fā)現(xiàn)服務(wù)Summon在中國大陸地區(qū)的第一家用戶。盡管此前在發(fā)現(xiàn)服務(wù)的評估和試用中已經(jīng)積累了一定的經(jīng)驗和團隊基礎(chǔ),Summon在北大圖書館正式應(yīng)用之前依然面臨著不少挑戰(zhàn),如:系統(tǒng)首次全面處理CNMARC記錄、多種個性化的中文數(shù)字特藏;電子資源知識庫中首次引入和配置中文數(shù)據(jù)庫;系統(tǒng)首次推出中文檢索功能;SaaS模式的產(chǎn)品實施在本館還未有成熟經(jīng)驗;與廠商支持團隊的合作受到語言和遠程交流的局限等。
2.2 系統(tǒng)架構(gòu)特點
發(fā)現(xiàn)服務(wù)從系統(tǒng)架構(gòu)上可以分為兩種類型:(1)單一型(單純基于中心索引/元數(shù)據(jù)倉儲技術(shù)),(2)混合型(基于中心索引+本地索引,元數(shù)據(jù)倉儲技術(shù)+元搜索技術(shù)),兩種類型的特點對比如圖1所示。
Summon在系統(tǒng)架構(gòu)上屬于單一型。從用戶體驗的角度看:基于標(biāo)準(zhǔn)化的中心索引,用戶可以得到更為快速的檢索反饋和更加規(guī)范清晰的相關(guān)度排序;采用SaaS模式,用戶可以從系統(tǒng)靈活的功能更新和短至2~3周的版本升級中獲益,率先體會發(fā)現(xiàn)服務(wù)領(lǐng)域新技術(shù)在系統(tǒng)中的應(yīng)用。從后臺實施的角度看:單一型架構(gòu)減少了本地硬件設(shè)施投入和后期維護負擔(dān),但也造成了對廠商支持力度和網(wǎng)絡(luò)環(huán)境的依賴加強,系統(tǒng)對接的調(diào)試難度加大,知識庫的配置精度要求提高,在實施計劃、人員協(xié)作、工作質(zhì)量和進度控制上都對實施團隊提出了更高的要求。
2.3 實施目標(biāo)與內(nèi)容
在分析本館資源情況和調(diào)研讀者需求的基礎(chǔ)上,北大圖書館將發(fā)現(xiàn)服務(wù)的實施目標(biāo)概括為:對北大圖書館所藏/所建/所購的全部學(xué)術(shù)資源進行元數(shù)據(jù)級的深度整合,構(gòu)建海量、高質(zhì)、標(biāo)準(zhǔn)化的元數(shù)據(jù)中心索引,通過功能強大的搜索引擎以及與讀者熟悉的網(wǎng)絡(luò)服務(wù)相比擬的界面體驗,向讀者提供統(tǒng)一、快速的搜索服務(wù)。在搜索結(jié)果鏈接中,分層次地嵌入圖書館相關(guān)系統(tǒng)命中該條資源的全文鏈接、信息頁、系統(tǒng)入口或服務(wù)申請人口,帶動讀者對圖書館現(xiàn)有系統(tǒng)和服務(wù)更好的了解和實踐,以此增進讀者對本館學(xué)術(shù)資源類型、形態(tài)、獲取方式的理解和把握能力,促進讀者綜合信息素養(yǎng)的提升,并提高圖書館學(xué)術(shù)資源的有效使用率。在實施過程中,重新梳理所涉及資源的管理方式,借機清理數(shù)據(jù)中的遺留問題,力爭促進業(yè)務(wù)流程和分工的優(yōu)化與合理調(diào)整。對SaaS模式的產(chǎn)品實施和服務(wù)應(yīng)用進行有益的嘗試和探索,為今后的系統(tǒng)選型和實施積累經(jīng)驗。
實施內(nèi)容主要包括:本地館藏的映射與同步,商業(yè)電子資源的訂購與配置,檢索機制的優(yōu)化,界面和檢索框架的客制化,系統(tǒng)發(fā)布與服務(wù)。
2.4 組織與實施方式
在前期多部門共同參與發(fā)現(xiàn)服務(wù)試用和評估的基礎(chǔ)上,北大圖書館針對實施工作成立了專門的項目小組,抽調(diào)多部門的骨干館員共同參與,在資源映射與配置、系統(tǒng)數(shù)據(jù)與檢索功能、界面框架與發(fā)現(xiàn)體系、讀者需求與反饋等方面各有分工并密切配合。同時,在“圖書館主導(dǎo)實施方案和計劃,廠商提供技術(shù)支持和人員嵌入”的原則下,實施小組與廠商共同制定了實施計劃,協(xié)調(diào)人員安排和進度。與以往引入的系統(tǒng)有所不同,發(fā)現(xiàn)服務(wù)廠商的支持團隊分散于國內(nèi)外的幾個服務(wù)中心,因此,除郵件之外,雙方還大量、頻繁地使用了網(wǎng)絡(luò)視頻會議作為越洋溝通的主要方式。同時,由于上述方式在語言差異、上下文語義、即時反應(yīng)上存在較大的局限性,實施小組在重/難點問題的討論上,依然堅持與廠商的核心支持團隊召開直接的面對面會談。充分依托高校圖書館的人文環(huán)境,圖書館還邀請到了北大計算語言學(xué)研究所、北大信息科學(xué)技術(shù)學(xué)院網(wǎng)絡(luò)與信息系統(tǒng)研究所的師生來館交流學(xué)習(xí),在自然語言處理、搜索技術(shù)和策略等問題上進行了深入探討。
3 實踐與思考
3.1 資源的全面整合
發(fā)現(xiàn)服務(wù)的核心是格式統(tǒng)一、結(jié)構(gòu)清晰、內(nèi)容全面的元數(shù)據(jù)中心索引和基于標(biāo)準(zhǔn)化索引的快速檢索。相應(yīng)地,實施過程的核心任務(wù)是將圖書館所藏/所建/所購的全部資源通過一系列的處理步驟全部納入該中心索引,并以此為基礎(chǔ)提供強大的搜索和鏈接功能。endprint
資源整合的總體框架如圖2所示,整合工作可劃分為本地資源和商業(yè)電子資源兩部分:(1)本地資源:館藏書目/數(shù)字特藏元數(shù)據(jù)的抽取、映射、收割、導(dǎo)人中心索引(用于Summon中本地資源的搜索、揭示和鏈接),(2)商業(yè)電子資源:本館所購電子資源在統(tǒng)一電子資源知識庫Knowledgeworks中的匹配、狀態(tài)訂閱和自有數(shù)據(jù)建設(shè)(用于Summon中電子資源的搜索范圍設(shè)定和360Link中的全文鏈接)。
3.2 本地館藏的映射與同步
北大圖書館的本地館藏資源豐富、類型多樣、特色鮮明,數(shù)據(jù)基本情況如表1所示。
本地館藏的處理可分為數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)映射與導(dǎo)入以及數(shù)據(jù)同步三個主要步驟。
數(shù)據(jù)準(zhǔn)備:包括元數(shù)據(jù)的導(dǎo)出和清理。導(dǎo)出時,需在系統(tǒng)支持的范圍內(nèi),盡量選擇便于處理的格式(優(yōu)先順序為MARC、XML、其它),盡量選擇國際通行的字符編碼(但個別特藏除外),并注意數(shù)據(jù)的狀態(tài)(是否刪除、是否屏蔽等)。導(dǎo)出后需仔細核對數(shù)目和完整性,并整理每種數(shù)據(jù)類型的元數(shù)據(jù)字段說明表。
數(shù)據(jù)映射與導(dǎo)入:為了使這些數(shù)據(jù)在Summon中被正確地索引和揭示,需要將各個本地系統(tǒng)的各個元數(shù)據(jù)字段通過一個標(biāo)準(zhǔn)化的提取規(guī)則存入中心索引中相應(yīng)的標(biāo)準(zhǔn)字段,這個標(biāo)準(zhǔn)化規(guī)則即為從該本地數(shù)據(jù)到中心索引的映射。完成映射后,即可按照此規(guī)則進行數(shù)據(jù)導(dǎo)入和揭示。實施小組首先針對北大館的多個本地館藏確定了“由通及變”的處理順序,即先從有成熟經(jīng)驗可借鑒的USMARC書目記錄著手,再到初次處理但結(jié)構(gòu)相似的CNMARC書目記錄,最后到更加個性化、多樣化的特藏數(shù)據(jù)。對每一種數(shù)據(jù)類型,充分發(fā)揮小組成員各自的經(jīng)驗與優(yōu)勢,先由最熟悉該種數(shù)據(jù)的編目館員通過兩種數(shù)據(jù)的字段對照、存疑假定等填寫完成初始映射表,冉由所有成員從不同的角度進行細致、全面的測試和調(diào)整,步驟為:映射→數(shù)據(jù)導(dǎo)入→測試→反饋→映射修正→數(shù)據(jù)再導(dǎo)人,如此往復(fù)若干次直至檢驗結(jié)果完全滿意。為了最大程度地保證映射的全面和準(zhǔn)確,測試對象既有從館員角度挑選的典型測例,也覆蓋了從讀者角度隨機抽取的大量記錄。例如,書目記錄測試中的典型測例包括:各種內(nèi)容類型的記錄,各種語種的記錄,各個分館的記錄,各個時間段的記錄,以及一些較復(fù)雜較特殊的字段(例如,需要先進行指示符判斷的字段/多層次字段等)。對測試中發(fā)現(xiàn)的問題,編目館員、小組其他成員、以及公司的編目專員共同進行了分析和處理。書目記錄遇到的主要問題有:顯示字段映射不準(zhǔn)確(不顯示/顯示不對或不全/相似字段混淆/顯示格式不當(dāng)),索引字段映射不準(zhǔn)確,提取程序處理不當(dāng),標(biāo)識字段格式不規(guī)范等。相應(yīng)的處理方法為修正映射,修正程序,調(diào)整數(shù)據(jù)格式的識別方式等。對數(shù)字特藏,問題則集中在不能嚴格匹配的個性化字段如何變通處理,例如,多媒體數(shù)據(jù)的責(zé)任者類型繁多(導(dǎo)演/演員/演講者/編劇/作曲/編曲/演奏/演唱……),最終都統(tǒng)一作為著者字段映射和揭示;北大名師的元數(shù)據(jù)本質(zhì)上是以人物為核心的復(fù)合型數(shù)據(jù),但在系統(tǒng)內(nèi)容類型不支持的情況下,最終取其人物介紹的類型映射到“文章”。
數(shù)據(jù)同步:數(shù)據(jù)同步是保障Summon中檢索內(nèi)容時效性的關(guān)鍵環(huán)節(jié),包括基本信息和實時狀態(tài)的同步。(1)基本信息的同步:理想情況下Summon中的數(shù)據(jù)基本信息應(yīng)隨原系統(tǒng)數(shù)據(jù)的變化而立即更新,但實踐中通常隨系統(tǒng)支持情況和自身更新頻率采取彈性策略。例如:北大圖書館的ILS系統(tǒng)自身的更新頻率較高,策略為自動日更新;學(xué)位論文一般隨著每年學(xué)生畢業(yè)進行數(shù)據(jù)更新,策略為手動年更新;電子書和大部分特藏數(shù)據(jù)的更新具有批量性和項目階段性,策略為緊隨原系統(tǒng)作不定期更新。更新方式主要為ftp自動或手動上傳。測試中也考慮過通過OAI-PMH協(xié)議自動收割,其優(yōu)點是自動化和時效性更高。但由于支持該協(xié)議的系統(tǒng)本身的更新頻率較低,且收割范圍和字段在接口中難以準(zhǔn)確界定,最終并未采用。(2)實時狀態(tài)的同步:基于本地自動化系統(tǒng)的支持情況,實施中成功實現(xiàn)了兩種方式:“頁面提取”方式和“Z39.50協(xié)議”方式。但由于本地自動化系統(tǒng)對頁面訪問壓力的承受力較低,而Z39.50協(xié)議接口的響應(yīng)速度較慢,如何穩(wěn)定地實現(xiàn)實時狀態(tài)的快速同步仍需結(jié)合ILS系統(tǒng)的具體情況,進一步研究探索更優(yōu)方案。
在對本地館藏的導(dǎo)出和處理過程中,北大圖書館擇機發(fā)現(xiàn)和清理了一批圖書館本地系統(tǒng)數(shù)據(jù)中存在的問題,例如CNMARC的001字段問題,并借此契機促進了書目數(shù)據(jù)的批量修正。另外,小組成員在實施中還提出了若干難以兩全、未有定論的問題,例如:元數(shù)據(jù)中心索引的標(biāo)準(zhǔn)字段應(yīng)該盡量提高包容性(擴展、細化更多的字段)還是保持簡潔通用性?分面中記錄的劃分應(yīng)該盡量滿足細分性還是簡潔唯一性?這些問題值得在產(chǎn)品改進和應(yīng)用深入的過程中繼續(xù)思考。
3.3 商業(yè)電子資源的訂購與配置
近年來,圖書館一直在大量引進國內(nèi)外電子資源。例如,近五年來(2008—2012),北京大學(xué)圖書館在館藏建設(shè)總經(jīng)費基本持平的情況下,電子資源經(jīng)費平均年增長率達到12.6%。電子資源數(shù)量眾多、更新迅速、學(xué)術(shù)研究價值巨大,在圖書館資源中占據(jù)了重要的地位,有力地支持了用戶的學(xué)習(xí)和研究需求。以北大圖書館為例,截至2014年6月5日,所購置的中外文數(shù)據(jù)庫中(不包括試用數(shù)據(jù)庫)為活躍狀態(tài)的達237個,且涵蓋多種資源類型,其中僅覆蓋的電子期刊即達到近5萬種,所包納的論文篇目更是數(shù)以億計,電子資源基本情況如表2所示。
網(wǎng)絡(luò)級發(fā)現(xiàn)服務(wù)Summon中,對商業(yè)電子資源的訪問和全文獲取鏈接通過對后臺的統(tǒng)一知識庫Knowledgeworks進行配置得以實現(xiàn)。知識庫統(tǒng)一存儲和管理圖書館的電子資源館藏信息(主要為電子刊、電子書、學(xué)位論文等),是電子資源整合服務(wù)最核心的數(shù)據(jù)基礎(chǔ)。
北大圖書館在原有本地導(dǎo)航系統(tǒng)的基礎(chǔ)上,對數(shù)據(jù)庫列表、期刊列表進行了仔細整理,并通過與資源商溝通、索取最新數(shù)據(jù)進行了更新,據(jù)此在Knowlegeworks知識庫中進行了全面配置。借資源徹底梳理和更新的契機,北大圖書館還將電子資源的后臺管理和維護從本地系統(tǒng)遷移到了更加規(guī)范化、標(biāo)準(zhǔn)化的Knowledgeworks知識庫管理端,并對業(yè)務(wù)流程和分工進行了優(yōu)化和調(diào)整,以便進一步提升管理和服務(wù)水平。endprint
電子資源的配置中,電子刊/電子書全文數(shù)據(jù)庫是最重要的部分,其全面性和精確性直接決定了Summon中檢索結(jié)果的全文鏈接是否完整和準(zhǔn)確。實施中,首先做數(shù)據(jù)庫層級的配置:基于本館數(shù)據(jù)庫列表中的每一個數(shù)據(jù)庫,在Knowledgeworks知識庫中通過考察關(guān)鍵屬性(平臺商、鏈接站點、包含的資源集等)進行最優(yōu)匹配,并對其詳細信息(描述信息、關(guān)聯(lián)信息、權(quán)限賬號信息、可見性信息等)進行精確設(shè)置或修改。這之后,再進行期刊層級的配置:若數(shù)據(jù)庫為整庫購買,全部訂閱即可;若數(shù)據(jù)庫為部分購買,則需將本地電子刊/電子書列表與選中標(biāo)準(zhǔn)庫中的列表通過唯一標(biāo)識符(一般為ISSN或ISBN)進行自動匹配,并個性化設(shè)置匹配成功記錄的訂閱年限等狀態(tài)信息,再人工處理匹配失敗的少數(shù)記錄(原因包括:數(shù)據(jù)庫確未覆蓋,記錄標(biāo)識信息缺失,記錄標(biāo)識信息有誤或有變動)。對極少數(shù)人工依然無法識別的記錄,還需要與公司電子資源專員和數(shù)據(jù)庫商進行多方討論和求證,盡量提高覆蓋率。由于同一條電子刊/電子書記錄可能被多個數(shù)據(jù)庫或多個鏡像站覆蓋,所以,將所有數(shù)據(jù)庫及其鏡像站配置完成后,還需總覽全局,對數(shù)據(jù)庫之間以及鏡像站之間進行優(yōu)先級排序。對英文數(shù)據(jù)庫來說,在配置中最常見的問題是匹配發(fā)生歧義和多鏡像站并存時如何全面配置。對于前者,解決方法為根據(jù)情況靈活地拆分訂閱,必要時進行單刊補充;對于后者,需要全面訂閱本館有訪問權(quán)限的鏡像站,對標(biāo)準(zhǔn)庫不含的中國鏡像站,要盡快補充建立。對中文數(shù)據(jù)庫來說,實施時知識庫中覆蓋率幾乎為零。為了保證發(fā)現(xiàn)服務(wù)中文資源也能盡快推出,北大館根據(jù)自己的訂購情況,詳細梳理了中文電子刊數(shù)據(jù)庫(例如:CNKI,維普,萬方)和中文電子書數(shù)據(jù)庫(例如:超星電子書,方正電子書)的資源列表,并據(jù)此快速新建了北大館專用知識庫。同時,在推動SerialsSolut-ions公司與中文電子資源商合作不斷加強、知識庫中中文標(biāo)準(zhǔn)庫不斷增加的過程中,將北大專用庫逐步過渡到標(biāo)準(zhǔn)庫。
除了全文電子刊/電子書資源外,北大館訂購的商業(yè)數(shù)據(jù)庫覆蓋的類型還包括:二次文獻、學(xué)位論文、報紙、事實、資訊、百科全書、法律法規(guī)等。對于這些庫,一般只做數(shù)據(jù)庫層級的訂閱,并將其中的篇目級內(nèi)容在Summon中賦予訪問權(quán)限即可。
由于商業(yè)電子資源的數(shù)量龐大,并且其狀態(tài)、年限等可能由于各種因素而發(fā)生變動,在實踐中達到配置和訂閱的絕對精確是非常困難的。因此,在實施完成之后,還需要持續(xù)追蹤數(shù)據(jù)庫的更新,并且重視讀者使用反饋的收集和響應(yīng),據(jù)此及時地對知識庫進行動態(tài)維護和調(diào)整。
完成電子資源的訂購和配置后,北大圖書館還基于電子資源知識庫Knowledgeworks開發(fā)和推出了新的數(shù)據(jù)庫導(dǎo)航和電子期刊導(dǎo)航系統(tǒng),在110周年館慶之際(1902-2012)與新的圖書館門戶系統(tǒng)同期發(fā)布。
3.4 檢索機制的優(yōu)化
對于借鑒網(wǎng)絡(luò)搜索引擎的技術(shù)框架,基于海量元數(shù)據(jù)倉儲技術(shù)的網(wǎng)絡(luò)級發(fā)現(xiàn)服務(wù),衡量其檢索效果的核心指標(biāo)與網(wǎng)絡(luò)搜索引擎相似,分別為召回率(又稱查全率),精度(又稱查準(zhǔn)率),以及在系統(tǒng)返回的全部相關(guān)文檔集合上進行的更為精細的相關(guān)度得分計算和排序。相應(yīng)地,在檢索機制的優(yōu)化中,北大圖書館將這三個指標(biāo)列為重點考量的因素。在大規(guī)模數(shù)據(jù)集合中,召回率和精度這兩個指標(biāo)是相互制約的,需要尋求一個平衡點。對于學(xué)術(shù)性的資源檢索系統(tǒng),高質(zhì)量的數(shù)據(jù)和可靠的召回率至關(guān)重要。因此,北大圖書館在改進中文檢索機制時的指導(dǎo)思路是:確保高的召回率,在兼顧較高精度的同時,通過相關(guān)度排序幫助用戶在結(jié)果前列快速查找信息。實施小組對檢索機制進行了深入的調(diào)查和研究,并通過大量實例評測了檢索效果,提出了建議的改進方案。在此基礎(chǔ)上,與公司負責(zé)中文檢索的工程師進行了多次集中研討,根據(jù)評測結(jié)果分析問題實質(zhì)并提出解決方法,最終有效地推動公司在隨后的幾次升級版本中逐步實現(xiàn)相應(yīng)的改進。
3.4.1 相關(guān)度排序的優(yōu)化
Summon的相關(guān)度排序因子包括兩方面:動態(tài)因子(詞頻、字段、鄰接度等),靜態(tài)因子(內(nèi)容類型,時間等),具體算法則基于統(tǒng)計模型。實施小組從用戶角度對系統(tǒng)相關(guān)度排序效果進行了評測,評測結(jié)果可分為兩類:
一、取得一致的改進意見。例如:標(biāo)題匹配的記錄應(yīng)該更加提前,完全逐字匹配的記錄應(yīng)該更加提前,中文記錄的排序應(yīng)該考慮語序因素等。相應(yīng)地,實施中根據(jù)測試反饋對相關(guān)度排序進行了優(yōu)化:1.微調(diào)個別字段權(quán)重。對標(biāo)題字段權(quán)重在可允范圍內(nèi)適當(dāng)加大。2.對完全匹配記錄給予獎勵權(quán)重。對符合與輸入字串完全逐字匹配,甚至整個字段完全匹配的記錄給予獎勵權(quán)重。3.根據(jù)中文特點引入語序獎勵權(quán)重。同等條件下當(dāng)記錄中詞串語序與輸入語序相同時該條記錄提前。
二、有爭議的改進意見。例如:1.內(nèi)容類型的權(quán)重調(diào)整。有的意見認為紙本書目代表圖書館館藏的優(yōu)勢和特點,應(yīng)該給予盡量提前;有的意見認為期刊論文的時效性、學(xué)術(shù)性較高,應(yīng)該盡量給予提前;還有的意見認為數(shù)字特藏最能突出本館特色,應(yīng)該盡量給予提前。2.中外文記錄的混排。有的意見認為應(yīng)該將與用戶使用界面語種相同的記錄提前,或?qū)⑴c用戶輸入檢索詞語種相同的記錄提前,另外的意見則認為當(dāng)用戶使用某語種界面或使用某語種輸入時,對記錄的語種屬性并無明確期待。對這類評測意見,實施中則保持原狀,未做調(diào)整。但是,對于面向多種類型和多語種資源的發(fā)現(xiàn)服務(wù),如何在繁多資源類型和不同語種之間進行權(quán)衡和平衡,是個無法回避的問題,有待進一步研討。
3.4.2 中文檢索相關(guān)
提高中文分詞的精度和系統(tǒng)對分詞歧義的容錯性:中文分詞技術(shù)是所有中文信息處理步驟的基礎(chǔ),分詞結(jié)果的好壞對中文檢索系統(tǒng)的三個核心指標(biāo)都有影響。北大圖書館通過分詞評測(SigHan標(biāo)準(zhǔn))和檢索測試,對系統(tǒng)中原來存在的主要分詞問題進行了診斷和改進。1.人名和新詞識別率較低,往往被切分為單字,導(dǎo)致檢索返回大量不相關(guān)結(jié)果。針對這一問題,分詞系統(tǒng)引入后處理模塊和專用詞典(該詞典覆蓋了系統(tǒng)元數(shù)據(jù)作者字段中抽取的高頻人名、機構(gòu)名等,并利用其它數(shù)據(jù)源進行了大量補充),對分詞后不能有效識別的字詞碎片,與專用詞典進行匹配和二次識別。這種方式在基本不影響召回率的前提下,有效提高了檢索精度。2.分詞歧義(此處特指真歧義)的存在,對召回率和精度都造成了不利影響。針對這一問題,在索引中對典型切分歧義保留了多重分詞路徑,使得這些記錄不再因為切分歧義而被漏檢,在存在歧義的情況下提高了系統(tǒng)召回率。需要說明的是,這種方式對精度有一定的放寬,但通過在相關(guān)度排序中計入不同分詞路徑的權(quán)重,對用戶體驗的影響并不大。endprint
優(yōu)化中文作者字段的查詢策略:對未指定字段的檢索輸入,系統(tǒng)同等地將其解析為對每個字段的查詢表達式并分別執(zhí)行,再將查詢結(jié)果合并,并按相關(guān)度排序。由于中文人名基本不具有變異寫法,往往只有嚴格匹配時才具有檢索意義。因此,優(yōu)化中將作者字段的查詢表達式作了更嚴格的限定,使大量不相關(guān)記錄被濾除,在基本不影響召回率的前提下提高了精度。
3.5 界面和檢索框架的客制化
對于發(fā)現(xiàn)服務(wù)而言,界面和檢索框架意味著從資源發(fā)現(xiàn)到資源獲取的完整的探索體系。北大圖書館立足于用戶需求的求證來指導(dǎo)客制化,以“簡潔、明晰”為主要定位,最大程度地契合網(wǎng)絡(luò)環(huán)境下的用戶習(xí)慣,同時也通過“鏈接解析”和“接口嵌入”引導(dǎo)讀者更準(zhǔn)確地獲取資源,更好地了解和使用圖書館現(xiàn)有資源系統(tǒng),更加熟悉圖書館資源的類型、形態(tài)、獲取方式,幫助讀者準(zhǔn)確檢索、深入挖掘所需的信息,并能結(jié)合各種手段和資源獲取資源。
在資源發(fā)現(xiàn)過程中,讀者通過檢索界面輸入關(guān)鍵詞,并借助相關(guān)度排序和分面導(dǎo)航等功能探索和發(fā)掘感興趣的記錄。北大圖書館在系統(tǒng)上線前進行了試用、用戶問卷調(diào)查和后臺日志分析,為這部分功能客制化提供依據(jù)。例如,根據(jù)用戶調(diào)查結(jié)果中更多用戶傾向于直接檢索而非先選擇檢索范圍,系統(tǒng)采用類似Google的單一檢索框,略去了帶有圖書館傳統(tǒng)檢索痕跡的資源集合的劃分;根據(jù)日志分析結(jié)果中分面按照點擊率的排序,將“內(nèi)容類型”和“主題”置于最靠前的位置;根據(jù)用戶調(diào)查結(jié)果,希望提高中文檢索的準(zhǔn)確性和相關(guān)性,系統(tǒng)著重針對中文檢索進行了優(yōu)化。
對檢索返回的每條記錄,系統(tǒng)分層次地嵌入圖書館相關(guān)系統(tǒng)命中該條資源的全文鏈接、信息頁、系統(tǒng)入口或服務(wù)申請入口。第一層:標(biāo)題鏈接直達書刊紙本獲取頁/多媒體點播頁/電子資源全文獲取頁。第二層:“更多獲取途徑”根據(jù)對資源的全面解析列出所有可能的選項:(1)開放鏈接服務(wù)器360Link通過對資源信息與KnowledgeWorks知識庫中電子資源館藏的匹配和計算,列出覆蓋該條資源的所有數(shù)據(jù)庫、數(shù)據(jù)庫中的篇目全文鏈接和電子書/刊目錄頁鏈接。當(dāng)存在多個數(shù)據(jù)庫/鏡像站時,按照KnowledgeWorks中設(shè)定的優(yōu)先級進行排序。全文鏈接的解析主要依賴于OpenURL規(guī)范,對個別還未遵守此規(guī)范的數(shù)據(jù)庫(例如CNKI),北大館另外進行了特殊拼接,以保證讀者能夠“透明”地使用。(2)北大館常用資源系統(tǒng)中該條資源的檢索入口:包括館藏書目OPAC系統(tǒng)、Google學(xué)術(shù)搜索、CALLS聯(lián)合目錄等。(3)相關(guān)服務(wù)的申請入口:包括館際互借和圖書館咨詢等。
3.6 發(fā)布與服務(wù)
在完成了系統(tǒng)準(zhǔn)備(檢索接口嵌入門戶、界面調(diào)整、用戶測試、壓力測試),宣傳與推廣準(zhǔn)備(個性化命名、宣傳海報、系統(tǒng)介紹、發(fā)布通知)和人員準(zhǔn)備(成立應(yīng)用小組)后,2011年11月7日,“未名學(xué)術(shù)搜索”系統(tǒng)上線,圖書館門戶進行了切換,同時上線通知在圖書館門戶、未名BBS和圖書館學(xué)科博客等多處發(fā)布,標(biāo)志著網(wǎng)絡(luò)級發(fā)現(xiàn)服務(wù)在北大圖書館率先進入應(yīng)用階段。
服務(wù)推出后,北大圖書館多渠道收集和深入分析讀者反饋,并優(yōu)化應(yīng)用小組的協(xié)作機制,以此推動網(wǎng)絡(luò)級發(fā)現(xiàn)服務(wù)在北大的應(yīng)用不斷深入:(1)集中性的問卷調(diào)查:2012年4月,進行“未名學(xué)術(shù)搜索”使用效果問卷調(diào)查,共回收問卷381份。問卷覆蓋了系統(tǒng)宣傳、訪問速度、檢索效果、全文獲取、界面功能以及文獻題錄導(dǎo)出等。結(jié)果表明系統(tǒng)得到了絕大部分讀者的認可和嘉許,尤其是豐富的學(xué)術(shù)資源,便捷的一站式檢索和清晰的相關(guān)度排序,快捷的全文獲取/文獻題錄導(dǎo)出功能等。同時,調(diào)查也反映了讀者對系統(tǒng)依然持有更高的期望,例如:更快的訪問速度,更全面、準(zhǔn)確的檢索效果等。(2)隨時提供通暢的反饋渠道:讀者直接發(fā)送郵件,或在系統(tǒng)內(nèi)部填寫界面右上角的“反饋”即可將問題提交給pkusum-mon郵件列表中的所有應(yīng)用小組成員。如果讀者通過電話或BBS反饋,通常也能在第一時間由值班的咨詢館員轉(zhuǎn)接/轉(zhuǎn)發(fā)給小組成員。(3)優(yōu)化應(yīng)用小組的協(xié)作機制:當(dāng)郵件列表成員同時接收到最新反饋后,由最熟悉情況的小組成員進行答復(fù)。這種方式擴大了圖書館向讀者開放的服務(wù)面,節(jié)省了問題轉(zhuǎn)發(fā)、轉(zhuǎn)述的中間環(huán)節(jié),不僅能夠最快地響應(yīng)該讀者反饋的問題,而且所有成員都能實時跟蹤和更新問題進展,提高應(yīng)用小組整體服務(wù)水平。對于疑難問題,更有利于跨部門的問題溝通和協(xié)調(diào),以及給出更有力的解決措施。
截至目前,系統(tǒng)已經(jīng)穩(wěn)定運行兩年,并且得到了廣泛的讀者認可,每日的綜合檢索次數(shù)已接近或突破萬次,有力地支持了讀者學(xué)習(xí)和研究過程對高質(zhì)量學(xué)術(shù)資源的搜索和使用需求,提高了北大圖書館的資源使用效率,增強了對教學(xué)科研的資源保障力度。
4 結(jié)語
網(wǎng)絡(luò)級發(fā)現(xiàn)服務(wù)的核心可以歸結(jié)為“數(shù)據(jù)”、“搜索”和“界面”三要素。落到實施環(huán)節(jié)上:“數(shù)據(jù)”要素側(cè)重于關(guān)注本地資源的映射與同步、商業(yè)電子資源的訂購與配置;“搜索”要素著力于提升系統(tǒng)三大核心檢索指標(biāo):召回率、精度和相關(guān)度排序;“界面”要素則強調(diào)根據(jù)用戶需求對資源發(fā)現(xiàn)獲取框架進行客制化。“未名學(xué)術(shù)搜索”的實施正是關(guān)注并圍繞上述核心要素而展開。本文以“未名學(xué)術(shù)搜索”的實踐為基礎(chǔ),詳細介紹和探討了網(wǎng)絡(luò)級發(fā)現(xiàn)服務(wù)在北大圖書館的實施細節(jié),并提出了若干在深入應(yīng)用中值得繼續(xù)思考的問題。endprint