1 抽象概念
在數(shù)字圖書館時(shí)代,基于Web的電子數(shù)據(jù)庫(kù)已經(jīng)成為重要的教育資源和研究資源,分析這樣的聯(lián)機(jī)系統(tǒng)的使用價(jià)值,提供有關(guān)用戶行為的有價(jià)值的信息,以及有關(guān)在一般領(lǐng)域的電子信息的應(yīng)用成為了必然。此外,這些發(fā)現(xiàn)并改善使用效果的電子系統(tǒng)能否找出需要改進(jìn)的地方,需要從用戶界面和功能文檔和產(chǎn)品培訓(xùn)等方面得到有效的加強(qiáng)。本文以同方知網(wǎng)數(shù)據(jù)庫(kù)為例,2002年ELS科學(xué)公司提出培養(yǎng)信息素養(yǎng)是圖書館學(xué)的首要目標(biāo),并指出信息素養(yǎng)的能力來自于訪問、評(píng)估、以及根據(jù)各種來源問題利用信息求解、研究、決策、和持續(xù)專業(yè)的發(fā)展。鑒于信息檢索(IR)系統(tǒng)的重要性,輔助流程,IR系統(tǒng)的研究、評(píng)估和改進(jìn)、以及滿足用戶的需求是圖書館研究的重要組成部分。
因特網(wǎng)和萬維網(wǎng)已經(jīng)推出了新的強(qiáng)有力的檢索方式來尋找和共享信息。在科學(xué)領(lǐng)域,基于Web的文摘增殖和索引數(shù)據(jù)庫(kù)和電子期刊數(shù)據(jù)庫(kù)推進(jìn)了研究人員的研究步伐。此外,基于網(wǎng)絡(luò)電子資源,促進(jìn)用戶行為的探索遠(yuǎn)遠(yuǎn)超出了可能在打印環(huán)境中,作為Web服務(wù)可以被配置為記錄(日志)的所有相關(guān)用戶事務(wù)。通過分析這些事務(wù)日志,能夠獲得詳細(xì)用戶在做什么的畫面,以及他們?nèi)绾问褂么隧?xiàng)服務(wù)。
本文分析了同方知網(wǎng)支持的事務(wù)日志(SDOS)電子雜志系統(tǒng),并陳述了調(diào)查結(jié)果。同方知網(wǎng)是中國(guó)最大和最繁忙的全文科學(xué)、技術(shù)和醫(yī)學(xué)的數(shù)據(jù)庫(kù)。保守估計(jì)有6625,000用戶應(yīng)用同方知網(wǎng)SDOS系統(tǒng)。通過日志分析用來獲得洞察了常年的用戶的使用行為,但大多數(shù)研究都集中在網(wǎng)上公開訪問目錄和傳統(tǒng)的IR系統(tǒng)。
2 總體分析
本節(jié)重點(diǎn)介紹了SDOS事務(wù)日志的全面檢查。調(diào)查結(jié)果在本節(jié)的關(guān)注報(bào)道訪問分布在注冊(cè)的IP地址和各類型的訪問時(shí)間,對(duì)于術(shù)語能否正確理解和認(rèn)識(shí)。
2.1 IP地址分析
對(duì)于每SDOS接入,IP地址被記錄在事務(wù)日志中。雖然IP地址是識(shí)別用戶的一種手段,而且必須有某種關(guān)系IP地址和單個(gè)SDOS用戶之間,很多因素表明,它是不安全的假設(shè)一對(duì)一關(guān)系:
·用戶可從個(gè)人電腦共享訪問SDOS,其結(jié)果是,從IP共享PC的地址不唯一的識(shí)別各個(gè)用戶,設(shè)在個(gè)人電腦更是如此。
·SDOS可通過代理或緩存服務(wù)器進(jìn)行訪問,在這種情況下,代理或緩存服務(wù)器的IP地址被記錄,而不是在最終用戶的IP地址。相同當(dāng)一個(gè)機(jī)構(gòu)使用所謂的“地址轉(zhuǎn)換”通過防火墻或應(yīng)用其他設(shè)備。這可能會(huì)導(dǎo)致所有的訪問,從一個(gè)機(jī)構(gòu)或部門來是后面一個(gè)單一的IP地址。記錄文件數(shù)據(jù)的分析表明,SDOS從不同的IP地址訪問。換句話說,主機(jī)的一小部分就可產(chǎn)生很大一部分的文章點(diǎn)擊總數(shù)。最繁忙的IP地址由文章下載3.6%,而在此之上底部連的IP地址取得0.1%全文的存取。這些研究結(jié)果強(qiáng)烈表明,大多數(shù)用戶都隱藏在代理服務(wù)器或緩存服務(wù)器地址,或防火墻或其他設(shè)備應(yīng)用于地址轉(zhuǎn)換,因此,有不是一對(duì)一的個(gè)人用戶和IP地址之間的關(guān)系。
2.2 重復(fù)全文訪問
一個(gè)度量評(píng)估如何將電子資源滿足信息用戶需求確認(rèn)是用戶的重復(fù)訪問。由于缺少一種機(jī)制,以識(shí)別個(gè)人用戶,只每個(gè)IP地址重復(fù)訪問可以在該研究中進(jìn)行分析。SDOS自2012年6月提供的用戶名/密碼認(rèn)證,在分析日志本文包含的只有少數(shù)訪問使用這種認(rèn)證機(jī)制如果IP地址是根據(jù)全文文章的下載數(shù)排名,僅僅下載一篇文章。而下載至少兩篇文章的用戶,雖然他們的研究結(jié)果是基于訪問和個(gè)人用戶,而本次研究著眼于每個(gè)IP地址的全文下載,它的出現(xiàn)幾率在知網(wǎng)的一次性使用SDOS系統(tǒng)的用戶比重是相當(dāng)?shù)偷摹?/p>
2.3 日志類別分析
SDOS用法大致可分為14類,分布的14個(gè)類別的提請(qǐng)全文觀看是最常見類型的使用戶需求。由于SDOS的獨(dú)特之處在于它的大全文數(shù)據(jù)庫(kù),全文查看最活躍的使用類別,這也清楚地表明用戶對(duì)瀏覽PDF格式的文章的偏好。另一個(gè)發(fā)現(xiàn)是,很多用戶之前沒有閱讀摘要便開始訪問全文。由于全文提供PDF格式,因此在訪問PDF文章,下載和打開文件,使得有幾秒鐘的延遲。若文章、全文摘要以HTML格式保存,則都可以無延遲。
為什么用戶還是喜歡訪問PDF全文直接文章。
·由于網(wǎng)絡(luò)的高速傳輸,進(jìn)入PDF文件是顯然速度不夠快不成為一個(gè)問題,因此用戶可以承受的時(shí)間由直行到全文判斷文章是否有用;
·用戶可能已經(jīng)讀過了知網(wǎng)數(shù)據(jù)庫(kù)中的一篇文章的摘要,并認(rèn)為該制品是有用的;
·用戶可能訪問的文章,因?yàn)樗驯黄渌胤揭?,?dǎo)致他們相信這是與他們相關(guān)。
3 電子雜志系統(tǒng)說明
SDOS支持兩種方式的導(dǎo)航:瀏覽和搜索。
瀏覽:
第1步:選擇期刊字母列表或期刊類別列表。在SDOS入口頁(yè)面,可以看到類別列表或一個(gè)字母索引。通過點(diǎn)擊將導(dǎo)致顯示日記列表,這些行動(dòng)被歸類為期刊清單的訪問類型。
第2步:選擇從日志列表頁(yè)面特定期刊在此之后,有關(guān)問題列表頁(yè)面將會(huì)出現(xiàn)。一個(gè)名單事件被記錄下來。
第3步:選擇一個(gè)特定的問題后,會(huì)出現(xiàn)結(jié)果,內(nèi)容的頁(yè)面,列出了文章在那個(gè)特定的問題。一個(gè)文章列表日志被記錄在日志文件中。
第4步:在選擇的文章之后,抽象可用接入類型,或全文可以被看作類型的訪問。
4 查詢行為分析
本節(jié)集中研究SDOS搜索行為,特別是查詢每個(gè)IP地址,查詢長(zhǎng)度、查詢方式、查詢操作、查詢優(yōu)化等。詢問和查詢術(shù)語的定義如下:
查詢:一個(gè)或多個(gè)查詢條件,并有可能查詢操作。查詢到底是確定提交的查詢中快速搜索文本框在SDOS條目頁(yè)面或簡(jiǎn)單搜索或擴(kuò)展搜索頁(yè)面。查詢?cè)~:一個(gè)查詢?cè)~是任何字符的字符串完整,邏輯運(yùn)算符號(hào)被排除在外。
4.1 大約10.8%的用戶做了超過20個(gè)查詢
他們?yōu)槭裁刺峤蝗绱硕嗟膯栴}?當(dāng)他們提交的查詢,他們是否有一個(gè)特定的文章心里還是他們只是想找到屬于自己感興趣的話題的文章?這兩個(gè)問題是因?yàn)閺淖髡叩慕?jīng)驗(yàn),在服務(wù)用戶,幾個(gè)構(gòu)成用戶利用電子雜志系統(tǒng)數(shù)據(jù)庫(kù)時(shí)數(shù)據(jù)庫(kù)和期刊系統(tǒng)在幫助用戶找到所需的信息時(shí)所扮演不同的角色。相比之下,電子期刊系統(tǒng)僅包括研究資料,如果電子雜志系統(tǒng)的主要切入點(diǎn)用戶在搜索信息,很多相關(guān)的信息將被錯(cuò)過。不幸的是,因?yàn)殡娮与s志系統(tǒng)提供了直接的路徑全文,不少用戶放棄查找資料時(shí)關(guān)注數(shù)據(jù)庫(kù)。鑒于此,這可能是圖書館,以更好地明確不同的角色數(shù)據(jù)庫(kù)和電子雜志系統(tǒng)進(jìn)行交替用戶服務(wù)的模式。此外,這個(gè)問題也反映了電子雜志系統(tǒng)掛鉤數(shù)據(jù)庫(kù)的意義。
4.2 查詢策略長(zhǎng)度
一個(gè)查詢的長(zhǎng)度被定義為包含在其中查詢字詞的數(shù)目。在SDOS查詢長(zhǎng)度的85.2%含有一個(gè),兩個(gè)或三個(gè)條件,雖然平均查詢長(zhǎng)度為2.27條款。這一觀察強(qiáng)調(diào)有必要進(jìn)一步研究的幾個(gè)問題。例如,
·做互聯(lián)網(wǎng)搜索服務(wù)和電子雜志系統(tǒng)的用戶表現(xiàn)出類似的搜索
·有沒有在國(guó)內(nèi)和西方用戶之間的查詢長(zhǎng)度方面結(jié)構(gòu)性差異電子雜志系統(tǒng)
·做互聯(lián)網(wǎng)搜索服務(wù)和電子雜志系統(tǒng)國(guó)內(nèi)用戶表現(xiàn)出不同的搜索在英語查詢策略
通常,包含關(guān)鍵字的有限數(shù)量的查詢出大致的結(jié)果。未經(jīng)查詢策略進(jìn)一步細(xì)化,這不是一項(xiàng)容易的任務(wù),為用戶定位相關(guān)信息。鑒于此,提出以下兩個(gè)建議:
·圖書館員應(yīng)教育有關(guān)查詢優(yōu)化和使用查詢操作的用戶為更有效的搜索;
·電子資源應(yīng)該利用技術(shù),如相關(guān)反饋,查詢擴(kuò)張,數(shù)據(jù)挖掘,以了解用戶的興趣,并主動(dòng)引導(dǎo)用戶相關(guān)信息。
4.3 查詢方式
當(dāng)在SDOS搜索,許多書目字段可以被使用。在許多的情況下,用戶可以通過限制提高定位相關(guān)條款的可能性的查詢?cè)谝黄恼轮械奶囟ㄗ侄???梢許DOS搜索領(lǐng)域包括作者姓名,文章標(biāo)題,摘要,刊名,關(guān)鍵詞,ISSN,出版項(xiàng)目標(biāo)識(shí)符,文章全文,以及日志分類等等。為了便于查詢的形成策略,SDOS為用戶提供了兩種查詢方式:簡(jiǎn)單搜索和擴(kuò)展搜索。簡(jiǎn)單搜索允許用戶以匹配他們的查詢針對(duì)任何先前描述的字段或限制了它們的查詢到特定字段。擴(kuò)大搜索允許用戶指定最多匹配任何領(lǐng)域或特定領(lǐng)域的兩個(gè)查詢。這兩個(gè)查詢可以通過組合布爾運(yùn)算符 - AND,OR,NOT。此外,幾個(gè)查詢選項(xiàng)是可用的擴(kuò)大搜索,允許用戶指定類別的期刊,文章類型,文章語言,日期范圍的限制,排名選項(xiàng)和返回的最大數(shù)量文章顯示每一頁(yè)上。
4.4 查詢字段
在用戶查詢的關(guān)鍵字字段的分布。 “任意字段”是默認(rèn)查詢字段,匹配任何可搜索字段的,并且采用的是簡(jiǎn)單的84.4%搜索。另一方面,擴(kuò)展搜索用法的大約一半(49.3%),包含的字段。文章標(biāo)題,作者姓名,和抽象是三個(gè)查詢領(lǐng)域中最常用的擴(kuò)展搜索模式。在ISSN和PII領(lǐng)域很少無論是在查詢模式的使用,可能是因?yàn)檫@兩個(gè)字段都是主要由圖書管理員搜索。因此,最終用戶相對(duì)較低的使用似乎是合理的。
4.5 查詢優(yōu)化
一個(gè)理想的IR系統(tǒng)只檢索相關(guān)文件。然而在現(xiàn)實(shí)中,IR系統(tǒng)檢索許多不相關(guān)的文件,這是幾乎不可能的,用戶能夠檢索所有通過一個(gè)單一查詢相關(guān)信息。有經(jīng)驗(yàn)的搜索者往往細(xì)化質(zhì)疑的一部分進(jìn)行搜索。
5 結(jié)論和未來的研究
分析了同方知網(wǎng)這個(gè)數(shù)據(jù)庫(kù),SDOS電子期刊系統(tǒng)的使用情況,為了增加SDOS系統(tǒng)的特殊性和電子雜志的有效性和使用水平,系統(tǒng)在一般情況下,對(duì)圖書館建議和電子資源開發(fā)及管理人員建議如下:
圖書館方面:
·鑒于用戶很少看在線幫助文檔,指導(dǎo)用戶對(duì)電子資源的最相關(guān)和最有用的功能補(bǔ)償?shù)膽?yīng)用;
·鑒于用戶很少閱讀版權(quán)聲明,告知用戶的使用條款和條件以及公平和合法使用的重要性;
·教育普及相關(guān)的搜索功能和戰(zhàn)略,幫助用戶高效利用電子資源。
電子資源開發(fā)方面:
·利用主動(dòng)和相關(guān)的機(jī)制來自動(dòng)通知用戶關(guān)于特色的系統(tǒng)功能和使用的條款和條件;
·提供多種查詢方式,以滿足初學(xué)者、高級(jí)用戶和專業(yè)搜索者;
·利用機(jī)制,如相關(guān)反饋和查詢擴(kuò)展,以增強(qiáng)用戶和系統(tǒng)之間的相互作用,幫助用戶制定更有效的查詢。
電子資源管理方面:
·了解服務(wù)器負(fù)載模式,調(diào)整的硬件或軟件的維護(hù)任務(wù);
·控制存儲(chǔ)設(shè)備的成本、效率、大小以達(dá)到最佳的折衷。
電子期刊系統(tǒng)可利用的關(guān)聯(lián)規(guī)則來引導(dǎo)用戶在瀏覽或發(fā)出查詢。例如,當(dāng)用戶發(fā)現(xiàn)一個(gè)有用的文章,該系統(tǒng)可以顯示文章已下載其他用戶的標(biāo)題及相關(guān)信息。此外,數(shù)據(jù)挖掘可以利用調(diào)查從搜索結(jié)果列表中選擇的查詢?cè)~和文章之間的關(guān)聯(lián)。該系統(tǒng)然后可以使用所發(fā)現(xiàn)的規(guī)則來推薦物品的基礎(chǔ)上發(fā)出查詢的用戶。在這種方式,電子期刊系統(tǒng)可以主動(dòng)、智能地幫助用戶找到信息,以滿足他們的信息尋求的目標(biāo)。
參考文獻(xiàn)
[1]《多媒體互動(dòng)電子雜志發(fā)展的瓶頸及出路》2007,(1) 曾凡斌;
[2]《生活型態(tài)與電子雜志用戶使用行為關(guān)聯(lián)研究》2009, 6-8頁(yè) 方聞;
[3]《電子期刊數(shù)據(jù)庫(kù)質(zhì)量與圖書館應(yīng)對(duì)舉措》2008, 27(9) 江梅 徐慶寧;
[4]《交互環(huán)境中電子雜志的生存發(fā)展探析》2010,7-12頁(yè) 韓冰。
作者簡(jiǎn)介
苗林(1978-),吉林省長(zhǎng)春市圖書館,館員。