數(shù)字圖書(shū)館視野下的Web信息資源及相關(guān)問(wèn)題探討

2014-09-27 23:59:14張彥文

大學(xué)教育 2014年13期

張彥文

［摘要］網(wǎng)絡(luò)技術(shù)的發(fā)展，涌現(xiàn)了大量的Web信息資源。Web信息資源還不能成為嚴(yán)格意義的數(shù)字圖書(shū)館。Web信息搜索引擎是用戶(hù)查詢(xún)和訪問(wèn)Web信息資源的主要方式?，F(xiàn)有的搜索引擎在使用過(guò)程中還有諸多亟待解決的問(wèn)題：搜索結(jié)果往往會(huì)遠(yuǎn)遠(yuǎn)超過(guò)一個(gè)人的閱讀能力；搜索結(jié)果的排序是不透明的；Web信息資源的可靠性得不到完全保障等。網(wǎng)絡(luò)百科是一種非常重要的Web信息資源，也是用戶(hù)獲得Web信息資源的另一種重要方式。

［關(guān)鍵詞］數(shù)字圖書(shū)館 Web 搜索引擎

［中圖分類(lèi)號(hào)］G250.76［文獻(xiàn)標(biāo)識(shí)碼］A［文章編號(hào)］2095-3437（2014）13-0082-03

一、引言

數(shù)字圖書(shū)館就是以數(shù)字形式貯存和處理信息的圖書(shū)館，是將計(jì)算機(jī)技術(shù)、通訊技術(shù)、微電子技術(shù)等融合為一的信息服務(wù)系統(tǒng)。[1]它針對(duì)有價(jià)值的圖像、文本、語(yǔ)音、影視、軟件和科學(xué)數(shù)據(jù)等多媒體信息進(jìn)行收集、組織和規(guī)范加工，不再是傳統(tǒng)圖書(shū)館以紙介質(zhì)或其他非數(shù)字介質(zhì)為存儲(chǔ)載體。它利用現(xiàn)代先進(jìn)的數(shù)字化技術(shù)，將圖書(shū)館館藏文獻(xiàn)數(shù)字化，通過(guò)國(guó)際互聯(lián)網(wǎng)上網(wǎng)服務(wù)，供用戶(hù)隨時(shí)隨地地查詢(xún)，使處在不同地理位置的用戶(hù)能夠方便地利用大量的、分散在不同貯存處的信息。只要在有網(wǎng)絡(luò)覆蓋的地方，就可以隨時(shí)隨地地查詢(xún)資料、獲取信息。通俗地說(shuō)，數(shù)字圖書(shū)館是因特網(wǎng)上的圖書(shū)館，是沒(méi)有圍墻的圖書(shū)館。大量的數(shù)字化資源是數(shù)字圖書(shū)館的“物質(zhì)”基礎(chǔ)。數(shù)字圖書(shū)館是數(shù)字信息時(shí)代傳統(tǒng)圖書(shū)館的拓展和延伸，在媒體豐富的當(dāng)今社會(huì)生活中扮演著極其重要的角色。

毫無(wú)疑問(wèn)，萬(wàn)維網(wǎng)（WWW）上的大量Web信息資源正影響著我們的工作、生活、學(xué)習(xí)，甚至思維。人們可以通過(guò)搜索引擎或直接訪問(wèn)熟知的網(wǎng)站來(lái)獲取Web信息資源。Google、Bing、Yahoo、百度、搜狐等都是我們熟知的Web信息搜索引擎。然而，在使用搜索引擎查找Web信息時(shí)，往往會(huì)得到遠(yuǎn)遠(yuǎn)超過(guò)一個(gè)人閱讀能力的大量匹配記錄，而用戶(hù)實(shí)際閱讀的僅僅是前面幾頁(yè)非常有限的匹配記錄；其次，搜索結(jié)果的排序是不透明的，可能是按付費(fèi)的多少來(lái)排序，可能是根據(jù)點(diǎn)擊率的多少來(lái)排序，也可能是根據(jù)誤導(dǎo)用戶(hù)的某些因素來(lái)排序等等；再次，Web信息資源的可靠性得不到完全保障。

Web信息資源的混雜性和不可靠性決定了Web信息資源還不能視為嚴(yán)格意義下的數(shù)字圖書(shū)館。如何檢索出可靠的Web信息資源？Web信息資源如何成為嚴(yán)格意義下的數(shù)字圖書(shū)館？這些都是我們?cè)赪eb信息資源建設(shè)和利用中需要關(guān)注的問(wèn)題。[2]本文從數(shù)字圖書(shū)館角度，對(duì)Web信息搜索引擎等相關(guān)問(wèn)題進(jìn)行討論。

二、Web搜索引擎

用戶(hù)從大量的Web信息資源中獲得自身期望的信息，有賴(lài)于使用Web信息搜索引擎。Google、Bing、Yahoo、百度、搜狐等都是用戶(hù)經(jīng)常使用的搜索引擎。這些搜索引擎在查詢(xún)Web信息資源時(shí)會(huì)遇到各種各樣的問(wèn)題。使用搜索引擎遇到的最明顯問(wèn)題是，搜索到的信息量太多不便于用戶(hù)使用。此外，許多搜索結(jié)果相互之間非常相似，亦即，冗余度太高。最糟糕的情況則是，不同結(jié)果之間有可能是矛盾的。

對(duì)于冗余度，未來(lái)的搜索引擎最好能夠自動(dòng)聚集相似的結(jié)果，甚至將結(jié)果集聚成一個(gè)連貫的文檔，這樣用戶(hù)只需要面對(duì)有限量的群集，甚至具有內(nèi)容述評(píng)標(biāo)簽的文檔。研究人員發(fā)現(xiàn)，通過(guò)相當(dāng)簡(jiǎn)單的相似性識(shí)別算法或者內(nèi)容重復(fù)檢測(cè)算法，可以將某些Web信息資源中的冗余度減少75%。[3]具體來(lái)說(shuō)，50個(gè)論題的20篇文章在沒(méi)有丟失任何信息的情況下，可以減少為平均每個(gè)論題6.3篇文章。僅有的代價(jià)是不能保證所有的文獻(xiàn)資料閱讀起來(lái)都像原稿那樣連貫和通順。明顯減少冗余度（不是75%而是99%）并保持文獻(xiàn)連貫（亦即，從搜索到的大量信息片斷中創(chuàng)建出連貫文獻(xiàn)），現(xiàn)在聽(tīng)起來(lái)還是有點(diǎn)像科幻小說(shuō)。然而，這是搜索引擎當(dāng)前面臨的最大挑戰(zhàn)，問(wèn)題的解決取決于文本語(yǔ)料庫(kù)語(yǔ)義分析方面能否獲得重大突破。目前，已能夠?qū)崿F(xiàn)聚集相似文檔（采用矢量字方法等）和自動(dòng)給出一個(gè)群集的摘編?？梢暬夹g(shù)可以給出文檔群集間關(guān)系的生動(dòng)描述。遺憾的是，大量的搜索引擎還沒(méi)有采用這一技術(shù)。值得注意的是，Google知識(shí)圖（Google Knowledge Graph）已在此方面進(jìn)行了嘗試：在查找一個(gè)文檔時(shí)，顯示了與其相關(guān)的文檔。Google利用了歷史查詢(xún)的豐富信息，但缺失了一個(gè)重要方面：知識(shí)圖中的邊沒(méi)有與之相關(guān)的元數(shù)據(jù)。因此，并不能直接看出，一個(gè)節(jié)點(diǎn)是否支持、矛盾或回答一個(gè)問(wèn)題，等等。

對(duì)于大量的檢索信息，目前搜索引擎主要通過(guò)排序或個(gè)性化來(lái)減少提供給用戶(hù)的信息數(shù)量。排序是一個(gè)重要問(wèn)題。排序算法通常是不公開(kāi)的，由此會(huì)帶來(lái)許多問(wèn)題。比如，如果條目A排在條目B的前面，它可能確實(shí)因?yàn)榫哂懈叩狞c(diǎn)擊率，或者，條目A較之于其后的條目同搜索引擎商有較好關(guān)系，也可能是條目A支付了有優(yōu)先處理權(quán)的費(fèi)用？曾有傳言：使用Google分析（Google Analytics）就會(huì)被Google管理員設(shè)置為優(yōu)先索引，以作為使用Google產(chǎn)品的獎(jiǎng)勵(lì)，是否屬實(shí)？人們可能感興趣的是，排序的負(fù)面影響到底有多大。我們通過(guò)一個(gè)例子來(lái)闡述。如果想在某一城市預(yù)訂一家旅館，人們一般最容易想到的是找預(yù)訂代理商。這些代理商一般都會(huì)提供旅館的各種各樣的信息，如交通情況、服務(wù)設(shè)施等，但是通常不會(huì)提供旅館的有效電話號(hào)碼或電子郵箱。大家都明白，代理商并不想讓顧客直接和旅館聯(lián)系。不過(guò)，這也沒(méi)多大關(guān)系。但是有可能出現(xiàn)如下情形：旅客在旅行中變更計(jì)劃，迷路的顧客想要問(wèn)路，需要取消預(yù)訂或重新預(yù)訂，等等。這時(shí)候就可能需要和旅館直接聯(lián)系。經(jīng)驗(yàn)豐富的旅客就知道如何克服這個(gè)困難：他們通過(guò)預(yù)訂代理商來(lái)查找合適的旅館，接著通過(guò)搜索引擎來(lái)搜索這家旅館。這往往也會(huì)把他們導(dǎo)航至某一家或同一家預(yù)定代理商。關(guān)鍵的問(wèn)題就出現(xiàn)了：在搜索結(jié)果中翻閱前10頁(yè)才發(fā)現(xiàn)該旅館的網(wǎng)站，這上面就有所有相關(guān)信息。幸運(yùn)的話，旅客還可以得到更便宜的房間，當(dāng)然也可以協(xié)商其他一些事宜，如房間不要靠近電梯，以免受電梯上下的打擾影響休息。有趣的是，一些預(yù)訂代理商開(kāi)始拒絕接受具有自身網(wǎng)站的旅館的預(yù)訂代理業(yè)務(wù)！大規(guī)模文檔查詢(xún)或允許用戶(hù)縮放興趣領(lǐng)域是減少信息匹配數(shù)量相關(guān)的研究問(wèn)題。搜索引擎Blekko通過(guò)一系列斜杠標(biāo)記前綴來(lái)縮小搜索范圍。[4]例如Iceland volcano/flickr會(huì)給出用戶(hù)：網(wǎng)絡(luò)相冊(cè)（flickr）中冰島火山（Iceland volcano）的圖片。

關(guān)于Web信息資源的可靠性或準(zhǔn)確性，引用如下一段話[3]：“我們都承認(rèn)，獲得的信息是不可靠的（除了有人能確信信息的來(lái)源），而給出不可靠的例子則更為引人注目。通過(guò)Google于2010年8月25日搜索‘boiling point of radium得到2個(gè)條目。一個(gè)條目給出攝氏1737度，另一個(gè)則給出攝氏1140度。我們?cè)趺粗滥膫€(gè)是正確的呢？生活并不一定取決于某一特殊的答案。然而，設(shè)想我們采摘了一種野蘑菇，我們?nèi)羰窍胫浪欠窨墒秤?，就可以在搜索引擎的?頁(yè)得到5個(gè)條目，其中3個(gè)條目都告訴我們，它是非常美味的可食用蘑菇，1個(gè)條目告訴我們它有劇毒且致命，還有1條則簡(jiǎn)單告訴我們它有毒！對(duì)于似乎可靠的信息來(lái)源，怎么會(huì)出現(xiàn)如此大的差異和矛盾呢？主要有兩方面原因：其一，定義的不同。如果你搜索“l(fā)argest cave in Canada”（加拿大最大的洞穴），你認(rèn)為是長(zhǎng)度最長(zhǎng)、體積最大、高度最高還是其他什么標(biāo)準(zhǔn)？如果你想知道月球上山的高度，你意指相對(duì)于鄰近它的最低點(diǎn)的高度，還是假想球面月球平均高度（類(lèi)似于地球上的海平面高度）之上的高度；其二，不同時(shí)間點(diǎn)提供的信息會(huì)有所差異，不幸的是，Web上的信息資源總是在不斷地及時(shí)更新！這就是前面關(guān)于蘑菇的可食用性得到不同結(jié)論的原因所在。幾千年前，人們吃了它之后沒(méi)有副作用；在2002年，突然發(fā)生了似乎和食用了該蘑菇的一道菜有關(guān)的兩起死亡事件。依據(jù)此兩個(gè)人的死亡是否就能斷定蘑菇有毒本身也存在疑問(wèn)，畢竟，這兩人也食用了花生、魚(yú)、牛奶等，且兩人也有過(guò)敏癥（可能致命），然而我們既不能認(rèn)為花生，也不能認(rèn)為魚(yú)和牛奶有毒！無(wú)論如何，這兩個(gè)案例的出現(xiàn)產(chǎn)生了該蘑菇有劇毒的新條目。我們可從中得到這樣的啟示：其一，如果有各種各樣的定義，信息條目應(yīng)該闡述清楚，但這不應(yīng)該是搜索引擎的任務(wù)，而應(yīng)該是信息條目作者的責(zé)任；其二，所有信息條目必須明確標(biāo)注日期；其三，信息發(fā)布日期應(yīng)當(dāng)是搜索引擎中排序算法需要考慮的因素。值得一提的是，如果想要搜索一個(gè)會(huì)議、一種算法、一個(gè)工具等，更讓人感興趣的是最近的一些內(nèi)容，而不是10年前或者更早以前的內(nèi)容！

與搜索引擎相關(guān)的另一個(gè)問(wèn)題是：傳統(tǒng)的Web搜索引擎大都還采用由“or”“and”“not”將詞匯連接的查詢(xún)提問(wèn)式。然而，自然語(yǔ)言查詢(xún)應(yīng)該是更加貼近語(yǔ)言規(guī)律的方法，對(duì)此已有相關(guān)研究工作報(bào)道。[5]電子詞典中采用自然語(yǔ)言查詢(xún)已有5年多的時(shí)間，遺憾的是，這樣的形式讓用戶(hù)查詢(xún)起來(lái)相當(dāng)費(fèi)力。一種辦法是分析查詢(xún)的第一個(gè)詞：“who”顯然是查詢(xún)一個(gè)人，“where”是查詢(xún)一個(gè)地址，“why”是查詢(xún)一個(gè)解釋?zhuān)鹊?。例如，查?xún)“Who was York”。這就直接排除了所有城市名York以及其他領(lǐng)域（音樂(lè)、公司等）相關(guān)的York。還有60個(gè)名字為York的知名人士（列出的結(jié)果相對(duì)來(lái)說(shuō)就可以承受），引用最多的且排在首位的是Lewis和Clark登山隊(duì)的探險(xiǎn)家York。在Google中輸入“Who was the inventor of the toothbrush？”，經(jīng)過(guò)執(zhí)行語(yǔ)言分析后得到“Who invented the toothbrush”。進(jìn)一步實(shí)施Google搜索，給出的結(jié)果是“No exact date known...”，但是接著繼續(xù)給出許多相關(guān)信息，如William Addis于1770年實(shí)現(xiàn)了大規(guī)模生產(chǎn)……顯然，語(yǔ)義分析不是僅僅使用重要的詞匯。在Google中輸入“toothbrush inventor”，也會(huì)得到不同的結(jié)果。通過(guò)Google搜索“Who was the physicist born in Vienna and died in Italy？”,得到的結(jié)果并不理想。分析搜索結(jié)果不難發(fā)現(xiàn)：搜索基于文本，因此Google找到了所有維也納籍物理學(xué)家。由于奧地利理論物理學(xué)家Schr dinger（還在世）曾經(jīng)在意大利工作過(guò)，他的名字較早彈出，但忽視了動(dòng)詞“die”。使用搜索引擎Bing，準(zhǔn)確地得到了結(jié)果Boltzmann，并提供了進(jìn)一步的相關(guān)信息，其搜索依然是基于詞匯。

總而言之，主流搜索引擎大都還沒(méi)有使用深度語(yǔ)言分析工具，往往難以較好地縮減大量的查詢(xún)集合，沒(méi)有認(rèn)真對(duì)待減少冗余度問(wèn)題，也沒(méi)有充分考慮日期（時(shí)間戳），因此，為了滿(mǎn)足用戶(hù)需求還需要開(kāi)展很多工作。由于搜索引擎的重要性，可以預(yù)期會(huì)有進(jìn)一步的發(fā)展。從用戶(hù)角度考慮，采用Bing或其他完全不同風(fēng)格的搜索引擎，嘗試新的搜索方式是很重要的。因此，主流搜索引擎，甚至Google，仍需要不斷地通過(guò)技術(shù)更新，實(shí)現(xiàn)自我完善。實(shí)現(xiàn)有價(jià)值但有疑問(wèn)的Web信息資源的價(jià)值更大化，并最終轉(zhuǎn)化為數(shù)字圖書(shū)館，需要的是能夠搜索語(yǔ)義數(shù)據(jù)，又能確保一定可靠性的搜索引擎。

三、結(jié)束語(yǔ)

Web信息是我們當(dāng)今學(xué)習(xí)、工作和生活中非常重要的資源，其信息量在不斷涌現(xiàn)，管理也在逐漸規(guī)范。毫無(wú)疑問(wèn)，我們正在越來(lái)越多地使用Web信息資源。信息資源的可靠性是用戶(hù)越來(lái)越擔(dān)心的重要問(wèn)題。然而，Web信息資源生成及其訪問(wèn)的各種現(xiàn)有方法分析的結(jié)果表明[3]：任何方法都有某種程度上的缺陷。我們從數(shù)字圖書(shū)館的角度開(kāi)展Web信息資源的討論，目的在于：一方面，Web信息資源的創(chuàng)建和利用，能夠借鑒數(shù)字圖書(shū)館組織和管理的一些理念、體系結(jié)構(gòu)甚至技術(shù)；另一方面，圖書(shū)館員們能夠及時(shí)接納Web信息資源，適時(shí)地拓展服務(wù)。

Web信息搜索引擎是用戶(hù)查詢(xún)和訪問(wèn)Web信息資源的主要方式?，F(xiàn)有的搜索引擎在使用過(guò)程中還有諸多亟待解決的問(wèn)題：搜索結(jié)果往往會(huì)遠(yuǎn)遠(yuǎn)超過(guò)一個(gè)人的閱讀能力；搜索結(jié)果的排序是不透明的；Web信息資源的可靠性得不到完全保障等等。網(wǎng)絡(luò)百科是一種非常重要的Web信息資源，也是用戶(hù)獲得Web信息資源的另一種重要方式。網(wǎng)絡(luò)百科中信息資源的可靠性也是一個(gè)重要問(wèn)題。維基百科是最為成功和用戶(hù)最多的網(wǎng)絡(luò)百科之一，在改善信息資源可靠性方面已經(jīng)開(kāi)展了大量的工作，但是，要實(shí)現(xiàn)任何主題的可靠信息資源，直至轉(zhuǎn)換為數(shù)字圖書(shū)館的終極目標(biāo)仍需要重大的技術(shù)突破和持續(xù)不斷的努力。

［參考文獻(xiàn)］

［1］Wiederhold G.Digital Libraries: Value and Productivity［J］.Communication of the ACM,1995（4）:85-96.

［2］Hermann Maure, Heimo Mueller. Can the Web turn into a digital library？［J］.International Journal of Digital Library,2013（13）:65-75.

［3］Wurzinger G.Data consolidation in large bodies of information［J］.Journal of UniversalComputer Science,2010（21）:3314-3323.

［4］Blekko［EB/OL］.http://blekko.com,2013-06-06.

［5］Brockhaus Der elektronische Brockhaus［Z］.Mannheim,Germany,2006.

［6］李鈴.淺議高校圖書(shū)館個(gè)性化服務(wù)［J］.大學(xué)教育,2013（6）：33

［責(zé)任編輯：覃侶冰］

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

數(shù)字圖書(shū)館視野下的Web信息資源及相關(guān)問(wèn)題探討