張彥文
[摘要]網(wǎng)絡(luò)技術(shù)的發(fā)展,涌現(xiàn)了大量的Web信息資源。Web信息資源還不能成為嚴(yán)格意義的數(shù)字圖書(shū)館。Web信息搜索引擎是用戶(hù)查詢(xún)和訪問(wèn)Web信息資源的主要方式?,F(xiàn)有的搜索引擎在使用過(guò)程中還有諸多亟待解決的問(wèn)題:搜索結(jié)果往往會(huì)遠(yuǎn)遠(yuǎn)超過(guò)一個(gè)人的閱讀能力;搜索結(jié)果的排序是不透明的;Web信息資源的可靠性得不到完全保障等。網(wǎng)絡(luò)百科是一種非常重要的Web信息資源,也是用戶(hù)獲得Web信息資源的另一種重要方式。
[關(guān)鍵詞]數(shù)字圖書(shū)館 Web 搜索引擎
[中圖分類(lèi)號(hào)]G250.76[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]2095-3437(2014)13-0082-03
一、引言
數(shù)字圖書(shū)館就是以數(shù)字形式貯存和處理信息的圖書(shū)館,是將計(jì)算機(jī)技術(shù)、通訊技術(shù)、微電子技術(shù)等融合為一的信息服務(wù)系統(tǒng)。[1]它針對(duì)有價(jià)值的圖像、文本、語(yǔ)音、影視、軟件和科學(xué)數(shù)據(jù)等多媒體信息進(jìn)行收集、組織和規(guī)范加工,不再是傳統(tǒng)圖書(shū)館以紙介質(zhì)或其他非數(shù)字介質(zhì)為存儲(chǔ)載體。它利用現(xiàn)代先進(jìn)的數(shù)字化技術(shù),將圖書(shū)館館藏文獻(xiàn)數(shù)字化,通過(guò)國(guó)際互聯(lián)網(wǎng)上網(wǎng)服務(wù),供用戶(hù)隨時(shí)隨地地查詢(xún),使處在不同地理位置的用戶(hù)能夠方便地利用大量的、分散在不同貯存處的信息。只要在有網(wǎng)絡(luò)覆蓋的地方,就可以隨時(shí)隨地地查詢(xún)資料、獲取信息。通俗地說(shuō),數(shù)字圖書(shū)館是因特網(wǎng)上的圖書(shū)館,是沒(méi)有圍墻的圖書(shū)館。大量的數(shù)字化資源是數(shù)字圖書(shū)館的“物質(zhì)”基礎(chǔ)。數(shù)字圖書(shū)館是數(shù)字信息時(shí)代傳統(tǒng)圖書(shū)館的拓展和延伸,在媒體豐富的當(dāng)今社會(huì)生活中扮演著極其重要的角色。
毫無(wú)疑問(wèn),萬(wàn)維網(wǎng)(WWW)上的大量Web信息資源正影響著我們的工作、生活、學(xué)習(xí),甚至思維。人們可以通過(guò)搜索引擎或直接訪問(wèn)熟知的網(wǎng)站來(lái)獲取Web信息資源。Google、Bing、Yahoo、百度、搜狐等都是我們熟知的Web信息搜索引擎。然而,在使用搜索引擎查找Web信息時(shí),往往會(huì)得到遠(yuǎn)遠(yuǎn)超過(guò)一個(gè)人閱讀能力的大量匹配記錄,而用戶(hù)實(shí)際閱讀的僅僅是前面幾頁(yè)非常有限的匹配記錄;其次,搜索結(jié)果的排序是不透明的,可能是按付費(fèi)的多少來(lái)排序,可能是根據(jù)點(diǎn)擊率的多少來(lái)排序,也可能是根據(jù)誤導(dǎo)用戶(hù)的某些因素來(lái)排序等等;再次,Web信息資源的可靠性得不到完全保障。
Web信息資源的混雜性和不可靠性決定了Web信息資源還不能視為嚴(yán)格意義下的數(shù)字圖書(shū)館。如何檢索出可靠的Web信息資源?Web信息資源如何成為嚴(yán)格意義下的數(shù)字圖書(shū)館?這些都是我們?cè)赪eb信息資源建設(shè)和利用中需要關(guān)注的問(wèn)題。[2]本文從數(shù)字圖書(shū)館角度,對(duì)Web信息搜索引擎等相關(guān)問(wèn)題進(jìn)行討論。
二、Web搜索引擎
用戶(hù)從大量的Web信息資源中獲得自身期望的信息,有賴(lài)于使用Web信息搜索引擎。Google、Bing、Yahoo、百度、搜狐等都是用戶(hù)經(jīng)常使用的搜索引擎。這些搜索引擎在查詢(xún)Web信息資源時(shí)會(huì)遇到各種各樣的問(wèn)題。使用搜索引擎遇到的最明顯問(wèn)題是,搜索到的信息量太多不便于用戶(hù)使用。此外,許多搜索結(jié)果相互之間非常相似,亦即,冗余度太高。最糟糕的情況則是,不同結(jié)果之間有可能是矛盾的。
對(duì)于冗余度,未來(lái)的搜索引擎最好能夠自動(dòng)聚集相似的結(jié)果,甚至將結(jié)果集聚成一個(gè)連貫的文檔,這樣用戶(hù)只需要面對(duì)有限量的群集,甚至具有內(nèi)容述評(píng)標(biāo)簽的文檔。研究人員發(fā)現(xiàn),通過(guò)相當(dāng)簡(jiǎn)單的相似性識(shí)別算法或者內(nèi)容重復(fù)檢測(cè)算法,可以將某些Web信息資源中的冗余度減少75%。[3]具體來(lái)說(shuō),50個(gè)論題的20篇文章在沒(méi)有丟失任何信息的情況下,可以減少為平均每個(gè)論題6.3篇文章。僅有的代價(jià)是不能保證所有的文獻(xiàn)資料閱讀起來(lái)都像原稿那樣連貫和通順。明顯減少冗余度(不是75%而是99%)并保持文獻(xiàn)連貫(亦即,從搜索到的大量信息片斷中創(chuàng)建出連貫文獻(xiàn)),現(xiàn)在聽(tīng)起來(lái)還是有點(diǎn)像科幻小說(shuō)。然而,這是搜索引擎當(dāng)前面臨的最大挑戰(zhàn),問(wèn)題的解決取決于文本語(yǔ)料庫(kù)語(yǔ)義分析方面能否獲得重大突破。目前,已能夠?qū)崿F(xiàn)聚集相似文檔(采用矢量字方法等)和自動(dòng)給出一個(gè)群集的摘編??梢暬夹g(shù)可以給出文檔群集間關(guān)系的生動(dòng)描述。遺憾的是,大量的搜索引擎還沒(méi)有采用這一技術(shù)。值得注意的是,Google知識(shí)圖(Google Knowledge Graph)已在此方面進(jìn)行了嘗試:在查找一個(gè)文檔時(shí),顯示了與其相關(guān)的文檔。Google利用了歷史查詢(xún)的豐富信息,但缺失了一個(gè)重要方面:知識(shí)圖中的邊沒(méi)有與之相關(guān)的元數(shù)據(jù)。因此,并不能直接看出,一個(gè)節(jié)點(diǎn)是否支持、矛盾或回答一個(gè)問(wèn)題,等等。
對(duì)于大量的檢索信息,目前搜索引擎主要通過(guò)排序或個(gè)性化來(lái)減少提供給用戶(hù)的信息數(shù)量。排序是一個(gè)重要問(wèn)題。排序算法通常是不公開(kāi)的,由此會(huì)帶來(lái)許多問(wèn)題。比如,如果條目A排在條目B的前面,它可能確實(shí)因?yàn)榫哂懈叩狞c(diǎn)擊率,或者,條目A較之于其后的條目同搜索引擎商有較好關(guān)系,也可能是條目A支付了有優(yōu)先處理權(quán)的費(fèi)用?曾有傳言:使用Google分析(Google Analytics)就會(huì)被Google管理員設(shè)置為優(yōu)先索引,以作為使用Google產(chǎn)品的獎(jiǎng)勵(lì),是否屬實(shí)?人們可能感興趣的是,排序的負(fù)面影響到底有多大。我們通過(guò)一個(gè)例子來(lái)闡述。如果想在某一城市預(yù)訂一家旅館,人們一般最容易想到的是找預(yù)訂代理商。這些代理商一般都會(huì)提供旅館的各種各樣的信息,如交通情況、服務(wù)設(shè)施等,但是通常不會(huì)提供旅館的有效電話號(hào)碼或電子郵箱。大家都明白,代理商并不想讓顧客直接和旅館聯(lián)系。不過(guò),這也沒(méi)多大關(guān)系。但是有可能出現(xiàn)如下情形:旅客在旅行中變更計(jì)劃,迷路的顧客想要問(wèn)路, 需要取消預(yù)訂或重新預(yù)訂,等等。這時(shí)候就可能需要和旅館直接聯(lián)系。經(jīng)驗(yàn)豐富的旅客就知道如何克服這個(gè)困難:他們通過(guò)預(yù)訂代理商來(lái)查找合適的旅館,接著通過(guò)搜索引擎來(lái)搜索這家旅館。這往往也會(huì)把他們導(dǎo)航至某一家或同一家預(yù)定代理商。關(guān)鍵的問(wèn)題就出現(xiàn)了:在搜索結(jié)果中翻閱前10頁(yè)才發(fā)現(xiàn)該旅館的網(wǎng)站,這上面就有所有相關(guān)信息。幸運(yùn)的話,旅客還可以得到更便宜的房間,當(dāng)然也可以協(xié)商其他一些事宜,如房間不要靠近電梯,以免受電梯上下的打擾影響休息。有趣的是,一些預(yù)訂代理商開(kāi)始拒絕接受具有自身網(wǎng)站的旅館的預(yù)訂代理業(yè)務(wù)!大規(guī)模文檔查詢(xún)或允許用戶(hù)縮放興趣領(lǐng)域是減少信息匹配數(shù)量相關(guān)的研究問(wèn)題。搜索引擎Blekko通過(guò)一系列斜杠標(biāo)記前綴來(lái)縮小搜索范圍。[4]例如Iceland volcano/flickr會(huì)給出用戶(hù):網(wǎng)絡(luò)相冊(cè)(flickr)中冰島火山(Iceland volcano)的圖片。
關(guān)于Web信息資源的可靠性或準(zhǔn)確性,引用如下一段話[3]:“我們都承認(rèn),獲得的信息是不可靠的(除了有人能確信信息的來(lái)源),而給出不可靠的例子則更為引人注目。通過(guò)Google于2010年8月25日搜索‘boiling point of radium得到2個(gè)條目。一個(gè)條目給出攝氏1737度,另一個(gè)則給出攝氏1140度。我們?cè)趺粗滥膫€(gè)是正確的呢?生活并不一定取決于某一特殊的答案。然而,設(shè)想我們采摘了一種野蘑菇,我們?nèi)羰窍胫浪欠窨墒秤?,就可以在搜索引擎的?頁(yè)得到5個(gè)條目,其中3個(gè)條目都告訴我們,它是非常美味的可食用蘑菇,1個(gè)條目告訴我們它有劇毒且致命,還有1條則簡(jiǎn)單告訴我們它有毒!對(duì)于似乎可靠的信息來(lái)源,怎么會(huì)出現(xiàn)如此大的差異和矛盾呢?主要有兩方面原因:其一,定義的不同。如果你搜索“l(fā)argest cave in Canada”(加拿大最大的洞穴),你認(rèn)為是長(zhǎng)度最長(zhǎng)、體積最大、高度最高還是其他什么標(biāo)準(zhǔn)?如果你想知道月球上山的高度,你意指相對(duì)于鄰近它的最低點(diǎn)的高度,還是假想球面月球平均高度(類(lèi)似于地球上的海平面高度)之上的高度;其二,不同時(shí)間點(diǎn)提供的信息會(huì)有所差異,不幸的是,Web上的信息資源總是在不斷地及時(shí)更新!這就是前面關(guān)于蘑菇的可食用性得到不同結(jié)論的原因所在。幾千年前,人們吃了它之后沒(méi)有副作用;在2002年,突然發(fā)生了似乎和食用了該蘑菇的一道菜有關(guān)的兩起死亡事件。依據(jù)此兩個(gè)人的死亡是否就能斷定蘑菇有毒本身也存在疑問(wèn),畢竟,這兩人也食用了花生、魚(yú)、牛奶等,且兩人也有過(guò)敏癥(可能致命),然而我們既不能認(rèn)為花生,也不能認(rèn)為魚(yú)和牛奶有毒!無(wú)論如何,這兩個(gè)案例的出現(xiàn)產(chǎn)生了該蘑菇有劇毒的新條目。我們可從中得到這樣的啟示:其一,如果有各種各樣的定義,信息條目應(yīng)該闡述清楚,但這不應(yīng)該是搜索引擎的任務(wù),而應(yīng)該是信息條目作者的責(zé)任;其二,所有信息條目必須明確標(biāo)注日期;其三,信息發(fā)布日期應(yīng)當(dāng)是搜索引擎中排序算法需要考慮的因素。值得一提的是,如果想要搜索一個(gè)會(huì)議、一種算法、一個(gè)工具等,更讓人感興趣的是最近的一些內(nèi)容,而不是10年前或者更早以前的內(nèi)容!
與搜索引擎相關(guān)的另一個(gè)問(wèn)題是:傳統(tǒng)的Web搜索引擎大都還采用由“or”“and”“not”將詞匯連接的查詢(xún)提問(wèn)式。然而,自然語(yǔ)言查詢(xún)應(yīng)該是更加貼近語(yǔ)言規(guī)律的方法,對(duì)此已有相關(guān)研究工作報(bào)道。[5]電子詞典中采用自然語(yǔ)言查詢(xún)已有5年多的時(shí)間,遺憾的是,這樣的形式讓用戶(hù)查詢(xún)起來(lái)相當(dāng)費(fèi)力。一種辦法是分析查詢(xún)的第一個(gè)詞:“who”顯然是查詢(xún)一個(gè)人,“where”是查詢(xún)一個(gè)地址,“why”是查詢(xún)一個(gè)解釋?zhuān)鹊?。例如,查?xún)“Who was York”。這就直接排除了所有城市名York以及其他領(lǐng)域(音樂(lè)、公司等)相關(guān)的York。還有60個(gè)名字為York的知名人士(列出的結(jié)果相對(duì)來(lái)說(shuō)就可以承受),引用最多的且排在首位的是Lewis和Clark登山隊(duì)的探險(xiǎn)家York。在Google中輸入“Who was the inventor of the toothbrush?”,經(jīng)過(guò)執(zhí)行語(yǔ)言分析后得到“Who invented the toothbrush”。進(jìn)一步實(shí)施Google搜索,給出的結(jié)果是“No exact date known...”,但是接著繼續(xù)給出許多相關(guān)信息,如William Addis于1770年實(shí)現(xiàn)了大規(guī)模生產(chǎn)……顯然,語(yǔ)義分析不是僅僅使用重要的詞匯。在Google中輸入“toothbrush inventor”,也會(huì)得到不同的結(jié)果。通過(guò)Google搜索“Who was the physicist born in Vienna and died in Italy?”,得到的結(jié)果并不理想。分析搜索結(jié)果不難發(fā)現(xiàn):搜索基于文本,因此Google找到了所有維也納籍物理學(xué)家。由于奧地利理論物理學(xué)家Schr dinger(還在世)曾經(jīng)在意大利工作過(guò),他的名字較早彈出,但忽視了動(dòng)詞“die”。使用搜索引擎Bing,準(zhǔn)確地得到了結(jié)果Boltzmann,并提供了進(jìn)一步的相關(guān)信息,其搜索依然是基于詞匯。
總而言之,主流搜索引擎大都還沒(méi)有使用深度語(yǔ)言分析工具,往往難以較好地縮減大量的查詢(xún)集合,沒(méi)有認(rèn)真對(duì)待減少冗余度問(wèn)題,也沒(méi)有充分考慮日期(時(shí)間戳),因此,為了滿(mǎn)足用戶(hù)需求還需要開(kāi)展很多工作。由于搜索引擎的重要性,可以預(yù)期會(huì)有進(jìn)一步的發(fā)展。從用戶(hù)角度考慮,采用Bing或其他完全不同風(fēng)格的搜索引擎,嘗試新的搜索方式是很重要的。因此,主流搜索引擎,甚至Google,仍需要不斷地通過(guò)技術(shù)更新,實(shí)現(xiàn)自我完善。實(shí)現(xiàn)有價(jià)值但有疑問(wèn)的Web信息資源的價(jià)值更大化,并最終轉(zhuǎn)化為數(shù)字圖書(shū)館,需要的是能夠搜索語(yǔ)義數(shù)據(jù),又能確保一定可靠性的搜索引擎。
三、結(jié)束語(yǔ)
Web信息是我們當(dāng)今學(xué)習(xí)、工作和生活中非常重要的資源,其信息量在不斷涌現(xiàn),管理也在逐漸規(guī)范。毫無(wú)疑問(wèn),我們正在越來(lái)越多地使用Web信息資源。信息資源的可靠性是用戶(hù)越來(lái)越擔(dān)心的重要問(wèn)題。然而,Web信息資源生成及其訪問(wèn)的各種現(xiàn)有方法分析的結(jié)果表明[3]:任何方法都有某種程度上的缺陷。我們從數(shù)字圖書(shū)館的角度開(kāi)展Web信息資源的討論,目的在于:一方面,Web信息資源的創(chuàng)建和利用,能夠借鑒數(shù)字圖書(shū)館組織和管理的一些理念、體系結(jié)構(gòu)甚至技術(shù);另一方面,圖書(shū)館員們能夠及時(shí)接納Web信息資源,適時(shí)地拓展服務(wù)。
Web信息搜索引擎是用戶(hù)查詢(xún)和訪問(wèn)Web信息資源的主要方式?,F(xiàn)有的搜索引擎在使用過(guò)程中還有諸多亟待解決的問(wèn)題:搜索結(jié)果往往會(huì)遠(yuǎn)遠(yuǎn)超過(guò)一個(gè)人的閱讀能力;搜索結(jié)果的排序是不透明的;Web信息資源的可靠性得不到完全保障等等。網(wǎng)絡(luò)百科是一種非常重要的Web信息資源,也是用戶(hù)獲得Web信息資源的另一種重要方式。網(wǎng)絡(luò)百科中信息資源的可靠性也是一個(gè)重要問(wèn)題。維基百科是最為成功和用戶(hù)最多的網(wǎng)絡(luò)百科之一,在改善信息資源可靠性方面已經(jīng)開(kāi)展了大量的工作,但是,要實(shí)現(xiàn)任何主題的可靠信息資源,直至轉(zhuǎn)換為數(shù)字圖書(shū)館的終極目標(biāo)仍需要重大的技術(shù)突破和持續(xù)不斷的努力。
[參考文獻(xiàn)]
[1]Wiederhold G.Digital Libraries: Value and Productivity[J].Communication of the ACM,1995(4):85-96.
[2]Hermann Maure, Heimo Mueller. Can the Web turn into a digital library?[J].International Journal of Digital Library,2013(13):65-75.
[3]Wurzinger G.Data consolidation in large bodies of information[J].Journal of UniversalComputer Science,2010(21):3314-3323.
[4]Blekko[EB/OL].http://blekko.com,2013-06-06.
[5]Brockhaus Der elektronische Brockhaus[Z].Mannheim,Germany,2006.
[6]李鈴.淺議高校圖書(shū)館個(gè)性化服務(wù)[J].大學(xué)教育,2013(6):33
[責(zé)任編輯:覃侶冰]