張 力
(浙江師范大學(xué)圖書館,浙江 金華 321004)
〔作者信息〕張力,男,館員。
擁有豐富表現(xiàn)力的Web信息充斥著Internet,作為互聯(lián)網(wǎng)絡(luò)最重要的信息發(fā)布方式,Web信息在急速膨脹。充分、有效地利用網(wǎng)絡(luò)信息是艱難的。一方面Web信息量巨大,另一方面Web信息的動(dòng)態(tài)性、多構(gòu)性、廣域性也嚴(yán)重阻礙了人們對Web信息的管理和使用。為了迎接海量網(wǎng)絡(luò)信息給人們提出的巨大挑戰(zhàn),深化網(wǎng)絡(luò)信息服務(wù),提高信息利用率,Web信息采集技術(shù)成為不斷發(fā)展創(chuàng)新的研究內(nèi)容。
由于量大面廣,Web信息采集通常利用計(jì)算機(jī)軟件實(shí)現(xiàn) ,例如 spiders、robots、wanderers等。它是依據(jù)某個(gè)標(biāo)準(zhǔn)或方法,對互聯(lián)網(wǎng)絡(luò)的Web信息進(jìn)行收集,在此基礎(chǔ)上進(jìn)行分析處理的過程〔1〕。其最終目的是將分析結(jié)果應(yīng)用到具體理論研究領(lǐng)域或解決實(shí)際操作中的問題。
1993年,第一個(gè)網(wǎng)絡(luò)搜索工具誕生,名稱為“World Wide Web Wanderer”。此款軟件只能收集靜態(tài)網(wǎng)頁,擁有簡單的索引功能。同年,Yahoo的鼻祖AliWeb出現(xiàn),它初步具有對網(wǎng)頁主題、URL、關(guān)鍵詞等索引的功能。1994年1月,Einet Galaxy開展了MCC研究,此項(xiàng)研究主要是通過手工管理他人所提交的URL地址并初步開發(fā)出了針對Telnet和Gopher的檢索功能〔2〕。1994年早期,Web信息在采集過程中的信息處理較為簡單,首先是采集范圍較小,其次只是對信息資源進(jìn)行局部內(nèi)容索引。1995年后期,Digital Equipment Corporation對采集的Web信息進(jìn)行全文索引,推出AltaVista搜索引擎。1998年Google誕生,最初采用的是Pagerank信息采集處理技術(shù),到2003年,Google以平均每月更新一次的方式,采集全球50%以上的Web信息,并引入語義處理技術(shù)處理采集的Web信息。與此同時(shí),隨著半結(jié)構(gòu)化數(shù)據(jù)庫的發(fā)展、機(jī)器學(xué)習(xí)和自然語言處理等技術(shù)的發(fā)展,對Web信息進(jìn)行簡單采集和索引的方式已不能滿足需要,基于元數(shù)據(jù)的Metacrawlers信息采集〔3〕(1995 年元搜索引擎出現(xiàn))、基于Ontology的Web信息采集技術(shù)〔4〕、基于Multi_A-gent的Web信息采集技術(shù)〔5〕等進(jìn)入人們視野,拓展了信息采集思路,開創(chuàng)了Web信息采集技術(shù)的新領(lǐng)域。
Web信息采集流程是基于用戶需求,按照需要采集的內(nèi)容及其對應(yīng)的采集規(guī)則,采集符合條件的Web站點(diǎn)有效數(shù)據(jù)項(xiàng)和相關(guān)媒體信息附件。這僅僅是采集工作的一部分,后期還要完成對所采集的Web信息進(jìn)行解構(gòu)、分析、分類、索引等處理工作。就目前流行的工作模型而言,大體可以分成單進(jìn)程/多線程并行模型、異步/同步模型、分布式模型等,具體案例如下:
Google Crawler采用的是分布式、單進(jìn)程、異步I/O工作模式,它沒有采用并行工作模式。GOOGLE首先通過HASH函數(shù)計(jì)算目標(biāo)服務(wù)器的IP地址,保證來自同一站點(diǎn)的 URL被分配到同一個(gè)采集器中。分布式存在的多個(gè)采集器共同維護(hù)著需要采集URL隊(duì)列,當(dāng)采集器通過異步方式打開300個(gè)URL時(shí),每個(gè)URL都來自不同的站點(diǎn)服務(wù)器〔6〕。這種工作模式執(zhí)行的重點(diǎn)是尋找DNS,由此避免目標(biāo)站點(diǎn)服務(wù)器由于網(wǎng)速過慢而導(dǎo)致的低效率和對目標(biāo)站點(diǎn)服務(wù)器所產(chǎn)生的高負(fù)載狀況。
Mercator Crawler采用的則是多線程并行、同步I/O工作模式,每個(gè)線程分配一個(gè)獨(dú)立的協(xié)議模型和不同的處理模塊,保證在進(jìn)行下載過程中不會發(fā)生擁堵〔7〕。此工作模型在最大程度上簡化了程序構(gòu)架,線程間的切換工作交給操作系統(tǒng)來控制,較好地保持了內(nèi)存使用和性能優(yōu)化之間的平衡。
Web信息采集對象分類有多種標(biāo)準(zhǔn)和形式,以采集的信息廣度為依據(jù),對Web信息采集對象做以下劃分:
定題采集是以用戶規(guī)定的信息主題內(nèi)容為依據(jù),按照對應(yīng)算法處理,在網(wǎng)絡(luò)上搜索相關(guān)Web信息,進(jìn)而向用戶提供個(gè)性化服務(wù),它是第三代搜索引擎的發(fā)展方向之一。此處所提到的主題,并不局限于用戶所指定的關(guān)鍵詞,它也可能是某些代表性文本〔8〕。
定題采集提高了資源利用率,節(jié)約了采集費(fèi)用,有利于為用戶提供個(gè)性化服務(wù),內(nèi)容更具有針對性,更能夠準(zhǔn)確地滿足用戶需求。
定域采集強(qiáng)調(diào)的是地理區(qū)間,較定題采集范圍小,信息分類則更寬泛。定域采集通常在法律法規(guī)的框架范圍內(nèi),用于對某區(qū)域的特色信息進(jìn)行歸檔,形成一種文化財(cái)產(chǎn),并進(jìn)行保護(hù)、保存和后期開發(fā)利用。
定點(diǎn)采集是根據(jù)某個(gè)限定準(zhǔn)則,指定信息來源并從中挑選出若干具有特色的站點(diǎn)(如門戶網(wǎng)站、專題報(bào)導(dǎo)等),進(jìn)行Web信息采集。定點(diǎn)采集適用范圍較小,通常出于保存易逝信息和達(dá)到一定評估標(biāo)準(zhǔn)的網(wǎng)站信息。
網(wǎng)絡(luò)信息采集工作是一項(xiàng)長期而又艱巨的任務(wù),有效、穩(wěn)定地完成任務(wù)需要配套的算法來支撐。根據(jù)算法的特點(diǎn),我們將Web信息采集技術(shù)算法分為三大類。
Web信息資源時(shí)刻處于變化之中,采集系統(tǒng)必須知道如何遍歷整個(gè)網(wǎng)絡(luò),何時(shí)重新訪問某些網(wǎng)頁,以及用何種頻率訪問以保證采集的信息更新穎、更全面。除此之外,網(wǎng)絡(luò)環(huán)境、鏈接層次、硬件讀寫等也是采集系統(tǒng)必須考慮的因素,而這些都是效率型算法所需要解決的問題。Breadthfirst、Depth-first、Hash algorithm、Network proximity algorithm 、shark search algorithm 、fish-worm algorithm等都屬于此類算法。
挖掘是從Web信息中發(fā)現(xiàn)新的有效、有信、可行信息的過程。它可以派生出Web信息中存在的模式和趨勢,而這些是通常數(shù)據(jù)處理過程中所無法實(shí)現(xiàn)的。挖掘型采集算法被廣泛應(yīng)用到主題采集案例〔9〕〔10〕和 Web 頁之間的關(guān)聯(lián)強(qiáng)度〔11〕〔12〕評估方面,挖掘算法主要有Apriori算法和FPGrowth算法等。
機(jī)器學(xué)習(xí)概念來自于人工智能,它指的是軟件模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)能力,通過獲取外部信息,籍以重新組織自己原有的知識結(jié)構(gòu),達(dá)到改善自身性能的目的。
機(jī)器學(xué)習(xí)可以通過 Metadata〔13〕、Topic-specific〔14〕、Ontology〔15〕等為媒介 ,引入遺傳算法和神經(jīng)網(wǎng)絡(luò)等智能計(jì)算方法,以前期采集經(jīng)驗(yàn)為基礎(chǔ),不斷自我優(yōu)化、自我適應(yīng)新的網(wǎng)絡(luò)環(huán)境,從而得到一個(gè)優(yōu)化后的采集結(jié)果。
網(wǎng)絡(luò)信息呈指數(shù)增長的同時(shí),其消失的速度也同樣令人吃驚。在消逝的Web信息中,很有可能就包含著人類珍貴的“數(shù)字遺產(chǎn)”。為了能夠長期保存人類知識和文化,世界各國已經(jīng)在不懈努力地收集保存那些具有保存價(jià)值的網(wǎng)絡(luò)信息資源。如果能夠設(shè)計(jì)配套的采集策略,針對具體目標(biāo),實(shí)施對應(yīng)的采集技術(shù),無疑對數(shù)字遺產(chǎn)的保護(hù)起著舉足輕重的作用。
Web信息采集伴隨著網(wǎng)絡(luò)信息的檢索需求而出現(xiàn)。第一代搜索引擎提高了人類定位所需網(wǎng)絡(luò)資源的能力,1995年出現(xiàn)的Lycos搜索引擎在前人基礎(chǔ)上提出了更多服務(wù)概念。1998年誕生的Google屬于第二代搜索引擎,其特征是引入了人工智能計(jì)算。第三代搜索引擎特色是使沒有使用H TML格式的信息也能被檢索到,而這些則對Web Crawler工作提出了更高的要求。
挖掘技術(shù)可以從海量信息中發(fā)現(xiàn)常規(guī)方法下無法看到的信息模式和發(fā)展趨勢,這是目前信息利用層次的發(fā)展方向之一。而無論是信息挖掘還是信息檢索,都是建立在明確的評估體系下,基于某種標(biāo)準(zhǔn)對所采集的信息予以篩選或突出顯示,較為有名的是Google所采納的Page Rank算法、hub-and-authority method〔16〕、美國 OAIS 系統(tǒng)中的信息評價(jià)體系、美國俄亥俄州公共圖書館信息采集指標(biāo)。
Web信息采集是網(wǎng)絡(luò)信息研究工作的起點(diǎn),它解決的問題包括信息采集的全面性、準(zhǔn)確性,新信息的及時(shí)發(fā)現(xiàn),信息主題關(guān)聯(lián),信息評價(jià)等。它的進(jìn)步,不僅為網(wǎng)絡(luò)用戶信息共享、信息交互等方面奠定基礎(chǔ),還深化了網(wǎng)絡(luò)信息的利用層次,提高了網(wǎng)絡(luò)信息服務(wù)質(zhì)量,促進(jìn)了搜索引擎的進(jìn)一步發(fā)展。
〔1〕COTHEY,V.Web-Crawling Reliability〔J〕 .Journal of the American Society for Information Science and Technology,2004,55(14):1228-1238
〔2〕Http ://www.galaxy.com.〔2010-04-25〕
〔3〕Chen,HC;Fan,HY;Chau,M,MetaSpider:Metasearching and categorization on the Web〔J〕.Journal Of The American Society For Information Science And Technology.2001,52:1134-1147
〔4〕Sheng-Yuan Yang.OntoPortal:An ontology-supported portal architecture with linguistically enhanced and focused crawler technologies〔J〕.Expert Systems with Applications,2009,Vol 36:10148-10157
〔5〕XU Zhaocai,C Xianyi.Focused Crawling Algorithm Based on Multi-agent System〔J〕.Computer Engineering,2008,Vol 34:204-206
〔6〕S Brin,L Page.The anatomy of a large-scale hypertextual Web search engine〔J〕 .Computer networks and ISDN systems.1998,Vol 30:107-117
〔7〕A Heydon,M Najork.Mercator:A scalable,extensible Web crawler〔J〕.World Wide Web,1999,2(4):219-229
〔8〕 S Chakrabarti,M Van den Berg,B Dom.Focused crawling:a new approach to topic-specific Web resource discovery〔J〕.Computer Networks,1999,Vol 31:1623-1640
〔9〕 Gautam Pant,Padmini Srinivasan.Topic-driven crawlers Machine learning issues〔 J〕 .ACM Trans.on Internet Technology.2002
〔10〕Yuefeng Li,Ning Zhong.Web mining model and its applications for information gathering〔J〕.Knowledge-Based Systems,2004,Vol 17:207-217
〔11〕Neel Sundaresan,Jeonghee Yi.Mining the Web for relations〔J〕.Computer Networks,2000,Vol 33:699-711
〔12〕Soumen Chakrabarti.Data mining for hypertext:A tutorial survey〔J〕 .ACM SIGKDD Explorations Newsletter,2000,Vol 1:1-11
〔13〕Siegfried Handschuh,Steffen Staab,Fabio Ciravegna.S-CREAM Semi-automatic CREAtion of Metadata〔J〕.Knowledge Engineering and Knowledge Management:Ontologies and the Semantic Web,2002:165-184
〔14〕 Rungsawang,Angkawattanawit.Learnable topicspecific Web crawler〔J〕 .Journal of Network and Computer Applications,2005,Vol 28:97-114
〔15〕Hai-Tao Zheng,Bo-Yeong Kang,Hong-Gee Kim An ontology-based approach to learnable focused crawling〔J〕 .Information Sciences,2008,Vol 178 :4512-4522
〔16〕 J.Kleinberg.Authoritative sources in a hyperlinked environment〔 J〕 .Journal of the ACM,1999,Vol 46 :604-632