蘇 云 曹正民
Google是斯坦福大學(xué)博士生Larry Page和Sergey Brin共同創(chuàng)立的。它支持132種語(yǔ)言,資料庫(kù)內(nèi)包含24億個(gè)網(wǎng)頁(yè)、7億個(gè)新聞檔案和3.3億個(gè)圖形文件,如果用人工檢索,每分鐘1頁(yè),24小時(shí)不間斷工作,需要5707年才能完成一遍搜索,而用Google檢索不超過(guò)1秒種。Google現(xiàn)有15000多臺(tái)服務(wù)器,200多條T3級(jí)寬帶同時(shí)服務(wù),這使得它在搜索網(wǎng)站界的地位進(jìn)一步得以鞏固。
Google的基本搜索語(yǔ)法
Boolean邏輯檢索語(yǔ)法
Boolean是指喬治·布爾提出的代數(shù)運(yùn)算法則,常見(jiàn)的三種運(yùn)算符是“與”、“或”和“非”,即AND、OR和NOT。在Google分別用“ ”(空格)、“-”和“|”表示,其中AND運(yùn)算符表示對(duì)所有的關(guān)鍵字同時(shí)進(jìn)行搜索,OR運(yùn)算符表示從幾個(gè)關(guān)鍵字中指定任意一個(gè),NOT運(yùn)算符表示在搜索結(jié)果中不包括某個(gè)關(guān)鍵字。如果有兩個(gè)或多個(gè)關(guān)鍵字,可以用括號(hào)連接,用運(yùn)算符檢索時(shí),至少要求包含兩個(gè)以上的關(guān)鍵字,最好用括號(hào)構(gòu)成邏輯運(yùn)算式進(jìn)行檢索。
強(qiáng)制搜索檢索語(yǔ)法
在網(wǎng)頁(yè)中經(jīng)常包含有許多出現(xiàn)頻率極高,但無(wú)實(shí)際意義的高頻詞,例如英文單詞“a”、“the”和“i”等,中文的“的”和“啊”等,這些詞匯被Google保存在一個(gè)無(wú)用詞匯表中,但在檢索中它們是不可缺少的。例如,要搜索一些關(guān)于www起源的歷史資料,Google會(huì)把“www”和“的”都省略了,只搜索出關(guān)于“歷史”方面的資料,顯然不符合要求。因?yàn)镚oogle把這個(gè)短語(yǔ)分成了“www”、“的”和“歷史”3個(gè)詞匯,而“www”和“的”被認(rèn)為是無(wú)實(shí)際意義的詞而忽略。如果要對(duì)忽略的關(guān)鍵字進(jìn)行強(qiáng)制搜索,需要在該關(guān)鍵字前加上“+”號(hào),或者將上述的短語(yǔ)用英文雙引號(hào)括起來(lái),Google就會(huì)進(jìn)行強(qiáng)制搜索。特別注意用“短語(yǔ)”和“句子”檢索是一種提高檢準(zhǔn)率非常有效的方法,但必須用英文引號(hào)將其括起來(lái),最好配合“+”號(hào)同時(shí)使用。
通配符和外文字符大小寫(xiě)檢索問(wèn)題
Google支持通配符號(hào),例如用“*”代表一連串字符,用“?”代表單個(gè)字符等,但對(duì)通配符支持有限,而且包含“*”必須用英文引號(hào)括起來(lái)。例如檢索“以*治國(guó)”,搜索結(jié)果可以是“以法治國(guó)”、“以德治國(guó)”等。
Google對(duì)外文字符大小寫(xiě)不敏感,搜索Three、three和THREE會(huì)得到相同的檢索結(jié)果。
Google的特殊檢索語(yǔ)法
通常用基本搜索語(yǔ)法可以解決絕大部分檢索問(wèn)題,但要更準(zhǔn)確的檢索就需要了解特殊搜索語(yǔ)法,主要有限定標(biāo)題的intitle、allintitle,限定查找網(wǎng)址鏈接的inurl、allinurl和link,限定查找特定網(wǎng)站的site等語(yǔ)法,這些語(yǔ)法可以直接在Google的查找框內(nèi)輸入,相當(dāng)于命令行語(yǔ)法。
搜索的關(guān)鍵字包含在URL鏈接中
inurl語(yǔ)法返回的網(wǎng)頁(yè)鏈接中包含檢索的第一個(gè)關(guān)鍵字,后面的關(guān)鍵字則出現(xiàn)在鏈接中或者網(wǎng)頁(yè)文檔中,因?yàn)楹芏嗑W(wǎng)站把某一類(lèi)具有相同屬性的資源名稱顯示在目錄名稱或者網(wǎng)頁(yè)名稱中,例如“MP3”、“GALLARY”和“Help”之類(lèi)的目錄中,可以用inurl語(yǔ)法找到這些相關(guān)資源的鏈接,用第二個(gè)關(guān)鍵詞確定是否有某項(xiàng)具體資料。例如,查找MIDI曲《二泉映月》,檢索語(yǔ)法是inurl:midi "二泉映月"。注意在“inurl:”后面不能有空格,也不允許URL中含有“/”等符號(hào)。
allinurl語(yǔ)法返回的網(wǎng)頁(yè)鏈接中包含所有作用關(guān)鍵字,這個(gè)查詢的關(guān)鍵字只集中于網(wǎng)頁(yè)的鏈接字符串。例如查找可能具有PHF安全漏洞的公司網(wǎng)站,通常這些網(wǎng)站的CGI-BIN目錄中含有PHF腳本程序,表現(xiàn)在鏈接中就是“域名/cgi-bin/phf”,搜索語(yǔ)法為:allinurl:"cgi-bin" phf +com。
搜索的關(guān)鍵字包含在網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)中
intitle和allintitle的用法類(lèi)似于inurl和allinurl,其中intitle限制搜索的網(wǎng)頁(yè)標(biāo)題,allintitle搜索所有關(guān)鍵字構(gòu)成標(biāo)題的網(wǎng)頁(yè)。例如查找著名作家巴金的照片集,檢索語(yǔ)法為:intitle: 巴金 "照片集"。
intext只搜索網(wǎng)頁(yè)
和/之間包含的關(guān)鍵詞的部分,它忽略了標(biāo)題、URL中含有的關(guān)鍵詞,例如intext:"yahoo.com";allintext檢索包含在中的所有關(guān)鍵詞。對(duì)搜索網(wǎng)站進(jìn)行限制
site語(yǔ)法可以限制搜索范圍的域名,將搜索結(jié)果局限于某個(gè)具體網(wǎng)站或者網(wǎng)站頻道內(nèi),例如限定在新浪網(wǎng)站的教育頻道“edu.sina.com.cn”,或者是某個(gè)域名內(nèi),例如“com.cn”、“org”等,如果是要排除某網(wǎng)站或者域名范圍內(nèi)的頁(yè)面,只需用“-網(wǎng)站/域名”。例如,搜索中文教育科研網(wǎng)站(edu.cn)上關(guān)于中學(xué)數(shù)學(xué)課件的頁(yè)面,檢索語(yǔ)法為:中學(xué)數(shù)學(xué) 課件 site:edu.cn。此外,網(wǎng)站域名不能有“http://”的前綴,也不能含有任何“/”的目錄后綴,網(wǎng)站頻道則只局限于“頻道名.域名”方式,而不能是“域名/頻道名”方式。
搜索所有鏈接到某個(gè)URL的網(wǎng)頁(yè)
如果想知道有多少網(wǎng)站對(duì)一個(gè)學(xué)校主頁(yè)或教師個(gè)人主頁(yè)作了鏈接,link語(yǔ)法就能迅速達(dá)到這個(gè)目的。例如,搜索所有含指向清華大學(xué)鏈接的網(wǎng)頁(yè),檢索語(yǔ)法為:link:www.tsinghua.edu.cn,即link語(yǔ)法得到的是一個(gè)所有包含了某個(gè)指定網(wǎng)址的頁(yè)面列表,但是link語(yǔ)法不能與其他語(yǔ)法混合使用。link語(yǔ)法還有一個(gè)妙用,一般做友情鏈接的網(wǎng)站都有許多相似的方面,這樣就可以通過(guò)這些友情鏈接,檢索出一批具有相似內(nèi)容的網(wǎng)站。例如,一個(gè)中國(guó)詩(shī)詞愛(ài)好者發(fā)現(xiàn)某網(wǎng)站非常不錯(cuò),就可以用link語(yǔ)法查一下與之做鏈接的網(wǎng)站,也許可以找到更多符合詩(shī)詞方面有趣的內(nèi)容。
Google高級(jí)搜索語(yǔ)法
在某一類(lèi)文件中查找信息
Google不僅能搜索文字網(wǎng)頁(yè),還能對(duì)某些二進(jìn)制文檔進(jìn)行檢索,filetype就是一個(gè)非常強(qiáng)大實(shí)用的搜索語(yǔ)法,它已經(jīng)能檢索微軟的Office文檔(如xls、ppt、doc和rtf)、WordPerfect文檔、Lotus1-2-3文檔、Adobe的PDF文檔和ShockWave的SWF文檔(Flash動(dòng)畫(huà))等。filetype也可以搜索各種不同的頁(yè)面腳本語(yǔ)言,例如ASP、PHP和CGI等,filetype是搜索文件的后綴或者擴(kuò)展名。其中最實(shí)用的文檔搜索是PDF搜索,PDF是Adobe公司開(kāi)發(fā)的電子文檔格式,是一種圖文并茂的綜合性文檔,現(xiàn)已經(jīng)成為互聯(lián)網(wǎng)電子出版的標(biāo)準(zhǔn)。目前Google檢索的PDF文檔大約有3000萬(wàn)左右,大約占所有索引的二進(jìn)制文檔數(shù)量的80%。
顯示與某鏈接相關(guān)的一系列搜索
info語(yǔ)法提供一個(gè)和普通網(wǎng)址更多信息的頁(yè)面列表,包括網(wǎng)址緩存的鏈接、網(wǎng)址的鏈接、網(wǎng)址相關(guān)的鏈接和包含網(wǎng)址的頁(yè)面,即提供了cache、link、related和完全包含該鏈接的網(wǎng)頁(yè)的功能。例如,查找101遠(yuǎn)程教育網(wǎng)首頁(yè)相關(guān)的一些信息,檢索語(yǔ)法為:info:www.chinaedu.com,這里搜索的結(jié)果取決于Google是否對(duì)該URL進(jìn)行了索引,如果沒(méi)有,搜索結(jié)果會(huì)很少。
對(duì)網(wǎng)頁(yè)更新日期作出限定
daterange語(yǔ)法限制搜索特定時(shí)間段里的檢索內(nèi)容,這里特定時(shí)間是加入Google檢索的時(shí)間,而不是頁(yè)面創(chuàng)建的時(shí)間,它評(píng)價(jià)搜索引擎的好壞和更新頻率的指標(biāo),它支持的日期格式為凱撒日格式(julian),Google提供通用日期數(shù)值切換成凱撒日格式的自動(dòng)轉(zhuǎn)換功能。檢索語(yǔ)法為:"George Bush" daterange:2452389-2452389。
搜索的關(guān)鍵字包含在網(wǎng)頁(yè)的“錨”鏈點(diǎn)內(nèi)