黃少年
摘 要:大數(shù)據(jù)時(shí)代,人們?nèi)绾尾拍軓暮A康拇髷?shù)據(jù)信息中獲得個(gè)人所需要的信息,已經(jīng)成為科技信息人員當(dāng)前研究的重要內(nèi)容。本文主要介紹了目前互聯(lián)網(wǎng)環(huán)境下的信息檢索技術(shù),同時(shí)對(duì)未來的信息檢索技術(shù)進(jìn)行展望。
關(guān)鍵詞:信息檢索;檢索技術(shù);檢索技巧
1.引言
隨著互聯(lián)網(wǎng)的發(fā)展,人類社會(huì)已進(jìn)入信息時(shí)代。在現(xiàn)實(shí)生活中,人們已經(jīng)從以前的通過報(bào)紙、廣播、電視獲取信息轉(zhuǎn)變成主要從網(wǎng)絡(luò)獲取信息資源。這大大改變了人們的生活習(xí)慣,通過網(wǎng)絡(luò)獲取信息資源,不僅提高了人們獲得信息的速度同時(shí)也提高了信息的有效性和及時(shí)性。本本文主要介紹了目前互聯(lián)網(wǎng)環(huán)境下的信息檢索技術(shù),同時(shí)對(duì)未來的信息檢索技術(shù)進(jìn)行展望。
信息檢索是指信息按一定的方式組織起來,并根據(jù)信息用戶的需要找出有關(guān)的信息的過程和技術(shù)。在互聯(lián)網(wǎng)高速發(fā)達(dá)的現(xiàn)代社會(huì),幾乎每個(gè)人都在有意無意的用到信息檢索技術(shù)。因此,如何才能在網(wǎng)絡(luò)大環(huán)境下提高信息資源檢索的質(zhì)量和效率就顯得非常重要。
2.網(wǎng)絡(luò)信息資源檢索技術(shù)
網(wǎng)絡(luò)信息檢索工具,是指利用超文本技術(shù)在 internet上建立的一種提供網(wǎng)絡(luò)上信息資源導(dǎo)航、檢索服務(wù)的專用網(wǎng)站服務(wù)器。它的工作原理可以概括為:通過自動(dòng)索引程序 robot(或人工)來廣泛收集網(wǎng)絡(luò)信息資源數(shù)據(jù),經(jīng)過一系列的判斷、選擇、標(biāo)引、加工、分類、組織等處理后形成供目錄索引及檢索界面。快速準(zhǔn)確高效地獲取網(wǎng)絡(luò)信息資源,是信息提供者或獲取者追求的目標(biāo);而合理利用網(wǎng)絡(luò)信息檢索工具,則是實(shí)現(xiàn)其目標(biāo)的有效途徑。而網(wǎng)絡(luò)信息檢索技術(shù)主要有以下幾種類型:
2.1全文搜索引擎
全文搜索引擎的主要代表有國(guó)內(nèi)的百度和國(guó)外的Google。它主要是使用關(guān)鍵詞進(jìn)行信息的檢索。用戶只要把想要查找的關(guān)鍵詞或短語(yǔ)輸入查詢欄中,然后再點(diǎn)擊 Search(查詢 )即可,這種搜索技術(shù)速度快,返回結(jié)果數(shù)量也很大。因此,用戶必須從搜索結(jié)果進(jìn)行篩選出有用信息。
2.2目錄搜索引擎
目錄搜索引擎與全文搜索引擎的工作方式不同,它是由人工對(duì)web站點(diǎn)和文檔進(jìn)行評(píng)價(jià)、分類并給出簡(jiǎn)要描述。用戶可以通過瀏覽目錄中的分類來查詢web信息。當(dāng)目錄中包含太多的分類和鏈接時(shí),目錄本身也變得不便于瀏覽。最典型的就是Yahoo搜索。由于加入了人的智能,該類搜索引擎所得信息準(zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。
2.3多元搜索引擎
多元搜索引擎沒有自己的數(shù)據(jù)資源庫(kù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,在將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。服務(wù)方式為面向網(wǎng)頁(yè)的全文檢索。這類搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全,缺點(diǎn)是不能充分使用搜索引擎的功能,用戶需要做更多的篩選。
3.提高網(wǎng)絡(luò)信息資源檢索效率的技巧
由于互聯(lián)網(wǎng)的信息資源量非常之巨大,如果只是簡(jiǎn)單的對(duì)網(wǎng)絡(luò)進(jìn)行搜索,那么得出的數(shù)據(jù)有可能不到1%的量是我們所需要的。因此,如何提高搜索質(zhì)量和搜索效率已經(jīng)成為一個(gè)非常值得關(guān)注的課題。
3.1使用合適的搜索引擎
網(wǎng)絡(luò)上流行著這么一句話:外事問google,內(nèi)事問百度。也許并不是那么準(zhǔn)確,但是還是有一定的道理的,每個(gè)搜索引擎都有各自的特點(diǎn)與側(cè)重點(diǎn)。因此,我們?cè)谒阉餍畔⒌臅r(shí)候可以根據(jù)情況來選擇不同的搜索引擎。簡(jiǎn)單來說,如果搜索的是外文類的信息,那我們使用goolge可能搜索出來的信息會(huì)比較適合要求,而且也會(huì)更齊全。如果是搜索中文類的信息,那么選擇百度會(huì)更合適。
3.2使用正確的關(guān)鍵詞
關(guān)鍵詞也叫搜索詞,搜索引擎能根據(jù)這些關(guān)鍵詞尋找用戶所需資源的地址,然后根據(jù)一定的規(guī)則反饋給用戶包含此關(guān)鍵字詞信息的所有網(wǎng)址和指向這些網(wǎng)址的鏈接。當(dāng)我們搜索的關(guān)鍵是確切的時(shí)候,我們就應(yīng)該輸入確切的關(guān)鍵詞,這樣就可以保證輸出結(jié)果的正確性和合理性。而且如果我們要查找的信息關(guān)鍵詞不太確定或者比較模糊的時(shí)候,我們可以用比較接近的關(guān)鍵詞或者同義詞來查找,現(xiàn)代搜索引擎技術(shù)都具有聯(lián)想功能,因此大多時(shí)候都可以聯(lián)想出我們要查看的正確關(guān)鍵詞,從而找出需要的信息。當(dāng)然如果有需要的話可以多用幾個(gè)關(guān)鍵詞來查找,但是需要提醒讀者的是關(guān)鍵詞之間最好用空格來隔開,當(dāng)然這種方法產(chǎn)生的結(jié)果也會(huì)比較多,無用無效信息也就會(huì)更多,需要我們做更多的篩選。
3.3巧用字段檢索
字段檢索是傳統(tǒng)數(shù)據(jù)庫(kù)中常用的檢索手段之一,用戶可以指定檢索一個(gè)特定的字段,如標(biāo)題字段、作者字段、年份字段、單位字段等。在網(wǎng)絡(luò)檢索引擎中常使用的字段檢索有標(biāo)題、網(wǎng)址、圖象等,其中最常用的是標(biāo)題字段檢索。每個(gè)主頁(yè)都有一個(gè)反映其主要內(nèi)容的標(biāo)題,因而使用標(biāo)題字段檢索準(zhǔn)確率較高,如果在標(biāo)題字段用詞組或短語(yǔ)檢索,其效果更好。如果需要圖象文件,可以用圖象字段檢索。由于各個(gè)檢索引擎在提供這類字段檢索時(shí)所用的檢索格式不同,用戶在使用時(shí)要事先閱讀有關(guān)的檢索規(guī)則。
3.4其他檢索技巧
除了以上介紹的這些常用檢索技巧之外,還有其他技巧可以幫助我們提高搜索的效率。例如,當(dāng)我們要搜索某些特定的文件類型的時(shí)候,我們可以使用filetype這個(gè)英文單詞協(xié)助搜索。比如要搜索包含關(guān)鍵詞為“北海職業(yè)學(xué)院2020年招生簡(jiǎn)章”的word文檔時(shí)。我們可以在搜索引擎的搜索欄里輸入“filetype:doc 北海職業(yè)學(xué)院2020年招生簡(jiǎn)章”,然后就可以搜索出我們需要的word文檔了。又或者是當(dāng)我們只希望在某個(gè)指定的網(wǎng)站搜索信息時(shí),我們可以用site這個(gè)單詞來輔助查找。例如,要從北海職業(yè)學(xué)官網(wǎng)上查找2020年招生信息時(shí),我們可以用以下的格式來搜索,”site:www.bhzyxy.net 2020年招生簡(jiǎn)章”。當(dāng)然還有其他技巧,需要讀者進(jìn)行更多深入學(xué)習(xí)研究。
4.信息檢索技術(shù)的展望
4.1智能化搜索
未來的搜索應(yīng)該朝著智能化的方式發(fā)展。它除了能提供傳統(tǒng)的快速檢索、相關(guān)度排序等功能外,還能提供用戶興趣自動(dòng)識(shí)別、內(nèi)容的語(yǔ)義理解、智能化信息過濾和推送等功能。網(wǎng)絡(luò)信息檢索智能化,志在消除人與計(jì)算機(jī)之間的矛盾,努力使計(jì)算機(jī)人性化,理解用戶的語(yǔ)言及需求。
4.2移動(dòng)搜索
隨著智能手機(jī)的快速發(fā)展,基于手機(jī)的移動(dòng)設(shè)備搜索日益流行,但移動(dòng)設(shè)備有很大的局限性,比如屏幕太小,可顯示的區(qū)域不多,計(jì)算資源能力有限,打開網(wǎng)頁(yè)速度很慢,手機(jī)輸入繁瑣等問題都需要解決。目前,隨著智能手機(jī)的快速普及,移動(dòng)搜索一定會(huì)更加快速的發(fā)展,所以移動(dòng)搜索的市場(chǎng)占有率會(huì)逐步上升。
4.3實(shí)時(shí)搜索
隨著微博的個(gè)人媒體平臺(tái)興起,對(duì)搜索引擎的實(shí)時(shí)性要求日益增高,我想這也是搜索時(shí)引擎未來的一個(gè)發(fā)展方向。實(shí)時(shí)搜索最突出的特點(diǎn)是時(shí)效性強(qiáng),越來越多的突發(fā)事件首次發(fā)布在微博上,實(shí)時(shí)搜索核心強(qiáng)調(diào)的就是“快”,用戶發(fā)布的信息第一時(shí)間能被搜索引擎搜索到。
4.4其他技術(shù)
社會(huì)在發(fā)展,科技也在不斷的進(jìn)步,隨著科技研究人員的不斷努力研究探索,未來肯定會(huì)產(chǎn)生更多更好用的搜索技術(shù)。
5. 結(jié)語(yǔ)
大數(shù)據(jù)時(shí)代的到來,網(wǎng)絡(luò)信息資源在不斷的增加,我們從網(wǎng)絡(luò)上獲取的信息資源也越來越多。除了提高網(wǎng)絡(luò)信息檢索技術(shù)之外,用戶也要掌握網(wǎng)絡(luò)信息檢索的技巧,不斷提高自身的檢索能力,才能從網(wǎng)絡(luò)中更好更快地的檢索到自己所需要的信息,使互聯(lián)網(wǎng)更好為我們服務(wù)。
參考文獻(xiàn):
[1]汪楠. 信息檢索技術(shù)(第二版)[M].清華大學(xué)出版社. 2015
[2] 彭奇志.信息檢索與利用)[M]..中國(guó)輕工業(yè)出版社.2013
[3]林群霞. 網(wǎng)絡(luò)信息檢索及其前沿技術(shù)的發(fā)展[J].惠州學(xué)院學(xué)報(bào).2009