国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能(AI)技術(shù)在搜索引擎中的應(yīng)用

2020-11-26 20:19羅晗騫石月鑫
電子技術(shù)與軟件工程 2020年21期
關(guān)鍵詞:搜索引擎網(wǎng)頁代理

羅晗騫 石月鑫

(中國農(nóng)業(yè)大學(xué) 北京市 100083)

隨著Internet 網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,Internet 已成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧>W(wǎng)絡(luò)是信息公開和傳播的主要途徑,它擁有一個分布著數(shù)億個頁面的信息空間,倍增速度從130d 增加到200d。Internet 上的信息非常廣泛,涉及面極廣,很難快速找到所需的信息。因此,我們研究和開發(fā)了各種搜索工具,以幫助人們快速、輕松地找到所需要的內(nèi)容。搜索引擎使用特定的策略來收集、發(fā)現(xiàn)、提取和處理Internet 上的信息,為用戶提供搜索服務(wù)。他們在信息探索中發(fā)揮著極其重要的作用,產(chǎn)生了深遠(yuǎn)的影響。伴隨著社會生產(chǎn)力的不斷發(fā)展,社會信息的需求量越來越大,這也導(dǎo)致信息也會越來越豐富且復(fù)雜,因此在線搜索技術(shù),就是所謂的搜索引擎會持續(xù)發(fā)展。

1 各種各樣的搜索引擎技術(shù)

1.1 搜索引擎的類別

1.1.1 目錄搜索引擎

目錄搜索引擎的主要功能是手動或半自動收集相關(guān)信息,例如“Yahoo!”。當(dāng)發(fā)布者訪問網(wǎng)站時,需要創(chuàng)建信息摘要,然后根據(jù)網(wǎng)站的內(nèi)容和網(wǎng)站上的信息將其分類為預(yù)設(shè)類別,描述和URL包含在此類別中。當(dāng)用戶需要查詢特定的關(guān)鍵字時,搜索軟件將搜索先前保存的描述。一些目錄還接受用戶提交的注釋。發(fā)布者批準(zhǔn)此描述后,會將其分類為相關(guān)類別,以供其他用戶參考。該搜索引擎的優(yōu)勢是可靠的導(dǎo)航質(zhì)量和高精度,其缺點是過多的人工干預(yù)、維護和維修成本以及無法及時更新信息。

1.1.2 基于機器人的搜索引擎

這種搜索引擎,最明顯的功能特征就是內(nèi)部嵌入了一個機器人程序,例如“Google”。這個程序在具體的使用之前,可以提前規(guī)劃一些相對比較好的、滿意的、優(yōu)化程度比較高的特定的策略,然后進行網(wǎng)絡(luò)上的信息搜索和收集。其可用于收集信息的索引系統(tǒng),其是建立于信息上的相對應(yīng)的索引,并且將查詢界面的用戶在查詢的引索中進行對應(yīng)的數(shù)據(jù)庫的搜索的系統(tǒng)。這種搜索引擎最重要的功能之一就是可以定期訪問收集的網(wǎng)頁并更新索引以刪除不必要的鏈接。Web 內(nèi)容的更改也將出現(xiàn)在用戶查詢結(jié)果中。該搜索引擎的優(yōu)點是能及時更新,無需人工干預(yù)和全面的信息條件;缺點是可能會返回更多無用的信息,用戶必須仔細(xì)過濾其搜索結(jié)果。

1.1.3 元搜索引擎

顧名思義,元搜索引擎是一種多元搜索引擎,可以進行多個層面的引擎的搜索。此類搜索引擎在網(wǎng)頁上沒有可以用來儲存信息的專門的數(shù)據(jù)庫,所以當(dāng)用戶查詢資料時,如果采用的是關(guān)鍵詞進行搜索,它會將用戶所需要查詢的內(nèi)容進行一定程度上的轉(zhuǎn)化,讓關(guān)鍵詞能夠變成引擎搜索范圍內(nèi)的內(nèi)容,然后進行呈現(xiàn)。因此,通過集成多個搜索引擎創(chuàng)建的元搜索引擎具有比傳統(tǒng)引擎更廣泛的范圍,更好的搜索效果和可伸縮性的優(yōu)點;缺點是存在某些限制,搜索引擎的功能不能被完全使用。

1.2 搜索引擎的工作原理和關(guān)鍵技術(shù)

搜索引擎的工作方式是:機器人程序可以從各種Internet 收集盡可能多的網(wǎng)頁,并根據(jù)每個頁面的文本內(nèi)容在Internet 上創(chuàng)建逆索引網(wǎng)絡(luò)。當(dāng)用戶提出有關(guān)感興趣主題的問題時,他們輸入主題關(guān)鍵字作為查詢條件,搜索引擎將使用預(yù)建網(wǎng)頁庫和單詞索引來查找正確的網(wǎng)頁并將其返回給用戶。搜索引擎通常分為三部分,分別為信息搜集系統(tǒng)、索引系統(tǒng)、查詢界面。

1.2.1 信息收集系統(tǒng)

機器人程序可以自動完成信息收集系統(tǒng),其會在互聯(lián)網(wǎng)上搜索并盡快收集新信息。因為互聯(lián)網(wǎng)上有很多信息,且更新速度非???。為了確保搜索引擎中信息的完整性和及時性,該機器人程序必須具有理想的搜索策略和較高的搜索效率。當(dāng)前有兩種主要的信息收集策略:

(1)從一組起始URL 開始。這些URL 中的超鏈接后面的信息可以在Internet 上廣泛找到。這些初始URL 可以是任何URL,但它們通常是包含許多鏈接的流行性網(wǎng)站(例如“Yahoo!”)。

(2)Webspace 按域名、IP 地址或國家(地區(qū))域名劃分,每個搜索引擎負(fù)責(zé)詳細(xì)的子空間搜索。

1.2.2 索引系統(tǒng)

收集信息之后,機器人程序?qū)⒎治鏊饕到y(tǒng)程序收集分析的網(wǎng)頁,并從網(wǎng)頁中搜索相關(guān)信息(網(wǎng)頁URL、編碼類型、創(chuàng)建時間、所有頁面中包含的關(guān)鍵字及位置、鏈接與其他網(wǎng)頁之間的關(guān)系等),并使用特定的相關(guān)算法來獲取和使用頁面文本和超鏈接的每個頁面上每個關(guān)鍵字的相關(guān)性(或重要性),這需要大量的計算。這個工作需要創(chuàng)建Web 索引數(shù)據(jù)庫信息。搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。

1.2.3 查詢界面

當(dāng)用戶需要查詢內(nèi)容的時候,用戶會先進行需求提交。在提交之后,搜索引擎就會開始工作,將接收到的用戶的請求和數(shù)據(jù)庫的內(nèi)容進行詳細(xì)的比對,根據(jù)一定的相關(guān)性的指標(biāo),將比對的結(jié)果進行重新排序,按照關(guān)聯(lián)性的程度高低從高到底的排列,并將排列的結(jié)果反饋給用戶。這樣就可以實現(xiàn)用戶搜索信息更加便捷、高效的目的。如此一來,查詢系統(tǒng)和人機交互就會實現(xiàn)和人類的思維習(xí)慣完美的匹配。從關(guān)鍵字研究到知識水平、單詞放置技能、翻譯技能、短語識別和其他信息,我們可以改善信息搜索,了解并處理相關(guān)知識。使搜索引擎的服務(wù)更加人性化和智能化。

2 人工智能技術(shù)應(yīng)用研究

2.1 機器人智能

隨著Internet 的快速發(fā)展,Internet 上的信息數(shù)量呈指數(shù)增長。互聯(lián)網(wǎng)的問題已經(jīng)從“提供信息”變?yōu)椤叭绾螐膹V闊的信息海洋中提取有用的信息資源”?,F(xiàn)有的搜索引擎具有不必要信息的過多返回、較差的搜索效率、信息混亂等缺點。1950年以來,人工智能(AI)技術(shù)已經(jīng)能夠指導(dǎo)互聯(lián)網(wǎng)用戶,為搜索和導(dǎo)航提供直接支持,并為功能性智能代理提供幕后支持,人工智能在互聯(lián)網(wǎng)上扮演著越來越重要的角色。

2.1.1 人工智能技術(shù)

現(xiàn)在的大量搜索引擎,都使用了具有人工智能特性的技術(shù)機器人,其目的是從Internet 獲得信息資源。它主要通過一種設(shè)計好的超文本鏈接進行搜索內(nèi)容的瀏覽和觀察,然后再通過一種叫做URL的技術(shù)在HTML 的文檔窗格進行引用。常規(guī)步驟如下:

(1)提取有效信息;

(2)將有效信息放入目標(biāo)數(shù)據(jù)庫當(dāng)中去;

(3)從目標(biāo)文檔中提取其他的URL 文檔,并進行URL 的添加;

(4)重復(fù)上述步驟(3),直到不再出現(xiàn)新的目標(biāo)文檔為止;

(5)向索引數(shù)據(jù)庫添加查詢界面,并發(fā)布給在線用戶;

在人工智能搜索策略中,算法通常使用兩種基本策略:第一個是深度,第二個是寬度。寬度策略允許首先抓取當(dāng)前頁面上的所有URL,因此它可以包含盡可能多的頁面。深度優(yōu)先的策略可創(chuàng)建更好的文檔布局,并使查找文檔結(jié)構(gòu)(即最多的交叉引用)更加容易。兩種算法都會分析網(wǎng)頁的內(nèi)容,并確定其是否與用戶的搜索字詞匹配,以搜索用戶所需的網(wǎng)頁。它的不足之處在于缺乏進一步分析檢索到的網(wǎng)頁的能力,并且練習(xí)通常很耗時,且信息中有很多冗余和噪音。因此,為了提高搜索效率,我們使用啟發(fā)式搜索策略來收集網(wǎng)頁。換句話說,機器人通過啟發(fā)式學(xué)習(xí)采用最有效的搜索策略,并選擇最佳時間來獲取收集的信息。

2.1.2 啟發(fā)式搜索算法

常見的啟發(fā)式搜索算法有兩種:

(1)加權(quán)啟發(fā)式搜索算法:這種算法通過使用加權(quán)啟發(fā)式搜索算法來對目標(biāo)的信息資源進行一定程度的控制和收集。該系統(tǒng)基于用戶配置的以域為中心的單詞,并且處于資源服務(wù)器所在的位置。對于地理空間信息而言,我們使用啟發(fā)式函數(shù)來計算每個URL 的權(quán)重,然后可以選擇權(quán)重相對最高的URL 首先訪問。

(2)使用相關(guān)性和用戶興趣作為評估功能的啟發(fā)式搜索算法:這種算法是通過對于系統(tǒng)維護的超鏈接隊列,根據(jù)評估函數(shù)的值從最低到最高排序,然后選擇最小的隊列。評估函數(shù)值的超鏈接將用作下一個要擴展的節(jié)點。

2.2 智能代理技術(shù)

最近幾年的人工智能研究歷程中,我們得到了一項快速發(fā)展的新人工智能的成果——智能代理技術(shù)。它可以通過一些特定的領(lǐng)域模型來搜集特定的信息,達到對用戶進行精準(zhǔn)投送的目標(biāo),進而使得用戶接受到的信息都是對用戶有用的信息,這樣一來,也開始表示著人工智能進入一個終身學(xué)習(xí)的時代里,并且可以動態(tài)的、變化的、選擇性的給用戶提供有用的信息,進一步提高了服務(wù)質(zhì)量。

2.2.1 智能代理的優(yōu)點

(1)智能指的就是通過超級大的知識儲備和超級嚴(yán)密的邏輯推理能力,分析自身內(nèi)部所需要的某種需求,并且依據(jù)這些猜測用戶想要的任務(wù)意圖,同時還具有自動更新學(xué)習(xí)、提高知識儲備量的的能力。憑借豐富的知識和特定的推理能力,可以分析自己的需求,猜測用戶完成更復(fù)雜任務(wù)的意圖,并不斷體驗不斷學(xué)習(xí)以提高處理問題的能力。

(2)代理。顧名思義,智能代理是通過智能的算法對用戶的需求進行代替的處理和執(zhí)行,并將處理的結(jié)果個執(zhí)行的結(jié)果通過一種通道反饋給用戶本身。

(3)主動性。它可以提前通知用戶,并根據(jù)用戶需求和環(huán)境變化提供服務(wù)。

(4)合作性。它可以通過各種通信協(xié)議與其他智能代理交換信息,并且可以相互協(xié)作完成復(fù)雜的任務(wù)。

2.2.2 客戶端智能代理和服務(wù)器端智能代理

(1)客戶端智能代理技術(shù)主要基于智能搜索代理技術(shù),結(jié)合搜索引擎的“主題”搜索模式,密切關(guān)注有需求的個人,完善與用戶需求相關(guān)的信息和系統(tǒng),通過協(xié)議傳輸信息。信息交換可以提取更多信息,以彌補智能代理信息搜索范圍的局限性。

(2)服務(wù)器端智能代理引入了用戶反饋機制,以改善恢復(fù)機制,提高恢復(fù)命中率,并為個人提供特殊的恢復(fù)服務(wù)。這樣一來就可以將用戶的查詢的歷史進行詳細(xì)的記錄,再將這些信息與之前別的用戶的搜尋進行比對,這樣可以使得新的用戶在搜索的內(nèi)容上會更加準(zhǔn)確,質(zhì)量上也會更加具有優(yōu)質(zhì)性的特點。同時其還設(shè)置了用戶評分界面,來收集用戶對搜索的結(jié)果的滿意程度,將結(jié)果再次反作用于下一次的搜索過程當(dāng)作,實現(xiàn)不斷優(yōu)化和精準(zhǔn)內(nèi)容呈現(xiàn)的功能。

2.3 智能查詢界面

2.3.1 基于關(guān)鍵字搜索的搜索技術(shù)

搜索技術(shù)的關(guān)鍵就是要保證使用的搜索引擎在執(zhí)行搜索任務(wù)的時候,搜索的結(jié)果是否能夠滿足用戶的實際需求。但是這種技術(shù)難度實在是太大了,因為關(guān)鍵詞的數(shù)量實在是一個極為龐大的數(shù)據(jù)庫,很難實現(xiàn)關(guān)鍵詞的全部覆蓋,這就必然會導(dǎo)致關(guān)鍵搜索不到的內(nèi)容,進而給用戶體驗感帶來不良的影響,更嚴(yán)重的情況是可能會引起不必要的誤會。

2.3.2 自然語言查詢

在搜索引擎的研究過程中,我們發(fā)現(xiàn)需要一種良好的查詢語言才能更好地理解來自搜索引擎的用戶查詢請求??梢杂靡环N叫做自然語言處理的概念和技術(shù)來應(yīng)對人工智能所匹配的自然語言的查詢,進而可以克服因為關(guān)鍵字太多、太龐大導(dǎo)致查詢不能一一對應(yīng)的缺點和不足之處。把信息檢索從點對面的查詢改變?yōu)槊鎸γ娴闹R層面進行檢索,這樣一來,可以提高一些特定的內(nèi)容的識別和處理能力。并且這樣,還可以達到知識面分割成為知識點的技能,將大的知識庫分解成為小的知識庫的技能。如此一來,會使得搜索更加的具有人性化的特點。知識搜索可以使用語義分析結(jié)果執(zhí)行概念級別的知識庫搜索,并為用戶所提出的問題提供最準(zhǔn)確,最相關(guān)的搜索結(jié)果。

3 結(jié)束語

本文介紹了搜索引擎并簡要分析了搜索引擎的工作原理,以及如何將人工智能應(yīng)用于搜索引擎。但是,在人工智能技術(shù)的研究上我們?nèi)匀蝗狈?jīng)驗,有較大的改進空間。因此,Internet 上的信息組織目前看起來仍令人困惑,信息介質(zhì)也多種多樣,難以理解。隨著全球經(jīng)濟信息化的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為世界上最大的信息存儲和主要信息發(fā)布媒介,并且大量的信息內(nèi)容被分散。探究人工智能技術(shù)在搜索引擎中的應(yīng)用可以讓大量的資源為人類的發(fā)展和社會的進步發(fā)揮作用,具有良好的科研前景。

猜你喜歡
搜索引擎網(wǎng)頁代理
代理圣誕老人
代理手金寶 生意特別好
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
復(fù)仇代理烏龜君
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
10個必知的網(wǎng)頁設(shè)計術(shù)語