摘 ?要:互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,使得信息呈現(xiàn)出一種爆炸式的增長趨勢,在這樣的時代背景之下,通過搜索引擎技術(shù)能夠讓民眾更加快速的在網(wǎng)絡(luò)之上搜尋到自己需要的內(nèi)容。對此,本文淺談計算機搜索引擎智能化技術(shù),期望能夠借此有效促進我國計算機搜索引擎的進一步發(fā)展。
關(guān)鍵詞:計算機技術(shù);搜索引擎;智能化
中圖分類號:TP393.09 ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)05-0102-03
Abstract:With the rapid development of internet technology,information shows an explosive growth trend. In such an era background,search engine technology can enable people to search the content they need more quickly on the internet. In this regard,this paper discusses the intelligent technology of computer search engine,hoping to effectively promote the further development of computer search engine in China.
Keywords:computer technology;search engine;intelligent
0 ?引 ?言
網(wǎng)絡(luò)時代的到來,促進了信息以及知識的網(wǎng)絡(luò)化傳播。隨著當(dāng)前我國科學(xué)技術(shù)的飛速發(fā)展以及智能化技術(shù)的廣泛應(yīng)用,搜索引擎智能化已經(jīng)逐漸成為計算機搜索引擎的未來發(fā)展趨勢,本文通過對計算機搜索引擎的設(shè)計原理進行研究分析,并在此基礎(chǔ)之上淺談搜索引擎智能化特征,最后對計算機搜索引擎智能化技術(shù)進行了深入探索。
1 ?搜索引擎智能化技術(shù)的重要性
隨著大數(shù)據(jù)時代的到來,信息的傳播方式逐漸朝著網(wǎng)絡(luò)化方向發(fā)展,同時信息量也隨之大大增加,這使得民眾搜尋信息的效率大大下降。計算機搜索引擎是互聯(lián)網(wǎng)時代背景之下新興的一種信息檢索系統(tǒng),其主要功能就是在大量的網(wǎng)絡(luò)信息之中搜索出特定的信息。在網(wǎng)絡(luò)時代背景之下,網(wǎng)絡(luò)中的海量信息根據(jù)關(guān)鍵詞的不同被劃分為不同的類別,民眾在使用計算機搜索引擎的過程中,只需要輸入關(guān)鍵詞,就能夠快速從海量信息之中搜尋出和關(guān)鍵詞相關(guān)的信息內(nèi)容,獲得自身需要的信息。通過將智能化技術(shù)應(yīng)用到計算機搜索引擎之中,可以提高檢索分析結(jié)果的準確性。
2 ?計算機搜索引擎及其智能化技術(shù)
2.1 ?搜索引擎的設(shè)計原理
搜索引擎從本質(zhì)上來說是一種軟件程序,其主要是通過各種算法對網(wǎng)絡(luò)之上的種種數(shù)據(jù)信息以關(guān)鍵詞為核心劃分為一個個類別,最終形成一個巨大的數(shù)據(jù)庫。當(dāng)民眾使用搜索引擎通過關(guān)鍵詞進行信息檢索操作時,與民眾輸入的關(guān)鍵詞相關(guān)的信息就會以一定的排名出現(xiàn)在界面之上,借此讓民眾能夠快速檢索到自身所需要的信息。
搜索引擎的主要功能就是信息檢索。初期設(shè)計的搜索引擎主要是企業(yè)單位用來檢索內(nèi)部信息的數(shù)據(jù)庫,借此快速獲得企業(yè)單位的相關(guān)信息。隨著我國科學(xué)技術(shù)的日新月異以及網(wǎng)絡(luò)技術(shù)的發(fā)展與應(yīng)用,計算機搜索引擎的應(yīng)用范圍也隨之變得越來越大,搜索引擎的定義也因此發(fā)生了改變。
現(xiàn)今,計算機搜索引擎主要指的是檢索互聯(lián)網(wǎng)信息的軟件程序,根據(jù)索引形式的不同,可以將計算機搜索引擎劃分為綜合門戶搜索、鏈接評價搜索等多種類型。要想有效應(yīng)用計算機搜索引擎,首先就必須要建立一個完善的索引數(shù)據(jù)庫,通過利用搜索引擎來對索引數(shù)據(jù)庫進行檢索,借此幫助民眾快速找到自身需要的信息資源。
第一點,信息分類機制的準確性不足。在對信息建立索引數(shù)據(jù)庫時,涉及到的信息量太多,因此無法實現(xiàn)對所有的信息資源進行完全整合,例如:關(guān)鍵詞出現(xiàn)的概率以及文檔類別和長度之間的平衡處理等多方面的內(nèi)容,這些都會導(dǎo)致信息分類準確性不足的問題發(fā)生。
第二點,信息排序的準確性不足?,F(xiàn)今,我國所有對搜索引擎進行的優(yōu)化工作,其根本目的都是為了提升信息排序的準確性。但絕大多數(shù)SEO優(yōu)化都存在問題,非常容易造成搜索引擎信息排序出現(xiàn)錯誤,對信息排序的準確性產(chǎn)生嚴重影響。
第三點,信息實時更新能力較差。造成這一問題的主要原因就是網(wǎng)絡(luò)上的信息量太大,當(dāng)前我國搜索引擎相關(guān)硬件以及算法技術(shù)等多方面的內(nèi)容無法實現(xiàn)實時檢索。
3 ?計算機搜索引擎智能化特征
要想有效解決當(dāng)前我國計算機搜索引擎之中存在的問題,就必須要積極研究計算機搜索引擎智能化技術(shù)。通過該技術(shù)不僅能夠有效提高計算機搜索引擎的檢索能力,同時還能夠通過結(jié)合民眾的性別進行自動識別,對于民眾搜索的語義能夠結(jié)合情境快速進行信息過濾以及信息推送,借此將計算機搜索技術(shù)從原來的以關(guān)鍵詞為基礎(chǔ)的算法轉(zhuǎn)變成為以知識層為基礎(chǔ)的算法,甚至實現(xiàn)自然語言搜索服務(wù)。
隨著智能化技術(shù)的發(fā)展與應(yīng)用,計算機搜索引擎智能化已經(jīng)成為當(dāng)前我國計算機搜索引擎未來發(fā)展的必然趨勢?,F(xiàn)今,我國民眾在使用計算機搜索引擎的過程當(dāng)中,首先需要提供一個或者多個關(guān)鍵詞,之后通過搜索引擎在索引數(shù)據(jù)庫之中進行檢索,從而得到自己想要的信息。這種計算機搜索引擎具備一定的局限性,并且查找率也遠遠不足。通過將人工智能技術(shù)和計算機搜索引擎有機結(jié)合起來,設(shè)計一個智能化搜索引擎,可以有效提高用戶信息檢索的效率以及質(zhì)量。相比于傳統(tǒng)計算機搜索引擎,智能化搜索引擎檢索精準度更高。計算機搜索引擎智能化特征主要有以下三個方面的內(nèi)容:
第一點,智能屬性。通過搜索蜘蛛能夠自動完成遍歷互聯(lián)網(wǎng),同時根據(jù)啟發(fā)式學(xué)習(xí)能夠?qū)崿F(xiàn)自動索引信息,同時對索引的最終結(jié)果進行智能化分析,最終將具備價值的信息內(nèi)容存儲到數(shù)據(jù)庫之中。
第二點,主動屬性。計算機搜索引擎能夠結(jié)合民眾的搜索行為,進而對用戶的實際需求以及興趣進行總結(jié)和分析,進而對反饋信息進行合理調(diào)整。
第三點,交互屬性。智能語音識別技術(shù)的發(fā)展與應(yīng)用,使得計算機搜索引擎能夠和民眾之間實現(xiàn)語言交互,通過語言的語境來保障分詞的準確性,從而精準把握住民眾的實際搜索需求。
4 ?計算機搜索引擎智能化核心技術(shù)說明
現(xiàn)今,我國計算機搜索引擎智能化技術(shù)的核心主要分為以下兩個方面的內(nèi)容:分別是語義理解技術(shù)以及機器翻譯技術(shù)。其中,機器翻譯技術(shù)的主要作用就是讓自然語言和計算機語言之間能夠自由轉(zhuǎn)換,從最開始的完全靠人為編寫規(guī)則的全機械翻譯方法,發(fā)展成為后來的SMT翻譯方法,時至今日的具有人工智能的神經(jīng)機器翻譯NMT,在過去的日子,機器翻譯不斷迭代更新,尤其是在深度學(xué)習(xí)技術(shù)走入我們生活中后,機器翻譯的正確率得到了很大提升?;谏疃葘W(xué)習(xí)的神經(jīng)翻譯技術(shù)采用一種端到端(End-to-End)的結(jié)構(gòu),優(yōu)點在于不再需要人為的去抽取特征。另外,網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計簡單,不需要進行詞語切分、詞語對齊、句法樹設(shè)計等復(fù)雜的設(shè)計工作。雖然需要極其復(fù)雜的訓(xùn)練和大量的樣本統(tǒng)計,但是還是廣泛被Google等搜索引擎所采用。
從最初完全基于人為編纂規(guī)則的機器翻譯方法,到后來基于統(tǒng)計的SMT方法,再到現(xiàn)在神經(jīng)機器翻譯NMT,機器翻譯技術(shù)在過去60多年的時間里一直不斷的更新,特別是在2012深度學(xué)習(xí)技術(shù)進入人們視野之后,機器翻譯的準確率不斷刷新,例如:在用戶使用自然語言進行檢索的過程當(dāng)中,哪怕用戶使用的是母語如漢語去搜索非母語如英語的網(wǎng)絡(luò)頁面,通過機器翻譯技術(shù)也能夠?qū)⒂脩舻臐h語翻譯成英語進而獲取搜索結(jié)果,并將最終結(jié)果之中的英語翻譯成中文再提供給民眾。語義理解技術(shù)主要是通過結(jié)合語言學(xué)來對民眾的語言以及語義進行準確理解。語義理解技術(shù)是NLP技術(shù)組成的一大重要部分,語義理解的核心除了要理解詞匯本身的含義,在文章行文中,在段落中,在句子中的語意都需考慮在內(nèi)。語義理解可以分為三層結(jié)構(gòu):首先,應(yīng)用層,包括行業(yè)應(yīng)用和智能語音交互系統(tǒng)/技術(shù)應(yīng)用,其次,NLP層面,主要以語言、文學(xué)、計算機語言等諸多學(xué)科為參照背景,對自然語言進行深度解析,抽取時間、因果、天氣、情緒等因素來判斷,最后,自然語言生成(NLG層),最終讓計算機“明白”人的語言,具有人的言語認知,把計算機數(shù)據(jù)轉(zhuǎn)化為自然語言。
4.1 ?自然語言語義理解技術(shù)
現(xiàn)今,我國語言識別技術(shù)已經(jīng)發(fā)展的相當(dāng)成熟了,但是要想通過該技術(shù)將識別的語言內(nèi)容分解成為一個一個的關(guān)鍵詞,進而讓搜索引擎進行搜索獲得準確的回答,那么其難度將會大大增加,特別是我國語言博大精深,一個相同的詞匯在不同語境之下有著截然不同的含義。因此,自然語言理解技術(shù)必須要能夠結(jié)合不同的語境來對關(guān)鍵詞的含義進行精準把握,進而為民眾提供更加準確的信息內(nèi)容。本文總結(jié)了以下兩種自然語言語義理解技術(shù),分別是漢語分詞技術(shù)、短語識別技術(shù)。
第一點,漢語分詞技術(shù)。由于漢語之中詞語和詞語之間并不存在明確的界限,我國在沒有發(fā)明標點符號之前,經(jīng)常出現(xiàn)因為語句斷句的不同,導(dǎo)致一句相同的句子有著截然不同的含義的情況發(fā)生。到現(xiàn)在,隨著標點符號的出現(xiàn),這一現(xiàn)象少了許多,但是在一句話之中,停頓的地方不同也同樣會導(dǎo)致句子出現(xiàn)截然不同的含義。因此,必須要應(yīng)用漢語分詞技術(shù),來精準把握民眾語言的實際含義,有效防止因為識別錯誤導(dǎo)致最終檢索結(jié)果與民眾需要的內(nèi)容南轅北轍的情況發(fā)生。例如:可以通過結(jié)合民眾語言之中每個詞語出現(xiàn)的頻率,之后通過正向、逆向最大匹配法對詞語的含義進行詳細劃分,有效防止歧義出現(xiàn),有效保障分詞的準確性。我們以最大匹配法為例,最大匹配法很簡單,適用于對分詞要求不高的場景。
按照匹配的方向,最大匹配法分為:正向最大匹配(Forward Maximum Matching,F(xiàn)MM)、逆向最大匹配法(Reverser Maximum Matching,RMM)、雙向最大匹配法(Bi-directional Maximum Matching,BMM)。
以正向最大匹配法為例,設(shè)A為句子A的一個子串,詞表中最長詞的字數(shù)為m,正向最大匹配法的過程描述則為:首先初始化,指針p1指向句首位置,如果p1到達句子末尾,分詞結(jié)束;p2=p1+m;如果p1和p2之間的字符串A在詞表中不存在,p2--,重復(fù)此步驟;如果p1和p2之間的字符串A在詞表中存在,則A是一個詞,p1=p2+1,轉(zhuǎn)第一步驟。
第二點,短語識別技術(shù)。短語識別技術(shù)主要是對漢語分詞技術(shù)進行有效補充,基于基本名詞短語(base noun phrase,base NP)的識別是我們研究自然語言處理的重要方向,目的是從文本中提取單一、非嵌套式、不包含其他名字的短語(非復(fù)合短語),基本名詞短語含有豐富的語法和語意,識別結(jié)果可服務(wù)于搜索引擎。民眾通過搜索引擎進行關(guān)鍵詞查詢時經(jīng)常使用多個關(guān)鍵詞組成的短語,其又被稱為長尾關(guān)鍵詞,并且長尾關(guān)鍵詞疊加會形成加長長尾關(guān)鍵詞,當(dāng)出現(xiàn)這些情況時就必須要應(yīng)用短語識別技術(shù)對這些關(guān)鍵詞進行正確分詞,借此有效保障民眾信息檢索的精準性。
4.2 ?人機界面交互智能技術(shù)
智能搜索引擎的人機交互最為顯著的特征就是和民眾之間的互動,其不再局限于搜索框之上的交互。一般情況下人機界面交互智能技術(shù)包含搜索提交技術(shù)的語言語音、搜索結(jié)果的智能化技術(shù)、搜索向?qū)б约八阉餍袨榧夹g(shù)等多方面的內(nèi)容,GOMS模型認為,用戶使用交互界面執(zhí)行任務(wù)時,都有一個目的,這個目的可以細分為許多子目標,為了完成每個子目標,可使用不同的操作和方法。如果實現(xiàn)目標的方法多于一種,用戶依據(jù)當(dāng)前情境,利用GOMS提供的選擇規(guī)則選取適當(dāng)?shù)姆椒▉韺崿F(xiàn)目標。通過該技術(shù)能夠?qū)δ:Z義、精確語義以及自然語義等多種不同形式的語義進行查詢,同時這些智能化技術(shù)也是建設(shè)人機交互界面的核心所在。
4.3 ?智能搜索引擎云技術(shù)
智能搜索引擎的數(shù)據(jù)庫設(shè)立在全球服務(wù)器之中,為了有效提高檢索工作的效率以及質(zhì)量,我國計算機搜索引擎之中采用的大多都是代理技術(shù)。隨著云技術(shù)的發(fā)展與應(yīng)用,其能夠?qū)⑷蚍?wù)器作為一個云系統(tǒng),借此有效提高數(shù)據(jù)庫的調(diào)用效率。云,服務(wù)不在本地,云端服務(wù)器資源共享,云技術(shù)并沒有什么新的語言,而是在傳統(tǒng)的C++、Java基礎(chǔ)上發(fā)展的,最主要的區(qū)別不在發(fā)展上而在架構(gòu)上,通常采用分布式架構(gòu)。其中,比較火熱的云技術(shù)為:Hadoop,通過傳統(tǒng)的Java語言來實現(xiàn)對云計算產(chǎn)生的大數(shù)據(jù)的處理,Hadoop是一個分布式架構(gòu)的解決方案,眾所周知云并沒有將計算壓力集于一身,而Hadoop能夠很好的將壓力分布于各個服務(wù)器之中,提升了云的處理速度,緩解了服務(wù)器的壓力,用戶可以共享更優(yōu)質(zhì)的云資源。云技術(shù)的飛速發(fā)展有效提高了計算機搜索引擎的算法速度,使智能搜索引擎的運行效率大大上升。
5 ?計算機搜索引擎智能化技術(shù)展現(xiàn)
智能搜索引擎雖然有著多種模式,但是這些模式的技術(shù)實現(xiàn)本質(zhì)上都是相通的,主要分為以下兩種技術(shù)實現(xiàn)方式,分別是知識庫以及信息庫。
其中,知識庫決定了計算機搜索引擎智能化程度的高低,這主要是因為計算機搜索引擎智能化就是建立在知識庫的基礎(chǔ)之上的,通過知識庫能夠接受信息并對這些信息進行判斷以及提取分析,最終對信息內(nèi)容進行總結(jié),從而有效擴充知識庫的容量,實現(xiàn)精準的智能化搜索引擎服務(wù),提高我國民眾檢索工作的效率以及質(zhì)量;信息庫主要是互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的總稱,信息庫是一種非機構(gòu)化并且會不斷產(chǎn)生變化的信息空間。信息庫的主要作用就是能夠為知識庫的成長提供足夠的信息資源,有效促進知識庫的發(fā)展壯大,
6 ?計算機搜索引擎智能化技術(shù)的未來發(fā)展
計算機搜索引擎智能化技術(shù)的未來發(fā)展一方面需要解決當(dāng)前搜索引擎技術(shù)之中存在的不足之處,另一方面應(yīng)當(dāng)積極融入智能搜索技術(shù),借此有效提高民眾的搜索體驗。因此,計算機搜索引擎智能化技術(shù)的未來發(fā)展應(yīng)當(dāng)注意以下兩個方面的內(nèi)容:
第一點,開發(fā)元搜索功能,并將其往云搜索以及集成化搜索的方向發(fā)展,借此有效提高資源的利用率,同時為民眾提供更加多元化以及全面的信息內(nèi)容。
第二點,促進自然語言搜索的無縫對接,借此實現(xiàn)智能化自然語言、上下文關(guān)鍵詞搜索、智能化路徑查詢功能等多方面的內(nèi)容,有效解決地域搜索問題。
7 ?結(jié) ?論
隨著時代的發(fā)展,我國搜索引擎技術(shù)已經(jīng)正式開始朝著智能化的方向發(fā)展了,我國網(wǎng)絡(luò)之中的信息質(zhì)量將變得越來越高,垃圾信息將會變得越來越少,這將有效促進我國網(wǎng)絡(luò)的健康發(fā)展,為我國社會經(jīng)濟的可持續(xù)發(fā)展打下堅實的基礎(chǔ)。
參考文獻:
[1] 楊宇,杜文斌,周亞軍.計算機搜索引擎智能化技術(shù)研究 [J].電腦迷,2017(7):20.
[2] 林勇.計算機搜索引擎智能化技術(shù)研究 [J].煤炭技術(shù),2013,32(6):175-177.
[3] 崔道江,陳琳,李勇.智能檢索引擎中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)優(yōu)化研究 [J].計算機測量與控制,2017,25(6):189-191.
作者簡介:劉波(1997.04-),女,漢族,遼寧沈陽人,本科,研究方向:計算機科學(xué)與技術(shù)。