數(shù)據(jù)挖掘技術(shù)在智能搜索引擎中的應(yīng)用

2018-01-29 10:30劉思皖

科技創(chuàng)新與應(yīng)用 2018年36期

劉思皖

摘要：隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展，構(gòu)建智能化搜索引擎是滿足現(xiàn)代網(wǎng)絡(luò)應(yīng)用的重要舉措。傳統(tǒng)的搜索引擎所提供的信息比較多，不利于精準(zhǔn)服務(wù)，因此文章提出一種將數(shù)據(jù)挖掘技術(shù)應(yīng)用到搜索引擎體系中，以此實(shí)現(xiàn)搜索引擎智能化，為用戶提供最精準(zhǔn)的信息搜索模型。

關(guān)鍵詞：數(shù)據(jù)挖掘技術(shù)；智能；搜索引擎

中圖分類號(hào)：TP391.3 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：2095-2945（2018）36-0039-02

Abstract： With the continuous development of big data technology， the construction of intelligent search engine is an important measure to meet the needs of modern network applications. Traditional search engines provide more information， which is not conducive to accurate services， so this paper proposes a data mining technology applied to the search engine system， in order to achieve intelligent search engines and provide users with the most accurate information search model.

Keywords： data mining technology； intelligence； search engine

引言

隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展，尤其是大數(shù)據(jù)技術(shù)在社會(huì)各領(lǐng)域的應(yīng)用，網(wǎng)絡(luò)已經(jīng)成為人們獲悉信息的主要渠道。傳統(tǒng)的搜索引擎功能需要從大量的信息數(shù)據(jù)庫(kù)中獲得需要的信息，這樣一來(lái)容易出現(xiàn)搜索的信息數(shù)量比較大，有用信息較少的現(xiàn)象。而且依賴于傳統(tǒng)檢索技術(shù)查詢的信息顯示比較混亂，有效性比較差，影響用戶的使用，因此本文利用數(shù)據(jù)挖掘技術(shù)的優(yōu)勢(shì)，將數(shù)據(jù)挖掘技術(shù)應(yīng)用到搜索引擎中，以此改善檢索結(jié)果的組織，提高檢索的準(zhǔn)確性與有效性，增強(qiáng)用戶的滿意度。

1 數(shù)據(jù)挖掘技術(shù)與搜索引擎的概述

數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中挖掘用戶感興趣的或者存在潛在價(jià)值的知識(shí)。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展，數(shù)據(jù)挖掘技術(shù)成為當(dāng)前互聯(lián)網(wǎng)領(lǐng)域研究的熱點(diǎn)課題。一般數(shù)據(jù)挖掘模式主要包括：（1）廣義知識(shí)；（2）關(guān)聯(lián)知識(shí)，就是反映了數(shù)據(jù)庫(kù)中一個(gè)屬性和其它屬性之間的存在關(guān)系；（3）分類知識(shí)；

（4）偏差型知識(shí)等等。數(shù)據(jù)挖掘技術(shù)作為數(shù)據(jù)分析的有力工具，其主要需要滿足以下功能，例如可以準(zhǔn)確的表達(dá)出不同數(shù)據(jù)的關(guān)聯(lián)性，能夠從多抽象層交互挖掘知識(shí)等等。

搜索引擎就是在眾多的網(wǎng)絡(luò)信息中搜索對(duì)自己有用的信息，以此滿足需要。搜索引擎由四個(gè)部分組成：搜索器、索引器、檢索器以及用戶接口。搜索引擎已經(jīng)成為用戶瀏覽網(wǎng)絡(luò)所必須的服務(wù)工具。其工作原理就是當(dāng)用戶以關(guān)鍵詞查找信息時(shí)，搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜索，以便快速的找到與用戶需求相匹配的網(wǎng)站，并且采取特殊的算法按照一定的排序順序等將其反饋給用戶。實(shí)現(xiàn)搜索引擎需要完成以下三個(gè)步驟：在網(wǎng)絡(luò)中發(fā)現(xiàn)并且搜集網(wǎng)頁(yè)信息；對(duì)信息進(jìn)行提取并且組織建立索引數(shù)據(jù)庫(kù)；在利用檢索器對(duì)數(shù)據(jù)進(jìn)行查詢，并且計(jì)算相關(guān)度，將輸出的結(jié)果反饋給用戶。

2 數(shù)據(jù)挖掘技術(shù)在智能搜索引擎中的應(yīng)用

隨著用戶需求的精確性要求，實(shí)現(xiàn)個(gè)性化、智能化搜索引擎是大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展的主要趨勢(shì)。傳統(tǒng)的搜索引擎在精確性、個(gè)性化服務(wù)上存在缺陷。因此本文利用數(shù)據(jù)挖掘技術(shù)的特性設(shè)計(jì)一款基于數(shù)據(jù)挖掘的個(gè)性化信息檢索系統(tǒng)（PIRSBDM），重點(diǎn)是為用戶提供精確化、個(gè)性化的信息查詢結(jié)果。在該系統(tǒng)中主要應(yīng)用數(shù)據(jù)挖掘中的類別規(guī)則挖掘、基于關(guān)鍵詞向量的文檔分類挖掘以及基于SOM文檔聚類挖掘方法以此滿足個(gè)性化信息需求。具體的步驟為：首先通過(guò)對(duì)用戶的個(gè)人信息的觀察后，對(duì)用戶的興趣進(jìn)行提取、描述等建立“用戶個(gè)性化信息庫(kù)”，對(duì)用戶的訪問(wèn)日志采取關(guān)聯(lián)規(guī)則的挖掘方法，同時(shí)不斷地更新用戶數(shù)據(jù)庫(kù)。用戶經(jīng)過(guò)反饋將感興趣的文檔進(jìn)行聚類挖掘，以此更新用戶個(gè)性特征向量表。

2.1 PIRSBDM系統(tǒng)體系結(jié)構(gòu)

基于數(shù)據(jù)挖掘技術(shù)的智能搜索引擎系統(tǒng)的結(jié)構(gòu)運(yùn)行流程為：首先用戶根據(jù)自己的信息需求提交查詢請(qǐng)求，中介數(shù)據(jù)庫(kù)對(duì)用戶查詢主題進(jìn)行模式化、以此產(chǎn)生精準(zhǔn)化的檢索模式，結(jié)合用戶個(gè)人的特征向量表、關(guān)鍵詞表等給用戶提供最佳的搜索引擎模塊；其次對(duì)于提供的最佳搜索引擎模塊信息會(huì)提交“信息檢索中心”，當(dāng)然檢索中心所提供的信息可能會(huì)存在不符合用戶興趣的內(nèi)容，因此結(jié)合用戶的個(gè)性興趣等，例如數(shù)據(jù)挖掘技術(shù)中的分類挖掘等技術(shù)將重復(fù)的信息或者對(duì)用戶不感興趣的信息過(guò)濾掉，以此得到個(gè)性化的信息。

（1）用戶。為了幫助用戶準(zhǔn)確的查詢到自己感興趣的信息，設(shè)計(jì)用戶輸入模塊，其主要包括：模板、詞典、關(guān)鍵詞以及同義詞。用戶模塊是智能搜索引擎構(gòu)建的基礎(chǔ)，也是智能搜索引擎設(shè)計(jì)的關(guān)鍵。

（2）最優(yōu)檢索式最優(yōu)搜索引擎模塊。該模塊主要接收經(jīng)過(guò)中介索引庫(kù)轉(zhuǎn)化的用戶請(qǐng)求，將其變?yōu)槟軌虮凰阉饕孀R(shí)別的格式，結(jié)合用戶關(guān)鍵詞表，如果用戶搜索的關(guān)鍵詞在該數(shù)據(jù)庫(kù)中說(shuō)明用戶查詢過(guò)，對(duì)此系統(tǒng)就會(huì)直接為用戶提供相應(yīng)的查詢結(jié)果。但是如果該關(guān)鍵詞在數(shù)據(jù)中沒(méi)有，則表明用戶沒(méi)有查詢過(guò)，對(duì)此系統(tǒng)就會(huì)對(duì)該關(guān)鍵詞進(jìn)行歸類，如果在“關(guān)鍵詞表”中存在該類別，則只需要將該關(guān)鍵詞作為已有的屬性值，如果沒(méi)有則需要添加，以此更新“關(guān)鍵詞表”。本模塊主要完成的功能是，接收用戶的轉(zhuǎn)換后的“查詢請(qǐng)求”，結(jié)合“用戶個(gè)性化信息庫(kù)”和“搜索引擎信息庫(kù)”選擇最優(yōu)搜索引擎進(jìn)行搜索，同時(shí)可以不斷的更新“用戶查詢關(guān)鍵詞表”。

（3）聚類挖掘模塊。該模塊的主要功能就是更新“用戶信息庫(kù)”中的用戶特征向量表。實(shí)現(xiàn)個(gè)性化搜索引擎的關(guān)鍵就是根據(jù)用戶的特征為其提供相應(yīng)的信息，例如該模塊所具備的跟蹤用戶學(xué)習(xí)、記憶用戶興趣可以增強(qiáng)搜索引擎的效率。實(shí)現(xiàn)該模塊的方法主要是用戶將自己感興趣的信息按照特定的格式提交系統(tǒng)或者用戶興趣學(xué)習(xí)。

（4）關(guān)聯(lián)規(guī)則挖掘模塊。該模塊出于用戶與用戶數(shù)據(jù)庫(kù)之間，其作用主要是通過(guò)對(duì)用戶日志的挖掘，尋求用戶各個(gè)檢索關(guān)鍵詞之間的關(guān)聯(lián)規(guī)則，以此發(fā)現(xiàn)用戶潛在的興趣，并且更新用戶關(guān)鍵詞表信息。挖掘的對(duì)象是以關(guān)鍵詞作為列的內(nèi)容，而以每次的檢索事務(wù)中所查詢的關(guān)鍵詞組合成一行，通過(guò)對(duì)日志的挖掘形成的“用戶查詢關(guān)鍵詞表”，挖掘出的用戶的個(gè)性化信息。

（5）搜索引擎信息庫(kù)。信息庫(kù)是支撐搜索引擎的基礎(chǔ)，搜索引擎信息庫(kù)能夠及時(shí)根據(jù)用戶檢索需求而提供相應(yīng)的數(shù)據(jù)。搜索引擎信息庫(kù)的構(gòu)建應(yīng)該具備網(wǎng)站、中文名字等等信息。

2.2 PIRSBDM系統(tǒng)關(guān)鍵技術(shù)

構(gòu)建基于數(shù)據(jù)挖掘技術(shù)的智能搜索引擎需要重點(diǎn)利用以下關(guān)鍵技術(shù)：

（1）關(guān)聯(lián)規(guī)則挖掘

該技術(shù)是數(shù)據(jù)挖掘技術(shù)的重要組成部分，它可以發(fā)現(xiàn)數(shù)據(jù)庫(kù)中項(xiàng)或?qū)傩蚤g的有趣關(guān)系。由于這些關(guān)系具有隱蔽性或者預(yù)先未知，因此難以依靠數(shù)據(jù)庫(kù)邏輯實(shí)現(xiàn)，必須要通過(guò)關(guān)聯(lián)規(guī)則挖掘技術(shù)進(jìn)行實(shí)現(xiàn)。關(guān)聯(lián)規(guī)則挖掘的過(guò)程分成兩個(gè)步驟。第一步發(fā)現(xiàn)所有的頻繁項(xiàng)目集，即支持度大于給定最小支持度閾值的項(xiàng)集；第二步根據(jù)所獲得的頻繁項(xiàng)目集產(chǎn)生關(guān)聯(lián)規(guī)則，根據(jù)定義，這些規(guī)則必須滿足最小置信度閾值。對(duì)于關(guān)聯(lián)規(guī)則的算法主要采取的是Apriori算法。首先找出頻繁1-項(xiàng)集，記為L(zhǎng)1；然后利用L1來(lái)挖掘L2，即頻繁2-項(xiàng)集；不斷如此循環(huán)下去直到無(wú)法發(fā)現(xiàn)更多的頻繁k-項(xiàng)集為止。每挖掘一層Lk就需要掃描整個(gè)數(shù)據(jù)庫(kù)一遍。

（2）基于關(guān)鍵詞向量的文檔分類挖掘

文檔分類是實(shí)現(xiàn)智能搜索引擎的關(guān)鍵，文檔顧名思義就是用來(lái)描述一定規(guī)則的文檔，文檔歸類就是將大量的文檔按照一個(gè)主題進(jìn)行歸類的過(guò)程。因此文檔的分類直接關(guān)系到搜索引擎體系的構(gòu)建。文檔分類就是根據(jù)數(shù)據(jù)庫(kù)信息種類屬性進(jìn)行特征歸類，以此準(zhǔn)確的為用戶提供信息檢索服務(wù)。當(dāng)然在文檔歸類挖掘前必須要對(duì)文檔相識(shí)度進(jìn)行計(jì)算以及保證文檔歸類的合理性。例如文檔相識(shí)度越接近，這樣就可以更好的對(duì)屬性相同的文檔進(jìn)行統(tǒng)一歸類，便于提高檢索速度，提升用戶的滿意度。

（3）基于SOM的Web文檔層次聚類方法

聚類是一種無(wú)監(jiān)督分類法，在聚類之前沒(méi)有預(yù)先指定的類別。SOM網(wǎng)絡(luò)的優(yōu)點(diǎn)在于：可以實(shí)現(xiàn)實(shí)時(shí)學(xué)習(xí)，網(wǎng)絡(luò)具有自穩(wěn)定性，無(wú)須外界給出評(píng)價(jià)函數(shù)，能夠識(shí)別向量空間中最有意義的特征，抗噪音能力強(qiáng)。Web文檔的聚類：首先訓(xùn)練SOM網(wǎng)絡(luò)。構(gòu)造SOM聚類神經(jīng)網(wǎng)絡(luò)：以訓(xùn)練樣本的N個(gè)（N=182）特征詞作為SOM網(wǎng)絡(luò)的輸入神經(jīng)元，人為限定M個(gè)（M=10）文檔類別作為SOM網(wǎng)絡(luò)的輸出神經(jīng)元，構(gòu)成一個(gè)二層的Web文檔自組織聚類訓(xùn)練SOM網(wǎng)絡(luò)。提取文檔特征詞，構(gòu)造輸入向量序列Xk。將輸入向量逐一輸入SOM網(wǎng)絡(luò)，進(jìn)行學(xué)習(xí)訓(xùn)練；其次聚類用戶感興趣的文檔。聚類用戶感興趣文檔的處置流程為：中文文檔經(jīng)過(guò)預(yù)處理提取主題詞，然后生成輸入模式向量、文檔自組織映射。預(yù)處理模塊的主要作用就是為了利用SOM方法對(duì)文檔進(jìn)行有效地編碼，例如在預(yù)處理模塊需要對(duì)文檔中的圖形、非文字等信息進(jìn)行處理，以此保證可以準(zhǔn)確的提取到關(guān)鍵詞，最終輸入到訓(xùn)練好的SOM網(wǎng)絡(luò)中進(jìn)行層次聚類。對(duì)于輸入向量，則是通過(guò)SOM網(wǎng)絡(luò)所進(jìn)行點(diǎn)積運(yùn)算，以此獲得相應(yīng)的輸出獲勝結(jié)點(diǎn)，該結(jié)點(diǎn)也就是聚類中心。相應(yīng)的聚類中心所構(gòu)成的文檔會(huì)形成同一類別的文檔。如果某文檔所包含的文檔越多，說(shuō)明用戶對(duì)該方面的信息需求比較多。在實(shí)際的系統(tǒng)應(yīng)用設(shè)計(jì)中需要注意以下兩個(gè)問(wèn)題：一是由于SOM屬于多層次系統(tǒng)，因此可以采取多層聚類，這樣可以減少系統(tǒng)的計(jì)算工作任務(wù)，以此更好的提高運(yùn)行效率；二是要對(duì)用戶的文檔進(jìn)行定時(shí)機(jī)制設(shè)計(jì)，例如可以設(shè)計(jì)夜里執(zhí)行層次聚類的模式，這樣可以增強(qiáng)信息儲(chǔ)存量。

3 結(jié)束語(yǔ)

總之基于大數(shù)據(jù)技術(shù)的發(fā)展，用戶對(duì)搜索引擎性能的要求越來(lái)越高，如何為用戶提供個(gè)性化的信息檢索是當(dāng)前搜索引擎發(fā)展的主要趨勢(shì)。數(shù)據(jù)挖掘技術(shù)依托自身存在的優(yōu)勢(shì)應(yīng)用到搜索引擎體系建設(shè)中，不僅實(shí)現(xiàn)了精確化信息檢索服務(wù)，而且還為用戶構(gòu)建了個(gè)性化的服務(wù)模式，大大提高了信息檢索的速度，提高了用戶的滿意度。

參考文獻(xiàn)：

[1]李娟.數(shù)據(jù)挖掘技術(shù)在智能搜索引擎中的應(yīng)用[D].長(zhǎng)春理工大學(xué)，2010.

[2]楊子墨.智能技術(shù)在搜索引擎中的應(yīng)用[J].科技與創(chuàng)新，2017（03）.

[3]趙丁.數(shù)據(jù)挖掘技術(shù)在船舶邊檢管理信息系統(tǒng)中的應(yīng)用[D].河北科技大學(xué)，2017.

[4]Jason Bell，等.ASP.NET程序員參考手冊(cè)[M].清華大學(xué)出版社，2002.

[5]韓家煒，Kamber M.數(shù)據(jù)挖掘：概念與技術(shù)[M].北京：機(jī)械工業(yè)出版社，2001.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

數(shù)據(jù)挖掘技術(shù)在智能搜索引擎中的應(yīng)用