基于行為模式進行網(wǎng)絡搜索信息過濾

2010-05-11 06:01田學志

中國新技術新產(chǎn)品 2010年17期

賀維劉彬田學志

（1、黑龍江農(nóng)業(yè)工程職業(yè)學院，黑龍江哈爾濱 150000 2、泰山學院，山東泰安 271000）

引言

隨著互聯(lián)網(wǎng)普及，網(wǎng)絡搜索成為一種最快捷、最有效的信息獲得手段，用戶可以通過登錄網(wǎng)絡搜索平臺，鍵入查詢關鍵字搜索和收集需要的信息。在享受網(wǎng)絡搜索技術便利的同時，搜索結果中的大量垃圾信息也給用戶帶來極大的不便，用戶經(jīng)常需要大量點擊搜索結果來獲得有效信息[1]。

利用行為模式技術，搜索平臺通過對垃圾信息統(tǒng)計出的不同行為特征，對搜索結果信息進行過濾，來增強信息搜索的準確率。

1 網(wǎng)絡搜索引擎技術

1.1 搜索器

衡量搜索引擎的一條很重要的標準，就是搜索到信息的海量性。為了實現(xiàn)這一條標準，通常需要一種強大的搜索器作為支撐，一般稱為為“網(wǎng)絡蜘蛛”。

“網(wǎng)絡蜘蛛”即Web Spider，是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁，從網(wǎng)站的某一個頁面開始，讀取網(wǎng)頁的內(nèi)容，找到在網(wǎng)頁中的其它鏈接地址，然后通過這些鏈接地址尋找下一個網(wǎng)頁，這樣循環(huán)下去，直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。在抓取網(wǎng)頁的時候，“網(wǎng)絡蜘蛛”一般有兩種策略深度優(yōu)先、廣度優(yōu)先。通過內(nèi)容提取技術獲取網(wǎng)頁上文本信息[2]。

1.2 搜索結果中垃圾信息

在用戶通過定義的關鍵字實施信息搜索時，經(jīng)常會獲得大量的搜索結果，從這些海量信息中提取有效信息經(jīng)常會浪費用戶大量的時間和精力。對于用戶來說，沒有利用價值的信息可以認為是無效搜索信息，而在這其中還存在很大一部分由于某些網(wǎng)站為增加點擊率而故意篡改信息產(chǎn)生的垃圾信息。

搜索引擎Inktomi認為是垃圾信息的主要內(nèi)容為:隱藏的、欺騙性的、以及與網(wǎng)頁內(nèi)容不相關的文字；META標簽中的內(nèi)容并非網(wǎng)頁內(nèi)容的真實描述；沒有明確的目的有意設計重新指向的URL；利用程序使得在搜索結果中出現(xiàn)大量同樣的網(wǎng)頁；有意設置讓人誤解的鏈接；并不反映網(wǎng)站真實內(nèi)容的入門網(wǎng)頁或者隱藏的網(wǎng)頁；自動產(chǎn)生大量無關的垃圾鏈接。

2 行為模式識別技術實施信息過濾

2.1 行為模式識別技術

行為模式是從大量實際行為中概括出來作為行為的理論抽象、基本框架或標準[3]。行為模式識別技術的思想是通過基于對大量信息樣本進行的統(tǒng)計、分析和計算，建立行為模式數(shù)學模型，利用這種具有極高行為特征的模型，對新的信息進行分析判定[4]。

2.2 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價值的信息的技術。這些信息是可能有潛在價值的，支持決策，可以為企業(yè)帶來利益，或者為科學研究尋找突破口[5]。

對于垃圾信息行為模式進行信息挖掘，主要是針對相關WEB信息的數(shù)據(jù)挖掘。主要包含WEB內(nèi)容挖掘，WEB結構挖掘，WEB用法挖掘。

WEB內(nèi)容挖掘:針對垃圾信息WEB的內(nèi)容、數(shù)據(jù)、文檔發(fā)現(xiàn)共同信息，從資源查詢角度挖掘非結構化的文檔。

WEB結構挖掘:Web結構挖掘的對象是垃圾信息WEB的超連接，即對Web文檔的結構進行挖掘。對于給定的Web文檔集合，應該能夠通過算法發(fā)現(xiàn)他們之間連接情況的有用信息，文檔之間的超連接反映了文檔之間的包含、引用或者從屬關系，引用文檔對被引用文檔的說明往往更客觀、更概括、更準確。

WEB用法挖掘:Web使用記錄挖掘，對垃圾信息WEB使用記錄數(shù)據(jù)除了服務器的日志記錄外還包括代理服務器日志、瀏覽器端日志、注冊信息、用戶會話信息、Cookie中的信息、用戶查詢、鼠標點擊流等一切用戶與站點之間可能的交互記錄。來發(fā)現(xiàn)用戶訪問Web頁面的模式，分析垃圾信息WEB的規(guī)律。

2.3 主元分析

它是一種對數(shù)據(jù)進行分析的技術，最重要的應用是對原有數(shù)據(jù)進行簡化。正如它的名字——主元分析，這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結構，去除噪音和冗余，將原有的復雜數(shù)據(jù)降維，揭示隱藏在復雜數(shù)據(jù)背后的簡單結構。它的優(yōu)點是簡單，而且無參數(shù)限制，可以方便的應用與各個場合[6]。利用主元分析技術對于垃圾信息的不同行為模式，利用應用線形代數(shù)知識進行科學求解，最大程度去掉冗余和干擾，找到垃圾信息的主要行為模式。

2.4 基于行為模式的垃圾過濾模型

通過行為模式識別技術對網(wǎng)絡搜索結果中的垃圾信息進行過濾，其思想是對大量垃圾信息樣本進行分析，建立垃圾信息行為特征模型，利用這個特征模型對搜索的結果信息進行分析、判斷，過濾其中的垃圾信息。整個垃圾信息過濾模型，基于信息——知識——智能理論指導，采用數(shù)據(jù)挖掘方法提取垃圾信息的行為規(guī)則，從而建立垃圾信息過濾模型。信息表示事物狀態(tài)變化方式，知識表示事物狀態(tài)變化規(guī)律，智能表示根據(jù)已知事物變化規(guī)律指定對未知事物檢測的規(guī)則。

智能模型建立步驟:

首先大量收集不同搜索結果中包含的垃圾信息；根據(jù)Inktomi對垃圾信息定義對搜索的信息進行分類整理，并進行垃圾信息預處理，通過數(shù)據(jù)格式和內(nèi)容調整使數(shù)據(jù)更符合數(shù)據(jù)挖掘的需要；根據(jù)數(shù)據(jù)挖掘算法對垃圾信息行為模式進行挖掘；利用主元分析理論，對垃圾信息的行為特征進行計算分析，找到數(shù)據(jù)中最主要的元素和結構；將垃圾信息的主要行為進行知識表示；從生成的知識中生成求解問題的策略和規(guī)則；利用生成的策略和規(guī)則建立垃圾信息過濾模型，從而解決所面對的實際問題。

建立模型需要解決的關鍵問題:

垃圾信息的收集是否全面，能否采集到準確，真實的數(shù)據(jù)來是研究基礎；垃圾信息中得到的數(shù)據(jù)適應性，是否能對這一類垃圾信息真實全面反應；對垃圾信息的行為模式進行數(shù)據(jù)挖掘時采用的算法；提取垃圾信息各種行為中的主要元素的方法；對垃圾信息的行為模式特征的分析，產(chǎn)生垃圾信息過濾的規(guī)則集。

3 信息過濾系統(tǒng)

如圖1所示，為信息過濾系統(tǒng)結構圖，在原有的網(wǎng)絡搜索引擎系統(tǒng)中，通過將文本索引中包含的索引信息發(fā)送給過濾服務器，通過索引信息中鏈接查詢相關WEB，分析該WEB的行為特征，與垃圾信息行為特征庫中不同類型的垃圾信息的行為特征進行比較，清理掉被判定為垃圾信息的搜索結果信息，將正常行為信息存入索引數(shù)據(jù)庫。

圖1 信息過濾系統(tǒng)

其中，過濾服務器需要完成4方面的工作，包括信息采樣、行為解析、特征比較、信息過濾。信息采樣:提取文本索引中的信息，包括鏈接，文本信息等信息。行為解析:對不同信息進行分析，提取主要行為特征。特征比較:將不同WEB中信息的行為特征與垃圾信息的行為特征進行比較。信息過濾:過濾到與垃圾信息的行為特征相同的信息。

4 信息過濾系統(tǒng)的特點

提高搜索的準確性:由于垃圾信息和正常信息在特征上存在很多差別，利用行為模式識別技術實現(xiàn)信息過濾可提高信息搜索的準確性。系統(tǒng)部署方便:對于文本索引中的信息，進行信息過濾，不改變原有網(wǎng)絡搜索引擎結構，相對獨立，易于升級維護。搜索結果相對公平:由于過濾系統(tǒng)相對獨立，可由第三方開發(fā)商設計指定，避免網(wǎng)絡搜索提供商出于自身利益等考慮而為用戶提供的搜索結果。節(jié)省用戶信息搜索時間:由于垃圾信息減少，節(jié)省了用戶需要大量打開不同鏈接查詢信息的時間。先進的過濾技術:傳統(tǒng)采用內(nèi)容關鍵字過濾時，由于某些網(wǎng)站隨意修改關鍵詞內(nèi)容，這樣原有的詞庫不能找到匹配的關鍵詞，從而無法過濾垃圾信息，而行為模式識別技術從垃圾信息的特征行為進行判定，即使進行了關鍵詞內(nèi)容修改仍可以判定垃圾信息。

5 總結

搜索結果中的垃圾信息，對于用戶和搜索引擎自身都帶來了極大的負面影響，傳統(tǒng)的信息過濾技術已經(jīng)不能滿足對垃圾信息的過濾，通過先進的行為模式識別技術來設計過濾系統(tǒng)，可以增加垃圾信息過濾的準確性，提高搜索結果的正確性，從而滿足用戶對信息獲得的要求。

[1]黃曉斌，邱明輝，網(wǎng)絡信息過濾系統(tǒng)研究，情報學報，2004.6(23).

[2]金益，基于網(wǎng)絡蜘蛛原理的搜索引擎技術剖析，電腦學習，2007.10(5).

[3]J.Michael Reed，Recognition Behavior Based Problems in Species Conservation，ANN.ZOOL.FENNICL，2004.10.

[4]Xuan Zhang， Jianyi Liu， Yaolong Zhang，Cong Wang，Spam Behavior Recognition Based on Session Layer Data Mining，F(xiàn)uzzy Systems and Knowledge Discovery，2006.10.

[5]Andy Tseng Ilias Petrounias，A Complete Framwork for Web Mining，IEEE，2003.7.

[6]Lan Jolliffe，Principal Component Analysis，Encyclopedia of Statistics in Behavioral Science 2005.10.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡