賀 維 劉 彬 田學志
(1、黑龍江農(nóng)業(yè)工程職業(yè)學院,黑龍江 哈爾濱 150000 2、泰山學院,山東 泰安 271000)
隨著互聯(lián)網(wǎng)普及,網(wǎng)絡搜索成為一種最快捷、最有效的信息獲得手段,用戶可以通過登錄網(wǎng)絡搜索平臺,鍵入查詢關鍵字搜索和收集需要的信息。在享受網(wǎng)絡搜索技術便利的同時,搜索結果中的大量垃圾信息也給用戶帶來極大的不便,用戶經(jīng)常需要大量點擊搜索結果來獲得有效信息[1]。
利用行為模式技術,搜索平臺通過對垃圾信息統(tǒng)計出的不同行為特征,對搜索結果信息進行過濾,來增強信息搜索的準確率。
衡量搜索引擎的一條很重要的標準,就是搜索到信息的海量性。為了實現(xiàn)這一條標準,通常需要一種強大的搜索器作為支撐,一般稱為為“網(wǎng)絡蜘蛛”。
“網(wǎng)絡蜘蛛”即Web Spider,是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站的某一個頁面開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。在抓取網(wǎng)頁的時候,“網(wǎng)絡蜘蛛”一般有兩種策略深度優(yōu)先、廣度優(yōu)先。通過內(nèi)容提取技術獲取網(wǎng)頁上文本信息[2]。
在用戶通過定義的關鍵字實施信息搜索時,經(jīng)常會獲得大量的搜索結果,從這些海量信息中提取有效信息經(jīng)常會浪費用戶大量的時間和精力。對于用戶來說,沒有利用價值的信息可以認為是無效搜索信息,而在這其中還存在很大一部分由于某些網(wǎng)站為增加點擊率而故意篡改信息產(chǎn)生的垃圾信息。
搜索引擎Inktomi認為是垃圾信息的主要內(nèi)容為:隱藏的、欺騙性的、以及與網(wǎng)頁內(nèi)容不相關的文字;META標簽中的內(nèi)容并非網(wǎng)頁內(nèi)容的真實描述;沒有明確的目的有意設計重新指向的URL;利用程序使得在搜索結果中出現(xiàn)大量同樣的網(wǎng)頁;有意設置讓人誤解的鏈接;并不反映網(wǎng)站真實內(nèi)容的入門網(wǎng)頁或者隱藏的網(wǎng)頁;自動產(chǎn)生大量無關的垃圾鏈接。
行為模式是從大量實際行為中概括出來作為行為的理論抽象、基本框架或標準[3]。行為模式識別技術的思想是通過基于對大量信息樣本進行的統(tǒng)計、分析和計算,建立行為模式數(shù)學模型,利用這種具有極高行為特征的模型,對新的信息進行分析判定[4]。
數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價值的信息的技術。這些信息是可能有潛在價值的,支持決策,可以為企業(yè)帶來利益,或者為科學研究尋找突破口[5]。
對于垃圾信息行為模式進行信息挖掘,主要是針對相關WEB信息的數(shù)據(jù)挖掘。主要包含WEB內(nèi)容挖掘,WEB結構挖掘,WEB用法挖掘。
WEB內(nèi)容挖掘:針對垃圾信息WEB的內(nèi)容、數(shù)據(jù)、文檔發(fā)現(xiàn)共同信息,從資源查詢角度挖掘非結構化的文檔。
WEB結構挖掘:Web結構挖掘的對象是垃圾信息WEB的超連接,即對Web文檔的結構進行挖掘。對于給定的Web文檔集合,應該能夠通過算法發(fā)現(xiàn)他們之間連接情況的有用信息,文檔之間的超連接反映了文檔之間的包含、引用或者從屬關系,引用文檔對被引用文檔的說明往往更客觀、更概括、更準確。
WEB用法挖掘:Web使用記錄挖掘,對垃圾信息WEB使用記錄數(shù)據(jù)除了服務器的日志記錄外還包括代理服務器日志、瀏覽器端日志、注冊信息、用戶會話信息、Cookie中的信息、用戶查詢、鼠標點擊流等一切用戶與站點之間可能的交互記錄。來發(fā)現(xiàn)用戶訪問Web頁面的模式,分析垃圾信息WEB的規(guī)律。
它是一種對數(shù)據(jù)進行分析的技術,最重要的應用是對原有數(shù)據(jù)進行簡化。正如它的名字——主元分析,這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結構,去除噪音和冗余,將原有的復雜數(shù)據(jù)降維,揭示隱藏在復雜數(shù)據(jù)背后的簡單結構。它的優(yōu)點是簡單,而且無參數(shù)限制,可以方便的應用與各個場合[6]。利用主元分析技術對于垃圾信息的不同行為模式,利用應用線形代數(shù)知識進行科學求解,最大程度去掉冗余和干擾,找到垃圾信息的主要行為模式。
通過行為模式識別技術對網(wǎng)絡搜索結果中的垃圾信息進行過濾,其思想是對大量垃圾信息樣本進行分析,建立垃圾信息行為特征模型,利用這個特征模型對搜索的結果信息進行分析、判斷,過濾其中的垃圾信息。整個垃圾信息過濾模型,基于信息——知識——智能理論指導,采用數(shù)據(jù)挖掘方法提取垃圾信息的行為規(guī)則,從而建立垃圾信息過濾模型。信息表示事物狀態(tài)變化方式,知識表示事物狀態(tài)變化規(guī)律,智能表示根據(jù)已知事物變化規(guī)律指定對未知事物檢測的規(guī)則。
智能模型建立步驟:
首先大量收集不同搜索結果中包含的垃圾信息;根據(jù)Inktomi對垃圾信息定義對搜索的信息進行分類整理,并進行垃圾信息預處理,通過數(shù)據(jù)格式和內(nèi)容調整使數(shù)據(jù)更符合數(shù)據(jù)挖掘的需要;根據(jù)數(shù)據(jù)挖掘算法對垃圾信息行為模式進行挖掘;利用主元分析理論,對垃圾信息的行為特征進行計算分析,找到數(shù)據(jù)中最主要的元素和結構;將垃圾信息的主要行為進行知識表示;從生成的知識中生成求解問題的策略和規(guī)則;利用生成的策略和規(guī)則建立垃圾信息過濾模型,從而解決所面對的實際問題。
建立模型需要解決的關鍵問題:
垃圾信息的收集是否全面,能否采集到準確,真實的數(shù)據(jù)來是研究基礎;垃圾信息中得到的數(shù)據(jù)適應性,是否能對這一類垃圾信息真實全面反應;對垃圾信息的行為模式進行數(shù)據(jù)挖掘時采用的算法;提取垃圾信息各種行為中的主要元素的方法;對垃圾信息的行為模式特征的分析,產(chǎn)生垃圾信息過濾的規(guī)則集。
如圖1所示,為信息過濾系統(tǒng)結構圖,在原有的網(wǎng)絡搜索引擎系統(tǒng)中,通過將文本索引中包含的索引信息發(fā)送給過濾服務器,通過索引信息中鏈接查詢相關WEB,分析該WEB的行為特征,與垃圾信息行為特征庫中不同類型的垃圾信息的行為特征進行比較,清理掉被判定為垃圾信息的搜索結果信息,將正常行為信息存入索引數(shù)據(jù)庫。
圖1 信息過濾系統(tǒng)
其中,過濾服務器需要完成4方面的工作,包括信息采樣、行為解析、特征比較、信息過濾。信息采樣:提取文本索引中的信息,包括鏈接,文本信息等信息。行為解析:對不同信息進行分析,提取主要行為特征。特征比較:將不同WEB中信息的行為特征與垃圾信息的行為特征進行比較。信息過濾:過濾到與垃圾信息的行為特征相同的信息。
提高搜索的準確性:由于垃圾信息和正常信息在特征上存在很多差別,利用行為模式識別技術實現(xiàn)信息過濾可提高信息搜索的準確性。系統(tǒng)部署方便:對于文本索引中的信息,進行信息過濾,不改變原有網(wǎng)絡搜索引擎結構,相對獨立,易于升級維護。搜索結果相對公平:由于過濾系統(tǒng)相對獨立,可由第三方開發(fā)商設計指定,避免網(wǎng)絡搜索提供商出于自身利益等考慮而為用戶提供的搜索結果。節(jié)省用戶信息搜索時間:由于垃圾信息減少,節(jié)省了用戶需要大量打開不同鏈接查詢信息的時間。先進的過濾技術:傳統(tǒng)采用內(nèi)容關鍵字過濾時,由于某些網(wǎng)站隨意修改關鍵詞內(nèi)容,這樣原有的詞庫不能找到匹配的關鍵詞,從而無法過濾垃圾信息,而行為模式識別技術從垃圾信息的特征行為進行判定,即使進行了關鍵詞內(nèi)容修改仍可以判定垃圾信息。
搜索結果中的垃圾信息,對于用戶和搜索引擎自身都帶來了極大的負面影響,傳統(tǒng)的信息過濾技術已經(jīng)不能滿足對垃圾信息的過濾,通過先進的行為模式識別技術來設計過濾系統(tǒng),可以增加垃圾信息過濾的準確性,提高搜索結果的正確性,從而滿足用戶對信息獲得的要求。
[1]黃曉斌,邱明輝,網(wǎng)絡信息過濾系統(tǒng)研究,情報學報,2004.6(23).
[2]金益,基于網(wǎng)絡蜘蛛原理的搜索引擎技術剖析,電腦學習,2007.10(5).
[3]J.Michael Reed,Recognition Behavior Based Problems in Species Conservation,ANN.ZOOL.FENNICL,2004.10.
[4]Xuan Zhang, Jianyi Liu, Yaolong Zhang,Cong Wang,Spam Behavior Recognition Based on Session Layer Data Mining,F(xiàn)uzzy Systems and Knowledge Discovery,2006.10.
[5]Andy Tseng Ilias Petrounias,A Complete Framwork for Web Mining,IEEE,2003.7.
[6]Lan Jolliffe,Principal Component Analysis,Encyclopedia of Statistics in Behavioral Science 2005.10.