胡秀
摘要:隨著因特網(wǎng)的迅速發(fā)展,數(shù)據(jù)資源量越來越龐大,為從這些資源里迅速、準確找到需要的知識,數(shù)據(jù)挖掘技術(shù)應運而生。介紹了基于Web的數(shù)據(jù)挖掘技術(shù),闡述了該技術(shù)的特征并分類作了介紹,對數(shù)據(jù)挖掘技術(shù)的幾大研究方向作了展望。
關(guān)鍵詞:Web;數(shù)據(jù)挖掘技術(shù);XML
DOIDOI:10.11907/rjdk.143785
中圖分類號:TP392
文獻標識碼:A 文章編號文章編號:16727800(2015)001014902
1 Web挖掘簡述
數(shù)據(jù)挖掘指從隨機又模糊的龐大數(shù)據(jù)里,把那些潛在但很實用的信息、趨勢或模式提取出來。
被視為新興領(lǐng)域的Web挖掘,實質(zhì)是數(shù)據(jù)挖掘的升級版。Web信息有著極為特殊之處,這樣在數(shù)據(jù)挖掘上必須添加匹配的新特性。這些特性包含:①在挖掘?qū)ο笊?,Web挖掘的數(shù)據(jù)源全部是異構(gòu)的;② Web文檔是機器理解不到或者沒有結(jié)構(gòu)、半結(jié)構(gòu)的語義。
2 Web挖掘特性
2.1 缺乏智能化理解
Web中的數(shù)據(jù)的格式幾乎都是HTML,與主題相關(guān)的信息往往雜亂地在Web站點的目錄下散布開來。因此,必須有非常強大的一個搜索引擎,通過對關(guān)鍵字查找,實現(xiàn)對超文本位置的定位。數(shù)據(jù)格式不盡相同,必須有一個智能化的系統(tǒng)對自然語言陳述的數(shù)據(jù)作理解。然而,當下自然語言理解的有關(guān)技術(shù)還不成熟,所以很難對所有數(shù)據(jù)都理解到位。另外,數(shù)據(jù)源冗余或極為矛盾等問題也對此產(chǎn)生影響。
2.2 數(shù)據(jù)源過于龐大
Web對于有效的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘而言似乎太大了[1]。目前在計算上,Web數(shù)據(jù)已經(jīng)達到用幾百兆字節(jié)來表示的地步,并朝著更大單位來表示的趨勢發(fā)展,有兩點特別明顯:
(1)動態(tài)性強。因特網(wǎng)時時刻刻都在變化、更新中,于是需要借用某些數(shù)據(jù)倉庫技術(shù),才能保留Web上已更新過的數(shù)據(jù)。
(2)多樣性。過濾后的Web數(shù)據(jù)包含4種:①以實型、整型為實例的數(shù)值型;②布爾型;③描述數(shù)據(jù)及分類數(shù)據(jù);④郵箱地址、網(wǎng)址等僅為Web所有的數(shù)據(jù)型。新的數(shù)據(jù)類型有新的特征,原先的挖掘方式行不通,必須對原有方式作擴充、改進。
2.3 用戶目標極為模糊
在基于因特網(wǎng)下作數(shù)據(jù)挖掘,用戶往往對挖掘主題認識很粗淺,說不出特別準確的目標。因此,數(shù)據(jù)挖掘系統(tǒng)必須具備學習機制及智能化特征,對用戶的興趣不斷跟蹤,才能詳細、清晰地對挖掘結(jié)果做出闡述。它涵蓋Web的結(jié)構(gòu)、存取模式及動態(tài)查找,由此表明Web挖掘極具挑戰(zhàn)性。
3 Web挖掘分類
3.1 基于內(nèi)容的Web挖掘
指在Web文件內(nèi)容、描述信息中,取得潛在但實用的知識、模式的過程,分為文本挖掘、多媒體挖掘。
(1)文本挖掘。特指對文本文檔的挖掘。在Web龐大文檔里,可對內(nèi)容作出分類別、總結(jié)、關(guān)聯(lián)性分析及趨勢分析等。
(2)多媒體挖掘。指對多媒體文檔的挖掘,即對Web上圖像、音視頻預處理,利用挖掘技術(shù)對有意義的、潛在信息及模式作挖掘的一個過程。提取特征不同是多媒體與文本挖掘最不一樣的地方。在挖掘時,對文件或者視頻的鍵值表、文件名、顏色向量及類型等進行提取。
3.2 基于結(jié)構(gòu)的Web挖掘
在結(jié)構(gòu)上,Web包括超鏈接結(jié)構(gòu)、樹形結(jié)構(gòu)及目錄路徑結(jié)構(gòu)等[2]。這樣,在結(jié)構(gòu)上,可用有向圖對Web進行表示,有向圖中點對應的是頁面,有向圖中邊對應的是超級鏈接。用此方法可得到站點的主頁到任一定點的最短路徑,也就是用較小代價獲取最多文檔。
(1)HITS算法。對一給定的話題進行搜索,往往不只期望獲取相關(guān)聯(lián)的Web頁,還期望被檢索出的頁面質(zhì)量高且具權(quán)威性。而Web不只包含頁面,還包含超鏈接。超鏈接簡單說就是一個頁面向另一個頁面指向。若作者先建立一個頁面,接著又讓該頁面向另一頁面指向,就可認為作者對另一頁面持認可態(tài)度。同一頁面,收集源自不同作者的不同注解,便能反映此頁面的重要性,而且可非常自然地用作權(quán)威頁面。可是在鏈接結(jié)構(gòu)上,Web有一定的局限:①并非每個超鏈接都認可此尋找;②商業(yè)競爭中,不可能有Web頁面與自家競爭的頁面指向;③難有權(quán)威頁面具備特別性描述。鑒于以上情形,研究者不得不提出另一種Web頁面(俗名Hub頁面)。一個Hub頁面可代替一個或多個Web頁面,提供的是集合性鏈接。同時,任何話題,Hub頁面都向著最顯眼的鏈接指向。
(2)PageRank算法。Web超鏈接有下列幾種假設:①網(wǎng)頁A的作者向網(wǎng)頁B推薦;②網(wǎng)頁A、B在主題相同時,超鏈接便把兩個網(wǎng)頁連接;③基于前兩種,某頁面數(shù)次被引用,說明此頁面也許特別重要;④某頁面雖然未被數(shù)次引用,但卻被某重要頁面引用,說明它也很重要。此算法便是針對上述4種情形做的專門研發(fā)。
3.3 基于訪問的Web挖掘
網(wǎng)頁點擊數(shù)、瀏覽量、獨立IP 等是顯示網(wǎng)站訪問情形的核心指標[3]。可細致分析網(wǎng)站關(guān)聯(lián)的LOG文件,取得關(guān)系訪問情形的詳盡數(shù)據(jù),這種挖掘歸屬于靜態(tài)訪問,這對完善網(wǎng)站極為有益。譬如:對訪問者來源細致分析,可使網(wǎng)站內(nèi)容更有針對性;對在不同時段訪問者人數(shù)的細致分析,可依據(jù)時段來更新,這種Web挖掘利用極為廣泛。不只是靜態(tài)研究,動態(tài)訪問研究也很熱門。
4 Web挖掘研究方向
4.1 搜索引擎挖掘
當下的搜索引擎幾乎全是基于關(guān)鍵字,搜出的文檔數(shù)量極大,高質(zhì)量的內(nèi)容卻極少。加上某些文檔跟話題是關(guān)聯(lián)的,但關(guān)鍵詞:找不出來,這就使得搜索結(jié)果不全面。針對這種情形,某些專家提出用概念層或多義字的辦法對文檔進行搜索。
4.2 日志挖掘
對日志文件(Web服務器)細致分析,會發(fā)現(xiàn)用戶訪問網(wǎng)站所用的瀏覽模式,這對有效改進網(wǎng)站提供了信息。信息包含:對系統(tǒng)設計作改進、對導航功能作改善等。日志挖掘有3個階段:①預處理數(shù)據(jù);②挖掘數(shù)據(jù);③分析模式。由于存在代理服務器及防火墻,使得日志數(shù)據(jù)難以準確,所以在第一階段便必須做用戶識別、數(shù)據(jù)凈化、路徑補充、會話識別工作。挖掘階段指依據(jù)語義,將用戶的會話作分割,形成一項項事務,利用挖掘算法,對識別結(jié)果作出規(guī)則、模式。
4.3 XML結(jié)合Web挖掘
4.3.1 XML簡述
XML由萬維網(wǎng)協(xié)會設計,是特別為Web應用服務做的一個分支[4]。XML是一種典型的中介標識語言,它為結(jié)構(gòu)化資料提供對應的格式。
半結(jié)構(gòu)化是Web數(shù)據(jù)所有特征中最顯著的一點,因為只有把半結(jié)構(gòu)化對應的抽取技術(shù)作為前提,才能面向Web做需求的數(shù)據(jù)挖掘。新生代的www環(huán)境把XML作為基礎,它可直接面向Web 數(shù)據(jù)。一方面兼容已有的Web應用,另一方面對Web中的信息更好地交換、共享。XML可看作是半結(jié)構(gòu)化下的數(shù)據(jù)模型,所以它能把屬性(關(guān)系數(shù)據(jù)庫)與文檔描述一一對應,實施模型抽取、精確查詢。
4.3.2 XML應用
XML已經(jīng)成為正式規(guī)范[5]。開發(fā)時,XML格式可當作數(shù)據(jù)標記。在三層架構(gòu)情況下,用XML對數(shù)據(jù)處理是最好的方法。運用XML,設計員不僅能對文字、圖形進行創(chuàng)建,還可對數(shù)據(jù)樹、超鏈接結(jié)構(gòu)、樣式表、元數(shù)據(jù)等進行構(gòu)建。
Web數(shù)據(jù)挖掘是非常復雜的一項技術(shù),因XML的出現(xiàn),使Web挖掘中遇到的問題迎刃而解。因為XML可以讓來源不同的結(jié)構(gòu)化數(shù)據(jù)輕松地結(jié)合在一起,讓不兼容的多樣數(shù)據(jù)庫搜索變成可能。由于XML具備靈活性、可擴展性,因此對不同類型應用軟件中的數(shù)據(jù)XML都能描述,從而對Web中的各種數(shù)據(jù)記錄也能描述;再加上XML下的數(shù)據(jù)全為自我描述,所以即使在內(nèi)部描述數(shù)據(jù)完全缺乏時,處理、交換一樣可實現(xiàn)。
4.4 未來趨勢
目前, Web挖掘研究處于初始階段,有價值的幾大研究方向是:①動態(tài)更新;②Web知識庫維護;③內(nèi)在機制研究;④專注多媒體挖掘,研發(fā)出高效算法;⑤圖像、文本對應的挖掘算法(結(jié)構(gòu)、半結(jié)構(gòu)下);⑥搭建自組織網(wǎng)站時,對序列模式、關(guān)聯(lián)規(guī)則進行細致研究。
參考文獻:
[1] 李澤文.基于Web的數(shù)據(jù)挖掘技術(shù)[J].現(xiàn)代計算機,2011,3(15):5158.
[2] 陳二忠.基于Web的數(shù)據(jù)挖掘技術(shù)[D].沈陽:東北財經(jīng)大學,2012.
[3] 姜麗華.基于Web的數(shù)據(jù)挖掘技術(shù)[J].微機發(fā)展,2012,8(12):3142.
[4] 史秦格.基于Web的數(shù)據(jù)挖掘技術(shù)研究[D].西安:西安工業(yè)大學,2012.
[5] 馬麗娜.基于Web的數(shù)據(jù)挖掘技術(shù)應用[D].濟南:山東師范大學,2012.