張躍等
摘要:基于Web的數(shù)據(jù)挖掘是采用數(shù)據(jù)挖掘技術(shù)對(duì)網(wǎng)頁資源進(jìn)行挖掘的一個(gè)熱門研究方向,此文分析了了網(wǎng)頁數(shù)據(jù)挖掘的概念、分類、挖掘原理以及相關(guān)技術(shù)。
關(guān)鍵詞:數(shù)據(jù)挖掘;Web數(shù)據(jù)挖掘;分類;挖掘技術(shù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)09-0016-02
Abstract: Web based data mining is a hot research direction of Webpage mining resources using the technology of data mining, this paper analyses the Webpage the concept of data mining, classification, mining principle and related technology
Key words: data mining; web data mining; classification; mining technology
互聯(lián)網(wǎng)的不斷得到發(fā)展,網(wǎng)頁中數(shù)據(jù)量迅速增加,如何從這么多的網(wǎng)頁信息中獲取有用的數(shù)據(jù)已經(jīng)成功數(shù)據(jù)挖掘領(lǐng)域的一個(gè)熱門的研究方向,數(shù)據(jù)挖掘是近幾年來迅速發(fā)展的進(jìn)行信息獲取的一個(gè)重要渠道, 尤其大量運(yùn)用與社會(huì)和科學(xué)的方方面面。一般來說數(shù)據(jù)挖掘主要利用計(jì)算機(jī)和相關(guān)的信息技術(shù),把有用的數(shù)據(jù)從海量的網(wǎng)頁數(shù)據(jù)中挖掘出來,為我們從事其他方面的運(yùn)用。基于網(wǎng)頁的數(shù)據(jù)挖掘是一門技術(shù)的綜合研究方向,它的思想是從Internet中提取網(wǎng)頁中的大量數(shù)據(jù),也就是從網(wǎng)頁的數(shù)據(jù)結(jié)構(gòu)中發(fā)現(xiàn)隱含的模式[1]。
1 數(shù)據(jù)挖掘的特點(diǎn)
1)數(shù)據(jù)挖掘的特點(diǎn)之一就是半結(jié)構(gòu)化,這個(gè)特別算是網(wǎng)頁數(shù)據(jù)挖掘的最大特點(diǎn)[2],因?yàn)榫W(wǎng)頁上的數(shù)據(jù)分布沒有規(guī)律,非常復(fù)雜,沒有任何固定的模式能夠很好的描述它的特點(diǎn)。因此稱它為半結(jié)構(gòu)化。
2)數(shù)據(jù)挖掘的特點(diǎn)之二是網(wǎng)頁中的數(shù)據(jù)比較分散,這些網(wǎng)頁數(shù)據(jù)存在世界各地的很多服務(wù)器上,因此是一種數(shù)據(jù)源分散的結(jié)構(gòu)。
3) 數(shù)據(jù)挖掘的特點(diǎn)之三是數(shù)據(jù)庫的結(jié)構(gòu)存在不同,因?yàn)榛ヂ?lián)網(wǎng)上的一個(gè)網(wǎng)站可以存為一個(gè)數(shù)據(jù)源,它們的結(jié)構(gòu)互不相關(guān),異構(gòu)性特點(diǎn)比較強(qiáng),由它們構(gòu)成的數(shù)據(jù)庫自然而然也屬于一種異構(gòu)的形式。
4) 數(shù)據(jù)挖掘的特點(diǎn)之四是動(dòng)態(tài)性強(qiáng),網(wǎng)站上的數(shù)據(jù)資源是不斷更新變化的,找不到固定的形式,網(wǎng)站與網(wǎng)站的直接訪問的鏈接是形式變化的。
2 數(shù)據(jù)挖掘過程
基于Web的數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)倉庫相比,網(wǎng)頁上的信息是半結(jié)構(gòu)化的或非結(jié)構(gòu)化、不容易識(shí)別、變化的,正因?yàn)樗@些特點(diǎn),要想在網(wǎng)頁上開展直接數(shù)據(jù)挖掘,可謂很費(fèi)功夫,就要借助一些方法來預(yù)處理數(shù)據(jù),才能方便挖掘。通常進(jìn)行網(wǎng)頁數(shù)據(jù)挖掘可分為的如圖1所示的四個(gè)步奏。
1)數(shù)據(jù)源的獲取,在網(wǎng)站的各個(gè)頁面中獲取數(shù)據(jù)信息,組成目標(biāo)數(shù)據(jù)信息源,再從這些信息源中找到相關(guān)有用的數(shù)據(jù)。這個(gè)過程的目的就是從像網(wǎng)頁文檔、email、網(wǎng)頁記錄、新聞信息、各種網(wǎng)站數(shù)據(jù)庫中挖掘出有用的數(shù)據(jù)。
2)把獲取的數(shù)據(jù)進(jìn)行加工處理,網(wǎng)頁數(shù)據(jù)挖掘的好壞直接與數(shù)據(jù)源的好壞相關(guān),如果獲取的數(shù)據(jù)源有大量的垃圾數(shù)據(jù),對(duì)數(shù)據(jù)挖掘過程有很大的影響,因此挖掘之前需要對(duì)數(shù)據(jù)源進(jìn)行篩選,消除那些雜音數(shù)據(jù),保證數(shù)據(jù)源的純正,然后將這些已經(jīng)過濾的數(shù)據(jù)再次裝入數(shù)據(jù)庫中進(jìn)行下一步的分析。
3)對(duì)數(shù)據(jù)經(jīng)過提純處理后,進(jìn)入模式尋找階段,這需要各種挖掘算法分析、挖掘大量的、隱藏的、潛在的、可被利用的數(shù)據(jù)模式。在挖掘的過程中,經(jīng)常會(huì)使用到一些相關(guān)的方法,例如聚類分析法、關(guān)聯(lián)規(guī)則發(fā)等挖掘方法。
4)在對(duì)數(shù)據(jù)模式發(fā)現(xiàn)后,需要對(duì)這些模式進(jìn)行挖掘,也就是知識(shí)的轉(zhuǎn)換過程,把提取到的模式再進(jìn)行信息轉(zhuǎn)化,轉(zhuǎn)化為我們能夠理解,識(shí)別的知識(shí),為我們的決策需要提供有用的參考源。
3 數(shù)據(jù)挖掘分類
在進(jìn)行數(shù)據(jù)挖掘的時(shí)候,針對(duì)不同的數(shù)據(jù)結(jié)構(gòu),會(huì)采用不同的挖掘方法,這樣才能有效、合理挖掘到有用的數(shù)據(jù),不能籠統(tǒng)采用一種方法,這樣挖掘的數(shù)據(jù)相應(yīng)的雜音數(shù)據(jù)就比較多。大體上,我們把數(shù)據(jù)挖掘分為三種類型,即:網(wǎng)頁使用挖掘、網(wǎng)頁結(jié)構(gòu)挖掘、網(wǎng)頁內(nèi)容挖 [3],如圖2所示。
4 數(shù)據(jù)挖掘相關(guān)技術(shù)
互聯(lián)網(wǎng)的發(fā)展促進(jìn)網(wǎng)頁數(shù)據(jù)挖掘得到越來越多的應(yīng)用,于是針對(duì)網(wǎng)頁挖掘的各種方法和技術(shù)不斷出現(xiàn),就這些相關(guān)的技術(shù)[4],下面分別一一介紹。
4.1 網(wǎng)頁內(nèi)容挖掘
4.1.1 網(wǎng)頁文檔挖掘
網(wǎng)頁文檔挖掘就是分析網(wǎng)站上存在的數(shù)量很多的網(wǎng)頁文檔采用聚類、分類、關(guān)聯(lián)處理等多種方法進(jìn)行分析,然后根據(jù)網(wǎng)頁文檔進(jìn)行預(yù)測。在Internet的文檔數(shù)據(jù)一般都是以html格式的網(wǎng)頁文檔出現(xiàn),要采集這些網(wǎng)頁文檔數(shù)據(jù),然后把這些文檔數(shù)據(jù)變成記錄的形式存貯進(jìn)數(shù)據(jù)庫,把這些記錄用來表示文檔內(nèi)容特征,為后續(xù)的分析提供保障。表示文檔的特征形式通常使用文檔特征向量形式, 由于文檔的特征表示中存在一些缺陷,文檔的特征向量的維數(shù)非常高,對(duì)數(shù)據(jù)分析不利,因此一個(gè)好特征表示主要集中在特征集的選取方面,特征集需求好,對(duì)數(shù)據(jù)進(jìn)行分析的時(shí)間就相對(duì)少,如果選取不好,將要花很長時(shí)間去等待。因此特征集選取好壞成為數(shù)據(jù)分析額關(guān)鍵。一旦特征集選擇好后,就可以采用聚類、分類、數(shù)據(jù)關(guān)聯(lián)等方法來進(jìn)行提取信息,然后對(duì)這些提取的信息進(jìn)行評(píng)價(jià)分析,找到有用的信息,為后續(xù)的決策工作提供指導(dǎo)。
4.1.2 挖掘網(wǎng)頁多媒體
在進(jìn)行網(wǎng)頁多媒體挖掘主要關(guān)注的是特征提取,這點(diǎn)網(wǎng)頁內(nèi)容挖掘不一樣。在網(wǎng)頁多媒體挖掘中提取的多媒體特征主要關(guān)注視頻或者圖片的顏色特征、鍵值、形式以及它們的URL,最后根據(jù)這些特征進(jìn)行數(shù)據(jù)挖掘。
4.2挖掘網(wǎng)頁結(jié)構(gòu)
挖掘網(wǎng)站空間中的知識(shí),不僅關(guān)注包含在各個(gè)網(wǎng)頁內(nèi)容中的信息數(shù)據(jù),同時(shí)也關(guān)注網(wǎng)站與網(wǎng)站之間的網(wǎng)頁結(jié)構(gòu)和超級(jí)鏈接結(jié)構(gòu),這也是非常重要的。進(jìn)行網(wǎng)頁結(jié)構(gòu)挖掘主要分析網(wǎng)頁結(jié)構(gòu)之間的特征,利用聚類和分類來分析頁面結(jié)構(gòu)特征,找到特征模式。
4.3 網(wǎng)頁使用挖掘
網(wǎng)頁使用挖掘也是挖掘網(wǎng)頁記錄,實(shí)際就是挖掘用戶在網(wǎng)頁上留下的相關(guān)的記錄信息,網(wǎng)頁使用挖掘就是分析用戶留言記錄的相關(guān)信息,通過這些信息時(shí)報(bào)未來需要發(fā)展的用戶; 網(wǎng)頁使用挖掘通常使用擴(kuò)展有向樹模型分析用戶的各種瀏覽行為習(xí)慣,挖掘出用戶的日志信息,以及用戶關(guān)心、關(guān)注的興趣領(lǐng)域,把這些信息存放在知識(shí)庫中,未下一步的分析工作提供數(shù)據(jù), 對(duì)網(wǎng)頁使用日志挖掘可分為三個(gè)步驟:日志預(yù)分析、分析方法處理、 模式分析階段。在網(wǎng)頁使用分析中,關(guān)注網(wǎng)頁服務(wù)器記錄的相關(guān)信息,這些信息主要包括用戶訪問的時(shí)間、URL、IP、使用方法、代理、返回結(jié)構(gòu)、傳輸數(shù)據(jù)等相關(guān)信息雖然信息比較多,但是還存在無用的數(shù)據(jù),需要進(jìn)行提純處理。一旦數(shù)據(jù)處理后,就能采用關(guān)聯(lián)分析、如路徑分析等模式發(fā)現(xiàn)技術(shù)來分析日志,獲取有用的信息。
5 結(jié)束語
本文介紹了網(wǎng)頁數(shù)據(jù)挖掘的相關(guān)概念、挖掘過程、分類方法以及相關(guān)技術(shù)。在Internet發(fā)展的今天, 網(wǎng)頁數(shù)據(jù)挖掘的研究方面更加寬,人們不斷關(guān)注如何對(duì)這些網(wǎng)頁數(shù)據(jù)的處理。網(wǎng)頁數(shù)據(jù)挖掘在各個(gè)方面,特別在結(jié)合語言問題、查詢半結(jié)構(gòu)化、數(shù)據(jù)庫方面會(huì)得到不斷發(fā)展。
參考文獻(xiàn):
[1] ITU–T Recommen dation H.263.Video Coding for Low Bit Rate Communication Transmission of non - Telephone Signal s. 1996.
[2] 范亞芹, 劉穎. Web數(shù)據(jù)挖掘原理及實(shí)現(xiàn)[J]. 吉林大學(xué)學(xué)報(bào), 2003(4):370-373.
[3] 朱明編. 數(shù)據(jù)挖掘[M]. 安徽:中國科學(xué)技術(shù)大學(xué)出版社, 2002:105-122.
[4] 左鐵鏞. 全面推進(jìn)素質(zhì)教育, 培養(yǎng)21世紀(jì)新型人才[EB/OL]. http://tjjs .bjedu.gov.cn/ acade/001. htm.