周瓊
摘 要:在互聯(lián)網(wǎng)應(yīng)用日益廣泛的今天,Web所涉及的服務(wù)越來越廣泛,這使得Web上的信息量不斷增多,大大增加了Web數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)量。此種情況下,依舊采用傳統(tǒng)方式方法來獲取用戶所需信息,需要消耗較多的時(shí)間,且難以保證信息的準(zhǔn)確性,但基于Web的數(shù)據(jù)挖掘技術(shù)的應(yīng)用,則可以快速的進(jìn)行數(shù)據(jù)挖掘、數(shù)據(jù)處理、數(shù)據(jù)檢驗(yàn)、數(shù)據(jù)轉(zhuǎn)化,進(jìn)而為用戶提供所需信息。因此,基于Web的數(shù)據(jù)挖掘技術(shù)具有較高的應(yīng)用價(jià)值,其目前在電子商務(wù)、網(wǎng)絡(luò)教育、網(wǎng)站設(shè)計(jì)等多方面有很好的應(yīng)用?;诖耍撐膶姆治鰯?shù)據(jù)挖掘技術(shù)及基于Web的數(shù)據(jù)挖掘技術(shù)展開,就基于Web的數(shù)據(jù)挖掘技術(shù)及應(yīng)用予以研究。
關(guān)鍵詞:Web 數(shù)據(jù)挖掘技術(shù) 相關(guān)研究
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2016)08(b)-0100-02
在互聯(lián)網(wǎng)技術(shù)應(yīng)用越來越廣泛的情況下,互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘I畹囊徊糠??;诖耍ヂ?lián)網(wǎng)內(nèi)容不斷增多,信息過載現(xiàn)象日益明顯。此種情況下,為了使人們的生活能夠更加順暢,及時(shí)且快速的獲取到所需信息,需要科學(xué)、合理的運(yùn)用基于Web的數(shù)據(jù)挖掘技術(shù),充分發(fā)揮起作用,對數(shù)據(jù)進(jìn)行深度的挖掘,進(jìn)而有效地處理和檢驗(yàn)數(shù)據(jù),在此基礎(chǔ)上將數(shù)據(jù)轉(zhuǎn)化為完整的信息,供用戶所用[1]。由此看來,在互聯(lián)網(wǎng)內(nèi)容不斷增多,Web數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)量不斷增多的情況下,基于Web的數(shù)據(jù)挖掘技術(shù)的科學(xué)、合理應(yīng)用是非常重要的,可以幫助用戶快速獲取所需信息。
1 數(shù)據(jù)挖掘技術(shù)及基于Web的數(shù)據(jù)挖掘技術(shù)
1.1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是為了方便人們在大量的數(shù)據(jù)中快速、正確的找到自己想要的信息而應(yīng)運(yùn)而生的技術(shù)。在現(xiàn)代化的今天,數(shù)據(jù)挖掘技術(shù)的應(yīng)用日益廣泛,尤其是在計(jì)算機(jī)技術(shù)和數(shù)據(jù)特征的支持下所構(gòu)建的數(shù)據(jù)挖掘系統(tǒng),可以確定數(shù)據(jù)挖掘目標(biāo),在此基礎(chǔ)上以數(shù)據(jù)庫為挖掘?qū)ο?,從中挖掘所需?shù)據(jù),再對數(shù)據(jù)進(jìn)行預(yù)處理和再加工,進(jìn)而檢查數(shù)據(jù)的完整性,確定數(shù)據(jù)完整的情況下會將其轉(zhuǎn)化成可以被理解的信息,供用戶應(yīng)用。所以,在現(xiàn)代化的今天,人們對信息需求越來越大的情況下,數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用是非常有意義的[2]。
1.2 基于Web的數(shù)據(jù)挖掘技術(shù)
1.2.1 基于Web的數(shù)據(jù)挖掘技術(shù)的概述
基于Web的數(shù)據(jù)挖掘技術(shù),簡單來說就是將數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web上。在現(xiàn)代化的今天,Web所涉及的服務(wù)越來越廣泛,這使得Web上的信息量不斷增多,此種情況下,有效的利用數(shù)據(jù)挖掘技術(shù),可以對用戶所需信息的相關(guān)數(shù)據(jù)挖掘、處理,進(jìn)而轉(zhuǎn)化為信息供用戶應(yīng)用。
1.2.2 基于Web的數(shù)據(jù)挖掘的特點(diǎn)
在Web所涉及業(yè)務(wù)越來越廣泛的情況下,Web上的數(shù)據(jù)量不斷增多,直接存在龐大的數(shù)據(jù)庫系統(tǒng)之中。此種情況下,用戶需要使用所需信息,就需要在Web的數(shù)據(jù)庫系統(tǒng)中進(jìn)行數(shù)據(jù)挖掘,但因數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)量較多,利用傳統(tǒng)的方式方法難以快速且準(zhǔn)確的找到所需信息。但基于Web的數(shù)據(jù)挖掘技術(shù)的應(yīng)用則不同,其結(jié)構(gòu)模式不嚴(yán)格,可以靈活的運(yùn)用,在數(shù)據(jù)庫系統(tǒng)中進(jìn)行數(shù)據(jù)挖掘與處理,進(jìn)而轉(zhuǎn)化為用戶所需信息。另外,基于Web的數(shù)據(jù)挖掘技術(shù)適應(yīng)Web環(huán)境且在Web上應(yīng)用,因此在設(shè)置Web數(shù)據(jù)挖掘時(shí)是結(jié)合了Web的實(shí)際情況,因此基于Web的數(shù)據(jù)挖掘與Web的特點(diǎn)相貼合,所以,基于Web的數(shù)據(jù)挖掘具有動(dòng)態(tài)性、異構(gòu)性、靈活性、有效性等特點(diǎn)[3]。
1.2.3 基于Web的數(shù)據(jù)挖掘的分類
從目前基于Web的數(shù)據(jù)挖掘應(yīng)用實(shí)際情況來看,基于Web的數(shù)據(jù)挖掘主要分為Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘及Web訪問挖掘3類。
(1)Web結(jié)構(gòu)挖掘。
Web結(jié)構(gòu)包括不同網(wǎng)頁之間的超鏈接結(jié)構(gòu)和一個(gè)頁面內(nèi)部的樹形結(jié)構(gòu),以及文檔URL中的目錄路徑結(jié)構(gòu)等。Web結(jié)構(gòu)挖掘的使用,將會把Web表示成一個(gè)有向圖,圖中的點(diǎn)對應(yīng)的是Web的頁面、圖的邊對應(yīng)的是Web的超級鏈接,此種情況下,可以獲得一個(gè)站點(diǎn)的主頁到任意一個(gè)定點(diǎn)的最短路徑,進(jìn)而快速而準(zhǔn)確的獲得相關(guān)數(shù)據(jù),加之整理與處理,檢驗(yàn)與轉(zhuǎn)化,可以為用戶提供高質(zhì)量的、有效的信息。如Robot到Web站點(diǎn),將會構(gòu)成最短路徑,進(jìn)而快速發(fā)現(xiàn)較多文檔,便于應(yīng)用;而HITS、PageRank及鏈接結(jié)構(gòu)中增加Web內(nèi)容信息,在模擬Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu),進(jìn)而設(shè)置好Web頁面的等級,如此可以使HITS、PageRank及鏈接結(jié)構(gòu)更加快速地挖掘信息。
(2)Web內(nèi)容挖掘。
Web內(nèi)容挖掘是指從Web上的文件內(nèi)容及其描述信息中獲取潛在的、有價(jià)值的知識或模式的過程。從目前Web內(nèi)容挖掘應(yīng)用情況來看,其主要包括Web文本挖掘和Web多媒體挖掘,兩者最大的區(qū)分是挖掘?qū)ο蟛煌?。Web文本挖掘,顧名思義是對Web上大量文檔進(jìn)行挖掘,挖掘過程中包括文檔集中的內(nèi)容的總結(jié)、分類、關(guān)聯(lián)分析及趨勢分析等,以便文檔信息應(yīng)用中,可以快速進(jìn)行數(shù)據(jù)挖掘;而Web多媒體挖掘,則是對Web上的音頻、視頻數(shù)據(jù)進(jìn)行挖掘,對圖片進(jìn)行預(yù)處理[4]。
(3)Web訪問挖掘。
通常情況下,Web訪問挖掘主要應(yīng)用于網(wǎng)站LOG文件分析之中,挖掘網(wǎng)頁瀏覽數(shù)據(jù)、網(wǎng)站點(diǎn)擊術(shù)、獨(dú)立IP訪問數(shù)等,以便相關(guān)工作人員可以通過數(shù)據(jù)統(tǒng)計(jì)了解網(wǎng)站整體運(yùn)行情況、了解用戶需求等,為更好地設(shè)計(jì)和運(yùn)作網(wǎng)站指明方向。
2 基于Web的數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究
事實(shí)上,在現(xiàn)代化的今天基于Web的數(shù)據(jù)挖掘技術(shù)已經(jīng)應(yīng)用到一些領(lǐng)域之中,并且發(fā)揮重要作用。
2.1 電子商務(wù)領(lǐng)域
目前基于Web的數(shù)據(jù)挖掘技術(shù)在電子商務(wù)領(lǐng)域中的應(yīng)用,主要是:(1)客戶分類和聚類。也就是利用基于Web的數(shù)據(jù)挖掘來挖掘電子商務(wù)平臺用戶的訪問數(shù)量、用戶訪問方向等,進(jìn)而明確用戶的需求、用戶的層次、用戶的共同特征等,從而合理進(jìn)行用戶分類和聚類。(2)尋找潛在用戶。也就是利用基于Web的數(shù)據(jù)挖掘?qū)τ脩粼L問數(shù)據(jù)進(jìn)行挖掘,再利用分類技術(shù)對用戶進(jìn)行分類,找到潛在用戶及其可能產(chǎn)生的需求。(3)保留客戶的駐留時(shí)間。對于電子商務(wù)的商家來說,用戶停留在平臺上的時(shí)間越長,其購買意向就越大,購買的可能性越大。所以,利用基于Web的數(shù)據(jù)挖掘進(jìn)行用戶在電子商務(wù)平臺上駐留時(shí)間的數(shù)據(jù)挖掘,可以為電子商務(wù)的商家制定戰(zhàn)略決策提供依據(jù)[5]。
2.2 網(wǎng)絡(luò)教育領(lǐng)域
在互聯(lián)網(wǎng)技術(shù)應(yīng)用日益廣泛的今天,教育領(lǐng)域也充分認(rèn)識到互聯(lián)網(wǎng)的應(yīng)用價(jià)值,將其應(yīng)用到教育中,開展網(wǎng)絡(luò)教育,如此可以打破教育教學(xué)活動(dòng)的時(shí)間限制和空間限制。在網(wǎng)絡(luò)教育日趨成熟的今天,很多教育機(jī)構(gòu)開設(shè)網(wǎng)絡(luò)教育,使更多的需求者可以獲取知識,同時(shí)也可以促進(jìn)教育機(jī)構(gòu)更好發(fā)展。在教育網(wǎng)絡(luò)中應(yīng)用基于Web的數(shù)據(jù)挖掘,主要是挖掘?qū)W生人數(shù)、教學(xué)課程點(diǎn)擊率、教學(xué)模式選用頻繁度等相關(guān)方面的數(shù)據(jù),將其轉(zhuǎn)化為有價(jià)值的信息,為教育機(jī)構(gòu)優(yōu)化調(diào)整網(wǎng)絡(luò)教育服務(wù)創(chuàng)造條件[6]。
3 結(jié)語
在互聯(lián)網(wǎng)應(yīng)用日益廣泛的今天,Web所涉及的服務(wù)越來越廣泛,這使得Web上的信息量不斷增多,大大增加了Web數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)量。此種情況下,科學(xué)、合理的運(yùn)用基于Web的數(shù)據(jù)挖掘技術(shù),其可以充分發(fā)揮起作用,對數(shù)據(jù)進(jìn)行深度的挖掘,進(jìn)而有效地處理和檢驗(yàn)數(shù)據(jù),在此基礎(chǔ)上將數(shù)據(jù)轉(zhuǎn)化為完整的信息,供用戶所用,滿足用戶的應(yīng)用需求。目前,基于Web的數(shù)據(jù)挖掘技術(shù)在電子商務(wù)、網(wǎng)絡(luò)教育等領(lǐng)域有重要的應(yīng)用,相信隨著此項(xiàng)技術(shù)的不斷完善,將會更加有效、廣泛的應(yīng)用。
參考文獻(xiàn)
[1] 張嘉豐.淺析基于Web的數(shù)據(jù)挖掘技術(shù)[J].數(shù)字技術(shù)與應(yīng)用,2015(11):43.
[2] 于桂賓.基于Web的數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].承德石油高等??茖W(xué)校學(xué)報(bào),2014,16(5):41-43.
[3] 孫興富.基于Web的數(shù)據(jù)挖掘技術(shù)及應(yīng)用問題探討[J].中國新技術(shù)新產(chǎn)品,2010(3):21.
[4] 范建中,王福慶.基于Web的數(shù)據(jù)挖掘技術(shù)研究與應(yīng)用[J].電腦編程技巧與維護(hù),2009(12):32-33,42.
[5] 吳穎智.基于Web的數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)管理研究與應(yīng)用[J].沿海企業(yè)與科技,2010(6):38-39,37.
[6] 王晶.基于Web的數(shù)據(jù)挖掘技術(shù)研究綜述[J].光盤技術(shù),2011(7):14,31.