国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Web數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)及關(guān)鍵技術(shù)研究

2019-07-14 00:06:56
關(guān)鍵詞:日志結(jié)構(gòu)化頁面

西南科技大學(xué) 四川 綿陽 621000

在Web上有著大量的信息,當(dāng)前數(shù)據(jù)挖掘領(lǐng)域所面臨的新問題就是如何從非格式化的數(shù)據(jù)信息中挖掘出有用的信息,與數(shù)據(jù)庫中所存在的信息不同,Web上的數(shù)據(jù)信息,沒有統(tǒng)一的格式,因?yàn)樗麩o法向數(shù)據(jù)庫一樣,有著規(guī)范的結(jié)構(gòu),另外,對于數(shù)據(jù)對象的處理,Web挖掘技術(shù)與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)之間也完全不同,一些異質(zhì)的非結(jié)構(gòu)化信息是傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的死角,但自從Web挖掘技術(shù)應(yīng)用以后,大量的Web信息資源,不再能夠用數(shù)據(jù)模型來表示,因?yàn)檫@些數(shù)據(jù)大部分是非結(jié)構(gòu)化,或者是半結(jié)構(gòu)化,因此,必須以很多個(gè)數(shù)據(jù)倉庫挖掘技術(shù)來進(jìn)行Web的數(shù)據(jù)挖掘,顯然,這挑戰(zhàn)性是非常強(qiáng)的。

一、Web挖掘的概念

眾所周知,Web挖掘是數(shù)據(jù)挖掘的過程,在這個(gè)挖掘過程中主要針對的內(nèi)容是Web頁面內(nèi)容,用戶訪問信息,用戶注冊信息以及電子商務(wù)交易信息等等,在數(shù)據(jù)挖掘方法下,Web挖掘能夠獲取到很多有用的知識(shí),借助Web挖掘技術(shù),人們可以對站點(diǎn)設(shè)計(jì)進(jìn)行改進(jìn),確保個(gè)性化服務(wù)能夠得到有效提供。因此一般情況下加等不利弊挖掘分為三種,分別是內(nèi)容挖掘使用挖掘以及結(jié)構(gòu)挖掘。

1.1 Web內(nèi)容挖掘 所以Web內(nèi)容挖掘指的就是對Web頁面的內(nèi)容進(jìn)行挖掘,Web頁面內(nèi)容中包括以音頻數(shù)據(jù),圖像數(shù)據(jù)或文本數(shù)據(jù)為主的非結(jié)構(gòu)化的數(shù)據(jù),另外還包括這些數(shù)據(jù)相融合的多媒體數(shù)據(jù)等。

文本挖掘是Web挖掘的基礎(chǔ),因此,在內(nèi)容挖掘上,這種方式也占據(jù)主導(dǎo)地位,通常情況下,平面文本挖掘功能和方法與之相類似,相對于數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)來說,Web文檔的結(jié)構(gòu)是比較有限的,甚至有的Web文檔根本沒有結(jié)構(gòu),這些是文本信息資源的主要特征,現(xiàn)有的很多數(shù)據(jù)挖掘技術(shù)之所以無法在文本上進(jìn)行預(yù)處理,都與這些文本信息源的特征有關(guān),為了成為文檔,中間的表現(xiàn)形式可以在挖掘過程中抽取其特征,并采用結(jié)構(gòu)化的形式進(jìn)行保存。以文本特征表示為基礎(chǔ),對特征子集進(jìn)行提取,文檔特征在子集算法上一般會(huì)選取一個(gè)評(píng)價(jià)函數(shù),針對特征進(jìn)行獨(dú)立的評(píng)估,這樣確保每一個(gè)特征都會(huì)有一個(gè)屬于自己的評(píng)估分,按照評(píng)估分的大小進(jìn)行排序,選擇預(yù)訂數(shù)目最佳的特征,作為最終的結(jié)果,當(dāng)Web文本實(shí)現(xiàn)結(jié)構(gòu)化以后,Web上的大量文檔內(nèi)容都可以進(jìn)行總結(jié)分類,這一系列的挖掘工作都能夠得以實(shí)現(xiàn)。

1.2 Web結(jié)構(gòu)挖掘 對web頁面內(nèi)部或者是之間的結(jié)構(gòu)進(jìn)行挖掘的基本思想,指的就是Web結(jié)構(gòu)挖掘,Web,結(jié)構(gòu)挖掘?qū)嶋H上,可以將其看做一個(gè)有相圖,W頁面是它的頂點(diǎn),有相圖的編制的就是頁面間的超鏈接,結(jié)合圖論,對Web的拓樸結(jié)構(gòu)進(jìn)行分析,Web,結(jié)構(gòu)的基本算法是hs,它有兩部分構(gòu)成,分別是構(gòu)造紙圖和迭代計(jì)算,Web結(jié)構(gòu)挖掘以一個(gè)網(wǎng)頁的歸類為基礎(chǔ),展開不同頁面關(guān)聯(lián)度與像素信息的獲取。

總的來看,Web文本挖掘與Web結(jié)構(gòu)挖掘的局限性還是比較大的,前者對于頁面的拓?fù)浣Y(jié)構(gòu)信息沒有進(jìn)行充分的考慮,后者對于Web,數(shù)據(jù)挖掘的文本信息沒有得到充分考慮,因此,在使用過程中,Web文本挖掘和Web結(jié)構(gòu)挖掘進(jìn)行結(jié)合,可謂是最好的使用方法,兩者結(jié)合對于Web頁面能夠?qū)崿F(xiàn)更好的評(píng)價(jià)。

1.3 Web日志挖掘 從Web訪問日志中發(fā)現(xiàn)到用戶的訪問模式,從而對用戶的測覽行為進(jìn)行預(yù)測,就是Web的日志玩具,雖然Web屬于一個(gè)比較龐大的信息,但是每一個(gè)Web服務(wù)器中,訪問日志都得以保留,而且Web服務(wù)器中的日志結(jié)構(gòu)非常完,你要用戶訪問Web戰(zhàn),間頁面用戶的相關(guān)信息都能夠在日志中有所記錄,因此,Web日志挖掘主要是挖掘Web用戶訪問時(shí)的痕跡。

二、基于數(shù)據(jù)挖掘的Web挖掘系統(tǒng)

2.1 Web挖掘系統(tǒng)的邏輯架構(gòu) 以數(shù)據(jù)挖掘?yàn)榛A(chǔ)的Web挖掘系統(tǒng)模型為Web挖掘提供了一個(gè)良好的集成環(huán)境,這環(huán)境中,整個(gè)挖掘系統(tǒng)的整體性能得到有效提高,Web挖掘系統(tǒng)原型Web MS的三個(gè)邏輯層次。數(shù)據(jù)獲取層的主要功能是對半結(jié)構(gòu)化的Web數(shù)據(jù)進(jìn)行模型抽取和調(diào)換,并用結(jié)構(gòu)化的數(shù)據(jù)來表示,最終抽取和轉(zhuǎn)換的結(jié)果,利用結(jié)果建立起多層次的Web數(shù)據(jù)庫,采用預(yù)籌里的手段,對Web服務(wù)器的日志數(shù)據(jù)進(jìn)行處理,這樣Web日志數(shù)據(jù)庫就形成了。在數(shù)據(jù)存儲(chǔ)層多層Web數(shù)據(jù)庫,以及Web日志數(shù)據(jù)庫都被稱作Web信息庫。

2.2 Web MS原型 Web MS是Web,數(shù)據(jù)挖掘系統(tǒng)的原型,WebMS的基本挖掘功能多面性更強(qiáng),使Web內(nèi)容挖掘和使用挖掘在整個(gè)系統(tǒng)中得得到集成,在Web MS中多種挖掘算法都實(shí)現(xiàn)了嵌入,并且與系統(tǒng)中的其他模塊之間實(shí)現(xiàn)了緊密配合,結(jié)合Web挖掘方法庫調(diào)用方法以及接口規(guī)范,使Web挖掘能夠共同完成。

在整個(gè)系統(tǒng)內(nèi)部中各個(gè)模塊之間的功能是相對獨(dú)立的,他們在使用過程中又產(chǎn)生了一定的協(xié)同配合,用戶的需求下,數(shù)據(jù)采集對Web資源進(jìn)行搜索,在相關(guān)處理器過濾器的處理下,形成數(shù)據(jù)存儲(chǔ)形式,挖掘綜合器并能夠?qū)@些數(shù)據(jù)進(jìn)行使用,結(jié)合挖掘要求,挖掘綜合器可以在方法庫中選擇恰當(dāng)?shù)姆椒▽ζ溥M(jìn)行挖掘,并輸出挖掘結(jié)果,用戶根據(jù)結(jié)果,來判定是否結(jié)束任務(wù),如果用戶滿意,那么任務(wù)就會(huì)隨時(shí)截止,如果用戶不滿意,則會(huì)對挖掘要求進(jìn)行調(diào)整,從而進(jìn)行新的挖掘,可以在系統(tǒng)維護(hù)過程中實(shí)現(xiàn)新挖掘方法的加入,這樣系統(tǒng)并能夠?qū)崿F(xiàn)升級(jí)。

總結(jié)

Web挖掘可謂是當(dāng)今最熱門的研究領(lǐng)域,而且伴隨著信息技術(shù)的不斷發(fā)展,這么個(gè)領(lǐng)域的應(yīng)用前景非常廣闊,無論是在技術(shù)上,還是在工具上Web挖掘都具有無限的潛力,因此,在Web的挖掘上還應(yīng)該更深入。

猜你喜歡
日志結(jié)構(gòu)化頁面
大狗熊在睡覺
刷新生活的頁面
一名老黨員的工作日志
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
扶貧日志
心聲歌刊(2020年4期)2020-09-07 06:37:14
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
游學(xué)日志
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
一種基于粗集和SVM的Web日志挖掘模型
华容县| 赞皇县| 洛阳市| 易门县| 垣曲县| 河间市| 广东省| 时尚| 商水县| 鄂伦春自治旗| 大同市| 丹巴县| 瑞安市| 红桥区| 南丰县| 朝阳县| 广昌县| 商城县| 县级市| 佛冈县| 万源市| 津市市| 望奎县| 搜索| 当涂县| 石楼县| 台湾省| 芮城县| 尼木县| 海阳市| 壶关县| 蕉岭县| 秦皇岛市| 福泉市| 呼玛县| 曲阜市| 定边县| 鸡泽县| 怀安县| 普洱| 望谟县|