劉光金
摘 要:該文針對數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)時(shí)代的應(yīng)用一題進(jìn)行了深入的研究,其中包括數(shù)據(jù)挖掘技術(shù)的概念介紹、數(shù)據(jù)挖掘技術(shù)的基本分析方法以及數(shù)據(jù)挖掘技術(shù)對于數(shù)據(jù)的預(yù)處理方式等,以期能夠?qū)Ω魑煌蕩硪恍┚哂袇⒖夹缘囊庖姟?/p>
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù) 互聯(lián)網(wǎng)時(shí)代 應(yīng)用
中圖分類號(hào):TP274 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2014)10(b)-0002-01
如今,互聯(lián)網(wǎng)的發(fā)展速度之快是我們無法預(yù)計(jì)的,用戶能夠通過互聯(lián)網(wǎng)來搜索到一切想要了解的信息,將“秀才不出門便知天下事”這句古語的核心意義發(fā)揮的淋漓盡致。但由于Web缺少一定的智能性,以至于用戶只能夠依靠導(dǎo)航來對信息進(jìn)行篩選,這樣一來就會(huì)讓搜索結(jié)果的準(zhǔn)確性以及針對性大大降低。而伴隨著數(shù)據(jù)挖掘技術(shù)的加入,讓網(wǎng)站對系統(tǒng)性能和用戶喜好的分析能力大大增加,從而有效地提高了用戶的使用滿意度。
1 基本概念介紹
數(shù)據(jù)挖掘的出現(xiàn)時(shí)間為20世紀(jì)的80年代,它作為一門剛剛興起的學(xué)科來說還尚未得到人們的廣泛認(rèn)可和使用。如果從技術(shù)的層面對其進(jìn)行分析,數(shù)據(jù)挖掘所針對的是一些較為復(fù)雜且無規(guī)律的數(shù)據(jù)群體;而從商業(yè)的角度來說,數(shù)據(jù)挖掘所指的則是在偌大的數(shù)據(jù)庫中精準(zhǔn)的將一些有規(guī)律的信息進(jìn)行轉(zhuǎn)換和分析,并在其中將一些對商業(yè)決策有幫助的信息提取出來。
2 數(shù)據(jù)挖掘技術(shù)的基本分析方法
數(shù)據(jù)挖掘工作中最為重要的一個(gè)環(huán)節(jié)就是對數(shù)據(jù)進(jìn)行分析,只有選擇一些科學(xué)且有效的計(jì)算方式才能夠?qū)?shù)據(jù)的挖掘工作正確的完成。其中,目前較為常用的分析方法有三種,即聚類分析法、分類和預(yù)測法以及關(guān)聯(lián)分析法,下面筆者就對其分別進(jìn)行詳細(xì)的介紹。
2.1 聚類分析
聚類分析的主要工作就是將物理對象與抽象對象的整合進(jìn)行分類,并同時(shí)對由相同或者相似的對象所組成的分類進(jìn)行更加深入的分析,而聚類分析的最終目的就是使用詳細(xì)的方法來將數(shù)據(jù)進(jìn)行有效的分類。古語說的不錯(cuò),“物以類聚,人以群分”,聚類分析法正是通過對事物之間的規(guī)律進(jìn)行分析,從而能夠?qū)Ω鱾€(gè)領(lǐng)域進(jìn)行智能化學(xué)習(xí)。
聚類分析可以被分成兩種方式,即硬聚類和模糊聚類。其中,硬聚類所代表的是將分析對象劃分到最為相近的類別當(dāng)中,而模糊聚類則是通過取值范圍的大小來對分析對象進(jìn)行劃分,并且一個(gè)對象有可能出現(xiàn)多個(gè)類別。
2.2 分類和預(yù)測
分類是對無排序規(guī)律的標(biāo)號(hào)進(jìn)行分類,而預(yù)測則是將連續(xù)值的函數(shù)模型進(jìn)行預(yù)測。其中,分類對于數(shù)據(jù)挖掘技術(shù)來說是非常重要的一個(gè)基礎(chǔ),通過分類能夠?qū)?shù)據(jù)集的特性正確的表現(xiàn)出來,從而將各個(gè)類別的屬性進(jìn)行相對應(yīng)的劃分。如今比較常見的計(jì)算方法為決策樹、粗糙集、貝葉斯、遺傳算法等等。
而預(yù)測則是在已知分類情況的基礎(chǔ)之上將未來的發(fā)展規(guī)律進(jìn)行預(yù)測,目前較為常用的方式有時(shí)間序列、回歸分析以及局勢外推等等。
2.3 關(guān)聯(lián)分析
相信大家都了解蝴蝶效應(yīng),在自然界中發(fā)生的任何一次微小的變動(dòng)都極有可能連帶出另一個(gè)事件的發(fā)生,而關(guān)聯(lián)分析則是遵循這個(gè)規(guī)律所完成的。事物同事物之間是具有一定的依賴性和關(guān)聯(lián)性的,基于此種情況,我們就有機(jī)會(huì)對其中的規(guī)律性進(jìn)行有效的預(yù)測。
舉例說明,曾經(jīng)知名度非常高的購物籃事件就是通過此種關(guān)聯(lián)分析法來進(jìn)行完成的。其中,通過對顧客購物籃中物品的管理規(guī)律進(jìn)行分析,從而將顧客的購買特點(diǎn)和購買習(xí)慣進(jìn)行初步的掌握,最后根據(jù)這些數(shù)據(jù)再將日常的營銷方案和營銷策略制定出來。實(shí)踐證明,此種關(guān)聯(lián)分析法是非常有效果的。
3 數(shù)據(jù)的預(yù)處理
數(shù)據(jù)的預(yù)處理所指的是對網(wǎng)絡(luò)日志中的相關(guān)數(shù)據(jù)進(jìn)行二次加工,在加工的過程當(dāng)中需要對數(shù)據(jù)的原始性進(jìn)行有效的保存。其中的挖掘算法所代表的是將數(shù)據(jù)的結(jié)構(gòu)以及規(guī)則有效的選取出來。其中具體的系統(tǒng)結(jié)構(gòu)如下:web日志—— 數(shù)據(jù)預(yù)處理—— 確定挖掘算法—— 數(shù)據(jù)挖掘—— 模式。
對日志進(jìn)行數(shù)據(jù)挖掘之前需要對相關(guān)的數(shù)據(jù)進(jìn)行優(yōu)先處理,其中包括數(shù)據(jù)的增加和減少、用戶的識(shí)別工作、會(huì)話內(nèi)容的識(shí)別工作以及路徑的補(bǔ)充工作等等。
3.1 數(shù)據(jù)的縮減
首先來了解一下Web日志常見的數(shù)據(jù)格式:用戶的訪問日期和訪問時(shí)間、IP地址、方法、指定頁面的URL、字節(jié)數(shù)量、網(wǎng)頁狀態(tài)、代理頁面的URL等等。由于Web的日志挖掘工作僅僅針對用戶的行為模式較為關(guān)注,對一些沒有顯示請求的界面就非常容易被忽略。例如帶有后綴名為jpg、jpeg、gif等。在此基礎(chǔ)之上在對余下的篩選記錄中將相關(guān)的項(xiàng)進(jìn)行選取和挖掘。
3.2 用戶識(shí)別
在用戶的系統(tǒng)中通常都會(huì)設(shè)置防火墻,所以在Web日志中所產(chǎn)生的記錄極有可能是不真實(shí)的。這就會(huì)使用戶識(shí)別工作變得異常的復(fù)雜和繁瑣,使用啟發(fā)式規(guī)則則能夠讓用戶的識(shí)別工作有效的完成。
規(guī)則一:假設(shè)用戶的IP相同,如果代理瀏覽器的操作系統(tǒng)出現(xiàn)了變化,則代表其屬于不同的用戶。
規(guī)則二:假設(shè)用戶的IP相同,如果當(dāng)下的鏈接頁面同已經(jīng)瀏覽過的鏈接頁面沒有任何的關(guān)系,則代表用戶是不同的。
3.3 會(huì)話識(shí)別
會(huì)話識(shí)別的最終目的是可以將用戶的訪問記錄進(jìn)行劃分,從而形成多個(gè)單獨(dú)的會(huì)話,并以此來作為不同的用戶單位。其中,如果歷經(jīng)時(shí)間超過了事先的限定范圍,則會(huì)默認(rèn)認(rèn)為一個(gè)新的會(huì)話已經(jīng)開始。
3.4 路徑補(bǔ)充
如果想要達(dá)到減少網(wǎng)絡(luò)傳輸量的目的,目前大部分的瀏覽器都會(huì)采取對剛剛訪問的頁面進(jìn)行緩存的做法。其中,如果用戶在頁面中給出了返回指令,系統(tǒng)將會(huì)顯示出緩存頁面。由于Web的服務(wù)器無法對用戶的訪問頁面有效的進(jìn)行確定,對PostLOG表中的refer進(jìn)行檢查將能夠完成對頁面的確定工作。
如果用戶的訪問歷史中包含了多個(gè)當(dāng)前頁面的鏈接,將優(yōu)先選擇請求時(shí)間最接近的的頁面。
4 結(jié)語
互聯(lián)網(wǎng)已經(jīng)逐漸的在人們的生活中占據(jù)了主導(dǎo)的地位,為了能夠讓用戶有更好的體驗(yàn)感受,相關(guān)的技術(shù)部門應(yīng)該對用戶的行為進(jìn)行更準(zhǔn)確的理解和掌握。伴隨著數(shù)據(jù)管理工作的不斷優(yōu)化,以及相關(guān)檢索技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)將在未來擁有著更為廣大的發(fā)展舞臺(tái),讓其能夠更好地為互聯(lián)網(wǎng)、為用戶提供服務(wù)。
參考文獻(xiàn)
[1] 胡天狀.數(shù)據(jù)挖掘技術(shù)在教育決策支持系統(tǒng)中的應(yīng)用[D].杭州:浙江師范大學(xué),2002.
[2] 丁守哲.基于云計(jì)算的建筑設(shè)計(jì)行業(yè)信息系統(tǒng)開發(fā)模式與實(shí)現(xiàn)技術(shù)研究[D].合肥:合肥工業(yè)大學(xué),2012.
[3] 劉華婷,郭仁祥,姜浩.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件,2009(1):146-149.