王學(xué)穎+王金鳳+張燕麗
摘要:空間數(shù)據(jù)挖掘存在于空間數(shù)據(jù)庫中,而且大部分情況下可能是隱式的。文中描述了數(shù)據(jù)挖掘的幾個聚類方法——分類、聚類、半監(jiān)督、關(guān)聯(lián)分析。為此,在文中,基于一定的問題分析對這四個聚類方法做了一定的描述。因?yàn)橛行?shù)據(jù)需要對其未來行為趨勢做估計(jì),因此,需要一定的數(shù)據(jù)挖掘方法對其進(jìn)行統(tǒng)計(jì)與分析。
關(guān)鍵詞:空間數(shù)據(jù)挖掘;聚類方法;半監(jiān)督;關(guān)聯(lián)分析
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)04-0017-02
A comparative Study with Different Data Mining Classification Methods
WANG Xue-ying, WANG Jin-feng, ZHANG Yan-li
(Software College, Shenyang Normal University, Shenyang 110034 China)
Abstract: Spatial data mining may be the implicit existence in spatial database. In this article, we explore several clustering methods — classification, clustering, semi-supervised, association analysis. So, we make analysis for this four methods in this article. On account of the fact that some data need to be evaluated for its behavior trend. Therefore, it requires some data mining methods to analyze and count.
Key words: spatial data mining; clustering method; semi-supervised; association analysis
數(shù)據(jù)挖掘[1-3]處理過程包括搜索,選擇,探索以及大量數(shù)據(jù)的建模為發(fā)現(xiàn)潛在有用、從大的數(shù)據(jù)庫中最終可以理解的模式。數(shù)據(jù)挖掘的目標(biāo)就是把數(shù)據(jù)變?yōu)橛杏玫闹R。模式提取在數(shù)據(jù)挖掘技術(shù)中是一種非常重要的過程,它指的是數(shù)據(jù)子集之間的某些關(guān)系。
數(shù)據(jù)挖掘使用不同的計(jì)算、數(shù)據(jù)和機(jī)器學(xué)習(xí)的一些方法,其中機(jī)器學(xué)習(xí)包括數(shù)據(jù)分析[4,5],決策樹[6-8],神經(jīng)網(wǎng)絡(luò)[9-11],規(guī)則歸納[12,13]和提煉[14]和圖形可視化[15]等,目的就是詳盡探索數(shù)據(jù)顯示可能存在的復(fù)雜關(guān)系。盡管機(jī)器學(xué)習(xí)已經(jīng)被使用很長時間了,但是先進(jìn)技術(shù)發(fā)展和友好的工具對于商業(yè)智能來說令數(shù)據(jù)挖掘更具吸引力和實(shí)用價值。當(dāng)這些模式提取技術(shù)被正確使用的時候,從數(shù)據(jù)中提取有用的信息,使得它們成為非常有效的工具。
最近時間以來,數(shù)據(jù)挖掘技術(shù)的廣泛使用是由于以下幾方面原因:最明顯的因素就是人員在運(yùn)營事務(wù)中收集大量的數(shù)據(jù),在早期的90年代,信用卡和保險(xiǎn)公司使用數(shù)據(jù)挖掘作為一個檢測欺詐行為的工具。在很多組織中,不管什么類型的行業(yè)里,都需要在某種形式的操作過程中收集大量的數(shù)據(jù)。例如,零售行業(yè)多年來一直使用數(shù)據(jù)挖掘技術(shù)來預(yù)測他們的客戶可能會購買什么東西。電子商務(wù)也是最新使用數(shù)據(jù)挖掘技術(shù)之一的行業(yè)。
電子商務(wù)是一種基于網(wǎng)絡(luò)平臺來分享商業(yè)信息、維持商業(yè)關(guān)系、進(jìn)行商業(yè)交易的一種信息交流技術(shù)的使用。在電子商務(wù)中,不同的數(shù)據(jù)挖掘技術(shù)可以為不同目的而使用。例如,在促銷時候,營銷員工可能希望找出哪些產(chǎn)品顧客更傾向于購買,這些信息將允許他們把這些項(xiàng)目放在銷售包好的地方來增加收入。Web日志數(shù)據(jù)的使用許可來理解用戶的行為。這些數(shù)據(jù)包含使用者的權(quán)限以及可能在行為中展示的潛在模式,并確定電子商務(wù)的潛在客戶的信息。這些信息作用于:改變市場策略、確定顧客劃分、提高顧客保留力、預(yù)測顧客消費(fèi)和市場趨勢、對顧客提供個人服務(wù)、分析購物車、預(yù)測銷售額、重新設(shè)計(jì)網(wǎng)站來提供一個很好的服務(wù)甚至做一些更好的商業(yè)決定。數(shù)據(jù)挖掘方面引起了Web挖掘技術(shù)的產(chǎn)生,它是一種可以細(xì)分網(wǎng)頁內(nèi)容,網(wǎng)頁結(jié)構(gòu)網(wǎng)頁使用的技術(shù),這種技術(shù)也可以提取有用的信息從Web文檔中,現(xiàn)在也得到了廣泛的應(yīng)用。
正如我們上面描述的,數(shù)據(jù)挖掘特別是Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中扮演一個重要的角色。近年來電子商務(wù)的快速增長,通過運(yùn)營事務(wù)收集大量數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)越來越成為發(fā)現(xiàn)和理解未知的客戶模式重要方式。在接下來,簡要描述的一些示例數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用。
集群或分組電子商務(wù)客戶具有相似瀏覽行為,允許他們有共同的識別特征,給客戶提供一個更好的理解,目的是給他們一個更合適的,和個性化的服務(wù)。當(dāng)供應(yīng)商知道客戶的需求和利益,他們可以提供更好的服務(wù),保持客戶與供應(yīng)商的關(guān)系
1 挖掘的模式類型
機(jī)器學(xué)習(xí)是一個成熟的計(jì)算機(jī)科學(xué)領(lǐng)域來研究計(jì)算機(jī)在數(shù)據(jù)中是如何學(xué)習(xí)模式和規(guī)律。另一方面,數(shù)據(jù)挖掘是由一個人執(zhí)行的一個特定的目標(biāo)。通常來說,這個人使用一或者多個在機(jī)器學(xué)習(xí)領(lǐng)域創(chuàng)建的模式識別算法,處理的數(shù)據(jù)是大量的,有可能存在一些缺陷,如缺失數(shù)據(jù)、與基數(shù)相比是高維度。數(shù)據(jù)挖掘可以根據(jù)不同家庭問題解決情況而被組織。這些問題包括把條目分成已知的類別,根據(jù)相似性進(jìn)行分組,從交易中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,確定典型的數(shù)據(jù),預(yù)測一個連續(xù)變量等。
2 分類
在數(shù)據(jù)挖掘中,經(jīng)常假設(shè)數(shù)據(jù)存在數(shù)字形式類似于一個大表格。某人可能想要預(yù)測一個特定屬性的值(一個電子表格中的特定列),當(dāng)這個屬性,有時也稱為類屬性,包括一個有限數(shù)目的離散元素,在這類問題中,需要把這些數(shù)據(jù)建立一個數(shù)學(xué)模型,此模型獲得一個新實(shí)例類的信息,而這個類時未知的,模型就會產(chǎn)生一個相應(yīng)策略的估計(jì),我們的任務(wù)就是盡可能正確的執(zhí)行這一評估。
在機(jī)器學(xué)習(xí)中,分類是監(jiān)督學(xué)習(xí)(實(shí)例或物品被分配到一些預(yù)定義的類別中)的一種形式。正式的來說,數(shù)據(jù)分類是一個從實(shí)例集合(提前知道的一種訓(xùn)練集)建立的數(shù)學(xué)函數(shù)。實(shí)例的種類包含在一個矩陣中,分類背后的基本思想就是潛在的功能模式和各自的類別有關(guān)。但是,數(shù)學(xué)函數(shù)對于我們是未知的,而且需要從另外一個模式和它的類中建立另外一個函數(shù)來估計(jì)原函數(shù)。目前,數(shù)據(jù)分類的用途主要表現(xiàn)在社交網(wǎng)絡(luò)分類,信用評估,欺詐檢測,網(wǎng)頁挖掘等。
3 聚類
即使有時我們渴望分類元素的類別是不可用的,與數(shù)據(jù)分類相比,從學(xué)習(xí)的角度講,這個問題稱為數(shù)據(jù)聚類并代表一個更具挑戰(zhàn)性的任務(wù)。數(shù)學(xué)模型接收不包含標(biāo)簽的數(shù)據(jù),通過檢查他們的相似之處來推斷組元素,那么輸出就是估計(jì)的類成員。與分類問題相反的是,聚類是不同的組被創(chuàng)建。目標(biāo)是收集類似的實(shí)例并放在同一組,同時,分配給不同的群體的元素是不同的。這種類型的學(xué)習(xí)有時被稱為無監(jiān)督學(xué)習(xí),因?yàn)槿鄙倮蠋煹淖饔谜_的類標(biāo)簽的一個特定模式。
4 半監(jiān)督分類
分類是監(jiān)督學(xué)習(xí)的一種特殊例子,假設(shè)定義良好的訓(xùn)練集的知識有一個所有訓(xùn)練樣本的身份清晰的規(guī)范,近年來,一個獨(dú)特的和有趣的學(xué)習(xí)模式出現(xiàn)了就是半監(jiān)督式學(xué)習(xí),同時這種模式結(jié)合標(biāo)記和未標(biāo)記實(shí)例進(jìn)行分類,這個特定類型的分類器不需要每個樣本的類標(biāo)簽規(guī)范。通常這種類型的學(xué)習(xí)出現(xiàn)在許多可用的情況下,但只有少數(shù)人擁有標(biāo)簽因?yàn)槭召彽某杀竞芨?。在這種情況下,一種普遍的學(xué)習(xí)方式就是執(zhí)行一個類聚類機(jī)制,分配訓(xùn)練樣本成不同的組,隨后,使用已知類身份的訓(xùn)練集把一個類標(biāo)簽分配給每個小組。給定一個聚類算法,A是標(biāo)簽集,B是未標(biāo)記的實(shí)例集,C是半監(jiān)督學(xué)習(xí)算法,D是先聚類后標(biāo)記的一種方法。首先,使用聚類算法A確定輸入多樣化的類;第二,確定哪些標(biāo)記的樣品下降到每個類中。對于每個集群,基于監(jiān)督算法C確定決定界,這個被標(biāo)記的樣品將會被分配到那個類中,反而,這個類允許每個的標(biāo)簽進(jìn)行預(yù)測。最后,半監(jiān)督分類方法就被很好的應(yīng)用到在線評估中。
5 關(guān)聯(lián)分析
研究數(shù)據(jù)挖掘中的另一個主要問題是關(guān)聯(lián)分析。數(shù)據(jù)是符合交易規(guī)則的,賬單包括了從雜貨店購買的產(chǎn)品列表。數(shù)據(jù)的性質(zhì)是獨(dú)一無二的:物品不一定在兩個賬單中重復(fù)。但是通常人們購買趨勢傾向于類似的表現(xiàn)。關(guān)聯(lián)分析試圖發(fā)現(xiàn)這些趨勢,一個著名的例子就是在雜貨店賬單尿布和啤酒之間的關(guān)系。像這樣的一種信息提供了一種有用的價值。如果你想知道有人會買啤酒和尿布你可以把它們放在一起,或?qū)⑺鼈兎旁谙喾吹慕锹?,增加客戶會看到其他產(chǎn)品的概率。
關(guān)聯(lián)分析是從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。關(guān)聯(lián)分析的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放人其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應(yīng)用還包括價目表設(shè)計(jì)、商品促銷、商品的排放和基于購買模式的顧客劃分。
6 結(jié)束語
文中首先對聚類分析做了簡單的說明并描述了一些基本的問題,還提供了一些聚類方法,文中對聚類、分類、半監(jiān)督學(xué)習(xí)以及關(guān)聯(lián)分析做出了一定的描述,在以后數(shù)據(jù)挖掘中有助于讀者更好地把握這些概念,并能應(yīng)用到實(shí)際作用中。
參考文獻(xiàn):
[1] 周海燕. 空間數(shù)據(jù)挖掘的研究[D].鄭州:中國人民解放軍信息工程大學(xué),2003.
[2] 王海起,王勁峰. 空間數(shù)據(jù)挖掘技術(shù)研究進(jìn)展[J]. 地理與地理信息科學(xué),2005(4):6-10.
[3] 孫志偉,趙政. SOFM神經(jīng)網(wǎng)絡(luò)在處理非空間屬性中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用,2006,11:2667-2669+2673.
[4] 覃雄派,王會舉,杜小勇,等. 大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J]. 軟件學(xué)報(bào),2012(1):32-45.
[5] 欒文鵬,余貽鑫,王兵. AMI數(shù)據(jù)分析方法[J]. 中國電機(jī)工程學(xué)報(bào),2015(1):29-36.
[6] Tianhua Liu,Shoulin Yin.An improved k-means clustering algorithm for Kalman filter[J].ICIC Express Letters Part B: Applications,2015, 6(10):2687-2692.
[7] 徐金寶. 核函數(shù)在劃分聚類中的應(yīng)用與實(shí)現(xiàn)[J]. 電腦知識與技術(shù),2013(27):6185-6188.
[8] 殷守林,劉天華,李航. 基于模擬退火算法的卡爾曼濾波在室內(nèi)定位中的應(yīng)用研究[J]. 沈陽師范大學(xué)學(xué)報(bào):自然科學(xué)版,2015(1):86-90.
[9] 唐守軍. 基于子圖分割和 BP 神經(jīng)網(wǎng)絡(luò)的人臉識別方法[J]. 電子技術(shù)與軟件工程,2015(5):111.
[10] 趙文秀,張曉麗,李國會. 基于隨機(jī)森林和RBF神經(jīng)網(wǎng)絡(luò)的長期徑流預(yù)報(bào)[J]. 人民黃河,2015(2):10-12.
[11] 黃煜坤. 基于BP神經(jīng)網(wǎng)絡(luò)算法的入侵檢測技術(shù)[J]. 電子測試,2015(5):60-62.
[12] 石倩,陳榮,魯明羽. 基于規(guī)則歸納的信息抽取系統(tǒng)實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程與應(yīng)用,2008(21):166-170.
[13] 李婷,崔杜武. 基于規(guī)則歸納的遺傳算法選擇和參數(shù)設(shè)置[J]. 計(jì)算機(jī)工程,2010(3):218-220,223.
[14] 沈瑾,王麗亞,隆惠君,等. 基于神經(jīng)網(wǎng)絡(luò)規(guī)則抽取的產(chǎn)品服務(wù)配置規(guī)則獲取[J]. 工業(yè)工程與管理,2012(3):66-73.
[15] 范彥斌,楊彭基. 有限元分析計(jì)算結(jié)果的計(jì)算機(jī)圖形可視化顯示[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),1995(1):11-16.