郭龍
摘要:近年來(lái),隨著我國(guó)經(jīng)濟(jì)的持續(xù)穩(wěn)定增長(zhǎng)以及國(guó)內(nèi)國(guó)際環(huán)境的穩(wěn)定,在為科學(xué)技術(shù)創(chuàng)造良好的發(fā)展空間的同時(shí),也有效的推動(dòng)了科學(xué)技術(shù)尤其是計(jì)算機(jī)技術(shù)的發(fā)展和創(chuàng)新。在這樣的背景之下,如何利用數(shù)據(jù)的分類(lèi)算法,對(duì)相關(guān)的電子數(shù)據(jù)進(jìn)行處理,成為了有關(guān)部門(mén)以及人員亟待解決的問(wèn)題。本文基于此,分析了幾種處理數(shù)據(jù)分類(lèi)算法,并討論如何在大數(shù)挖掘的背景下,利用數(shù)據(jù)分類(lèi)算法技術(shù)對(duì)有關(guān)的數(shù)據(jù)進(jìn)行分類(lèi)處理。
關(guān)鍵詞:大數(shù)據(jù)挖掘 數(shù)據(jù)分類(lèi)算法 技術(shù)研究
中圖分類(lèi)號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2016)09-0127-01
當(dāng)前,在經(jīng)濟(jì)發(fā)展以及數(shù)字化辦公的背景之下,越來(lái)越多的行業(yè)都在實(shí)際的管理環(huán)節(jié)中引入了大數(shù)據(jù)挖掘的概念。事實(shí)上,這種情況的出現(xiàn)為計(jì)算機(jī)產(chǎn)業(yè)的發(fā)展帶來(lái)了機(jī)遇,也為其制造了挑戰(zhàn)。為了更好的面對(duì)時(shí)代發(fā)展的趨勢(shì),對(duì)相關(guān)的數(shù)據(jù)進(jìn)行有效的分類(lèi)處理,相關(guān)的領(lǐng)域內(nèi)逐漸加強(qiáng)了對(duì)于數(shù)據(jù)分類(lèi)算法技術(shù)的學(xué)習(xí)和運(yùn)用。目前,常用的數(shù)據(jù)分類(lèi)類(lèi)型包括:包括決策樹(shù)類(lèi)、Bayes 類(lèi)等,對(duì)此筆者進(jìn)行相關(guān)具有的闡釋。
1 數(shù)據(jù)挖掘以及分類(lèi)算法的含義
所謂的數(shù)據(jù)挖掘指的是在浩渺如煙的數(shù)據(jù)中之攫取有用的、價(jià)值比高的知識(shí)數(shù)據(jù)的過(guò)程,事實(shí)上,數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)技術(shù)發(fā)展的必然結(jié)果。由于數(shù)據(jù)挖掘順應(yīng)了科技發(fā)展的需求,因?yàn)槠湓谶\(yùn)用的過(guò)程中,涉及到諸如是零售、金融、醫(yī)療、通訊等諸多領(lǐng)域之中。
而分類(lèi)算法指的則是通過(guò)對(duì)已知類(lèi)別的數(shù)據(jù)進(jìn)行分析,并對(duì)其中的分類(lèi)規(guī)律進(jìn)行總結(jié),并以此為基礎(chǔ),對(duì)新的數(shù)據(jù)類(lèi)別進(jìn)行預(yù)測(cè)。事實(shí)上,分類(lèi)算法是一個(gè)將未知樣本分到幾個(gè)已存在類(lèi)的過(guò)程,而這個(gè)過(guò)程的實(shí)現(xiàn)主要包含兩個(gè)方面:一是以已知的訓(xùn)練數(shù)據(jù)集為依托,構(gòu)建用于描述預(yù)定的數(shù)據(jù)類(lèi)集或概念集的新模型,二是在新構(gòu)建的模型的基礎(chǔ)上,對(duì)未知的數(shù)據(jù)進(jìn)行分類(lèi),繼而推動(dòng)了數(shù)據(jù)的合理處理。
2 數(shù)據(jù)挖掘的主要分類(lèi)算法
由于在數(shù)據(jù)挖掘背景下,需要針對(duì)數(shù)據(jù)的具體情況,采取不同的分類(lèi)算法進(jìn)行相關(guān)的分類(lèi)處理,基于此,就使得現(xiàn)存的數(shù)據(jù)分類(lèi)算法存在多種,它們的出現(xiàn)能夠有效的推動(dòng)數(shù)據(jù)的分類(lèi)處理,繼而推動(dòng)了計(jì)算機(jī)技術(shù)的發(fā)展。關(guān)于數(shù)據(jù)分類(lèi)算法的種類(lèi),筆者做了相關(guān)的總結(jié),具體內(nèi)容如下。
2.1 決策樹(shù)分類(lèi)算法
所謂的決策樹(shù)分類(lèi)法,又被稱(chēng)之為貪心算法。該種算法采取的是由上而下的分治方式,其最大的優(yōu)點(diǎn)在于其能夠在雜亂無(wú)章的事例、數(shù)據(jù)中推導(dǎo)出以決策樹(shù)為表現(xiàn)形式的分類(lèi)規(guī)律。事實(shí)上,這種分類(lèi)算法是在實(shí)例的基礎(chǔ)上進(jìn)行相關(guān)的數(shù)據(jù)歸類(lèi)以及處理。由于其在實(shí)際的運(yùn)用過(guò)程中對(duì)噪聲數(shù)據(jù)的處理具有良好的健壯性,因而其逐漸成為各領(lǐng)域在對(duì)數(shù)據(jù)分類(lèi)處理的過(guò)程中,所采取的最為普遍的算法。
在決策樹(shù)算法的構(gòu)建過(guò)程中,其每一個(gè)節(jié)點(diǎn)所表示的則是某一個(gè)屬性的測(cè)試,而分制代表的就是數(shù)據(jù)測(cè)試輸出。而在對(duì)未知的數(shù)據(jù)樣本進(jìn)行分析的過(guò)程中,采取的往往是將樣本的屬性值與決策樹(shù)相比較的方法。為了更加直觀(guān)的了解到?jīng)Q策樹(shù)算法的形成、操作過(guò)程,筆者進(jìn)行了相關(guān)的算法流程圖的繪制,具體的內(nèi)容見(jiàn)圖1。
事實(shí)上,決策樹(shù)算法的傳統(tǒng)模式為C4.5算法,該種算法具有規(guī)則簡(jiǎn)單,方便操作的優(yōu)點(diǎn),但是隨著近年來(lái)計(jì)算機(jī)技術(shù)的不斷普及和運(yùn)用,使得需要處理的數(shù)據(jù)逐漸增多,而C4.5算法只能處理內(nèi)存量較小的數(shù)據(jù),在對(duì)大批量數(shù)據(jù)進(jìn)行分類(lèi)處理的過(guò)程中時(shí)常會(huì)出現(xiàn)對(duì)算法運(yùn)行受阻而無(wú)法繼續(xù)運(yùn)行的狀況。而這種情況也就導(dǎo)致了C4.5算法無(wú)法適應(yīng)現(xiàn)階段的數(shù)據(jù)分類(lèi)處理的需要,逐漸退出了的數(shù)據(jù)分類(lèi)處理工作環(huán)節(jié)中。
但隨著相關(guān)人員結(jié)合時(shí)代發(fā)展的需要,使得C4.5算法在原有的基礎(chǔ)之上獲得了改良和突破,并推動(dòng)了以C4.5算法為母本的SLIQ算法以及SPRINT算法的誕生。改良后的決策樹(shù)算法適應(yīng)了大數(shù)據(jù)挖掘的需要,推動(dòng)了數(shù)據(jù)的分類(lèi)與處理工作的有序進(jìn)行。
2.2 Bayes分類(lèi)算法
Bayes分類(lèi)算法是以概率統(tǒng)計(jì)學(xué)的相關(guān)理論知識(shí)為基礎(chǔ)而誕生的,雖然這種算法在實(shí)際的數(shù)據(jù)分類(lèi)處理的過(guò)程中獲得了較為廣泛的運(yùn)用,但是其也存在著諸多的缺點(diǎn)。
2.3 CBA分類(lèi)數(shù)據(jù)算法
CBA分類(lèi)數(shù)據(jù)算法是以關(guān)聯(lián)規(guī)則為基礎(chǔ)的數(shù)據(jù)算法。這種算法的實(shí)行往往需要依托于數(shù)據(jù)構(gòu)造分類(lèi)器。目前,CBA算法在運(yùn)行的過(guò)程中主要依賴(lài)于Apriori算法技術(shù)的使用,這種技術(shù)的優(yōu)點(diǎn)就在于能夠?qū)撛诘臄?shù)據(jù)關(guān)聯(lián)規(guī)則表面化,從而為方便了對(duì)于數(shù)據(jù)的歸納整理。
事實(shí)上,CBA分類(lèi)數(shù)據(jù)算法也存在著諸多的缺點(diǎn),比如因?yàn)閿?shù)據(jù)分類(lèi)是容易出現(xiàn)漏洞,繼而導(dǎo)致了相關(guān)的優(yōu)化作用難以發(fā)揮出來(lái),并最終降低了該種算法的運(yùn)行效率。
3 結(jié)語(yǔ)
近年來(lái),隨著計(jì)算機(jī)技術(shù)的發(fā)展,使得大數(shù)據(jù)挖掘逐漸成為時(shí)代發(fā)展的潮流,在這樣的背景之下,如何推動(dòng)數(shù)據(jù)分類(lèi)算法的運(yùn)用成為了亟待解決的問(wèn)題。本文筆者從大數(shù)據(jù)挖掘以及數(shù)據(jù)分類(lèi)算法的定義入手,對(duì)數(shù)據(jù)分類(lèi)算法的種類(lèi)、發(fā)展以及相關(guān)的優(yōu)缺點(diǎn)進(jìn)行了相應(yīng)的分析,筆者認(rèn)為,在實(shí)際工作中對(duì)于數(shù)據(jù)分類(lèi)算法的選擇,往往需要依據(jù)數(shù)據(jù)分析速度、可擴(kuò)展性和結(jié)果的準(zhǔn)確性等參數(shù),繼而選擇出相應(yīng)的數(shù)據(jù)分類(lèi)算法。
參考文獻(xiàn)
[1]李玲俐.數(shù)據(jù)挖掘中分類(lèi)算法綜述[J].重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2011(4):44-47.
[2]饒琛.大數(shù)據(jù)挖掘中的數(shù)據(jù)分類(lèi)算法技術(shù)研究[J].電子技術(shù)與軟件工程,2015(14):204.