張書月
摘要:隨著全球信息化發(fā)展的加快與信息技術(shù)的不斷革新,信息化已滲透到社會(huì)的方方面面,由此也產(chǎn)生了大量的數(shù)據(jù)信息。如何有效挖掘出我們需要的信息數(shù)據(jù),提高信息找尋速度與利用率是我們需要解決的問題。本文主要對(duì)大數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法技術(shù)進(jìn)行研究,介紹了大數(shù)據(jù)挖掘與數(shù)據(jù)分類算法,對(duì)數(shù)據(jù)分類算法相關(guān)技術(shù)進(jìn)行分析,旨在通過本文為數(shù)據(jù)挖掘分類算法的有效運(yùn)用提供一些借鑒和參考。
關(guān)鍵詞:大數(shù)據(jù);信息化;分類算法
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)20-0042-02
大數(shù)據(jù)時(shí)代,進(jìn)行信息化建設(shè),推行數(shù)字化辦公的行業(yè)也不斷增加,大數(shù)據(jù)挖掘也得到了廣泛的應(yīng)用,這既是機(jī)遇,也是挑戰(zhàn)。面對(duì)社會(huì)以及人們產(chǎn)生的各類數(shù)據(jù),準(zhǔn)確對(duì)其進(jìn)行分類處理,挖掘出有效信息,提高信息利用率勢(shì)在必行。鑒于此,強(qiáng)化大數(shù)據(jù)挖掘,高效運(yùn)用數(shù)據(jù)分類算法技術(shù)處理數(shù)據(jù)是極具現(xiàn)實(shí)意義的。下文將就大數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法技術(shù)展開研究,詳細(xì)分析幾種經(jīng)典的數(shù)據(jù)分類算法技術(shù)。
1數(shù)據(jù)挖掘技術(shù)與數(shù)據(jù)分類算法概述
1.1數(shù)據(jù)挖掘技術(shù)概述
通俗地講,從海量數(shù)據(jù)信息中挖掘出有效信息就是數(shù)據(jù)挖掘。這種有用信息的發(fā)掘跟普通信息檢索有本質(zhì)區(qū)別。數(shù)據(jù)挖掘是通過機(jī)器學(xué)習(xí)算法或關(guān)聯(lián)規(guī)則等形式發(fā)掘出間接、抽象的有效信息,而普通信息檢索是以查詢命令的形式獲取想要信息的,更為直接。例如,數(shù)據(jù)挖掘可從超市銷售記錄中獲取“買尿不濕多會(huì)買啤酒”間接信息,而信息檢索是無法獲取這一信息,超市可根據(jù)數(shù)據(jù)挖掘獲取的隱藏信息調(diào)整商品布局。數(shù)據(jù)挖掘也是一種從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)的過程,主要包括三個(gè)步驟:(1)數(shù)據(jù)預(yù)處理:從大量數(shù)據(jù)中找抽取需要分析的數(shù)據(jù),并以要求的格式整理出來;(2)尋找規(guī)律:利用數(shù)據(jù)挖掘技術(shù)找出數(shù)據(jù)間存在的規(guī)律;(3)知識(shí)表示:即通過可視化技術(shù)將找出的規(guī)律、知識(shí)呈現(xiàn)給用戶。數(shù)據(jù)挖掘是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)的一個(gè)關(guān)鍵步驟,可以說是信息時(shí)代的一項(xiàng)重大成果。
1.2數(shù)據(jù)分類算法技術(shù)分類
作為數(shù)據(jù)挖掘的重要技術(shù),分類算法技術(shù)的作用不容忽視,主要是通過分析研究數(shù)據(jù)訓(xùn)練集,從而找出分類規(guī)則以預(yù)測(cè)新數(shù)據(jù)類型,可將未知樣本分類到已存在類的技術(shù)。分類算法主要從兩個(gè)階段對(duì)數(shù)據(jù)進(jìn)行處理:(1)模型構(gòu)建:基于已知訓(xùn)練數(shù)據(jù)集,對(duì)預(yù)定的概念集或者數(shù)據(jù)類集進(jìn)行構(gòu)建;(2)模型使用:基于構(gòu)建的新模型,分類未知數(shù)據(jù)。分類算法技術(shù)可在文本、生物數(shù)據(jù)、多媒體以及社交網(wǎng)絡(luò)等多種問題領(lǐng)域應(yīng)用,也是當(dāng)前各界研究的熱點(diǎn)課題。需要注意的是,數(shù)據(jù)分類算法技術(shù)有多種算法,各有其適用情況,需要開發(fā)者根據(jù)實(shí)際情況靈活選擇,有效運(yùn)用。
2大數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法技術(shù)分析
2.1決策樹分類
決策樹分類算法是一種基于實(shí)例歸類處理相關(guān)數(shù)據(jù),采用由上而下分治形式的分類算法,也叫作貪心算法。從雜亂的事例或數(shù)據(jù)中找出分類規(guī)律,并借助決策樹形式表現(xiàn)出來是該算法的最大特點(diǎn)。在實(shí)際運(yùn)用過程中,決策樹算法處理噪聲數(shù)據(jù)的健壯性是非常好的,因而被廣泛應(yīng)用于各個(gè)領(lǐng)域的數(shù)據(jù)分類處理中,也是當(dāng)前使用最為普遍的數(shù)據(jù)分類算法之一。
決策樹算法構(gòu)建是這樣的:屬性測(cè)試使用節(jié)點(diǎn)來表示,數(shù)據(jù)測(cè)試輸出則使用分制表示。如果分析未知數(shù)據(jù)樣本則將決策樹與樣本屬性值進(jìn)行比較。以“買電腦預(yù)測(cè)”進(jìn)行說明(見圖1),其中橢圓表示樹葉,而矩形則表示節(jié)點(diǎn)[1]。決策樹分類算法包括這幾個(gè)步驟:(1)選取某訓(xùn)練集中最重要屬性作為決策樹的根,以屬性值為標(biāo)準(zhǔn)對(duì)訓(xùn)練集進(jìn)行分割,并從訓(xùn)練數(shù)據(jù)節(jié)點(diǎn)中選擇出一個(gè)極具代表性的節(jié)點(diǎn)構(gòu)建決策樹;(2)如果數(shù)據(jù)對(duì)象為同一類則使用該類類標(biāo)號(hào)定義節(jié)點(diǎn),也就是葉子節(jié)點(diǎn);如果數(shù)據(jù)對(duì)象為不同類,則利用信息熵等策略衡量并選出一個(gè)屬性作為測(cè)試屬性,也就是測(cè)試節(jié)點(diǎn);根據(jù)測(cè)試節(jié)點(diǎn)特點(diǎn)將訓(xùn)練集分成諸多子集,從原始屬性開始將測(cè)試節(jié)點(diǎn)屬性幾種刪除;(3)周而復(fù)始重復(fù)上述步驟以生成完整分類訓(xùn)練集的決策樹。需要注意的是,找出測(cè)試屬性是決策樹分類算法的關(guān)鍵。
此外,決策樹的C4.5算法是一種簡(jiǎn)便易操作的傳統(tǒng)決策樹算法模式,決策樹上各個(gè)節(jié)點(diǎn)的被測(cè)試屬性是根據(jù)最大信息增益與最小熵來確定的,根據(jù)測(cè)試結(jié)果對(duì)對(duì)象集進(jìn)行劃分。ID3則是一種操作簡(jiǎn)單、分類快速的決策樹學(xué)習(xí)算法??傊?,決策樹分類算法應(yīng)用較多,具有較高的準(zhǔn)確率與較好的可解釋性,并且對(duì)異常值、缺失值等分布敏感性較低,但也存在一定的不足,如容易過擬合,也就是訓(xùn)練集可以正確分類,但是測(cè)試集表現(xiàn)較差,算法上會(huì)存在許多分支,必要時(shí)需要通過剪枝進(jìn)行避免。
2.2神經(jīng)網(wǎng)絡(luò)分類算法
20世紀(jì)40年代初,Me Culloch和Pitts提出了第一個(gè)神經(jīng)元形式的數(shù)學(xué)模型。自此,各界對(duì)神經(jīng)網(wǎng)絡(luò)的研究熱度有所增加,神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)、金融、地質(zhì)學(xué)以及物理學(xué)等諸多領(lǐng)域都得到了一定程度的應(yīng)用。但隨著對(duì)神經(jīng)網(wǎng)絡(luò)功能與局限性分析的深入,該課題的研究也陷入了低潮,此階段,一些堅(jiān)持研究的研究者取得了一些突破,如Grossberg提出了ART模型,Koho-nen提出了SOM模型。直到20世紀(jì)80年代,Hopf'ied的研究將神經(jīng)網(wǎng)絡(luò)的研究再度推向高潮。Rumellhart、Me Cllel-Iand等人提卅的PDP理論已成為當(dāng)前應(yīng)用較為廠泛的數(shù)據(jù)分類算法之一[2]。神經(jīng)網(wǎng)絡(luò)分類算法時(shí)基于人腦結(jié)構(gòu)、功能的模仿以一定的連接方式將多個(gè)處理單元連接起來形成系統(tǒng),以動(dòng)態(tài)響應(yīng)外部輸入信息的方式對(duì)數(shù)據(jù)進(jìn)行處理。該分類算法可解決這幾方面的數(shù)據(jù)挖掘問題:(1)具有非線性與時(shí)序性特征且較為復(fù)雜、存在噪音的大量數(shù)據(jù);(2)分析表述與處理都要涉及領(lǐng)域知識(shí)的具有多樣性目標(biāo)的數(shù)據(jù);(3)數(shù)據(jù)分析目標(biāo)較為復(fù)雜,且需要分析海量數(shù)據(jù)集。神經(jīng)網(wǎng)絡(luò)不僅在數(shù)據(jù)挖掘的分類方面有所應(yīng)用,還在預(yù)測(cè)、特征挖掘以及聚類等方面有所應(yīng)用。
2.3基于頻繁模式的分類算法
基于頻繁模式的分類算法也就是基于關(guān)聯(lián)規(guī)則以不同標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行分類。該算法主要有CBA分類算法、CPAR分類算法以及CMAR分類算法這三種。
2.3.1 CBA分類算法
CBA分類算法是基于關(guān)聯(lián)規(guī)則依托數(shù)據(jù)構(gòu)造分類器的數(shù)據(jù)分類算法,運(yùn)用的是Apriori技術(shù)。該算法可表面化潛在的數(shù)據(jù)關(guān)聯(lián)規(guī)則,為數(shù)據(jù)分類處理創(chuàng)造有利條件,在大數(shù)據(jù)集上的準(zhǔn)確率是比較高的。同時(shí)CBA分類算法也存在一定的不足,如在數(shù)據(jù)分類時(shí)數(shù)據(jù)遺漏風(fēng)險(xiǎn)較高,而將最小支持度甚至為0能一定程度降低數(shù)據(jù)遺漏風(fēng)險(xiǎn),但也削弱了該算法的優(yōu)化作用,不利于運(yùn)行效率的提高。
2.3.2 CPAR分類算法
基于預(yù)測(cè)關(guān)聯(lián)規(guī)則的分類算法就是CPAR分類算法,是基于FOLL形成的一種分類算法。該算法在處理數(shù)據(jù)時(shí),通常都會(huì)形成一個(gè)標(biāo)準(zhǔn)化的規(guī)格,此時(shí)將正樣本刪除一直到正樣本覆蓋完數(shù)據(jù)集中的所有數(shù)據(jù)為止。同CBA、CMAR分類算法相較,CPAR在大數(shù)據(jù)庫的數(shù)據(jù)分類中應(yīng)用效果更佳。
2.3.3 CMAR分類算法
CMAR是一種基于多關(guān)聯(lián)規(guī)則的分類算法,與CBA算法在找尋項(xiàng)集與構(gòu)建分類器方面存在較大的差異。CBA算法是通過掃面數(shù)據(jù)庫以迭代的方式找出項(xiàng)集,從大到小排列白小支持度與最小置信度找出關(guān)聯(lián)規(guī)則,構(gòu)建出分類模型,而CMAR算法是通過構(gòu)建數(shù)的形式將項(xiàng)集找出并對(duì)分類器進(jìn)行構(gòu)造的。并且該算法的最小支持度與最小置信度的滿足集合是通過FP-growth算法轉(zhuǎn)換來實(shí)現(xiàn)的,通常一個(gè)步驟就能夠完成分類器構(gòu)造與項(xiàng)集的挖掘。此外,同CBA分類算法相較,CMAR分類算法運(yùn)行時(shí)間更短,內(nèi)存使用率更高,可伸縮性也更強(qiáng)。
2.4 Bayes分類算法
Bayes分類算法是基于概率統(tǒng)計(jì)學(xué)而產(chǎn)生的一種分類算法。如樸素Bayes分類是基于訓(xùn)練樣本對(duì)每個(gè)可能的類別來進(jìn)行建模的,并且分為三個(gè)階段:(1)準(zhǔn)備:對(duì)特征屬性進(jìn)行確定,并依據(jù)屬性特征進(jìn)行劃分,之后則分類待分類項(xiàng),將待分類數(shù)據(jù)輸入,而將特征屬性與訓(xùn)練樣本集合輸出;(2)分類器訓(xùn)練:主要是生成分類器,將特征屬性、訓(xùn)練樣本輸入,將分類器輸出;(3)應(yīng)用:即借助分類器分類待分類項(xiàng),是由程序完成的,將分類器與待分類項(xiàng)輸入,并將待分類型與類別之間的映射關(guān)系輸出。Bayes分類算法是一種應(yīng)用較為廣泛的數(shù)據(jù)挖掘分類算法,但也存在一定的不足,比如實(shí)際應(yīng)用中,類別總體概率與樣本概率分布通常是未知的,為了獲取這兩方面信息,樣本容量就不能太小。再比如Bayes分類算法表達(dá)文本的主題詞間應(yīng)具有獨(dú)立性,然而實(shí)際上這樣的條件通常無法很好地滿足,這就一定程度降低了分類算法的應(yīng)用效果,與理論值存在差異。
2.5 VSM分類算法
VSM分類算法也就是向量空間模型算法,在20世紀(jì)60年代末由Salton等人提出,是最早的關(guān)于信息檢索方面的分類算法。該算法是采用加權(quán)特征向量來表示文檔,之后再通過特征向量間的內(nèi)積算出文本相似度,從而對(duì)分類樣本所屬類別進(jìn)行確定。應(yīng)用VSM分類算法時(shí)會(huì)先建立好相關(guān)的類別向量空間,分類時(shí)只需要計(jì)算出該樣本與各個(gè)類別向量的相似度并篩選出最大相似度作為該樣本的類別,需要注意的是,VSM分類算法是一種更適合于分類專業(yè)文獻(xiàn)的算法,對(duì)類別向量特征依賴度比較高,而類別每個(gè)特征項(xiàng)表達(dá)類別的能力會(huì)隨著該類別非零特征項(xiàng)的增多而減弱。
2.6其他分類算法
如遺傳算法是利用自然進(jìn)化理念進(jìn)行分類的。該算法下隨機(jī)產(chǎn)生樣本數(shù)據(jù)集進(jìn)而產(chǎn)生規(guī)則,形成分類器。具體來說,樣本數(shù)據(jù)集用初始群體表示,每個(gè)規(guī)則使用二進(jìn)制位串表示,初始群體根據(jù)一定的規(guī)則形成后代,而后代在根據(jù)一定的規(guī)則交叉產(chǎn)生后代,以此類推。噪聲數(shù)據(jù)處理、未經(jīng)過學(xué)習(xí)模式分類中該算法應(yīng)用效果較好,如實(shí)驗(yàn)醫(yī)學(xué)、計(jì)算機(jī)朗讀英文課文等[3]。模糊集分類算法產(chǎn)生于20世紀(jì)60年代,是一種不準(zhǔn)確處理數(shù)據(jù)的分類算法,可抽象化具有連續(xù)值屬性的數(shù)據(jù),在衛(wèi)生保健、市場(chǎng)調(diào)研以及環(huán)境工程等領(lǐng)域應(yīng)用較多[4]。
3結(jié)束語
綜上所述,隨著大數(shù)據(jù)時(shí)代的到來,社會(huì)各行各業(yè)與我們?nèi)粘9ぷ鲗W(xué)習(xí)中都充斥著海量數(shù)據(jù),數(shù)據(jù)挖掘的重要性也越發(fā)突出。而數(shù)據(jù)分類算法作為數(shù)據(jù)挖掘的關(guān)鍵技術(shù)和重要步驟,也被各界所重視。本文對(duì)數(shù)據(jù)挖掘與數(shù)據(jù)分類算法進(jìn)行簡(jiǎn)單的闡述,并詳細(xì)分析了數(shù)據(jù)分類算法技術(shù)的決策樹算法、神經(jīng)網(wǎng)絡(luò)算法、基于頻繁模式的分類算法、Bayes算法、VSM分類算法以及其他算法。由此可見,不同數(shù)據(jù)分類算法各有特點(diǎn),我們應(yīng)根據(jù)實(shí)際情況準(zhǔn)確選用合適的算法技術(shù),以確保數(shù)據(jù)分類處理的有效性與可靠性。
參考文獻(xiàn):
[1]馮曉媛.大數(shù)據(jù)挖掘技術(shù)應(yīng)用研究[J].數(shù)字技術(shù)與應(yīng)用,2019(1):127-128.
[2]吳雅琴,王曉東.大數(shù)據(jù)挖掘中的混合差分進(jìn)化K-Means無監(jiān)督聚類算法[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2019,33(5):107-112.
[3]劉政宇.大數(shù)據(jù)分析挖掘技術(shù)及其決策應(yīng)用研究[J].科學(xué)技術(shù)創(chuàng)新,2019(23):84-85.
[4]王茜,平金珍,班婭萌.基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].數(shù)字通信世界,2019(5):169-170.
【通聯(lián)編輯:李雅琪】
收稿日期:2020-03-27
基金項(xiàng)目:2019年度廣州工商學(xué)院院級(jí)科研課題項(xiàng)目(項(xiàng)目編號(hào):KA201929)