国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述

2021-03-17 09:55:54程一芳
數(shù)字通信世界 2021年2期
關(guān)鍵詞:列表決策樹類別

程一芳

(山西國際商務(wù)職業(yè)學(xué)院,山西 太原 030031)

1 決策樹分類算法

1.1 C4.5分類算法的簡介及分析

C4.5分類算法在我國是應(yīng)用相對較早的分類算法之一,并且應(yīng)用非常廣泛,所以為了確保其能夠滿足在對規(guī)模相對較大的數(shù)據(jù)集進行處理的過程中有更好的實用性能,對C4.5分類算法也進行了相應(yīng)的改進。C4.5分類算法是假如設(shè)一個訓(xùn)練集為T,在對這個訓(xùn)練集建造相應(yīng)的決策樹的過程中,則可以根據(jù)In-formation Gain值選擇合理的分裂節(jié)點,并且根據(jù)分裂節(jié)點的具體屬性和標準,可以將訓(xùn)練集分為多個子級,然后分別用不同的字母代替,每一個字母中所含有的元組的類別一致。而分裂節(jié)點就成為了整個決策樹的葉子節(jié)點,因而將會停止再進行分裂過程,對于不滿足訓(xùn)練集中要求條件的其他子集來說,仍然需要按照以上方法繼續(xù)進行分裂,直到子集所有的元組都屬于一個類別,停止分裂流程。

決策樹分類算法與統(tǒng)計方法和神經(jīng)網(wǎng)絡(luò)分類算法相比較具備以下優(yōu)點:首先,通過決策樹分類算法進行分類,出現(xiàn)的分類規(guī)則相對較容易理解,并且在決策樹中由于每一個分支都對應(yīng)不同的分類規(guī)則,所以在最終進行分類的過程中,能夠說出一個更加便于了解的規(guī)則集。其次,在使用決策樹分類算法對數(shù)據(jù)挖掘中的數(shù)據(jù)進行相應(yīng)的分類過程中,與其他分類方法相比,速率更快,效率更高。最后,決策樹分類算法還具有較高的準確度,從而確保在分類的過程中能夠提高工作效率和工作質(zhì)量。決策樹分類算法與其他分類算法相比,雖然具備很多優(yōu)點,但是也存在一定的缺點,其缺點主要體現(xiàn)在以下幾個方面:首先,在進行決策樹的構(gòu)造過程中,由于需要對數(shù)據(jù)集進行多次的排序和掃描,因此導(dǎo)致在實際工作過程中工作量相對較大,從而可能會使分類算法出現(xiàn)較低能效的問題。其次,在使用C4.5進行數(shù)據(jù)集分類的過程中,由于只是用于駐留于內(nèi)存的數(shù)據(jù)集進行使用,所以當(dāng)出現(xiàn)規(guī)模相對較大或者不在內(nèi)存的程序及數(shù)據(jù)即時無法進行運行和使用,因此,C4.5決策樹分類算法具備一定的局限性。通過對C4.5分類算法的簡介和分析可知,在使用C4.5分類算法的過程中,一定要明確數(shù)據(jù)集的具體使用特征,然后再選擇相應(yīng)的分類算法,防止由于分類算法選擇不正確,而導(dǎo)致在后期對數(shù)據(jù)進行分類使用的過程中,出現(xiàn)工作效率低,工作質(zhì)量差的問題,同時負責(zé)C4.5分類算法和決策樹分類算法的研究的工作人員,還應(yīng)該明確現(xiàn)階段決策樹分類算法中存在的劣勢,并且針對這些劣勢進行相應(yīng)的改進。確保C4.5決策樹分類算法能夠具備更好的適用性。

1.2 SLIQIQ算法的簡介及分析

SLIQ算法是在C4.5決策樹分類算法的基礎(chǔ)上進行了相應(yīng)改進的算法。在使用SLIQ算法的過程中,主要針對決策樹的構(gòu)造階段進行了合理的改進,這里使用了預(yù)排序技術(shù)和廣度優(yōu)先技術(shù)。其中,預(yù)排序技術(shù)的主要工作原理是,對于連續(xù)性的屬性來說,由于在內(nèi)部的節(jié)點可以找到最好的分裂標準,因此,可以根據(jù)這一特性對訓(xùn)練集進行屬性的取值和排序。但是,由于排序的過程中工作量相對較大,并且需要浪費很多的時間,所以通過SLIQ算法中的預(yù)排序技術(shù)和預(yù)排序功能,能夠減少在決策樹節(jié)點對數(shù)據(jù)進行排序過程中所需要做的工作量。預(yù)排序技術(shù)可以針對數(shù)據(jù)集中不同屬性進行相應(yīng)的取值,然后根據(jù)時間的先后順序或者從小到大的順序進行合理的排序。在具體實現(xiàn)的過程中,必須要針對數(shù)據(jù)集中的所有數(shù)據(jù),根據(jù)不同的屬性創(chuàng)立相應(yīng)的屬性列表,然后每一個屬性列表中,對元組的類別進行合理的歸類。再根據(jù)不同元組類別創(chuàng)立類別列表的過程中,其列表的主要形式如表1所示。

表1 屬性列表和類別列表

通過表1中的數(shù)據(jù)分析可以得出,在建立屬性表和類別列表的過程中,第一列代表了數(shù)據(jù)集中屬性的取值,第二列代表了記錄的順序號。在類別列表中,第一列則代表了每一行記錄的類別,第二列代表了不同的節(jié)點編號。在算法進行實現(xiàn)的過程中,還要確保計算機設(shè)備能夠有較大的內(nèi)存量來保存相應(yīng)的列表數(shù)據(jù)。

廣度優(yōu)先策略的實際使用原理是在C4.5決策樹分類算法的基礎(chǔ)上,對決策樹進行構(gòu)造的過程中,需要按照深度優(yōu)先的原則進行構(gòu)造,并且要根據(jù)不同屬性列表的節(jié)點進行相應(yīng)的掃描。由于在傳統(tǒng)決策樹構(gòu)造的過程中,需要針對每一個節(jié)點都進行掃描,這樣即會浪費過多的時間,又會造成很大的工作量,而使用廣度優(yōu)先策略進行決策樹構(gòu)造的過程中,只需要對每一層的屬性列表進行掃描即可,這樣既提高了數(shù)據(jù)分類的效果,又可以使決策樹中的節(jié)點有最優(yōu)的分裂標準。

在使用SLIQ算法的過程中,由于使用了與排序技術(shù)和廣度優(yōu)先的技術(shù),所以在數(shù)據(jù)處理的過程中能夠比C4.5決策樹分類算法具有更高的使用效率,同時也可以適用于規(guī)模更大的數(shù)據(jù)集進行分類的過程中,但是其實際使用中仍然存在一定的缺點,主要體現(xiàn)在以下兩個方面:一是由于需要在預(yù)排序技術(shù)使用過程中,將類別列表放入在內(nèi)存中進行使用,所以這就對內(nèi)存的儲存量具有較大的挑戰(zhàn),而類別列表的長度和訓(xùn)練集的長度是一樣的,所以這對數(shù)據(jù)集的大小進行了相應(yīng)的限制,從而導(dǎo)致SLIQ算法在實際使用過程中也具備一定的局限性。二是由于在使用與排序技術(shù)的過程中,雖然可以極大地降低工作量,提升工作效率,但由于算法相對復(fù)雜,并且數(shù)據(jù)的記錄個數(shù)和排序算法的復(fù)雜度不呈線性關(guān)系,因此導(dǎo)致SLIQ算法的擴展性相對較低。

2 以關(guān)聯(lián)規(guī)則為基礎(chǔ)的分類算法

以關(guān)聯(lián)規(guī)則為基礎(chǔ)的分類算法主要包含CBA算法。CBA算法在進行分類的過程中主要包含兩個工作流程:第一個工作流程是通過發(fā)現(xiàn)又不為類別的類別關(guān)聯(lián)規(guī)則;第二個工作流程是通過對已發(fā)現(xiàn)的類別關(guān)聯(lián)規(guī)則進行選擇,然后通過高優(yōu)先度的規(guī)則,對整個訓(xùn)練集進行覆蓋。通過這種算法,在對訓(xùn)練集進行掃描的過程中,只需要進行一遍掃描即可,因此,具有較高的工作效率。CBA算法主要通過關(guān)聯(lián)規(guī)則進行分類器的構(gòu)造,而關(guān)聯(lián)規(guī)則的算法為aprior,通過這種算法能夠?qū)Υ罅拷灰子涗浿械囊?guī)則進行相應(yīng)的比較,并且有利于提高分類算法的工作效率,但是使用這種分類規(guī)則時,可能會出現(xiàn)某些規(guī)則的遺漏現(xiàn)象,因此,必須要將最小的支持度設(shè)置為0。但是在設(shè)置支持度的過程中,可能會導(dǎo)致CBA算法的優(yōu)化作用降低,因此,使結(jié)果產(chǎn)生的頻繁及在內(nèi)存中無法顯示和容納,從而導(dǎo)致程序運行停止。CBA算法最大的優(yōu)點是其在分類的過程中準確度相對較高,并且其發(fā)現(xiàn)的規(guī)則也較為全面。

3 以數(shù)據(jù)庫技術(shù)為基礎(chǔ)的分類算法

以數(shù)據(jù)庫技術(shù)為基礎(chǔ)的分類算法主要包含MIND算法。MIND計算法是根據(jù)數(shù)據(jù)庫對用戶的定義使用的相關(guān)函數(shù),也叫做實現(xiàn)發(fā)現(xiàn)分類規(guī)則的算法,在使用這種算法的過程中和SLIQ算法較為類似,但是,由于這種算法主要根據(jù)數(shù)據(jù)庫提供的UDF方法和語句進行決策樹的構(gòu)造,所以在術(shù)的工作過程中需要對每一層建立相應(yīng)的屬性為表,然后對不同的節(jié)點進行編號。使用這種方法在對決策樹進行構(gòu)造的過程中,是需要對每一個不是終點的節(jié)點進行數(shù)據(jù)集的信息計算和分裂標準的數(shù)據(jù)及分裂,而通過UDF進行實現(xiàn)可以使數(shù)據(jù)庫系統(tǒng)的集成更加方便。這種算法的缺點是,由于需要使用高級語言進行分類計算,所以導(dǎo)致數(shù)據(jù)庫法提供相應(yīng)的查詢機制,從而不能夠使查詢更加優(yōu)化。

4 結(jié)束語

綜上所述,現(xiàn)階段針對數(shù)據(jù)挖掘所使用的數(shù)據(jù)分類方法相對較多,既有基于決策樹的分類方法,又有基于數(shù)據(jù)庫技術(shù)為基礎(chǔ)和關(guān)聯(lián)規(guī)則為基礎(chǔ)的分類方法,在每種分類方法使用的過程中,又都有相應(yīng)的優(yōu)缺點,所以在選擇分類方法時,要根據(jù)實際需求進行合理的選擇。

猜你喜歡
列表決策樹類別
巧用列表來推理
學(xué)習(xí)運用列表法
擴列吧
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于決策樹的出租車乘客出行目的識別
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
不含3-圈的1-平面圖的列表邊染色與列表全染色
鄂尔多斯市| 安庆市| 息烽县| 囊谦县| 民丰县| 鄂尔多斯市| 崇仁县| 湘潭县| 顺昌县| 莱州市| 保亭| 宿松县| 吴旗县| 寿宁县| 凯里市| 分宜县| 云南省| 博乐市| 巴彦淖尔市| 枣庄市| 丰顺县| 安仁县| 美姑县| 兴仁县| 旬阳县| 临桂县| 新宾| 札达县| 大冶市| 河曲县| 民乐县| 龙山县| 虹口区| 旺苍县| 河北省| 古蔺县| 浮梁县| 田阳县| 潞西市| 固安县| 张家界市|