李波
摘要:隨著信息技術(shù)的不斷發(fā)展,信息量也在呈現(xiàn)爆炸式的增長(zhǎng),對(duì)于海量、動(dòng)態(tài)的文本信息,對(duì)其展開(kāi)自動(dòng)分類(lèi)有著極為重要的現(xiàn)實(shí)意義。模式識(shí)別技術(shù)的進(jìn)步對(duì)文本分類(lèi)有著促進(jìn)作用。文本分類(lèi)由于具有樣本眾多、樣本類(lèi)別數(shù)目不均、噪音多、類(lèi)目多等特點(diǎn),導(dǎo)致各模式識(shí)別運(yùn)用于文本分類(lèi)中均有著缺點(diǎn)。本文嘗試把蟻群智能算法運(yùn)用到文本分類(lèi)中,構(gòu)建以蟻群智能算法為基礎(chǔ)的文本分類(lèi)模式。
關(guān)鍵詞:群集智能 蟻群智能算法 文本分類(lèi)
中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2016)09-0126-01
1 基于蟻群智能算法文本分類(lèi)模型
1.1 分類(lèi)流程
基于蟻群智能算法文本分類(lèi)模型大致上分為訓(xùn)練與測(cè)試兩部分。訓(xùn)練部分分為三個(gè)階段,規(guī)則構(gòu)造、適應(yīng)的計(jì)算、規(guī)則覆蓋訓(xùn)練數(shù)據(jù)。利用訓(xùn)練過(guò)程獲取分類(lèi)規(guī)則,測(cè)試過(guò)程利用這些分類(lèi)規(guī)則將文本集加以分類(lèi)[1]。利用分類(lèi)規(guī)則將文本加以分類(lèi)的方法非常簡(jiǎn)便,基于蟻群智能算法的訓(xùn)練過(guò)程是其中較為重要的組成,其位代碼為:
初始化的規(guī)則集RS是空;訓(xùn)練集含有M類(lèi);令TS是訓(xùn)練文本向量集,當(dāng)訓(xùn)練文本向量集中第i個(gè)文本向量數(shù)大于閾值,運(yùn)行ACORuleConstructer( )函數(shù),更新規(guī)則集CTR是發(fā)現(xiàn)規(guī)則所覆蓋的文本向量
1.2 規(guī)則構(gòu)造
偽代碼中涉及的構(gòu)造函數(shù)ACORuleConstructer( )具體運(yùn)算流程。需要進(jìn)行如下操作。
第一步,初始化蟻群。將m只螞蟻進(jìn)行隨機(jī)分布與第一個(gè)屬性上的某節(jié)點(diǎn)。第二步,初始化信息素。所有路徑包含的節(jié)點(diǎn)所含有的信息素設(shè)置為相同的濃度。其中:τij為條件所具termij有的信息素濃度;α是數(shù)據(jù)庫(kù)中不含類(lèi)別屬性的所有屬性的總數(shù);bi是屬性i全部可能被取的數(shù)據(jù)。第三步,蟻群移動(dòng)。根據(jù)如下公式對(duì)下一節(jié)點(diǎn)進(jìn)行選擇。
對(duì)于每一個(gè)屬性而言,它所具有的節(jié)點(diǎn)termij被選取的概率是Pij(t)。那么τij(t)是條件項(xiàng)的啟發(fā)函數(shù)值。α與β是重要的參數(shù),說(shuō)明的是螞蟻在進(jìn)行路徑選擇時(shí)路徑上所具有的信息數(shù)濃度與termij啟發(fā)函數(shù)值所具備的重要程度。
第四步,規(guī)則修剪。規(guī)則有效性如何根據(jù)如下公式進(jìn)行計(jì)算。
修剪方法的目的是依次去除可以使規(guī)則有效性能夠得到提升的特征節(jié)點(diǎn),也就是說(shuō)移去無(wú)用的特征節(jié)點(diǎn),最終使特征節(jié)點(diǎn)的移除均會(huì)時(shí)規(guī)則有效性得到降低。第五步,若達(dá)到規(guī)則足夠良好或者迭代次數(shù)最大時(shí),流程結(jié)束,否則重新從第三步繼續(xù)開(kāi)始。第六步,更新信息素的濃度。根據(jù)如下公式進(jìn)行屬性節(jié)點(diǎn)信息素濃度的改變。
2 模型驗(yàn)證驗(yàn)證方法及結(jié)果
本文對(duì)軍事、交通、經(jīng)濟(jì)、教育四類(lèi)中的數(shù)據(jù)集中隨機(jī)選取共計(jì)3240篇文本文檔進(jìn)行測(cè)試。首先把全部數(shù)據(jù)平分為訓(xùn)練集A與測(cè)試集B。之后將A與B的數(shù)據(jù)輸入到相應(yīng)的程序中,使用χ2統(tǒng)計(jì)、信息增益、互信息、期望交叉熵等文本選取方式,取得與選取方式相對(duì)應(yīng)的4組訓(xùn)練集的向量矩陣,計(jì)作Aj(j=1,2,3,4)。測(cè)試集向量矩陣計(jì)作 Bj(j=1,2,3,4)[2]。之后將矩陣分別輸入到不同的分類(lèi)公式中,得到不同的分類(lèi)結(jié)果Cj(j=1,2,3,4)。選取其中結(jié)果最佳作為評(píng)價(jià)基準(zhǔn)。最佳結(jié)果對(duì)應(yīng)的矩陣輸入到基于蟻群算法中,得到分類(lèi)結(jié)果,將這兩個(gè)結(jié)果進(jìn)行比較。KNN、NB、SVM分類(lèi)模型分別實(shí)用χ2統(tǒng)計(jì)、信息增益、互信息、期望交叉熵等特征選取方式得到MF和mF的憑據(jù)值。通過(guò)對(duì)測(cè)試結(jié)果進(jìn)行分析發(fā)現(xiàn),基于蟻群算法的分類(lèi)效果相比于傳統(tǒng)的分類(lèi)模型的分類(lèi)效果有著更好的分類(lèi)分類(lèi)性能,從比較結(jié)果來(lái)看,在數(shù)據(jù)集進(jìn)行特征選擇時(shí),采用信息增益取得的效果最佳。
參考文獻(xiàn)
[1]李建軍,宋志章.基于混合智能算法的網(wǎng)頁(yè)文本分類(lèi)仿真研究[J].科技通報(bào),2012,06(06):152-154.
[2]杜芳華,冀俊忠,吳晨生,等.基于蟻群聚集信息素的半監(jiān)督文本分類(lèi)算法[J].計(jì)算機(jī)工程,2014,11(11):167-171.
[3]楊義先,李麗香,彭海朋,等.群體智能算法及其在信息安全中的應(yīng)用探索[J].信息安全學(xué)報(bào),2016,01(01):39-49.
數(shù)字技術(shù)與應(yīng)用2016年9期