黃執(zhí)航 張啟蕊
摘要:以高脂血癥文獻(xiàn)分類為背景,通過對(duì)傳統(tǒng)特征選擇算法的研究,結(jié)合特征出現(xiàn)概率、特征與類別的相關(guān)度,提出一種基于二類信息差值的特征選擇方法。使用該算法及k近鄰距離分類法在高脂血癥文獻(xiàn)數(shù)據(jù)集上進(jìn)行分類,實(shí)驗(yàn)顯示該算法優(yōu)于文檔頻率和信息增益,可提高文本分類的查準(zhǔn)率。
關(guān)鍵詞:高脂血癥;文本分類;特征選擇
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)15-3656-03
Research of Feature Selection in Hyperlipidemia Classification
HUANG Zhi-Hang, ZHANG Qi-Rui
(College of Medical Information Engineering, Guangdong Pharmaceutical University, Guangzhou 510006, China)
Abstract: To improve the classification performance of hyperlipidemia documents, a feature selection method based on two-class informa? tion variance is proposed. This method combines the feature frequency with the correlation of characteristics and categories. Using the kNN algorithm as the classification method, the experiment shows that the new method outperforms document frequency and informant gain. It can effectively improve the classification accuracy.
Key words: Hyperlipidemia; Text Classification; Feature Selection
高脂血癥是中老年的常見病、多發(fā)病,調(diào)查顯示,我國成人血脂異?;疾÷蕿?8.6%,估計(jì)目前全國血脂異常患病人數(shù)約為2.4億[1]。預(yù)防和治療高脂血癥是國內(nèi)外研究的熱點(diǎn)課題,每天都有成百上千篇相關(guān)文獻(xiàn)出版[2]。隨著Intemet信息量的迅猛增加,加大了人們獲取有效信息的難度,使得人們無法快速查找到最新的信息,從而造成了時(shí)間、資金和精力的巨大浪費(fèi)。面對(duì)網(wǎng)上海量的信息,文本分類應(yīng)運(yùn)而生。
在文本分類中,文本表示為向量空間的形式時(shí),訓(xùn)練文本集中的特征項(xiàng)可能多達(dá)數(shù)萬個(gè)。中文文本數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),在沒進(jìn)行任何處理的情況下,表示文本的特征空間的維數(shù)高達(dá)幾萬甚至是幾十萬。即便是在經(jīng)過了文本預(yù)處理(停用詞過濾、低頻詞過濾等),特征空間依然有很高的維數(shù)。過多的特征詞會(huì)導(dǎo)致樣本統(tǒng)計(jì)和計(jì)算變得更加困難,極易產(chǎn)生“維數(shù)災(zāi)難”的問題[3]。在一定的分類算法下,過高的特征維數(shù)不但不能夠提高分類的精度,反而可能在降低分類精度的同時(shí)導(dǎo)致效率低下。因此,在文本分類的過程中,對(duì)特征進(jìn)行選擇顯得至關(guān)重要。本文通過研究高脂血癥文獻(xiàn)的特征選擇算法,對(duì)不同的特征選擇算法的分類性能進(jìn)行比較,并做出進(jìn)一步的改進(jìn)。
除了改進(jìn)的特征選擇方法,實(shí)驗(yàn)得出的結(jié)論與現(xiàn)有的研究并無沖突,這也從側(cè)面上證明DF&MI的有效性。然而本次實(shí)驗(yàn)還存在一些不足。第一,實(shí)驗(yàn)數(shù)據(jù)的不完善,選擇不同的數(shù)量的文本、不同的類別數(shù)得出來的實(shí)驗(yàn)數(shù)據(jù)有一定的差距。第二,基于計(jì)算條件有限,實(shí)驗(yàn)并不是采用分類效果更佳的實(shí)驗(yàn)手段(分類效果更好的分類器及特征權(quán)重賦值,需要更高要求的計(jì)算條件)進(jìn)行的,這也從一定程度影響了實(shí)驗(yàn)的效果。雖然實(shí)驗(yàn)有所不足,但這些不足并不影響各個(gè)分類特征選擇算法的效果的對(duì)比。本次實(shí)驗(yàn)是有效的。同時(shí),直接將改進(jìn)的特征選擇算法應(yīng)用到高脂血癥文獻(xiàn)的分類上,具有很強(qiáng)的實(shí)用價(jià)值。