国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高脂血癥分類特征選擇算法研究

2012-04-29 18:34:26黃執(zhí)航張啟蕊
電腦知識(shí)與技術(shù) 2012年15期
關(guān)鍵詞:文本分類特征選擇高脂血癥

黃執(zhí)航 張啟蕊

摘要:以高脂血癥文獻(xiàn)分類為背景,通過對(duì)傳統(tǒng)特征選擇算法的研究,結(jié)合特征出現(xiàn)概率、特征與類別的相關(guān)度,提出一種基于二類信息差值的特征選擇方法。使用該算法及k近鄰距離分類法在高脂血癥文獻(xiàn)數(shù)據(jù)集上進(jìn)行分類,實(shí)驗(yàn)顯示該算法優(yōu)于文檔頻率和信息增益,可提高文本分類的查準(zhǔn)率。

關(guān)鍵詞:高脂血癥;文本分類;特征選擇

中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)15-3656-03

Research of Feature Selection in Hyperlipidemia Classification

HUANG Zhi-Hang, ZHANG Qi-Rui

(College of Medical Information Engineering, Guangdong Pharmaceutical University, Guangzhou 510006, China)

Abstract: To improve the classification performance of hyperlipidemia documents, a feature selection method based on two-class informa? tion variance is proposed. This method combines the feature frequency with the correlation of characteristics and categories. Using the kNN algorithm as the classification method, the experiment shows that the new method outperforms document frequency and informant gain. It can effectively improve the classification accuracy.

Key words: Hyperlipidemia; Text Classification; Feature Selection

高脂血癥是中老年的常見病、多發(fā)病,調(diào)查顯示,我國成人血脂異?;疾÷蕿?8.6%,估計(jì)目前全國血脂異常患病人數(shù)約為2.4億[1]。預(yù)防和治療高脂血癥是國內(nèi)外研究的熱點(diǎn)課題,每天都有成百上千篇相關(guān)文獻(xiàn)出版[2]。隨著Intemet信息量的迅猛增加,加大了人們獲取有效信息的難度,使得人們無法快速查找到最新的信息,從而造成了時(shí)間、資金和精力的巨大浪費(fèi)。面對(duì)網(wǎng)上海量的信息,文本分類應(yīng)運(yùn)而生。

在文本分類中,文本表示為向量空間的形式時(shí),訓(xùn)練文本集中的特征項(xiàng)可能多達(dá)數(shù)萬個(gè)。中文文本數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),在沒進(jìn)行任何處理的情況下,表示文本的特征空間的維數(shù)高達(dá)幾萬甚至是幾十萬。即便是在經(jīng)過了文本預(yù)處理(停用詞過濾、低頻詞過濾等),特征空間依然有很高的維數(shù)。過多的特征詞會(huì)導(dǎo)致樣本統(tǒng)計(jì)和計(jì)算變得更加困難,極易產(chǎn)生“維數(shù)災(zāi)難”的問題[3]。在一定的分類算法下,過高的特征維數(shù)不但不能夠提高分類的精度,反而可能在降低分類精度的同時(shí)導(dǎo)致效率低下。因此,在文本分類的過程中,對(duì)特征進(jìn)行選擇顯得至關(guān)重要。本文通過研究高脂血癥文獻(xiàn)的特征選擇算法,對(duì)不同的特征選擇算法的分類性能進(jìn)行比較,并做出進(jìn)一步的改進(jìn)。

除了改進(jìn)的特征選擇方法,實(shí)驗(yàn)得出的結(jié)論與現(xiàn)有的研究并無沖突,這也從側(cè)面上證明DF&MI的有效性。然而本次實(shí)驗(yàn)還存在一些不足。第一,實(shí)驗(yàn)數(shù)據(jù)的不完善,選擇不同的數(shù)量的文本、不同的類別數(shù)得出來的實(shí)驗(yàn)數(shù)據(jù)有一定的差距。第二,基于計(jì)算條件有限,實(shí)驗(yàn)并不是采用分類效果更佳的實(shí)驗(yàn)手段(分類效果更好的分類器及特征權(quán)重賦值,需要更高要求的計(jì)算條件)進(jìn)行的,這也從一定程度影響了實(shí)驗(yàn)的效果。雖然實(shí)驗(yàn)有所不足,但這些不足并不影響各個(gè)分類特征選擇算法的效果的對(duì)比。本次實(shí)驗(yàn)是有效的。同時(shí),直接將改進(jìn)的特征選擇算法應(yīng)用到高脂血癥文獻(xiàn)的分類上,具有很強(qiáng)的實(shí)用價(jià)值。

猜你喜歡
文本分類特征選擇高脂血癥
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
基于貝葉斯分類器的中文文本分類
基于蟻群智能算法的研究文本分類
文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
科技視界(2016年24期)2016-10-11 09:36:57
聯(lián)合互信息水下目標(biāo)特征選擇算法
高脂血癥對(duì)生化檢驗(yàn)項(xiàng)目的干擾及消除
食物不耐受與高脂血癥的關(guān)系
社區(qū)健康促進(jìn)模式降低老年高脂血癥的效果
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
宁乡县| 织金县| 宁强县| 阿城市| 梅河口市| 广昌县| 资溪县| 凤台县| 玉田县| 青海省| 泽库县| 新绛县| 五寨县| 内乡县| 黄梅县| 思南县| 江孜县| 华坪县| 慈利县| 泉州市| 上虞市| 灵丘县| 景泰县| 鹿泉市| 余庆县| 崇明县| 民丰县| 会昌县| 历史| 乐平市| 民勤县| 侯马市| 福建省| 宜章县| 隆德县| 磴口县| 蛟河市| 苍溪县| 凭祥市| 临邑县| 太仓市|