基于Spark框架的高效KNN中文文本分類算法

2017-01-13 20:13:00于蘋蘋倪建成姚彬修李淋淋曹博

計(jì)算機(jī)應(yīng)用 2016年12期

于蘋蘋+倪建成+姚彬修+李淋淋+曹博

摘要：針對(duì)K-最近鄰（KNN）分類算法時(shí)間復(fù)雜度與訓(xùn)練樣本數(shù)量成正比而導(dǎo)致的計(jì)算量大的問題以及當(dāng)前大數(shù)據(jù)背景下面臨的傳統(tǒng)架構(gòu)處理速度慢的問題，提出了一種基于Spark框架與聚類優(yōu)化的高效KNN分類算法。該算法首先利用引入收縮因子的優(yōu)化K-medoids聚類算法對(duì)訓(xùn)練集進(jìn)行兩次裁剪；然后在分類過程中迭代K值獲得分類結(jié)果，并在計(jì)算過程中結(jié)合Spark計(jì)算框架對(duì)數(shù)據(jù)進(jìn)行分區(qū)迭代實(shí)現(xiàn)并行化。實(shí)驗(yàn)結(jié)果表明，在不同數(shù)據(jù)集中傳統(tǒng)K-最近鄰算法、基于K-medoids的K-最近鄰算法所耗費(fèi)時(shí)間是所提Spark框架下的K-最近鄰算法的一個(gè)范圍3.92～31.90倍，所提算法具有較高的計(jì)算效率，相較于Hadoop平臺(tái)有較好的加速比，可有效地對(duì)大數(shù)據(jù)進(jìn)行分類處理。

關(guān)鍵詞：K-最近鄰；聚類；收縮因子；K-medoids；Spark；并行化計(jì)算

中圖分類號(hào)： TP391.1

文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001-9081（2016）12-3292-06

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Spark框架的高效KNN中文文本分類算法