国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Spark框架的高效KNN中文文本分類算法

2017-01-13 20:13:00于蘋蘋倪建成姚彬修李淋淋曹博
計(jì)算機(jī)應(yīng)用 2016年12期
關(guān)鍵詞:分類號(hào)框架聚類

于蘋蘋+倪建成+姚彬修+李淋淋+曹博

摘 要:針對(duì)K-最近鄰(KNN)分類算法時(shí)間復(fù)雜度與訓(xùn)練樣本數(shù)量成正比而導(dǎo)致的計(jì)算量大的問題以及當(dāng)前大數(shù)據(jù)背景下面臨的傳統(tǒng)架構(gòu)處理速度慢的問題,提出了一種基于Spark框架與聚類優(yōu)化的高效KNN分類算法。該算法首先利用引入收縮因子的優(yōu)化K-medoids聚類算法對(duì)訓(xùn)練集進(jìn)行兩次裁剪;然后在分類過程中迭代K值獲得分類結(jié)果,并在計(jì)算過程中結(jié)合Spark計(jì)算框架對(duì)數(shù)據(jù)進(jìn)行分區(qū)迭代實(shí)現(xiàn)并行化。實(shí)驗(yàn)結(jié)果表明,在不同數(shù)據(jù)集中傳統(tǒng)K-最近鄰算法、基于K-medoids的K-最近鄰算法所耗費(fèi)時(shí)間是所提Spark框架下的K-最近鄰算法的一個(gè)范圍3.92~31.90倍,所提算法具有較高的計(jì)算效率,相較于Hadoop平臺(tái)有較好的加速比,可有效地對(duì)大數(shù)據(jù)進(jìn)行分類處理。

關(guān)鍵詞:K-最近鄰;聚類;收縮因子;K-medoids;Spark;并行化計(jì)算

中圖分類號(hào): TP391.1

文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-9081(2016)12-3292-06

猜你喜歡
分類號(hào)框架聚類
框架
廣義框架的不相交性
基于DBSACN聚類算法的XML文檔聚類
WTO框架下
法大研究生(2017年1期)2017-04-10 08:55:06
A Study on the Change and Developmentof English Vocabulary
基于改進(jìn)的遺傳算法的模糊聚類算法
一種基于OpenStack的云應(yīng)用開發(fā)框架
Translation on Deixis in English and Chinese
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
The law of exercise applies on individual behavior change development
襄城县| 西青区| 大埔县| 岳阳市| 奉化市| 日喀则市| 景洪市| 西丰县| 扎囊县| 崇文区| 获嘉县| 武清区| 东光县| 临西县| 姜堰市| 年辖:市辖区| 获嘉县| 噶尔县| 酒泉市| 扎鲁特旗| 宁德市| 崇文区| 甘肃省| 三台县| 滨州市| 禹城市| 当涂县| 射阳县| 钟山县| 长白| 修武县| 鄯善县| 瓦房店市| 金阳县| 平舆县| 定日县| 浮山县| 霞浦县| 兴化市| 赞皇县| 白河县|