国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義計(jì)算的聚類算法

2014-12-05 12:49:55郭紅建
電腦知識(shí)與技術(shù) 2014年31期
關(guān)鍵詞:聚類

郭紅建

摘要:該文提出了一種基于語義計(jì)算的聚類算法。通過計(jì)算詞語的語義信息,從語義知識(shí)庫獲取詞語的生成概率,構(gòu)建文本的語義表征,將余弦夾角和相對(duì)熵等方法引入進(jìn)行文本單元的語義相似度計(jì)算對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該文提出的算法效果較好。

關(guān)鍵詞:語義計(jì)算;語義相關(guān)性;聚類

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)31-7432-02

Abstract: This paper proposes clustering algorithm based on semantic computing. By calculating word semantic information, and generating probability of word from semantic knowledge database, constructing semantic representation, the cosine angle and Kullback-Leibler Divergence is introduced to calculate semantic similarity of text units. Experiments showed that the proposed clustering algorithm is effective.

Key words: semantic computing, semantic relatedness, clustering

聚類算法是數(shù)據(jù)挖掘的一個(gè)重要方法,它的應(yīng)用非常廣泛。例如在審計(jì)數(shù)據(jù)分析時(shí),審計(jì)人員運(yùn)用查詢、驗(yàn)證、挖掘等方式進(jìn)行數(shù)據(jù)的觀察和分析,從而達(dá)到把握總體、突出重點(diǎn)、精確延伸的審計(jì)目標(biāo)。以海量數(shù)據(jù)為基礎(chǔ)的深層次數(shù)據(jù)分析方式支持審計(jì)人員從不同的角度,靈活快捷地對(duì)被審計(jì)單位的電子數(shù)據(jù)進(jìn)行挖掘,并以直觀易懂的形式展示分析結(jié)果。

聚類算法可分為采用劃分的方法、采用層次的方法、采用密度的方法和采用網(wǎng)格的方法。常用的文本聚類算法是基于詞語的統(tǒng)計(jì)信息,很難表述文檔的語義信息,中文文檔中多義詞和同義詞的現(xiàn)象相當(dāng)普遍,這就很容易造成聚類結(jié)果不準(zhǔn)確,而且自然語言中由多個(gè)詞語所構(gòu)成的短語往往包含比組成它的詞語更加精確的語義,如“太空計(jì)劃”就比其各組成名詞“太空”和“計(jì)劃”的語義更加明確。該文提出了一種基于語義計(jì)算的聚類算法。通過計(jì)算詞語的語義信息,從語義知識(shí)庫獲取詞語的生成概率,構(gòu)建文本的語義表征,將余弦夾角和相對(duì)熵等方法引入進(jìn)行文本單元的語義相似度計(jì)算對(duì)比實(shí)驗(yàn)。

第二部分是基于語義計(jì)算的聚類算法,第三部分是實(shí)驗(yàn)與結(jié)果分析。

1 基于語義計(jì)算的聚類算法

3 結(jié)束語

本文提出了一種基于語義計(jì)算的聚類算法。通過計(jì)算詞語的語義信息,從語義知識(shí)庫獲取詞語的生成概率,構(gòu)建文本的語義表征,將余弦夾角和相對(duì)熵等方法引入進(jìn)行文本單元的語義相似度計(jì)算對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該文提出的算法效果較好。下一步我們會(huì)進(jìn)一步分析和提高該聚類算法的準(zhǔn)確度。

致謝 :

本文受到江蘇省自然科學(xué)基金項(xiàng)目(NO.BK2012472) 、江蘇省教育廳人文社會(huì)科學(xué)研究項(xiàng)目(NO.2013SJB870005) 、江蘇省公共工程審計(jì)重點(diǎn)實(shí)驗(yàn)室2012年開放課題資助,在此表示感謝。

參考文獻(xiàn):

[1] Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters inlarge spatial databases with noise., in Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining(KDD) [C]. 2000:495-501, Portland, OR, AAAI Press,1996:226-231.

[2] Ankerst M, Breunig M M, Kriegel H P, et al. OPTICS: Ordering Points to Identify the Clustering Structure., in Proc. ACM SIGMOD Int. Conf. on Management of Data(SIGMOD99) [C], Philadelphia,1999:49-60.

[3] Wang W, Yang J. Muntz M. STING: A statistical information grid approach to spatial data mining., in Proc. 1997 Int. Conf. on Very Large Data Bases (VLDB97) [C], 1997:186-195.

[4] Sheikholeslami G, Chatterjee S. and Zhang A., WaveCluster: A wavelet-based clustering approach for multidimensional data in very large databases[J]. The VLDB Journal,2000,8(4):289-304.

猜你喜歡
聚類
基于K-means聚類的車-地?zé)o線通信場強(qiáng)研究
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于高斯混合聚類的陣列干涉SAR三維成像
條紋顏色分離與聚類
基于Spark平臺(tái)的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
局部子空間聚類
基于加權(quán)模糊聚類的不平衡數(shù)據(jù)分類方法
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
基于熵權(quán)和有序聚類的房地產(chǎn)周期分析
河南科技(2014年23期)2014-02-27 14:19:14
开江县| 石城县| 东明县| 宿迁市| 武威市| 金川县| 衡东县| 萍乡市| 兴义市| 海门市| 鸡西市| 平湖市| 博兴县| 浠水县| 惠州市| 开封市| 鹰潭市| 奉贤区| 凌海市| 柳林县| 万载县| 广昌县| 方正县| 怀仁县| 南郑县| 衡阳县| 阿尔山市| 马边| 师宗县| 洪洞县| 江陵县| 凤庆县| 辉县市| 都江堰市| 新乐市| 新建县| 万州区| 宣汉县| 株洲市| 溧阳市| 庄浪县|