郭紅建
摘要:該文提出了一種基于語義計(jì)算的聚類算法。通過計(jì)算詞語的語義信息,從語義知識(shí)庫獲取詞語的生成概率,構(gòu)建文本的語義表征,將余弦夾角和相對(duì)熵等方法引入進(jìn)行文本單元的語義相似度計(jì)算對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該文提出的算法效果較好。
關(guān)鍵詞:語義計(jì)算;語義相關(guān)性;聚類
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)31-7432-02
Abstract: This paper proposes clustering algorithm based on semantic computing. By calculating word semantic information, and generating probability of word from semantic knowledge database, constructing semantic representation, the cosine angle and Kullback-Leibler Divergence is introduced to calculate semantic similarity of text units. Experiments showed that the proposed clustering algorithm is effective.
Key words: semantic computing, semantic relatedness, clustering
聚類算法是數(shù)據(jù)挖掘的一個(gè)重要方法,它的應(yīng)用非常廣泛。例如在審計(jì)數(shù)據(jù)分析時(shí),審計(jì)人員運(yùn)用查詢、驗(yàn)證、挖掘等方式進(jìn)行數(shù)據(jù)的觀察和分析,從而達(dá)到把握總體、突出重點(diǎn)、精確延伸的審計(jì)目標(biāo)。以海量數(shù)據(jù)為基礎(chǔ)的深層次數(shù)據(jù)分析方式支持審計(jì)人員從不同的角度,靈活快捷地對(duì)被審計(jì)單位的電子數(shù)據(jù)進(jìn)行挖掘,并以直觀易懂的形式展示分析結(jié)果。
聚類算法可分為采用劃分的方法、采用層次的方法、采用密度的方法和采用網(wǎng)格的方法。常用的文本聚類算法是基于詞語的統(tǒng)計(jì)信息,很難表述文檔的語義信息,中文文檔中多義詞和同義詞的現(xiàn)象相當(dāng)普遍,這就很容易造成聚類結(jié)果不準(zhǔn)確,而且自然語言中由多個(gè)詞語所構(gòu)成的短語往往包含比組成它的詞語更加精確的語義,如“太空計(jì)劃”就比其各組成名詞“太空”和“計(jì)劃”的語義更加明確。該文提出了一種基于語義計(jì)算的聚類算法。通過計(jì)算詞語的語義信息,從語義知識(shí)庫獲取詞語的生成概率,構(gòu)建文本的語義表征,將余弦夾角和相對(duì)熵等方法引入進(jìn)行文本單元的語義相似度計(jì)算對(duì)比實(shí)驗(yàn)。
第二部分是基于語義計(jì)算的聚類算法,第三部分是實(shí)驗(yàn)與結(jié)果分析。
1 基于語義計(jì)算的聚類算法
3 結(jié)束語
本文提出了一種基于語義計(jì)算的聚類算法。通過計(jì)算詞語的語義信息,從語義知識(shí)庫獲取詞語的生成概率,構(gòu)建文本的語義表征,將余弦夾角和相對(duì)熵等方法引入進(jìn)行文本單元的語義相似度計(jì)算對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該文提出的算法效果較好。下一步我們會(huì)進(jìn)一步分析和提高該聚類算法的準(zhǔn)確度。
致謝 :
本文受到江蘇省自然科學(xué)基金項(xiàng)目(NO.BK2012472) 、江蘇省教育廳人文社會(huì)科學(xué)研究項(xiàng)目(NO.2013SJB870005) 、江蘇省公共工程審計(jì)重點(diǎn)實(shí)驗(yàn)室2012年開放課題資助,在此表示感謝。
參考文獻(xiàn):
[1] Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters inlarge spatial databases with noise., in Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining(KDD) [C]. 2000:495-501, Portland, OR, AAAI Press,1996:226-231.
[2] Ankerst M, Breunig M M, Kriegel H P, et al. OPTICS: Ordering Points to Identify the Clustering Structure., in Proc. ACM SIGMOD Int. Conf. on Management of Data(SIGMOD99) [C], Philadelphia,1999:49-60.
[3] Wang W, Yang J. Muntz M. STING: A statistical information grid approach to spatial data mining., in Proc. 1997 Int. Conf. on Very Large Data Bases (VLDB97) [C], 1997:186-195.
[4] Sheikholeslami G, Chatterjee S. and Zhang A., WaveCluster: A wavelet-based clustering approach for multidimensional data in very large databases[J]. The VLDB Journal,2000,8(4):289-304.