国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

TFIDF方法在英語句子相似度計算中的應(yīng)用初探

2012-12-31 00:00:00楊倩倩徐棟
電腦知識與技術(shù) 2012年17期


  摘要:介紹了一種中文自然語言處理中句子相似度的計算方法—基于向量空間模型的TFIDF方法,并將該方法引入到了英語句子相似度的計算中來。對于含有同義詞的句子,在計算句子相似度之前,先使用WordNet2.1查詢句子中關(guān)鍵詞的同義詞集進(jìn)行消歧,再利用TFIDF方法進(jìn)行相似度的計算。計算結(jié)果表明,消歧后再計算能得到更好的效果。
  關(guān)鍵詞:TFIDF;相似度計算;WordNet
  中圖分類號:TP18文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2012)17-4127-02
  Study of English Sentence Similarity Conputing in TFIDF Method
  YANG Qian-qian,XU Dong
 ?。–ollege of Physics and Electronics,Shandong Normal University,Jinan 250000,China)
  Abstract:A method based on vector space model of TFIDF for calculating sentence similarity in Chinese natural language processing is introduced. The method is introduced to calculate the similarities of English sentences. For the sentences which contain synonyms,Word? Net2.1 is used to find synset of the keywords in the sentences before the similarity calculating,and then eliminate ambiguities,TFIDF method is finally used to calculate sentence similarities. The result shows that the similarity after ambiguities eliminating is more accurate.
  Key words:TFIDF;similarity calculating;WordNet
  在機(jī)器翻譯中基于實(shí)例的方法非常普遍,翻譯結(jié)果也相對準(zhǔn)確。在基于實(shí)例的英-漢機(jī)器翻譯中,要想找到與目標(biāo)句相匹配的源語言句子就要用到句子相似度的計算。在基于實(shí)例的機(jī)器翻譯中句子相似度的計算非常關(guān)鍵,直接關(guān)系到目標(biāo)句和語料庫中源句子的匹配程度。
  在漢語句子相似度的計算中經(jīng)常采用的是基于向量模型的TFIDF方法,這是一種基于統(tǒng)計的方法,利用句子的詞的詞頻詞性等信息進(jìn)行相關(guān)計算。我們將TFIDF方法引入到英語句子相似度的計算中來,但是直接利用TFIDF方法計算英語句子的相似度并不理想。這種方法沒有對語義進(jìn)行分析,在計算過程中若有同義不同形的詞,相似度的結(jié)果就會受到影響,導(dǎo)致翻譯匹配結(jié)果不準(zhǔn)確。該文先采用WordNet2.1查詢目標(biāo)句子和源語言句子中關(guān)鍵詞的同義詞集,進(jìn)行簡單的同義詞消岐后,再利用TFIDF方法計算英語句子之間的相似度。
  1英語句子相似度的計算方法
  要計算英語句子的相似度,對于含有同義詞的句子首先要用WordNet查詢句子中關(guān)鍵詞的同義詞集,進(jìn)行消歧后,再利用TFIDF方法計算英語句子間的相似度。下面分別介紹一下WordNet的特點(diǎn)和基于向量空間模型的TFIDF方法。
  1.1 WordNet的特點(diǎn)
  WordNet是在Princeton大學(xué)認(rèn)知科學(xué)實(shí)驗(yàn)室的G.Miller教授指導(dǎo)下開發(fā)的實(shí)際工作始于1985年。WordNet是一個在線的詞匯參照系統(tǒng),它的獨(dú)特之處在于它是依據(jù)詞義而不是依據(jù)詞形來組織詞匯信息。WordNet使用同義詞集合(synset)代表概念(con? cept),詞匯關(guān)系在詞語之間體現(xiàn),語義關(guān)系在概念之間體現(xiàn)。WordNet構(gòu)造的核心是如何表示詞匯概念節(jié)點(diǎn),及在這些概念節(jié)點(diǎn)之間建立起各種語義關(guān)系。WordNet將英語詞匯組織為一個同義詞集合,每個集合表明一個詞匯概念,同時力圖在概念間建立不同的指針,表達(dá)上下位、同義、反義等不同的語義關(guān)系。經(jīng)過這樣的過程,原來抽象的概念被形式化了,變得具體且可以通過詞匯意義加以操作,概念之間還可以建立多種語義關(guān)系的聯(lián)系和推理。WordNet中詞匯概念的語義關(guān)系主要包括:上下位、同義、反義、整體和部分、蘊(yùn)含、屬性、致使等。
  該文查詢詞語用的是WordNet2.1版本。Version2.1主要包括名詞、動詞、形容詞和副詞四類實(shí)詞,虛詞并不予考察。我們主要利用的WordNet中的同義詞集,若句子中的某個關(guān)鍵詞屬于另一關(guān)鍵詞的同義詞,我們將其看作相同的詞,為下一步TFIDF方法計算句子相似度做準(zhǔn)備。例如“scene”與“scenery”兩個詞,通過WordNet2.1查詢知“scenery”位于“scene”的同義詞集中,我們就將其看作相同詞;類似地,“potato”與“l(fā)ove apple”也是同義詞,也作為相同的詞。
  1.2基于向量空間模型的TFIDF方法
  在信息檢索領(lǐng)域中,基于向量空間模型的TFIDF方法被廣泛地用來計算漢語文本之間的相似度。這里,我們將TFIDF方法引入
  TFIDF方法綜合考慮了不同的詞在句子中的出現(xiàn)頻率(tf值)和這個詞在整個語料庫中對不同句子的分辨能力(idf值)。這種方法不需要任何對文本內(nèi)容的深層理解,是信息檢索領(lǐng)域常用的方法,當(dāng)句子中次數(shù)較多時能產(chǎn)生較好的效果。但是不管英語句子還是漢語句子,往往需要考慮詞本身的語義信息,IFIDF在計算漢語句子相似度時沒有考慮到語義信息。例如,“西紅柿是什么顏色?”和“番茄是什么顏色?”采用TFIDF方法計算相似度為0,但這兩個句子表達(dá)的意思應(yīng)該是完全相同的,因?yàn)椤拔骷t柿”和“番茄”在語義上是完全等價即兩個詞為同義詞。
  正是TFIDF方法中融合進(jìn)了WordNet的同義詞集消岐部分,語義上完全相同但相似度卻為0的情況得以改進(jìn)。下面是通過對一些英語句子進(jìn)行相似度的計算來對比一下加入WordNet查詢后的好處。
  2試驗(yàn)結(jié)果
  下面的兩組數(shù)據(jù)是英語句子相似度值,一組是直接采用TFIDF方法進(jìn)行計算的結(jié)果,一組是采用WordNet進(jìn)行查詢并簡單分析后再利用TFIDF方法進(jìn)行計算的結(jié)果。
  1) Word cannot describe the beauty of the scence.
  2) The beauty of the scenery beggars description.
  3) The scence is so beautiful that it transcend my power of description.
  目標(biāo)句為:
  Word cannot describe the spectacle of the nature.
  表1相似度計算結(jié)果的比較
  3結(jié)束語
  將TFIDF方法用于英語句子之間相似度的計算,不需要對句子進(jìn)行分詞。TFIDF方法考慮了詞在上下文中的統(tǒng)計特性,不需要任何對文本內(nèi)容的深層理解,相對來說計算較為簡單,對于不需要考慮語義信息且詞匯量較大的英語句子來說能獲得較準(zhǔn)確的結(jié)果。先采用WordNet進(jìn)行簡單的關(guān)鍵詞語同義消岐,然后利用TFIDF方法進(jìn)行計算可以在一定程度上提高英語句子相似度的準(zhǔn)確性。尤其是對于同義詞較多的句子中,效果將更為明顯。
  參考文獻(xiàn):
  [1]張剛,劉挺,鄭實(shí)福,等.開放域中文問答系統(tǒng)的研究與實(shí)現(xiàn)[C].中國中文信息學(xué)會二十周年學(xué)

喀什市| 溆浦县| 和平区| 新绛县| 巴林右旗| 黎城县| 临潭县| 那坡县| 巴里| 阳朔县| 江永县| 石楼县| 建瓯市| 盐山县| 闽清县| 凤山县| 吴堡县| 廊坊市| 庄河市| 太谷县| 崇义县| 虎林市| 视频| 怀来县| 卓资县| 宜兰县| 东乡族自治县| 寿宁县| 包头市| 延川县| 伊金霍洛旗| 宜兰县| 武城县| 宝山区| 彭山县| 东乌珠穆沁旗| 贵德县| 锦州市| 林西县| 巴东县| 察雅县|