国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于谷歌距離的漢英詞表概念映射研究

2015-09-08 01:38張李義崔恒
現(xiàn)代情報(bào) 2015年3期

張李義 崔恒

[摘要]本文對(duì)《漢語(yǔ)主題詞表》(工程技術(shù)版)概念與英文超級(jí)科技詞表概念的映射進(jìn)行研究,建立優(yōu)化的漢對(duì)英有序映射模式,并采用基于谷歌距離的語(yǔ)義相似度算法進(jìn)行實(shí)驗(yàn),計(jì)算英文詞之間的語(yǔ)義距離,導(dǎo)入原有漢英映射信息。通過實(shí)驗(yàn)分析,獲得了按相似度排序的漢英映射模式,實(shí)現(xiàn)了多個(gè)英文詞匯與漢詞的對(duì)應(yīng)并由高到低排列出來(lái)。該方法獲得的排序結(jié)果基本滿足要求,部分詞語(yǔ)需要人工修正。

[關(guān)鍵詞]語(yǔ)義相似度;漢語(yǔ)主題詞表;谷歌距離;概念映射

DOI:10.3969/j.issn.1008-0821.2015.03.001

[中圖分類號(hào)]TP391;G25 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821(2015)03-0003-05

詞表映射研究是研究和建設(shè)跨語(yǔ)言信息檢索(Cross Language Information Retrieval,CAJR)的基礎(chǔ),本文的目標(biāo)是通過計(jì)算映射詞語(yǔ)的相同程度來(lái)解決跨語(yǔ)言搜索結(jié)果的有序排列問題,其關(guān)鍵在于獲取語(yǔ)義距離和改進(jìn)現(xiàn)在的映射規(guī)則。研究雙語(yǔ)言或多語(yǔ)言的CLIR是一個(gè)熱門的話題,《漢語(yǔ)主題詞表》(工程技術(shù)版)(以下簡(jiǎn)稱《漢表》)與英文超級(jí)科技詞表分別用于進(jìn)行中外文科技文獻(xiàn)的知識(shí)組織,而兩者的相互映射正是為了實(shí)現(xiàn)對(duì)中外文文獻(xiàn)資源的跨語(yǔ)言檢索;考慮到兩個(gè)詞表知識(shí)體系的差異和語(yǔ)義映射的復(fù)雜性,本文不進(jìn)行知識(shí)概念體系、詞間關(guān)系和范疇體系等方面的語(yǔ)義映射,主要研究基于概念的映射模型和方法。

本文以《漢表》的概念作為源(Source)概念,英文超級(jí)科技詞表的概念作為目標(biāo)(Target)概念,參考并修訂W3C的詞表映射規(guī)則,建立映射模型?!稘h表》概念具有上下位、多層次關(guān)系,英文超級(jí)科技詞表概念也是網(wǎng)狀關(guān)系,在建立概念間映射關(guān)系時(shí),只在距離最短、關(guān)系最近的概念間建立關(guān)系,沒有必要將等同的概念重復(fù)給定向上或向下匹配的關(guān)系,按照需要,將詞表的原詞間關(guān)系導(dǎo)入映射信息即可確定新的映射關(guān)系。本文以標(biāo)準(zhǔn)谷歌距離(Normalized Google Distance)作為語(yǔ)義距離的基本計(jì)算方法,并設(shè)計(jì)了映射流程,在已有漢英詞表的基礎(chǔ)上,對(duì)映射進(jìn)行排序,能有效地解決檢索時(shí)漢英詞語(yǔ)的匹配問題。在檢索過程中,可以做到按相似度的高低呈現(xiàn)有序的檢索結(jié)果,從而給用戶更優(yōu)的檢索體驗(yàn)。本文通過程序進(jìn)行演算獲取實(shí)驗(yàn)結(jié)果,根據(jù)語(yǔ)義相似度進(jìn)行排序,建立新的有序映射。endprint

榆社县| 乳源| 巨野县| 竹山县| 敦化市| 邳州市| 平乐县| 宁阳县| 九龙城区| 九江县| 林州市| 会理县| 和田市| 公主岭市| 东阿县| 紫云| 岢岚县| 阜宁县| 锡林郭勒盟| 丹寨县| 宜丰县| 大港区| 贺兰县| 惠水县| 浦江县| 客服| 长沙县| 虎林市| 镇原县| 太康县| 赤城县| 随州市| 丰原市| 遂宁市| 通化市| 武定县| 西乌珠穆沁旗| 阿坝县| 梁河县| 庄浪县| 康定县|