国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向電子商務(wù)平臺(tái)的藏漢跨語(yǔ)言信息檢索關(guān)鍵技術(shù)研究

2016-10-21 14:09朱琳戴玉剛李艾林郝大鵬
中文信息 2016年6期
關(guān)鍵詞:電子商務(wù)

朱琳 戴玉剛 李艾林 郝大鵬

摘 要: 本文以電子商務(wù)為平臺(tái),以藏語(yǔ)和漢語(yǔ)語(yǔ)言特點(diǎn)為基礎(chǔ),以藏漢雙語(yǔ)可比語(yǔ)料為資源,分析當(dāng)前自然語(yǔ)言處理技術(shù),把雙語(yǔ)詞典和主題空間模型相結(jié)合,搭建藏漢跨語(yǔ)言信息檢索總體框架。為下一步把多語(yǔ)言電子商務(wù)、跨語(yǔ)言檢索、民族自然語(yǔ)言處理技術(shù)進(jìn)行結(jié)合提供了新的思路和途徑。

關(guān)鍵詞:電子商務(wù) 跨語(yǔ)言檢索 雙語(yǔ)詞典 主題空間模型

中圖分類號(hào):TP391.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-9082(2016)06-0015-02

一、引言

跨語(yǔ)言信息檢索(Cross Language Information Retrieval,CLIR),就是當(dāng)用戶用一種語(yǔ)言輸入要檢索的信息時(shí),檢索的信息也可以用另外一種語(yǔ)言進(jìn)行呈現(xiàn)。它是一種打破語(yǔ)言障礙,涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)等多門學(xué)科知識(shí)進(jìn)行檢索信息的技術(shù)[1]。

1973年,G..Salton先生發(fā)表的《Experiments in multilingual information retrieval》,是對(duì)這項(xiàng)技術(shù)的最早研究。當(dāng)時(shí)所研究的檢索主要是對(duì)國(guó)際聯(lián)機(jī)進(jìn)行的,另外加上檢索系統(tǒng)不普及等因素,并沒(méi)有引起人們的關(guān)注。90年代后期,隨著Internet的迅猛發(fā)展, Internet的全球化信息結(jié)構(gòu)引發(fā)了人們對(duì)跨語(yǔ)言信息檢索的迫切需要,此時(shí)這項(xiàng)檢索技術(shù)真正成為了研究熱點(diǎn)[2]?,F(xiàn)在,許多公司都把檢索技術(shù)應(yīng)用到電子商務(wù)中,比如京東,雅虎,阿里巴巴等,但把跨語(yǔ)言技術(shù)應(yīng)用到電商中卻寥寥無(wú)幾,這與民族自然語(yǔ)言的特點(diǎn)與難點(diǎn)有關(guān),由于民族自然語(yǔ)言的特殊性,國(guó)外的一些自然語(yǔ)言處理技術(shù)研究成果也無(wú)法應(yīng)用到對(duì)國(guó)內(nèi)民族語(yǔ)言進(jìn)行處理。而針對(duì)藏漢跨語(yǔ)言檢索的研究成果更是甚少,所以把民族語(yǔ)言處理技術(shù)、跨語(yǔ)言檢索技術(shù)等應(yīng)用到面向電子商務(wù)中愈來(lái)愈重要。

二、搭建面向電子商務(wù)平臺(tái)的藏漢跨語(yǔ)言信息檢索總體框架

用戶輸入查詢語(yǔ)后,如何在查詢語(yǔ)和檢索語(yǔ)之間搭建有效的橋梁樞紐,就是跨語(yǔ)言信息檢索技術(shù)研究的最核心最關(guān)鍵的問(wèn)題[3]。本文擬融合字典和語(yǔ)料庫(kù)兩種技術(shù)來(lái)實(shí)現(xiàn)跨語(yǔ)言信息檢索模型的研究,從而克服單種方法的不足。本文采用了一種基于翻譯的技術(shù)進(jìn)行CLTR,這種技術(shù)的一個(gè)顯著特點(diǎn)就是將翻譯過(guò)程和檢索過(guò)程分離,即:先借助于跨語(yǔ)言的語(yǔ)義資源或者機(jī)器翻譯系統(tǒng)將語(yǔ)言內(nèi)容翻譯成目標(biāo)語(yǔ)言表示的內(nèi)容,然后使用成熟的單語(yǔ)言信息檢索模型進(jìn)行檢索[4]。其分離的翻譯過(guò)程將導(dǎo)致目標(biāo)語(yǔ)言的語(yǔ)義空間與原始語(yǔ)義空間的語(yǔ)義偏離。為了解決語(yǔ)義偏離問(wèn)題,本文引入雙語(yǔ)主題模型技術(shù),將目標(biāo)語(yǔ)言的語(yǔ)義空間與原始語(yǔ)義空間的語(yǔ)義進(jìn)行相似性計(jì)算。

三、構(gòu)建藏漢可比語(yǔ)料庫(kù)

藏漢雙語(yǔ)平行資源嚴(yán)重不足或沒(méi)有是當(dāng)前所面臨的嚴(yán)峻問(wèn)題,可比語(yǔ)料具有來(lái)源廣、涉及領(lǐng)域全面、內(nèi)容豐富、易獲取等特點(diǎn)。本文擬建立面向跨語(yǔ)言信息檢索的藏漢可比語(yǔ)料庫(kù),同時(shí)也可以為藏漢機(jī)器翻譯、雙語(yǔ)詞對(duì)和術(shù)語(yǔ)抽取、構(gòu)建語(yǔ)義詞典等研究提供基礎(chǔ)資源。主要從兩個(gè)方面進(jìn)行開(kāi)展:1)從國(guó)內(nèi)公開(kāi)發(fā)布的雙語(yǔ)電商網(wǎng)站搜集藏漢農(nóng)產(chǎn)品雙語(yǔ)語(yǔ)料;2)首先從互聯(lián)網(wǎng)上搜集藏語(yǔ)農(nóng)產(chǎn)品語(yǔ)料,然后進(jìn)行聚類,識(shí)別出相應(yīng)的主題,然后根據(jù)主題詞,人工翻譯成中文,據(jù)此采集相應(yīng)的中文農(nóng)產(chǎn)品語(yǔ)料。

本文主要從兩個(gè)方面進(jìn)行考慮:

(1)從支持藏漢雙語(yǔ)的網(wǎng)站上進(jìn)行采集

①搜集網(wǎng)頁(yè):確定藏漢雙語(yǔ)主題相同的候選網(wǎng)站的平行網(wǎng)頁(yè),設(shè)計(jì)網(wǎng)頁(yè)爬蟲(chóng)程序自動(dòng)從這些網(wǎng)站盡可能提取藏漢雙語(yǔ)主題平行的網(wǎng)頁(yè);

②提取網(wǎng)頁(yè)內(nèi)容:分析各網(wǎng)站的網(wǎng)頁(yè)結(jié)構(gòu),并過(guò)濾非文本內(nèi)容,主要提取網(wǎng)頁(yè)的 Title、Body 和Time等內(nèi)容,進(jìn)行格式轉(zhuǎn)換,添加標(biāo)記,最后生成 XML 文件。

③XML 文件預(yù)處理:XML 文件進(jìn)行初步的預(yù)處理,包括去除僅有單語(yǔ)言的文件、網(wǎng)頁(yè)去重、非法字符過(guò)濾等。然后進(jìn)行一些必要的人工檢查和初的統(tǒng)計(jì)。如,刪除每個(gè)文件中的圖片標(biāo)題、錨文本等不相關(guān)的文本內(nèi)容;

④文檔對(duì)齊:對(duì)預(yù)處理后的 XML 文件進(jìn)行文檔自動(dòng)對(duì)齊,對(duì)結(jié)果進(jìn)行人工檢查和校對(duì)。

⑤文檔類別標(biāo)注:目的是為了后續(xù)進(jìn)行跨語(yǔ)言分類分類和聚類的研究,從而建立跨語(yǔ)言文本分類語(yǔ)料庫(kù),先對(duì)部分藏漢雙語(yǔ)文檔使用 K-Means 算法聚類分析,確定文檔的類別。使用 SVM 分類模型訓(xùn)練已標(biāo)注類別的文檔,然后對(duì)未標(biāo)注的文檔進(jìn)行類別標(biāo)注。根據(jù)文檔內(nèi)容進(jìn)行人工類別標(biāo)注進(jìn)行校對(duì)和調(diào)整。

(2)先從互聯(lián)網(wǎng)上的藏文網(wǎng)站采集有關(guān)藏文農(nóng)產(chǎn)品新聞?wù)Z料,然后對(duì)藏文新聞?wù)Z料進(jìn)行聚類分類,再找出類別主題詞,將聚類出的所有類別的主題詞翻譯成中文,根據(jù)中文主題詞搜索采集與之對(duì)應(yīng)主題的中文可比語(yǔ)料。具體的可比語(yǔ)料存儲(chǔ)舉例如下所示:

1.雙語(yǔ)相似性主題詞抽取和共現(xiàn)主題詞統(tǒng)計(jì)

本文針對(duì)文檔主題對(duì)偶空間的表示和構(gòu)建進(jìn)行重點(diǎn)研究:綜合考慮雙語(yǔ)可比語(yǔ)料庫(kù)的語(yǔ)義特性,即通過(guò)提取雙語(yǔ)主題對(duì)構(gòu)造主題對(duì)偶空間,由此構(gòu)建詞的語(yǔ)義關(guān)系和文檔的語(yǔ)義關(guān)系。在信息檢索中,一個(gè)主題(或者概念)可以理解為描述該主題的關(guān)鍵詞項(xiàng)集合。本質(zhì)上,除關(guān)鍵詞項(xiàng)外的其余詞與主題存在一定的相關(guān)性,在建模時(shí)賦予關(guān)鍵詞更大的權(quán)重,而其余詞賦予更小的權(quán)重。假如只考慮線性空間的方式,一個(gè)主題則表示為所有詞項(xiàng)表的線性組合。

本文通過(guò)實(shí)驗(yàn)需設(shè)置一個(gè)閾值,并從雙語(yǔ)主題中分別找出權(quán)重大于的詞項(xiàng)(主題詞),并根據(jù)這些主題詞在文中的位置、上下文關(guān)系進(jìn)行篩選,然后構(gòu)建雙語(yǔ)主題相關(guān)的主題詞對(duì)應(yīng)關(guān)系,本文稱之為相似性主題詞。根據(jù)抽取出的雙語(yǔ)主題詞,將其返回到與之對(duì)應(yīng)的篇章結(jié)構(gòu)當(dāng)中,找出主題詞所在句子中的上下文中的相關(guān)詞,構(gòu)建共現(xiàn)詞網(wǎng)絡(luò)。

2.基于藏漢雙語(yǔ)電子詞典的跨語(yǔ)言檢索技術(shù)研究

本文采用基于詞典的查詢翻譯策略,把藏漢雙語(yǔ)電子詞典與雙語(yǔ)相似性主題詞對(duì)進(jìn)行結(jié)合。對(duì)于每個(gè)源語(yǔ)查詢項(xiàng),可以用電子詞典中自動(dòng)抽取的一種或多種目標(biāo)語(yǔ)翻譯進(jìn)行替換[6],獲取相應(yīng)的正確目標(biāo)語(yǔ)翻譯知識(shí),這樣就在源語(yǔ)詞典以及目標(biāo)語(yǔ)詞典之間建立起鏈接,對(duì)譯詞在目標(biāo)語(yǔ)生成過(guò)程中就能獲取。另外,為了提高搜索的召回率,在查詢處理策略方面,根據(jù)現(xiàn)代同義詞電子詞典查詢的擴(kuò)展,再通過(guò)詞共現(xiàn)網(wǎng)絡(luò)進(jìn)行消歧。

結(jié)語(yǔ)

中國(guó)是擁有56個(gè)民族語(yǔ)言的大國(guó),把民族自然語(yǔ)言加入到現(xiàn)代科技信息技術(shù)中,促進(jìn)了語(yǔ)言應(yīng)用領(lǐng)域的拓展和原有應(yīng)用領(lǐng)域的發(fā)展。本文通過(guò)分析研究自然語(yǔ)言處理的相關(guān)知識(shí)和技術(shù),構(gòu)建了面向電子商務(wù)平臺(tái)的藏漢跨語(yǔ)言信息檢索框架。本文研究工作還有很多不足之處,但為多種民族語(yǔ)言信息處理技術(shù)應(yīng)用到其他領(lǐng)域提供了很好的實(shí)例和基礎(chǔ),進(jìn)而打破語(yǔ)言障礙,增進(jìn)各民族交流,加快社會(huì)經(jīng)濟(jì)發(fā)展和民族文化的進(jìn)步。

參考文獻(xiàn)

[1]王曉偉.基于機(jī)器翻譯的查詢結(jié)果Rerank技術(shù)[D].內(nèi)蒙古大學(xué),2011.

[2]郭宇鋒.跨語(yǔ)言信息檢索在機(jī)器人信息數(shù)據(jù)庫(kù)中的應(yīng)用研究[D].上海交通大學(xué),2006.

[3]鞏文婧.基于語(yǔ)言模型的跨漢蒙信息檢索技術(shù)研究[D].內(nèi)蒙古大學(xué),2012.

[4]朱培焱,夏棟梁.漢英跨語(yǔ)言信息檢索研究[J].計(jì)算機(jī)與現(xiàn)代化,2011,08:13-16.

[5]趙耀紅.基于向量空間模型的信息檢索系統(tǒng)的研究與實(shí)現(xiàn)[J].長(zhǎng)春大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,08:25-27.

[6]楊輝,張玥杰,張濤.基于詞典的英漢雙向跨語(yǔ)言檢索方法[J].計(jì)算機(jī)工程,2009,16:273-277.

作者簡(jiǎn)介:朱琳(1990.9-),山東菏澤人,女,碩士研究生,研究方向?yàn)橹悄苄畔⒎?wù)系統(tǒng)。

猜你喜歡
電子商務(wù)
2025年我國(guó)農(nóng)村電子商務(wù)交易額達(dá)到2.8萬(wàn)億元
《電子商務(wù)法》如何助力直銷
淺析中小企業(yè)電子商務(wù)服務(wù)外包
電子商務(wù)實(shí)踐能力的提升探析
電子商務(wù)
電子商務(wù)模式創(chuàng)新的相關(guān)研究
關(guān)于加快制定電子商務(wù)法的議案
基于AS仿真的電子商務(wù)交易系統(tǒng)研究
電子商務(wù)人的核心能力
期刊訂閱電子商務(wù)平臺(tái)
渭南市| 涞水县| 淮滨县| 昆明市| 绥阳县| 崇州市| 平顶山市| 集安市| 城市| 罗甸县| 桦川县| 宝兴县| 西盟| 长乐市| 聂荣县| 海宁市| 信宜市| 合江县| 九龙县| 阳朔县| 阿拉善右旗| 新平| 中方县| 东平县| 青岛市| 永清县| 石嘴山市| 札达县| 金塔县| 尖扎县| 九龙县| 永嘉县| 龙里县| 故城县| 安丘市| 贡觉县| 林甸县| 成都市| 墨脱县| 江永县| 冷水江市|