国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

蒙古文停用詞和英文停用詞比較研究

2011-06-28 06:27關高娃
中文信息學報 2011年4期
關鍵詞:蒙古文詞表詞類

鞏 政,關高娃

(內蒙古大學 計算機學院,內蒙古 呼和浩特 010021)

1 前言

隨著互聯(lián)網(wǎng)技術、多媒體技術的迅猛發(fā)展,多媒體數(shù)據(jù)量不斷膨脹。在海量的多媒體數(shù)據(jù)中,文本資料在數(shù)據(jù)量和包含信息內容上都占有舉足輕重的地位。如何快速有效地從如此龐大的數(shù)據(jù)中檢索到想要的數(shù)據(jù)變得越來越重要。同時對信息中出現(xiàn)頻率很高但所包含信息對檢索沒有多大貢獻的停用詞(Stop Words)的處理,從很大程度上決定了檢索性能的高低。幾乎所有涉及到機器學習的文本預處理都包括對停用詞表(Stoplist)[1]的處理。

停用詞是指為節(jié)省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時會自動忽略的某些字或詞[2]。通常意義上,停用詞大致分為如下兩類: 1)應用廣泛,比如“Web”一詞幾乎在每個網(wǎng)站上均會出現(xiàn),對這樣的詞搜索引擎無法保證能夠給出真正相關的搜索結果,難以幫助縮小搜索范圍,同時還會降低搜索的效率;2)文檔中出現(xiàn)的語氣助詞、副詞、介詞、連接詞等,這類詞通常自身并無明確的意義,只有將其放入一個完整的句子中才有一定作用,如漢語中常見的“的”、“在”,蒙古語中的格的附加成分。蒙古文文檔中的停用詞集合就稱為蒙古文停用詞表。

隨著互聯(lián)網(wǎng)的普及和信息化的發(fā)展,使用信息檢索系統(tǒng)的用戶變得越來越多,文檔的語言種類及內容也越來越多。很多語種已經(jīng)有了確定的停用詞表。但是迄今為止蒙古文還沒有確定的停用詞表。所以有必要通過英文停用詞和蒙古文停用詞進行比較研究,來確定和完善蒙古文停用詞表。

2 蒙古文詞性簡介

蒙古語是個詞性較多、語法較復雜的一個語言。蒙古語從詞法角度可分為三類。第一類為靜詞類,它具有靜詞類的一系列的形態(tài)變化。第二類是動詞類,它具有動詞類的一系列的形態(tài)變化。第三類是無變化詞類,這類詞的絕大部分主要表示某種語法意義[3]。靜詞類包括名詞、形容詞、數(shù)量詞、時位詞、代詞等。靜詞類有格、數(shù)、領屬等范疇的形態(tài)變化,表示事物、時間地點、性質特征、數(shù)量等意義。動詞類分為實義動詞和虛義動詞。無變化詞類是指沒有形態(tài)變化的詞,如: 副詞、情態(tài)詞、模擬詞、后置詞、語氣詞、感情詞等。

3 基于聯(lián)合熵及詞類特征獲取停用詞

基于熵計算的選取方式,傾向于選取文本中穩(wěn)定出現(xiàn)的詞,因此容易受到文本行文方式等的影響。用聯(lián)合熵法選取的停用詞傾向于選取在句子中穩(wěn)定出現(xiàn)且出現(xiàn)較多的詞,因此受文本的行文方式影響較少,選取出的停用詞更能反映文本的真實情況[4]。

基于聯(lián)合熵算法選取蒙古文停用詞的思想,是用詞在句子中出現(xiàn)的頻率與包含該詞的句子頻率的聯(lián)合熵,分別計算詞條在語料中各個句子內發(fā)生的概率,以及包含該詞條的句子在文本中發(fā)生的概率pj,計算它們的熵,并依據(jù)它們的聯(lián)合熵選取停用詞[5]:

W(wi)=H(wi)+H(s|wi)

(1)

其中,H(wi)表示詞wi在句子中的熵,用公式(2)計算:

(2)

H(s|wi)表示包含詞wi的句子j的熵,用公式(3)計算:

式中:fj(wi)為單詞w在句子j中出現(xiàn)的頻率;n為句子數(shù);fl(s|wi)為包含wi的句子在文本l中出現(xiàn)的頻率;m為文本數(shù)。

采用聯(lián)合熵作為停用詞選取方法的理論依據(jù)是: 當一個詞在句子中出現(xiàn)的平均信息量和包含該詞的句子的平均信息量較大時,表示該詞較為普通。應用該方法可以有效避免語料選取不均衡造成的停用詞選取錯誤。

因此,經(jīng)過統(tǒng)計算法得到的蒙古文停用詞中還存在一些干擾檢索結果,降低檢索精度的實體名詞及同形異義詞,這些詞也需要從蒙古文停用詞表中去除。

本文在進行實驗時,選取了按照TREC文檔規(guī)范進行整理后的27 401個蒙古文文檔。這些文檔來源于《內蒙古日報》蒙文版,約54MB大小,語料內容大多屬于新聞報道類。圖1為語料中的一個蒙古文文檔。圖2為把聯(lián)合熵(UE)算法應用到蒙古文語料中所獲取的排序后的前50個蒙古文停用詞。

圖1 一個符合TREC規(guī)范的蒙古文文檔

圖2 UE方法獲得的部分停用詞

4 蒙古文停用詞與英文停用詞比較

圖3 部分英文停用詞及對應的蒙古文

圖4 部分蒙古文停用詞及對應的英文

經(jīng)過以上的比較分析,我們可以對蒙古文停用詞表進行進一步的優(yōu)化,即把英文停用詞中出現(xiàn)的介詞和冠詞用蒙古文中能夠表達同樣意義的其他詞性的詞代替,將它們添加到蒙古文停用詞表中,來完善蒙古文停用詞。

5 實驗結果

本文首先使用UE算法從蒙古文語料中初步獲得停用詞表,然后從該表中去掉那些與主題關系較大的實體名詞和同形異義詞,又增加了一些能夠表示英文停用詞中的介詞和冠詞詞意的詞,最終確定了蒙古文停用詞表。

為了驗證所定蒙古文停用詞表在檢索中的貢獻,本文分別做了以下實驗。一是將蒙古文停用詞翻譯成英文,然后將該停用詞表和英文停用詞表分別應用到英文文檔中做檢索,比較檢索的結果。二是將英文停用詞表翻譯成蒙古文,然后將該停用詞表和蒙古文停用詞表分別應用到蒙古文文檔集中做檢索,比較檢索的結果。圖5和圖6為英文停用詞表和蒙古文停用詞表的檢索結果對比圖。

圖5 英文與翻譯成英文的蒙古文停用詞檢索結果比較

圖6 蒙古文與翻譯成蒙古文的英文停用詞檢索結果比較

從實驗結果可知,使用從英文停用詞翻譯成的蒙古文停用詞對蒙古文文檔進行檢索,不如使用本文所述蒙古文停用詞對蒙古文文檔進行檢索的效果好(圖6所示);同樣使用蒙古文停用詞翻譯成英文對英文文檔進行檢索,也不如使用原英文停用詞對英文文檔進行檢索的效果好(圖5所示)。因此,不能直接將英文停用詞翻譯成蒙古文作為蒙古文停用詞,而是要結合英文和蒙古文的詞類特征來確定蒙古文停用詞表。

[1] 化柏林.知識抽取中的停用詞處理技術[J].現(xiàn)代圖書情報技術,2007,8:48-51.

[2] 什么是停用詞、靜止詞[EB/OL][2010-10-25]http://www.semshare.net/什么是停用詞、靜止詞-SEO中的Stop Words/.

[3] 清格爾泰.蒙古語語法[M].呼和浩特: 內蒙古人民出版社,1999.

[4] 蔣斌.基于停用詞處理的漢語語音檢索方法[D].哈爾濱工業(yè)大學碩士論文.2008.

[5] 顧益軍,樊孝忠,王建華,等.中文停用詞表的自動選取[J].北京理工大學學報,2005,25(4):337-340.

[6] GongZheng, Guangaowa. The Selection of Mongolian Stop Words[C]//Proceedings 2010 IEEE International Conference on Intelligent Computing and Intelligent Systems Volume 2.Xiamen,China: IEEE Comput,2010: 71-74.

[7] 白音寶力高.蒙古語同形詞詞典[M].呼和浩特: 內蒙古人民出版社,2001.

猜你喜歡
蒙古文詞表詞類
敖漢旗萬壽白塔蒙古文碑文新釋
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
學術英語詞表研究管窺
——三份醫(yī)學英語詞表比較分析
用詞類活用法擴充詞匯量
部分海外藏蒙古文文獻及其目錄
從成語中學習詞類活用
從唐詩的對偶看漢語的詞類和語法
漫談高考考點對詞類及句子成分的隱性考查
國外敘詞表的應用與發(fā)展趨勢探討*
常用聯(lián)綿詞表
壶关县| 山东省| 金堂县| 昌都县| 西畴县| 广宁县| 开原市| 临潭县| 淅川县| 堆龙德庆县| 安顺市| 庐江县| 安仁县| 西城区| 黑龙江省| 五家渠市| 灵石县| 介休市| 乐亭县| 榆社县| 宜兴市| 渭源县| 榆林市| 腾冲县| 桓台县| 永和县| 兴业县| 苍南县| 唐山市| 嵩明县| 涟水县| 宁陕县| 教育| 丹阳市| 普定县| 双江| 九江县| 昆明市| 宁远县| 德兴市| 邹平县|