鞏 政,關高娃
(內蒙古大學 計算機學院,內蒙古 呼和浩特 010021)
隨著互聯(lián)網(wǎng)技術、多媒體技術的迅猛發(fā)展,多媒體數(shù)據(jù)量不斷膨脹。在海量的多媒體數(shù)據(jù)中,文本資料在數(shù)據(jù)量和包含信息內容上都占有舉足輕重的地位。如何快速有效地從如此龐大的數(shù)據(jù)中檢索到想要的數(shù)據(jù)變得越來越重要。同時對信息中出現(xiàn)頻率很高但所包含信息對檢索沒有多大貢獻的停用詞(Stop Words)的處理,從很大程度上決定了檢索性能的高低。幾乎所有涉及到機器學習的文本預處理都包括對停用詞表(Stoplist)[1]的處理。
停用詞是指為節(jié)省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時會自動忽略的某些字或詞[2]。通常意義上,停用詞大致分為如下兩類: 1)應用廣泛,比如“Web”一詞幾乎在每個網(wǎng)站上均會出現(xiàn),對這樣的詞搜索引擎無法保證能夠給出真正相關的搜索結果,難以幫助縮小搜索范圍,同時還會降低搜索的效率;2)文檔中出現(xiàn)的語氣助詞、副詞、介詞、連接詞等,這類詞通常自身并無明確的意義,只有將其放入一個完整的句子中才有一定作用,如漢語中常見的“的”、“在”,蒙古語中的格的附加成分。蒙古文文檔中的停用詞集合就稱為蒙古文停用詞表。
隨著互聯(lián)網(wǎng)的普及和信息化的發(fā)展,使用信息檢索系統(tǒng)的用戶變得越來越多,文檔的語言種類及內容也越來越多。很多語種已經(jīng)有了確定的停用詞表。但是迄今為止蒙古文還沒有確定的停用詞表。所以有必要通過英文停用詞和蒙古文停用詞進行比較研究,來確定和完善蒙古文停用詞表。
蒙古語是個詞性較多、語法較復雜的一個語言。蒙古語從詞法角度可分為三類。第一類為靜詞類,它具有靜詞類的一系列的形態(tài)變化。第二類是動詞類,它具有動詞類的一系列的形態(tài)變化。第三類是無變化詞類,這類詞的絕大部分主要表示某種語法意義[3]。靜詞類包括名詞、形容詞、數(shù)量詞、時位詞、代詞等。靜詞類有格、數(shù)、領屬等范疇的形態(tài)變化,表示事物、時間地點、性質特征、數(shù)量等意義。動詞類分為實義動詞和虛義動詞。無變化詞類是指沒有形態(tài)變化的詞,如: 副詞、情態(tài)詞、模擬詞、后置詞、語氣詞、感情詞等。
基于熵計算的選取方式,傾向于選取文本中穩(wěn)定出現(xiàn)的詞,因此容易受到文本行文方式等的影響。用聯(lián)合熵法選取的停用詞傾向于選取在句子中穩(wěn)定出現(xiàn)且出現(xiàn)較多的詞,因此受文本的行文方式影響較少,選取出的停用詞更能反映文本的真實情況[4]。
基于聯(lián)合熵算法選取蒙古文停用詞的思想,是用詞在句子中出現(xiàn)的頻率與包含該詞的句子頻率的聯(lián)合熵,分別計算詞條在語料中各個句子內發(fā)生的概率,以及包含該詞條的句子在文本中發(fā)生的概率pj,計算它們的熵,并依據(jù)它們的聯(lián)合熵選取停用詞[5]:
W(wi)=H(wi)+H(s|wi)
(1)
其中,H(wi)表示詞wi在句子中的熵,用公式(2)計算:
(2)
H(s|wi)表示包含詞wi的句子j的熵,用公式(3)計算:
式中:fj(wi)為單詞w在句子j中出現(xiàn)的頻率;n為句子數(shù);fl(s|wi)為包含wi的句子在文本l中出現(xiàn)的頻率;m為文本數(shù)。
采用聯(lián)合熵作為停用詞選取方法的理論依據(jù)是: 當一個詞在句子中出現(xiàn)的平均信息量和包含該詞的句子的平均信息量較大時,表示該詞較為普通。應用該方法可以有效避免語料選取不均衡造成的停用詞選取錯誤。
因此,經(jīng)過統(tǒng)計算法得到的蒙古文停用詞中還存在一些干擾檢索結果,降低檢索精度的實體名詞及同形異義詞,這些詞也需要從蒙古文停用詞表中去除。
本文在進行實驗時,選取了按照TREC文檔規(guī)范進行整理后的27 401個蒙古文文檔。這些文檔來源于《內蒙古日報》蒙文版,約54MB大小,語料內容大多屬于新聞報道類。圖1為語料中的一個蒙古文文檔。圖2為把聯(lián)合熵(UE)算法應用到蒙古文語料中所獲取的排序后的前50個蒙古文停用詞。
圖1 一個符合TREC規(guī)范的蒙古文文檔
圖2 UE方法獲得的部分停用詞
圖3 部分英文停用詞及對應的蒙古文
圖4 部分蒙古文停用詞及對應的英文
經(jīng)過以上的比較分析,我們可以對蒙古文停用詞表進行進一步的優(yōu)化,即把英文停用詞中出現(xiàn)的介詞和冠詞用蒙古文中能夠表達同樣意義的其他詞性的詞代替,將它們添加到蒙古文停用詞表中,來完善蒙古文停用詞。
本文首先使用UE算法從蒙古文語料中初步獲得停用詞表,然后從該表中去掉那些與主題關系較大的實體名詞和同形異義詞,又增加了一些能夠表示英文停用詞中的介詞和冠詞詞意的詞,最終確定了蒙古文停用詞表。
為了驗證所定蒙古文停用詞表在檢索中的貢獻,本文分別做了以下實驗。一是將蒙古文停用詞翻譯成英文,然后將該停用詞表和英文停用詞表分別應用到英文文檔中做檢索,比較檢索的結果。二是將英文停用詞表翻譯成蒙古文,然后將該停用詞表和蒙古文停用詞表分別應用到蒙古文文檔集中做檢索,比較檢索的結果。圖5和圖6為英文停用詞表和蒙古文停用詞表的檢索結果對比圖。
圖5 英文與翻譯成英文的蒙古文停用詞檢索結果比較
圖6 蒙古文與翻譯成蒙古文的英文停用詞檢索結果比較
從實驗結果可知,使用從英文停用詞翻譯成的蒙古文停用詞對蒙古文文檔進行檢索,不如使用本文所述蒙古文停用詞對蒙古文文檔進行檢索的效果好(圖6所示);同樣使用蒙古文停用詞翻譯成英文對英文文檔進行檢索,也不如使用原英文停用詞對英文文檔進行檢索的效果好(圖5所示)。因此,不能直接將英文停用詞翻譯成蒙古文作為蒙古文停用詞,而是要結合英文和蒙古文的詞類特征來確定蒙古文停用詞表。
[1] 化柏林.知識抽取中的停用詞處理技術[J].現(xiàn)代圖書情報技術,2007,8:48-51.
[2] 什么是停用詞、靜止詞[EB/OL][2010-10-25]http://www.semshare.net/什么是停用詞、靜止詞-SEO中的Stop Words/.
[3] 清格爾泰.蒙古語語法[M].呼和浩特: 內蒙古人民出版社,1999.
[4] 蔣斌.基于停用詞處理的漢語語音檢索方法[D].哈爾濱工業(yè)大學碩士論文.2008.
[5] 顧益軍,樊孝忠,王建華,等.中文停用詞表的自動選取[J].北京理工大學學報,2005,25(4):337-340.
[6] GongZheng, Guangaowa. The Selection of Mongolian Stop Words[C]//Proceedings 2010 IEEE International Conference on Intelligent Computing and Intelligent Systems Volume 2.Xiamen,China: IEEE Comput,2010: 71-74.
[7] 白音寶力高.蒙古語同形詞詞典[M].呼和浩特: 內蒙古人民出版社,2001.