朱莉莉
摘 要 網(wǎng)絡(luò)信息的急劇增長給人們搜索信息帶來一定的困難,搜索引擎的出現(xiàn)及時(shí)地解決了這個問題。而在搜索引擎中核心的部分之一是中文分詞算法,它在一定程度上影響著檢索的速度。簡單介紹中文分詞的重要性、方法以及現(xiàn)在存在的問題,對中文分詞的進(jìn)一步發(fā)展提供一定的依據(jù),推動搜索引擎發(fā)揮越來越強(qiáng)大的作用。
關(guān)鍵詞 搜索引擎;中文分詞;網(wǎng)絡(luò)信息
中圖分類號:TP393.01 文獻(xiàn)標(biāo)識碼:B 文章編號:1671-489X(2013)03-0067-02
Chinese Search Engine in Chinese Word Segmentation Application//Zhu Lili
Abstract The rapid increase of network information search information for people to bring certain difficulty. Search engine solute to the problem timely. The search engine is one of the core of the Chinese word segmentation algorithm. To a certain extent it affects the speed of retrieval. This paper focuses on the simple introduction about Chinese word importance, methods and the problems. To provide further development for the Chinese word segmentation. Allows search engines to play an increasingly strong role.
Key words search engine; Chinese word segmentation; network information
1 引言
隨著科技時(shí)代的發(fā)展,網(wǎng)絡(luò)越來越成為人們生活中的重要部分,特別是網(wǎng)絡(luò)信息的急劇增長使人們獲取信息的方式發(fā)生了極大的改變。相比于以前翻閱紙質(zhì)書籍,現(xiàn)在的人們更喜歡在網(wǎng)絡(luò)上尋找自己想要的信息,這不僅可以極大地提高搜索信息的效率,而且可以增加搜索信息的廣度和深度。基于此,搜索引擎便應(yīng)運(yùn)而生,搜索引擎可以讓人們在海量的信息中更快地搜索到自己想要的資源。而搜索引擎在面向用戶接口這個層面上,比較重要的技術(shù)是中文分詞技術(shù),所以本文先簡要地介紹一下搜索引擎,在此基礎(chǔ)上進(jìn)一步闡述中文分詞技術(shù)在搜索引擎中的重要作用以及相應(yīng)的應(yīng)用。
2 搜索引擎
面對海量的網(wǎng)絡(luò)信息,搜索引擎的出現(xiàn)給人們查找自己想要的資源帶來了極大的便利。搜索引擎是一種在網(wǎng)絡(luò)上應(yīng)用的軟件系統(tǒng),它有自己的檢索數(shù)據(jù)庫,這個也是系統(tǒng)的核心部分,檢索數(shù)據(jù)庫的形成是先通過在Web上自行收集的大量的信息,然后對這些信息進(jìn)行相應(yīng)的處理,以便能夠形成可以用于檢索的數(shù)據(jù)庫。從用戶的角度來看,這個軟件系統(tǒng)提供給了用戶一個可以用于檢索的界面,用戶從這個界面中輸入自己想要查詢的內(nèi)容,系統(tǒng)會根據(jù)用戶輸入要求,提供給相應(yīng)的檢索結(jié)果。搜索引擎的原理可以簡單描述為三步:從網(wǎng)絡(luò)上收集相應(yīng)的網(wǎng)頁——建立相應(yīng)的索引數(shù)據(jù)庫——在索引數(shù)據(jù)庫中進(jìn)行相應(yīng)的檢索。
搜索引擎的出現(xiàn)為網(wǎng)絡(luò)信息的發(fā)展提供了很大的發(fā)展空間,由于搜索引擎的技術(shù)首先是在國外發(fā)展的,所以對于英文信息的搜索引擎技術(shù)現(xiàn)在來說已經(jīng)是比較成熟的了,而對于中文信息的處理的搜索引擎相比較來說就沒有那么完善。一方面來說是因?yàn)樗阉饕嬖谥袊霈F(xiàn)得比較晚,加之中文的復(fù)雜性等原因,中文搜索引擎還需要進(jìn)一步地發(fā)展完善。下面就對在中文搜索引擎中所用到的中文分詞進(jìn)行簡要的介紹。
3 搜索引擎中的中文分詞
3.1 中文分詞的重要性
隨著科技社會的快速發(fā)展,網(wǎng)絡(luò)信息也越來越發(fā)揮著重要的作用,信息量也是愈加的豐富,在給人們帶來便利的同時(shí)也帶來了一些困擾,如何能夠在浩海如煙的信息中快速地搜索到自己想要的信息?搜索引擎的出現(xiàn)及時(shí)解決了這個問題,如比較熟悉的百度、谷歌等網(wǎng)站都已經(jīng)將搜索引擎做到了極致,使人們能夠快速搜索到自己想要的資源。搜索引擎一般是以詞為基本單位進(jìn)行相應(yīng)的檢索,這樣就要求將輸入的中文句子切分成相應(yīng)的詞語,這就涉及到其中比較重要的技術(shù)——中文分詞技術(shù),它是機(jī)器翻譯、信息檢索的重要基礎(chǔ)。
中文分詞是什么呢?先來了解一下分詞。分詞就是將詞語從一整個句子中劃分出來,這個過程稱之為分詞。學(xué)習(xí)過英語的人都了解,英語詞與詞之間的間隔是以空格來分割的,計(jì)算機(jī)能夠識別這樣的每一個單詞。而中文不是,中文只有一句話或是一個段落才會用相應(yīng)的分割,而分割符一般也有好多種,這樣就給計(jì)算機(jī)的識別帶來了一定的困難。中文分詞就是將輸入的、計(jì)算機(jī)不能夠直接理解的一些字符串轉(zhuǎn)換成計(jì)算機(jī)能夠理解并處理的詞序列,以便為下一步的語義分析模塊提供分析的基礎(chǔ)。
3.2 中文分詞算法
1)基于詞典的分詞算法?;谠~典的分詞算法也稱之為字符串匹配的分詞方法或是機(jī)械分詞法,它是將待匹配的字符串和已建立好的詞典中的字符串進(jìn)行匹配,若在詞典中找到該字符串,說明匹配成功,則計(jì)算機(jī)就識別該字符串。按照在匹配過程中查找的順序不同,可以分為正向匹配方法和逆向匹配方法;按照長度不同進(jìn)行優(yōu)先匹配的情況來分的話,可以分為最長匹配方法和最短匹配方法。這種分詞方法是最簡單的一種分詞方法,相對來說分析效率比較高,但由于中文漢字結(jié)構(gòu)的復(fù)雜性以及新詞語的不斷涌現(xiàn),使得這種分詞方法不能很好地解決一詞多義以及未登錄詞的問題。
2)基于理解的分詞算法?;诶斫獾姆衷~算法的基本思想是讓計(jì)算機(jī)模擬人類大腦對于詞語和語義的理解,以便能夠達(dá)到識別中文詞語的效果。比較重要的部分是調(diào)度系統(tǒng),在這部分的協(xié)調(diào)之下,計(jì)算機(jī)能夠更好地識別相應(yīng)的詞、句子,并根據(jù)它們的句法和語義信息來消除分詞過程中的歧義現(xiàn)象。但由于漢字知識信息的復(fù)雜性,讓所有的漢字都能夠組成機(jī)器所能夠理解的形式是一項(xiàng)比較巨大的工程,所以這種分詞方法還是處于試驗(yàn)階段。
3)基于統(tǒng)計(jì)的分詞方法?;诮y(tǒng)計(jì)的分詞方法是基于人們對于中文詞語的直覺。詞語是由穩(wěn)定的字組成的,一般來說相鄰的兩個字在一塊兒出現(xiàn)的頻率越高,組成一個詞的可能性就越高。該種分詞方法就是利用計(jì)算字與字之間出現(xiàn)的頻率來判斷是否能夠組成相應(yīng)的詞語。而統(tǒng)計(jì)頻率的方法一般是用大量的文本進(jìn)行訓(xùn)練,然后判斷它們是否能夠組成詞語,當(dāng)它們共現(xiàn)頻率達(dá)到一定值的時(shí)候,就說明能夠組成詞語。這種分詞方法只是對訓(xùn)練文本中相鄰的字進(jìn)行頻率統(tǒng)計(jì),所以不需要與詞典進(jìn)行匹配,所以檢索效率相對來說比較高。
這三種分詞方法各有利弊,在應(yīng)用到系統(tǒng)時(shí)可以根據(jù)相應(yīng)的情況進(jìn)行選擇,比較成熟的系統(tǒng)一般是將幾種分詞方法聯(lián)合起來使用。
3.3 中文分詞發(fā)展中的難點(diǎn)
雖然中文分詞算法的研究已取得一些成果,已經(jīng)有一些比較系統(tǒng)的分詞標(biāo)準(zhǔn), 但不可避免地也會存在一些問題,主要是有以下幾方面的困擾。
首先是分詞速度和分詞精度是一個難題?,F(xiàn)在的中文分詞算法在這兩方面做得還不夠好,使得系統(tǒng)的運(yùn)行速度以及檢索結(jié)果都未到達(dá)到理想的狀態(tài)。
其次是詞義歧義的問題。一般是指一句話或一個詞有兩種或更多種的意思,使計(jì)算機(jī)搞不清楚到底是什么意思,這樣顯然會給系統(tǒng)的檢索精度帶來一定的影響。歧義的處理是中文分詞的一大困難,主要因?yàn)槠缌x有很多種類,不同種類的歧義問題需要不同的解決方案。
還有一種問題是識別未登錄詞。未登錄詞一般是指出現(xiàn)的新詞,還沒收錄在詞典中,這樣就匹配不到相應(yīng)的字符串。這種詞一般是人名、地名或者是隨著時(shí)代的發(fā)展出現(xiàn)的一些新詞。把這些詞及時(shí)收錄到自己的字典當(dāng)中是一項(xiàng)比較復(fù)雜的工程,因此也是中文分詞亟待解決的問題。
4 結(jié)束語
隨著科學(xué)技術(shù)的發(fā)展,越來越多的領(lǐng)域會涉及中文分詞算法的應(yīng)用,如何能夠快速、準(zhǔn)確地檢索到自己想要的資源,這有待于中文分詞算法的進(jìn)一步改進(jìn)。雖然在搜索引擎中中文分詞算法的研究取得了一定的成果,但還有上文中的一些難點(diǎn)沒有突破,這需要進(jìn)一步研究,除了要在改善3種主要的分詞算法上下功夫,還需要將多種方法結(jié)合起來使用,以便取得更好的分詞效果。相信隨著科學(xué)技術(shù)的進(jìn)一步發(fā)展,以及各類專家的不懈努力,在不久的將來,中文分詞算法會取得長足的進(jìn)步,這樣搜索引擎就會發(fā)揮越來越強(qiáng)大的作用。
參考文獻(xiàn)
[1]龍樹全,趙正文,唐華.中文分詞算法概述[J].電腦知識與技術(shù),2009(10):2605-2607.
[2]劉件,魏程.中文分詞算法研究田[J].微計(jì)算機(jī)應(yīng)用,2008,29(8):11-16.
[3]劉紅芝.中文分詞技術(shù)的研究[J].電腦開發(fā)與應(yīng)用,2010,2(3):173-175.