李文華
摘要:中文分詞算法在搜索引擎應(yīng)用中有著廣泛的應(yīng)用空間,且能夠增加信息檢索的準(zhǔn)確性,故而值得予以推廣。在此之上,本文簡要分析了中文分詞算法的作用與中文分詞算法在搜索引擎中的難點(diǎn),并分別從基于字符串匹配分詞、基于N元語法分詞、基于搜索統(tǒng)計(jì)技術(shù)等方面,論述了中文分詞算法在搜索引擎應(yīng)用中的運(yùn)用策略,以此提高大眾對中文分詞算法的認(rèn)知水平。
關(guān)鍵詞:中文分詞算法;搜索引擎;字符串
中圖分類號: TP311? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)06-0181-02
中文分詞算法是通過將中文重劃為詞序列的形式,以此展現(xiàn)文本含義。若將其運(yùn)用于搜索引擎應(yīng)用中,可進(jìn)一步增加搜索結(jié)果的準(zhǔn)確性與搜索速度,進(jìn)而滿足大眾對信息的迫切需求。同時(shí),還需結(jié)合中文分詞算法的不同類別為其創(chuàng)造適合的運(yùn)用條件,以便在搜索引擎應(yīng)用中發(fā)揮出重大效用,便于快速精準(zhǔn)的查找關(guān)鍵詞,并給出可靠的搜索結(jié)果,最終促使中文資源實(shí)現(xiàn)最大化利用。
1 中文分詞算法的作用
在大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)信息的豐富性造成大眾在信息篩選中極易受到一定阻力。而中文分詞算法作為一種分詞技術(shù),它能夠快速幫助用戶查找到關(guān)鍵信息,以便在搜索時(shí)間上起到促進(jìn)作用。好比在百度網(wǎng)站中,它的搜索引擎模塊中可借助中文分詞算法依靠“詞匯”的形式予以搜索,從而增加信息檢索準(zhǔn)確性與時(shí)效性。其中具體指的“中文分詞”是以詞匯重新切分的方式為計(jì)算機(jī)搜索引擎提供可用信息,以便快速給出有效數(shù)據(jù)。相比英文分詞模式中的“空格分詞”,中文分詞僅在段落、語句中適用,并在搜索引擎無法準(zhǔn)確識別詞匯含義時(shí),依靠中文分詞算法將其轉(zhuǎn)化為“詞序列”,由此確保詞序列在后期能夠經(jīng)過科學(xué)分析匹配適合的信息,最終為大眾帶來有用信息,準(zhǔn)確完成信息檢索任務(wù)。
2 中文分詞算法在搜索引擎應(yīng)用中的難點(diǎn)
中文分詞算法在實(shí)際應(yīng)用環(huán)節(jié),還存在一些待突破的難點(diǎn),由此造成中文分詞算法無法在搜索引擎應(yīng)用中展現(xiàn)出最優(yōu)化特征。通常情況下,結(jié)合中文分詞算法的具體作用可將其難點(diǎn)歸納為下述三點(diǎn):
其一,高精度與高速度。由于現(xiàn)今數(shù)據(jù)量較為龐大,如若在搜索引擎應(yīng)用中未能準(zhǔn)確識別詞義,并給出錯誤或準(zhǔn)確性較低的信息,很容易影響用戶的搜索體驗(yàn)。因此,在研究中文分詞算法時(shí)需要進(jìn)一步提升其精度與速度,使其能夠在分詞上展現(xiàn)出顯著優(yōu)勢,以此滿足大數(shù)據(jù)時(shí)代的信息檢索需求。從當(dāng)前實(shí)際研發(fā)結(jié)果來看,中文分詞技術(shù)在其發(fā)展階段依然取得了些許成就,但隨著詞匯句意的多樣性,在分詞速度與準(zhǔn)確度上仍有待提高,進(jìn)而借助中文分詞算法增加搜索引擎應(yīng)用的實(shí)用性,使其為更多用戶提供優(yōu)質(zhì)信息檢索服務(wù),最終確保每一次搜索都能獲得理想化結(jié)果。
其二,歧義詞義,日常大眾交流時(shí),也會因詞義出現(xiàn)歧義現(xiàn)象而影響表達(dá)效果。而在搜索引擎應(yīng)用中也會受歧義詞義的干擾降低搜索精度,造成檢索后的結(jié)果與最初要求不匹配。因此,在研究中文分詞算法時(shí)最為重要的是還應(yīng)當(dāng)采取有效措施適當(dāng)杜絕歧義問題。其中歧義是指計(jì)算機(jī)設(shè)備中的搜索引擎無法準(zhǔn)確詞義。一般而言,歧義可包含交叉歧義與組合歧義兩種類型。
其中前者相比之下易于處理。好比在“他可愛吃蛋糕了”中,可將“可愛”作為一個組合詞予以搜索,造成檢索結(jié)果與句意不符,而在搜索時(shí),用戶的檢索要求是按照“他-可-愛-吃蛋糕”的分詞形式進(jìn)行搜索。由于計(jì)算機(jī)搜索引擎未具備人體思維,故而只能利用詞匯的聯(lián)合性加以切分。
后者是在詞句中出現(xiàn)名詞、動詞錯誤認(rèn)知等現(xiàn)象引起詞義,好比在“她把手弄壞了”中,“把”實(shí)則為“動詞”,然而在具體分詞時(shí),由于“把手”又可當(dāng)成“名詞”,故而在檢索時(shí)會根據(jù)名詞的形式進(jìn)行查找,最終降低檢索準(zhǔn)確性。
其三,新詞識別,隨著許多新詞的出現(xiàn),如“鍵盤俠”“導(dǎo)姐”等,造成計(jì)算機(jī)在語義識別時(shí)對尚未登錄在搜索引擎詞典中的詞匯出現(xiàn)錯誤識別現(xiàn)象,尤其是許多網(wǎng)絡(luò)熱詞、新增人名、地名的出現(xiàn),若未能及時(shí)更新詞典,也會引起搜索錯誤。同時(shí),在詞匯判斷時(shí)也會產(chǎn)生操作難度[1]。
好比在“楊虎誠心誠意賣菜”中,對于“楊虎誠”是否可將其當(dāng)成人名進(jìn)行搜索,這些都對搜索引擎帶來難度。尤其在新詞增速不斷提高的情況下,針對新詞識別準(zhǔn)確度的判斷是搜索引擎應(yīng)用效果的關(guān)鍵評價(jià)要素。因此,在搜索引擎應(yīng)用中運(yùn)用中文分詞算法時(shí)應(yīng)結(jié)合具體難點(diǎn)提出可行性整改建議,以此擴(kuò)大搜索引擎的應(yīng)用范圍,促使中文分詞算法展現(xiàn)出真正優(yōu)勢。
3 中文分詞算法在搜索引擎應(yīng)用中的運(yùn)用策略
3.1 基于字符串匹配分詞
在搜索引擎應(yīng)用中運(yùn)用中文分詞算法時(shí),其中最為重要的方式是基于字符串匹配分詞,從而根據(jù)字符串的匹配程度提取關(guān)鍵詞,進(jìn)而搜索有效信息。其中字符串匹配分詞是通過與詞庫中存儲的數(shù)據(jù)進(jìn)行對比,之后秉承著一定匹配原則給出識別結(jié)果,并將其作為搜索引擎的檢索依據(jù)查找相關(guān)信息。雖然此種方法操作簡單,但其準(zhǔn)確度與辨別歧義語義的能力有限。為了進(jìn)一步強(qiáng)化字符串匹配分詞方法的實(shí)用性,還可在其中增添一些匹配標(biāo)準(zhǔn),以便增加字符串匹配的準(zhǔn)確性,也能促使搜索引擎具有較為廣泛的應(yīng)用空間。
常見的改進(jìn)方法包括“最長匹配”“最小匹配”“逆向匹配”“正向匹配”“雙向匹配”等。本文主要以后三種匹配形式加以討論。其中逆向匹配與最長匹配有著相似之處,即提取詞句最長“連詞”,且處理方向由句尾出發(fā),將其轉(zhuǎn)化為有效字符串予以匹配,此種方式照比其他字符串匹配方法準(zhǔn)確性更高一些。而正向匹配是從句頭進(jìn)行匹配,先行將其拆解為多個漢字串,并結(jié)合詞庫中的分詞標(biāo)準(zhǔn)將語句進(jìn)行“斷句”處理,若存在匹配詞匯可將其提取出來用于計(jì)算機(jī)信息識別渠道,若不存在匹配詞匯,則將其剔除出去,將剩余漢字串進(jìn)行邏輯整合,以此作為檢索依據(jù)查找信息。雙向匹配屬于一種“聯(lián)合匹配”模式,它能有效消除歧義語義影響,增加字符串匹配結(jié)果的準(zhǔn)確性。因此,應(yīng)盡量推廣雙向匹配算法作為搜索引擎分詞依據(jù)[2]。
此外,在借助基于字符串分詞階段,為了避免歧義的出現(xiàn)還可采用下述方法對搜索引擎應(yīng)用中可能存在的歧義進(jìn)行處理,確保過濾后的詞義與用戶搜索目標(biāo)相一致。
比如在“人民的生活水平提高”中,總體上具有下述多種匹配形式:人民的-生活水平-提高、人民-的-生活-水平-提高等,在分詞時(shí)可借助計(jì)算平均詞長的方式確定匹配結(jié)果。平均詞長具體以詞組總字?jǐn)?shù)與總詞匯量的商值作為依據(jù)。比如在“人民的-生活水平-提高”中,其平均詞長為“9/3”,而“人民-的-生活-水平-提高”為“9/5”,以最大值為分詞結(jié)果,從而將其納入搜索引擎系統(tǒng)中查找相關(guān)信息。雖然從上述內(nèi)容中發(fā)現(xiàn)此種算法的確有著一定優(yōu)勢,但對于新詞的識別率仍有待改進(jìn),并且還需要其他分詞算法予以輔助,最終可增加中文分詞算法的實(shí)用性,使其在搜索引擎應(yīng)用中展現(xiàn)價(jià)值。
3.2 基于N元語法分詞
在搜索引擎應(yīng)用中運(yùn)用中文分詞算法時(shí),還可采用基于N元語法的分詞形式實(shí)現(xiàn)中文字符的有效劃分。它主要以一種“模型”思維,對檢索詞匯進(jìn)行延展,進(jìn)而在搜索引擎中實(shí)現(xiàn)精準(zhǔn)識別。在此種方法下,同與上述分詞算法同樣具有詞典,并按照一定的匹配原則對搜索詞匯進(jìn)行匹配,并設(shè)計(jì)“N元分詞圖”,之后借助動態(tài)設(shè)計(jì)的理念針對中文詞匯進(jìn)行“分解”,其整個分詞流程如(圖1)所示。同時(shí),還可依靠“二元模型”的形式,對詞句中涉及的“分子”進(jìn)行整合處理,然后得出可靠的關(guān)鍵詞,將其用于計(jì)算機(jī)系統(tǒng)識別。從多種中文分詞算法切分準(zhǔn)確率結(jié)果中可發(fā)現(xiàn),在不同領(lǐng)域中,其準(zhǔn)確率不一致,如(表1)所示,N元語法統(tǒng)計(jì)在各個學(xué)科信息檢索中普遍具有較高的準(zhǔn)確率,故而值得在中文搜索引擎中予以推廣,促使中文分詞算法發(fā)揮出真正的分詞效用,避免歧義的產(chǎn)生。
此外,還可利用“一元語法”針對中文詞匯進(jìn)行切分,為了確保此種分詞方法適用于搜索引擎應(yīng)用過程中,還應(yīng)適當(dāng)重調(diào)最短路徑與N元語法分詞圖中的節(jié)點(diǎn)數(shù)值,以便在適合的節(jié)點(diǎn)中合理確定“候選詞匯”,以便在分詞期間增加詞匯統(tǒng)計(jì)的準(zhǔn)確度。從以往研究經(jīng)驗(yàn)中,還可采用“詞性標(biāo)注法”對語句中固有詞性進(jìn)行標(biāo)注,包括上文中提到的“把手”中“把”為動詞,在標(biāo)注過詞性后,也能提高搜索引擎中關(guān)于中文信息檢索的可靠性[3]。
3.3 基于搜索統(tǒng)計(jì)技術(shù)
1)頻率統(tǒng)計(jì)
中文分詞算法是指將語句中的詞匯切分出來,進(jìn)而將其轉(zhuǎn)化為“關(guān)鍵詞”用于搜索引擎中,從而獲取有效信息。其中基于搜索統(tǒng)計(jì)技術(shù)實(shí)現(xiàn)中文分詞,是以“無詞庫”形式針對中文語句進(jìn)行詞匯劃分。由于中文句意較為豐富,故而在統(tǒng)計(jì)詞匯時(shí),還可運(yùn)用“詞匯出現(xiàn)頻率”作為劃分基準(zhǔn)。所謂詞匯頻率是指字與字之間結(jié)合次數(shù),在其頻率越高時(shí),則代表詞匯結(jié)合的可能性更大。
比如在對“中國人”“中國心”等詞匯進(jìn)行劃分時(shí),若此詞匯出現(xiàn)在語句中,可根據(jù)它的出現(xiàn)頻率判斷是否將其作為關(guān)聯(lián)詞匯用于信息檢索中。相比之下,運(yùn)用頻率統(tǒng)計(jì)的形式實(shí)現(xiàn)中文分詞可適當(dāng)提高詞匯檢索的速度與準(zhǔn)確率。好比在“中華人民共和國萬歲”中,由于與“中華人民”出現(xiàn)頻率略高,可將其作為首次檢索目標(biāo)用于搜索引擎中,之后再對“共和國”“萬歲”詞匯的常規(guī)頻率進(jìn)行確定,以便在頻率統(tǒng)計(jì)過程中有針對性地為搜索引擎提供重要檢索依據(jù)[4]。
2)智能統(tǒng)計(jì)
在搜索引擎應(yīng)用中運(yùn)用中文分詞算法時(shí),還可依靠智能技術(shù)實(shí)施智能統(tǒng)計(jì),它是以一種“模擬人體思維”的方式實(shí)現(xiàn)中文句意的深層次理解。與以往分詞方法相比更具智能化,并且可有效避免歧義問題。我國漢字文化博大精深,尤其在新時(shí)代背景下,許多新詞的出現(xiàn)造成搜索引擎在實(shí)踐操作中面臨著較大挑戰(zhàn),需隨時(shí)根據(jù)信息變化予以更新。然而,此種智能統(tǒng)計(jì)的方式可對中文復(fù)雜性與綜合性特征起到協(xié)調(diào)作用,以便在搜索引擎應(yīng)用中為用戶提供優(yōu)質(zhì)檢索服務(wù),使其快速從檢索結(jié)果中找到相關(guān)信息。在人工智能技術(shù)日益發(fā)展階段,智能統(tǒng)計(jì)已成為當(dāng)前中文分詞算法的主流發(fā)展趨勢。但由于它需要以“中文理解”的視角開展中文分詞工作。因此,無論從成熟度還是可操作性上都有待改進(jìn)。
比如在“大哥大是團(tuán)隊(duì)領(lǐng)導(dǎo)者”中,以往常出現(xiàn)的詞匯為“大哥”,而對于“大哥大”詞匯相比之下出現(xiàn)頻率較少。對此,若能依靠智能統(tǒng)計(jì)形式,可結(jié)合句子的含義判斷出大哥大屬于單獨(dú)的詞匯,由此增加檢索精度。
4 結(jié)論
綜上所述,中文分詞算法在搜索引擎應(yīng)用中有著重要作用,故而應(yīng)結(jié)合具體要求拓寬其運(yùn)用渠道,以此為我國搜索引擎研究工作給予指引。同時(shí),還應(yīng)從基于字符串匹配分詞、基于N元語法分詞、基于搜索統(tǒng)計(jì)技術(shù)等方面著手,以便中文分詞算法展現(xiàn)出顯著優(yōu)勢,使其在提高搜索速度基礎(chǔ)上增加信息檢索準(zhǔn)確性,以便大眾在中文分詞算法協(xié)助下快速獲取信息。
參考文獻(xiàn):
[1] 王洪浩.中文分詞算法在搜索引擎應(yīng)用中的研究[J].中小企業(yè)管理與科技(下旬刊),2019(1):103-104.
[2] 鄭國興.面向航天領(lǐng)域的中文分詞算法研究與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2019.
[3] 劉桂梅.應(yīng)用中文分詞技術(shù)的網(wǎng)絡(luò)推廣管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電子商務(wù),2019(9):56-58.
[4] 楊貴軍,徐雪,鳳麗洲.基于最大匹配算法的似然導(dǎo)向中文分詞方法[J].統(tǒng)計(jì)與信息論壇,2019,34(3):18-23.
【通聯(lián)編輯:李雅琪】