摘要:自然語言處理是能夠?qū)崿F(xiàn)人機間利用自然語言進行相互通信的重要手段,幫助計算機能夠迅速理解自然語言所表達的含義,最常見的運用自然語言處理技術(shù)的應(yīng)用系統(tǒng)是信息檢索系統(tǒng)。本文從自然語言處理、信息檢索系統(tǒng)以及自然語言處理在信息檢索系統(tǒng)中的運用三個方面進行簡要闡述,以供參考。
關(guān)鍵詞:自然語言處理;應(yīng)用系統(tǒng);信息檢索系統(tǒng)
中圖分類號:TP391 ?文獻標識碼:A ? ? 文章編號:1007-9416(2020)06-0000-00
0引言
隨著科技水平的不斷提高,針對信息檢索系統(tǒng)的應(yīng)用變得越來越廣泛,讓與內(nèi)容查找有關(guān)的操作變得越來越輕松,然而信息檢索操作需要在特定的應(yīng)用系統(tǒng)中將自然語言處理技術(shù)進行有效的運用,才能夠達到查詢相應(yīng)的內(nèi)容,因此自然語言處理是實現(xiàn)信息檢索系統(tǒng)功能的核心內(nèi)容。
1自然語言處理的技術(shù)難點
1.1內(nèi)容的有效界定
日常生活中句子間的詞匯通常是不會孤立存在的,需要將話語中的所有詞語進行相互關(guān)聯(lián)才能夠表達出相應(yīng)的含義,一旦形成特定的句子,詞語間就會形成相應(yīng)的界定關(guān)系。如果缺少有效的界定,內(nèi)容就會變得模棱兩可,無法進行有效的理解[1]。例如他背著母親和姐姐悄悄的出去玩了。這句話中如果不對介詞“和”作出界定,就很容易形成母親和姐姐兩個人不知道他出去玩,或者是母親不知道他和姐姐出去玩。
1.2消歧和模糊性
詞語和句子在不同情況下的運用往往具備多個含義,很容易產(chǎn)生模糊的概念或者是不同的想法,例如高山流水這個詞具備多重含義,既可以表示自然環(huán)境,也能表達兩者間的關(guān)系,甚至是形容樂曲的美妙,所以自然語言處理需要根據(jù)前后的內(nèi)容進行界定,從中消除歧義和模糊性,表達出真正的意義。
1.3不規(guī)范的內(nèi)容
許多情況下,出現(xiàn)的詞句內(nèi)容存在不規(guī)范的情況,利用自然語言處理時需要根據(jù)對應(yīng)的內(nèi)容進行判斷,或者是對不規(guī)范的內(nèi)容進行校正,從而形成正確的內(nèi)容。例如輸入過程中文字的拼寫或者語音輸入時帶有方言的口音等情況時,需要進行相應(yīng)的調(diào)整,才能是正確的內(nèi)容。
2信息檢索系統(tǒng)基本原理
2.1信息標引和存儲
信息檢索系統(tǒng)的主要目的就是幫助查詢必要的信息內(nèi)容,然而信息檢索系統(tǒng)在獲取特定的查詢條件后,需要將信息內(nèi)容進行標引處理,也就是利用特定的檢索語言、標識符、主題詞等對信息進行標記,確定查詢條件中的內(nèi)容類別,便于有針對性的進行檢索。標引完畢后將被標引的信息進行存儲,讓其具有特定的序列,再按照順序進行有效組合,作為信息檢索的主要工具或相關(guān)文檔,也就是將查找條件進行有歸納整理的過程。
2.2需求分析與檢索
查找條件已經(jīng)被有效的歸類,接下來就需要進行需求的分析,即已經(jīng)被標引的內(nèi)容在信息檢索系統(tǒng)中所對應(yīng)的內(nèi)容和檢索方向。做好需求分析后,利用系統(tǒng)內(nèi)部的檢索方式將已經(jīng)存儲的被標引內(nèi)容進行檢索,才能夠找到與被指定的信息相對應(yīng)的內(nèi)容,避免了產(chǎn)生很多與信息內(nèi)容相關(guān)但又并非是需要查找的內(nèi)容,產(chǎn)生大量的數(shù)據(jù)冗余,造成數(shù)據(jù)資源的浪費,也會占用許多的系統(tǒng)資源。
2.3內(nèi)容判斷與反饋
檢索的過程中會根據(jù)檢索的情況產(chǎn)生相應(yīng)的結(jié)果后,需要信息檢索系統(tǒng)對內(nèi)容的判斷的過程,無論查找的信息內(nèi)容在系統(tǒng)中是否存在對應(yīng)的內(nèi)容,都會進行內(nèi)容相關(guān)性的判斷,也會根據(jù)判斷的結(jié)果來對檢索的情況進行反饋[2]。當系統(tǒng)中存在檢索的內(nèi)容時,系統(tǒng)就會將內(nèi)容迅速的顯示出來,相反情況下,系統(tǒng)中沒有檢索到對應(yīng)的內(nèi)容,就會給予相應(yīng)的提示來作為內(nèi)容的判斷與反饋,這樣用戶就可以進行直觀的辨別。
3自然語言處理在信息檢索系統(tǒng)中的運用
3.1檢索條件的處理
信息檢索系統(tǒng)進行檢索前將條件內(nèi)容進行處理是首要的環(huán)節(jié),也就是對特定的句子或詞語進行整理。整理的過程中只有運用自然語言處理技術(shù)才達到有效處理的效果,畢竟檢索的條件內(nèi)容在格式和規(guī)范方面存在許多的不確定性,需要先對內(nèi)容進行相應(yīng)的處理,讓其變得規(guī)范化,能夠達到信息檢索系統(tǒng)中的要求,便于計算機系統(tǒng)能夠有效的識別,才能夠讓信息檢索系統(tǒng)進入正常的工作狀態(tài),發(fā)揮其信息檢索的功能。
3.2信息內(nèi)容的匹配
信息檢索系統(tǒng)在進行檢索過程中需要對內(nèi)容進行匹配,也就是查找對應(yīng)的內(nèi)容,然而查找過程中特定的信息內(nèi)容會被做好相應(yīng)的標引操作,這種方式能夠?qū)⑿畔⑦M行有效的標記和分類,但當中的很多內(nèi)容都會被分離,變成特定的部分內(nèi)容,比如文獻的名稱、類別、姓名等,當這些內(nèi)容被做好標記和分類后就會作為檢索時的索引,只是信息檢索系統(tǒng)中的數(shù)據(jù)內(nèi)容過于冗雜,信息量極大,只是針對單個的被標記的索引進行查找自然會有許多的內(nèi)容,此時就需要將被標引的部分進行有效排序,并利用自然語言處理重新進行語句和詞語的界定,形成相互間的聯(lián)系,消除模糊性,這樣就能夠讓檢索的內(nèi)容變成指定的關(guān)聯(lián)內(nèi)容,系統(tǒng)內(nèi)的檢索方法會根據(jù)該內(nèi)容進行有針對性的查找,這樣就能夠?qū)⒃S多不必要的內(nèi)容進行過濾,只留下相同的部分[3]。
3.3檢索結(jié)果的輸出
查詢到準確的結(jié)果,是用戶利用信息檢索系統(tǒng)的最終目的,檢索結(jié)果的輸出也就成為了信息檢索系統(tǒng)的必要環(huán)節(jié)。系統(tǒng)利用被標引的內(nèi)容作為索引,通過simhash等各類算法在存儲大量數(shù)據(jù)的數(shù)據(jù)集中查詢到相應(yīng)的數(shù)據(jù)內(nèi)容后,會將查詢的結(jié)果作為初步的查詢結(jié)果,便于確定查詢結(jié)果的范圍并進行判斷。除了對查詢結(jié)果的狀態(tài)信息進行判斷外,還要對檢索內(nèi)容的順序進行校驗,只有狀態(tài)信息與順序都得到保證,才能夠確保檢索條件與結(jié)果的精準度。至于檢測已經(jīng)存在結(jié)果,進行完全輸出呈現(xiàn)操作前,信息檢索系統(tǒng)需要通過自然語言處理將查詢到的結(jié)果還原為與檢索條件相同的內(nèi)容,這樣確保了檢索過程中關(guān)鍵詞匯與語法的正確運用,即便是檢索內(nèi)容的關(guān)鍵詞匯與檢索條件存在差異,但是在顯示過程中語法不會出現(xiàn)問題,保證檢索前后信息結(jié)構(gòu)的一致性,而且檢索結(jié)果以目錄的形式展現(xiàn)出來時,也能夠讓截取到的關(guān)鍵詞匯處在語句的正確位置上,對關(guān)鍵信息的截取和突出顯示都能相互對應(yīng)。更好的幫助用戶迅速找到與檢索條件內(nèi)容相同或相似的信息進行調(diào)用,提高對檢索結(jié)果的使用效率。
4結(jié)論
綜上所述,自然語言處理與信息檢索系統(tǒng)有著緊密的聯(lián)系,也是信息檢索系統(tǒng)的關(guān)鍵內(nèi)容,只有將自然語言處理技術(shù)不斷的進行完善才能夠為信息檢索系統(tǒng)提供有效的幫助,優(yōu)化信息檢索系統(tǒng)的功能,提升信息檢索系統(tǒng)的工作效率,達到更加快捷的提供信息服務(wù)的目的。
參考文獻
[1]李娟,曹晨.大數(shù)據(jù)時代信息檢索系統(tǒng)的發(fā)展[J].中國科技信息,2020(9):105-106.
[2]仲遠.自然語言處理在信息檢索中的研究和應(yīng)用[D].鎮(zhèn)江:江蘇科技大學(xué),2019.
[3]章涵,張志昌.自然語言處理在信息檢索中的應(yīng)用分析[J].電腦迷,2018(2):199.
收稿日期:2020-04-14
作者簡介:曾照華(1975—),男,山西太原人,碩士研究生,講師,研究方向:人工智能。