李一琳,徐 瑞
(1.南京森林警察學(xué)院 刑事科學(xué)技術(shù)學(xué)院,江蘇 南京 210023;2.南京大學(xué) 信息管理學(xué)院,江蘇 南京 210023)
自然語言處理(Natural Language Processing,NLP)又稱自然語言理解,發(fā)源于美國IBM沃森研究中心,是一種對自然語言信息進(jìn)行處理的技術(shù),包括自然語言理解(Natural Language Understanding,NLU)和自然語言生成(Natural Language Generation,NLG)兩部分[1]。它是計算機(jī)語言技術(shù)的一個分支,通常是指利用計算機(jī)對人類的自然語言進(jìn)行有意義的分析與操作,作為人工智能的一部分,是目前信息技術(shù)最重要的研究方向之一。
為了從整體上把握該領(lǐng)域的研究現(xiàn)狀與發(fā)展趨勢,本文通過梳理相關(guān)文獻(xiàn),對自然語言與文獻(xiàn)知識處理的發(fā)展關(guān)系以及在信息檢索、文本處理等方面的研究進(jìn)展進(jìn)行歸納總結(jié),探究未來發(fā)展趨勢,以期能對自然語言處理的發(fā)展應(yīng)用提供一定的參考。
1854年,美國波士頓梅堪特圖書館編印的字典式目錄和1876年美國克特發(fā)表的《字典式目錄條例》,把主題標(biāo)識、著者標(biāo)識、書名標(biāo)識三者的字順結(jié)合起來,應(yīng)視為人工語言與自然語言兼容化的初步嘗試。
國外學(xué)者于20世紀(jì)40年代末至50年代初開始涉及該領(lǐng)域,我國在20世紀(jì)50年代末和60年代初,開始自然語言檢索的研究工作。從20世紀(jì)60年代以關(guān)鍵詞匹配為主流,到70年代以句法-語義分析為主導(dǎo),再到80年代開始實用化和工程化[2],自然語言檢索已經(jīng)成為國內(nèi)外情報檢索和自然語言處理領(lǐng)域的共同研究熱點。到20世紀(jì)90年代,隨著機(jī)器學(xué)習(xí)算法的引入,研究者開始注重語料庫的建設(shè),目前自然語言處理已經(jīng)拓展到語音識別、句法分析、機(jī)器翻譯、機(jī)器學(xué)習(xí)和信息檢索等多個方面[3]。
隨著微型機(jī)網(wǎng)絡(luò)和光盤等硬設(shè)備的產(chǎn)生,迫切需要產(chǎn)生一種新的檢索方式,自然語言檢索應(yīng)運(yùn)而生,給情報檢索領(lǐng)域的應(yīng)用帶來了巨大變革。在全文數(shù)據(jù)庫出現(xiàn)后,進(jìn)一步加速了對自然語言檢索的發(fā)展與研究。自然語言在幾十年的發(fā)展中已形成有效的理論和實用技術(shù),其中在語音識別算法中引入隱馬爾可夫模型和噪聲信道與解碼模型取得顯著的成績。
從科技、軍事、政務(wù)領(lǐng)域的文獻(xiàn)中檢索關(guān)鍵信息進(jìn)行知識組織和分析,是獲取情報的重要手段,以美國為首的西方發(fā)達(dá)國家十分重視自然語言處理領(lǐng)域的研究,尤其是在軍事領(lǐng)域的應(yīng)用。
同期,情報檢索的研究也經(jīng)歷了大致5個階段,由20世紀(jì)60年代開始機(jī)械情報檢索,到70年代嘗試計算機(jī)情報檢索;80年代我國建立了聯(lián)系國內(nèi)外的數(shù)據(jù)庫聯(lián)機(jī)檢索系統(tǒng)[4];90年代,美國率先把自然語言處理技術(shù)應(yīng)用到情報檢索中,嘗試建立高級情報檢索系統(tǒng)[5],真正實現(xiàn)了非布爾邏輯中的自然語言檢索[2];近些年則致力于發(fā)展情報檢索系統(tǒng)的智能化。
為全面了解自然語言的發(fā)展?fàn)顩r,以中文檢索式:主題=“自然語言處理”“自然語言”在中國知網(wǎng)檢索;英文檢索式:主題=“Natural Language Processing”或“NLP”在Web of Science(WoS)中檢索,檢索文獻(xiàn)的年限為1980年-2020年,共獲取中英文獻(xiàn)41062篇。
根據(jù)所獲文獻(xiàn)總量統(tǒng)計,涉及自然語言的論文在2004年開始迅速增長,預(yù)計2021年將超過4000篇,可見自然語言在國內(nèi)相關(guān)領(lǐng)域已經(jīng)進(jìn)入白熱化的發(fā)展態(tài)勢。主要關(guān)注的研究領(lǐng)域有計算機(jī)軟件及計算機(jī)應(yīng)用、自動化技術(shù)、中國語言文字、外國語言文字、圖書情報與數(shù)字圖書館,這5個領(lǐng)域均有超過1800篇的文獻(xiàn),其中計算機(jī)類文獻(xiàn)高達(dá)21818篇。涉及的主題除了自然語言和自然語言處理,還集中在深度學(xué)習(xí)、人工智能、機(jī)器學(xué)習(xí)、問答系統(tǒng)、機(jī)器翻譯等方面。給予此類研究資助最多的是國家自然科學(xué)基金、國家社會科學(xué)基金和國家高技術(shù)研究發(fā)展計劃的研究類項目,已發(fā)表超過5000篇研究性論文(圖1)。
圖1 1980年-2020年間涉及自然語言的文獻(xiàn)類型
自然語言能夠直觀展現(xiàn)文本的名稱、內(nèi)容和特定的詞匯,對一些沒有規(guī)律性的數(shù)據(jù)進(jìn)行處理和分析,其檢索方法沒有特定的規(guī)范方式,約束較少,能給用戶提供較大的發(fā)展空間。用戶在使用時不需要考慮是否存在相關(guān)的檢索規(guī)則和檢索程序,可直接使用自己的語言和系統(tǒng)進(jìn)行溝通,最大程度減少人機(jī)對話障礙。
隨著信息技術(shù)的發(fā)展,歐美等西方國家越來越關(guān)注自然語言處理在情報獲取中的應(yīng)用,尤其重視在軍事領(lǐng)域的應(yīng)用。自然語言處理技術(shù)在能夠通過通信、信息捕捉和信息控制等方面為軍事行動提供交流渠道,保障信息及時傳送,提升軍事行動的準(zhǔn)確性。
數(shù)據(jù)獲取是所有數(shù)據(jù)挖掘與分析的開始,文本挖掘則是數(shù)據(jù)挖掘在文本領(lǐng)域的擴(kuò)展,自然語言是當(dāng)前文本挖掘的重要技術(shù),以發(fā)現(xiàn)知識為目的[6]。自然語言處理常用的方法有關(guān)鍵詞提取、信息收集和信息分類等,根據(jù)預(yù)設(shè)程序劃轉(zhuǎn)為相應(yīng)信息等級,并作出提示,該技術(shù)能夠主動完成情報自動收集、梳理和分析工作。
在情報機(jī)構(gòu)處理的各類情報素材中,公開來源的文本素材是情報的重要組成部分。在大數(shù)據(jù)時代,電子郵件、電子文檔、電子數(shù)據(jù)庫等信息基于新媒體平臺快速傳播,海量的信息為搜集情報提供了重要渠道,同時互聯(lián)網(wǎng)信息也具有一定真?zhèn)涡?,對信息的甄別和分析也是一項重要的工作。以美國情報機(jī)構(gòu)為例,通過新媒體平臺獲取信息是目前最為容易且普遍的獲取方式,通過與主要信息來源企業(yè)合作,秘密對主要信息來源渠道進(jìn)行監(jiān)控。通過預(yù)定程序可以實現(xiàn)不間斷、定時且全面的網(wǎng)絡(luò)信息平臺情報掃描,對涉及相關(guān)情報的信息進(jìn)行搜索和下載,及時獲取必要的信息。
在知識是生產(chǎn)力的知識經(jīng)濟(jì)時代,社會的發(fā)展越來越依賴于知識的獲取和利用。數(shù)據(jù)倉庫儲存的知識包括空間位置數(shù)據(jù)、多媒體數(shù)據(jù)、文本數(shù)據(jù)等[6],圖書館是數(shù)據(jù)倉庫的載體,已經(jīng)成為信息傳播和交換的中轉(zhuǎn)站[7]。要在浩瀚的知識庫中快捷地找到關(guān)鍵信息并進(jìn)行高效處理,需依賴于圖書館強(qiáng)大的自然語言檢索功能。
情報檢索語言是基于情報搜索的需求而研發(fā)設(shè)定的模擬人工語言邏輯和人工語音思維的受控語言,用來標(biāo)引和檢索文獻(xiàn),通過深入探索文獻(xiàn)中潛在的規(guī)律和內(nèi)容,挖掘其信息價值。通過梳理1750篇涉及情報檢索的文獻(xiàn)信息,發(fā)現(xiàn)國內(nèi)關(guān)于自然語言與情報檢索的研究始于1981年。在對近3年的文獻(xiàn)進(jìn)行關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析發(fā)現(xiàn)自然語言處理是情報檢索的研究基礎(chǔ)(圖2)。
圖2 2018年-2020年間基于情報檢索的關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析
黃祥喜等[5]指出在情報檢索中對數(shù)據(jù)事實檢索將超過純書目檢索,這必然依賴自然語言處理,而人工智能和知識庫的發(fā)展將促成自然語言處理的實用化。日本九州大學(xué)嘗試?yán)米匀徽Z言處理,自動創(chuàng)建詞庫,建立高級情報檢索系統(tǒng)[8]。2000年后發(fā)展出虛擬信息顧問系統(tǒng),具有強(qiáng)大的開放性和擴(kuò)展性,可根據(jù)用戶輸入的問題,從知識庫中搜索并返回一個經(jīng)過分析處理的答案,實現(xiàn)了自然語言處理在情報檢索中的智能化應(yīng)用[2]。
情報檢索語言要求用戶具備一定的專業(yè)檢索知識,普通用戶很難接受。而情報檢索中的自然語言取自文獻(xiàn)原有的題名、章節(jié)名、摘要和正文。因此,掌握自然語言檢索方法更易被普通用戶所接受,各學(xué)科的用戶在檢索時也會感到使用本學(xué)科領(lǐng)域的自然語言比受控詞表方便得多[7]。
隨著各類電子數(shù)據(jù)庫、電子圖書館收錄的數(shù)據(jù)呈幾何數(shù)上升,準(zhǔn)確、高效地獲取和處理所需信息需要依賴自然語言處理的人工智能和信息處理技術(shù),現(xiàn)已成為幫助用戶快速獲取價值信息的有效方法。
使用自然語言處理文獻(xiàn)信息有許多細(xì)節(jié)方法,其中使用計算機(jī)來執(zhí)行自動摘要的重要性在網(wǎng)絡(luò)信息飛速增長的時代尤為重要。從文檔中抽取關(guān)鍵句、關(guān)鍵段落進(jìn)行組合,增強(qiáng)文摘關(guān)聯(lián)性,用于自然語言識別是當(dāng)前自動文摘研究的主要方法,包括:自動摘錄、信息抽取、基于理解的自動文摘、基于結(jié)構(gòu)的自動文摘[7]。
由于使用文本提取技術(shù)獲得的數(shù)據(jù)來源不同,即使同一實體所含有的信息也因各網(wǎng)站、平臺設(shè)置的不同而存在差異,比如數(shù)據(jù)的格式、屬性等。在批量處理數(shù)據(jù)之前,必須對收集的數(shù)據(jù)進(jìn)行清洗,按照屬性、字段、發(fā)布時間、主題、業(yè)務(wù)類型等進(jìn)行歸類和結(jié)構(gòu)化處理[9],成熟的自然語言處理技術(shù)可實現(xiàn)對信息的批量清洗、特征提取和結(jié)構(gòu)化處理。
雖然利用自然語言技術(shù)可以解決文獻(xiàn)信息提取、情報檢索之類的問題,但因自然語言本身的弊端,給信息檢索工作帶來諸多困難。相對于英語的結(jié)構(gòu)簡單化,漢語的多義性、同義性結(jié)合人們的生活、思維和表達(dá)的復(fù)雜化,使?jié)h語言廣泛存在各種歧義。在自然語言處理中,對漢語的語法分析和語義理解至關(guān)重要,消歧是梳理語言和文本清洗的預(yù)處理工作,需要工作人員具備豐富的知識背景和高儲存量的知識文庫。而依賴于計算機(jī)學(xué)習(xí)、機(jī)器翻譯的文本識別更加需要詞匯庫、知識庫、語料庫等詞匯儲備,因此詞匯知識庫的建設(shè)已經(jīng)成為當(dāng)前自然語言發(fā)展的關(guān)鍵問題。
近20年涉及知識庫的文獻(xiàn)有1633篇,通過分析近3年的200篇文獻(xiàn),發(fā)現(xiàn)各專業(yè)各單位在開展知識庫的研究與建設(shè)方面互相之間的關(guān)注度很高,主要集中在長短句記憶、統(tǒng)計學(xué)習(xí)方法、知識圖譜構(gòu)建、命名實體等方面(圖3)。
圖3 基于知識庫的文獻(xiàn)互引關(guān)系圖
建立詞匯知識庫不但要考慮使用者的便利,還要根據(jù)不同的專業(yè)類型建立專用詞庫,如:判決文書詞庫、信息知識文庫、媒體專用詞庫、自然資源詞庫、化工材料詞庫等。加強(qiáng)和豐富基礎(chǔ)詞庫建設(shè),將是影響和限制自然語言發(fā)展的關(guān)鍵環(huán)節(jié)。
自然語言在文獻(xiàn)知識處理中的應(yīng)用主要集中在情報檢索、文本挖掘、文本分類、檢索匹配等方面,主要目的是獲取知識。自然語言處理技術(shù)在文獻(xiàn)檢索系統(tǒng)中的應(yīng)用已有諸多成果,但由于自然語言(尤其是漢語)本身的復(fù)雜性和多義性增加了檢索和識別的難度,尤其是在知識組織方面很薄弱。鑒于自然語言自身的特點,建議加強(qiáng)基礎(chǔ)數(shù)據(jù)庫、語料庫、詞匯知識庫的建設(shè),提升計算機(jī)處理自然語言的能力。