張云飛 郭俊杰
關(guān)鍵詞:自然語言處理;信息抽取;知識服務(wù)
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2023)14-0102-04
0 引言
在地質(zhì)學(xué)領(lǐng)域當(dāng)中,長期以來由于技術(shù)方法及研究方向的多樣性已經(jīng)積累了海量的地質(zhì)資料。從數(shù)據(jù)的組成結(jié)構(gòu)上來說,海量的地質(zhì)資料數(shù)據(jù)包括大量結(jié)構(gòu)化的數(shù)據(jù)及非結(jié)構(gòu)的數(shù)據(jù)特別是文本數(shù)據(jù)及其地質(zhì)圖件數(shù)據(jù)[1-2]。地質(zhì)大數(shù)據(jù)時間上橫跨大,空間概念強,各種地質(zhì)作用相互影響因素較多,包含各類不同的地質(zhì)調(diào)查數(shù)據(jù)、相關(guān)的礦產(chǎn)勘查數(shù)據(jù)及長期的地調(diào)工作者工作與科研過程中產(chǎn)生的海量數(shù)據(jù),從數(shù)據(jù)形式上包括文本數(shù)據(jù)、音視頻數(shù)據(jù)、圖表等形式多樣化類型,數(shù)據(jù)的來源也是多樣化的,包括各個級別的圖書館、各類礦產(chǎn)勘查當(dāng)中的資料數(shù)據(jù)、發(fā)表的文獻(xiàn)數(shù)據(jù)及中國地質(zhì)調(diào)查數(shù)據(jù)庫等[3-4],其中主要以非結(jié)構(gòu)化數(shù)據(jù)居多。而且非結(jié)構(gòu)化數(shù)據(jù)是非常重要的地質(zhì)信息來源及非常有潛力的人機交互手段,是地質(zhì)學(xué)家認(rèn)知結(jié)果的一種自然語言的表現(xiàn)形式[5-6]。因此,面對大量地質(zhì)調(diào)查報告、文獻(xiàn)等非結(jié)構(gòu)化數(shù)據(jù)的增長與地質(zhì)資料中蘊含豐富知識信息未被有效利用之間的矛盾,從地質(zhì)文本當(dāng)中挖掘知識已是地質(zhì)信息科學(xué)迫切需要解決的問題[7-8]。
當(dāng)前中國地質(zhì)調(diào)查局“地質(zhì)云”平臺完成資源管理、業(yè)務(wù)系統(tǒng)等信息化建設(shè)工作,但在數(shù)據(jù)量的應(yīng)用僅是基本解決大量非結(jié)構(gòu)化、半結(jié)構(gòu)化的地質(zhì)數(shù)據(jù)進(jìn)行平臺組織、存儲和快速發(fā)現(xiàn)[9]。全國地質(zhì)資料館館藏地質(zhì)資料共245.191萬檔。這些海量的地質(zhì)資料包括傳統(tǒng)的紙質(zhì)資料已經(jīng)完成了數(shù)字化的工作,其中數(shù)據(jù)量已經(jīng)達(dá)到120TB以上,面對海量的地質(zhì)調(diào)查數(shù)據(jù)資料,需要進(jìn)一步樹立大數(shù)據(jù)思維、定量思維及獲取“地質(zhì)資源”和形成核心“地質(zhì)數(shù)據(jù)知識”的新思維方式,以數(shù)據(jù)密集型工作方法為基礎(chǔ),進(jìn)而實現(xiàn)地質(zhì)數(shù)據(jù)高效便捷地集成與融合[7-8]。
英美等國家地質(zhì)調(diào)查局結(jié)合地質(zhì)社會需求,以問題作為研究的主線,設(shè)置與完成了地質(zhì)大數(shù)據(jù)相關(guān)的研究及其利用的計劃。美國地質(zhì)調(diào)查局頒布與制定了《美國地質(zhì)調(diào)查局核心科學(xué)體系科學(xué)戰(zhàn)略(2013-2023)》,在這一文件當(dāng)中非常明確地建立了地球科學(xué)領(lǐng)域當(dāng)中研究的大數(shù)據(jù)體系與架構(gòu),對地球科學(xué)領(lǐng)域當(dāng)中的核心體系進(jìn)行了進(jìn)一步的強化,期望能夠通過這種大數(shù)據(jù)的相關(guān)理論與方法來進(jìn)一步地提升地質(zhì)大數(shù)據(jù)中的搜集、數(shù)據(jù)的挖掘與分析[10]。
1 地質(zhì)信息抽取關(guān)鍵技術(shù)
面對海量的數(shù)據(jù)信息,如何在此基礎(chǔ)上構(gòu)建分學(xué)科、分場景的形式的智能化地質(zhì)知識挖掘,從更多維度展示地質(zhì)數(shù)據(jù)資源,一直是地質(zhì)與其他行業(yè)關(guān)注的重點問題。隨著數(shù)據(jù)體量不斷增長,基于深度學(xué)習(xí)的方法興起對海量的信息內(nèi)容進(jìn)行自動分類、提取和重構(gòu),轉(zhuǎn)換,改進(jìn)現(xiàn)有的基于機器閱讀理解的實體關(guān)系框架,便于構(gòu)建知識圖譜或者能直接查詢的結(jié)構(gòu)化信息[11]??梢娦畔⒊槿≡跈C器翻譯、圖像識別與分類、語音識別等許多自然語言處理應(yīng)用中嶄露頭角[12-13],然而地質(zhì)領(lǐng)域中非結(jié)構(gòu)化數(shù)據(jù)還未得到充分的利用與挖掘[14]。
信息抽取作為分析、抽取、管理文本知識的核心技術(shù)和重要手段,自誕生以來就得到了學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注,是自然語言處理領(lǐng)域的重要研究方向之一,也是人工智能領(lǐng)域極具應(yīng)用價值的核心研究課題。從非結(jié)構(gòu)化文本中抽取出以結(jié)構(gòu)化形式存儲的信息,可以被計算機直接處理和利用,實現(xiàn)讓機器能夠像人類一樣閱讀文本,進(jìn)而完成查詢和推理等功能,一直是信息抽取追求的目標(biāo)?,F(xiàn)如今,信息抽取系統(tǒng)可應(yīng)對海量非結(jié)構(gòu)化文本,在各領(lǐng)域都有廣泛的應(yīng)用。
1.1 地質(zhì)實體識別與關(guān)系抽取聯(lián)合學(xué)習(xí)
地質(zhì)實體識別(geology Entity Recognition)與關(guān)系抽?。≧elation Extraction)屬于信息抽取兩項子任務(wù),采用自然語言處理技術(shù)(NLP)定位非結(jié)構(gòu)化地質(zhì)文本中的實體,并抽取出三元組自動構(gòu)建實體之間關(guān)系類型,是信息抽取中的關(guān)鍵。
在以往的研究中,實體關(guān)系抽取大多采用流水線方法[15-17],流水線的框架工作雖然易于執(zhí)行,但其具有誤差傳播和信息丟失的缺點。為了解決這一問題,采用聯(lián)合抽取方法可有效解決了流水線模型的不足并獲得了三元組抽取領(lǐng)域最先進(jìn)的性能。聯(lián)合學(xué)習(xí)方法將實體識別與關(guān)系抽取聯(lián)合建模,使兩個子任務(wù)在一個模型中共同優(yōu)化,以實現(xiàn)子任務(wù)之間相互促進(jìn)的目的。傳統(tǒng)的聯(lián)合抽取模型[18-20]都是基于特征向量的,這些方法需要人工參與構(gòu)造特征。為了減少人工工作,基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合抽取方法[21-23]獲得了人們的關(guān)注。但是,現(xiàn)有的很多神經(jīng)網(wǎng)絡(luò)聯(lián)合模型[24-25]是基于共享編碼層實現(xiàn)的。這種方法只是簡單地共享兩個子任務(wù)的編碼層,為了獲得關(guān)系三元組,其仍然采取的是先識別實體后提取關(guān)系的方法。所以,這不被認(rèn)為是真正的聯(lián)合抽取。Zheng等人[26]提出了一種新的全局標(biāo)注方案,其直接對三元組進(jìn)行建模實現(xiàn)了真正意義上的聯(lián)合抽取。該方法使用了BiLSTM和具有偏置損失的LSTM對輸入數(shù)據(jù)進(jìn)行聯(lián)合編碼,解決了錯誤累積的問題,但其采用的就近合并原則忽略了重疊三元組問題。Zeng等人[27]首先引入了重疊三元組問題,其給出了重疊的三種不同形式并提出了帶有復(fù)制機制的Seq2Seq模型來解決此問題。Fu等人[28]提出了一個端到端的實體關(guān)系抽取模型GraphRel,模型使用關(guān)系加權(quán)的圖卷積神網(wǎng)絡(luò)有效考慮了實體和關(guān)系之間的相互作用以及可能重疊的三元組,在解決三元組重疊問題上取得了良好的效果。盡管以上方法取得了很大進(jìn)展,但是這些方法都將關(guān)系看作是映射到實體對象的離散標(biāo)簽,使得關(guān)系識別成為一個簡單的分類問題。為此,Wei等人[29]基于BERT提出了一種級聯(lián)二級標(biāo)記框架CASREL,該方法將關(guān)系視為從頭實體映射到尾實體的函數(shù),模型只需要識別出在不同關(guān)系下與頭實體對應(yīng)的尾實體,顯著提高了對重疊三元組的提取能力,達(dá)到了當(dāng)時的最優(yōu)水平。但其在標(biāo)注過程中只是簡單地將各詞向量輸入分類器,忽略了實體的上下文信息和抽取的實體長度。
1.2 事件抽取
事件抽取任務(wù)是一種比較復(fù)雜的信息抽取任務(wù)形式,可以看作實體識別和若干關(guān)系抽取任務(wù)的總和,也是信息抽取領(lǐng)域最具有挑戰(zhàn)性的任務(wù)之一,在閱讀理解、文本摘要、問答系統(tǒng)等領(lǐng)域得到了廣泛的應(yīng)用。領(lǐng)域事件抽取的時間類型是需要針對某一特定領(lǐng)域進(jìn)行預(yù)定義,而且基于中文事件抽取由于中文語言特性問題,面臨著較大挑戰(zhàn),使得研究更具有意義。
國內(nèi)外對于英文事件抽取的研究展開較早,技術(shù)也較成熟。對于中文的事件抽取起步較晚,例如Feng 等人提出使用雙向長短期記憶網(wǎng)絡(luò)(Bi-LSTM)和卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行事件抽取[30];Chen和其他相關(guān)研究人員于2015年,提出了一種基于動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)(DMCNN)的事件抽取模型[31],可以捕獲語句中包含的多個事件信息;雖然也取得了一定的成果,但是距離英文還有一定的差距。國內(nèi)外的事件抽取研究大多數(shù)都是圍繞ACE會議及其相關(guān)測評語料展開的。從ACE2005評測情況來看,參加英文事件抽取評測的單位比較多有BBN Technology、LockheedMarting、IBM 等公司以及荷蘭阿姆斯特丹大學(xué)。唯一參與中國賽事測評的機構(gòu)是BBNTechnology,同時該機構(gòu)在英文事件抽取的評測中獲當(dāng)年最佳成績[32]。
地質(zhì)的事件關(guān)系反映了之間的一種語義關(guān)系,可以為地質(zhì)文本數(shù)據(jù)的深層理解提供關(guān)鍵線索[33],事件關(guān)系抽取的目的則是提取一段文本內(nèi)容中兩個事件可能存在的關(guān)系[34],例如表1其中事件“化學(xué)風(fēng)化作用”對氧、水和溶于水中的各種酸性物質(zhì)、母巖、氧化、水解和溶濾、存在因果關(guān)系。
在當(dāng)前事件之間存在多少種關(guān)系類型仍然是一個有爭議的問題,目前事件關(guān)系抽取主要研究共指關(guān)系、因果關(guān)系和時序關(guān)系,此外關(guān)系文本的多樣性和隱含性使得從文本中識別不同類型的事件關(guān)系面臨巨大挑戰(zhàn)。
1.3 指代消解
地質(zhì)報告或其他文本的日常用語當(dāng)中,在下文采用簡稱或代稱來代替上文已經(jīng)出現(xiàn)的某一詞語,語言學(xué)中把這種情況稱為指代現(xiàn)象。指代現(xiàn)象能夠避免同一詞語重復(fù)出現(xiàn)所造成的語句臃腫、贅述等問題;但也因為這種省略造成指代不明的問題。
通常人們將指分成兩種:回指和共指?;刂副硎井?dāng)前的,對應(yīng)詞語與在前文出現(xiàn)的詞語之間有著緊密的含義聯(lián)系,在地質(zhì)文章中這個情況也十分常見,由于本文中通常使用簡稱表示地質(zhì)體的,因此在圖二的“該區(qū)”“該地層”本身并沒有意義。這種共指稱方法取決于語境含義,代詞共指代,它在不同的話語情境中可以表示為不同的實體。而共指是指某兩個。
詞語、名詞短語或代詞等指稱的都是真實世界中的同一個實體,因此這些指稱關(guān)系即使在斷章取義的情形下也成立。下面,我們就把本文中的各種名詞短語、或代詞等統(tǒng)稱,作為對命名實體的一次提到(簡稱提及)。共指和代指這二種概念雖有一定的重疊,但相互之間并不彼此涵蓋。通過單純的語言方法和模式很難處理全部的指代問題,所以必須針對不同的指代問題加以研究。共指和回指這兩種概念之間雖存在著一定的交集,但并不彼此涵蓋,所以通過簡單的理論方法和語言模式很難以解決全部的指代問題,所以對于不同的指代問題需要分別進(jìn)行深入研究。
最初,像其他信息抽取問題一樣,共指消解方法研究漸漸從啟發(fā)式規(guī)則演化為機器學(xué)習(xí)方法。這種轉(zhuǎn)變主要歸功于統(tǒng)計自然語言處理以及MUC國際性會議標(biāo)注了帶有指代關(guān)系的MUC-6(1995)和MUC-7 (1998) 語言資料庫,并公開化。從此,基于機器學(xué)習(xí)的共指消解進(jìn)入科研人員視野。但傳統(tǒng)的機器學(xué)習(xí)研究精度不高、語義理解不夠,隨之引入一系列基于神經(jīng)網(wǎng)絡(luò)的模型[35-39],應(yīng)用到指代消解上去取得了更好的效果,同時具有更高的計算效率,避免了傳統(tǒng)共指消解模型的若干問題。
1.4詞義消歧
理解詞義是正確理解句子或全文的基礎(chǔ),而判斷詞義離不開語境、語言背景、上下文關(guān)系。機器要像人類一樣自動評估和選擇詞義是一項艱巨的任務(wù)。
詞義消歧的發(fā)展歷程中,涌現(xiàn)了大量的解決辦法。例如,傳統(tǒng)的基于知識的詞消歧,結(jié)合機器學(xué)習(xí)的監(jiān)督詞消歧等。前者的實現(xiàn)效果雖然出色且穩(wěn)定,但強烈依賴于知識源的完備性,而現(xiàn)有語義知識源的缺乏性和靜態(tài)性極大地阻礙了此類消歧方法的改進(jìn)。后者中最有效的策略之一是基于Word2Vec embedding的詞消歧模型,與傳統(tǒng)方法相比有所改進(jìn),但缺乏標(biāo)注數(shù)據(jù)也限制了模型的靈活性和泛化性[40]。在當(dāng)前出現(xiàn)的雙向長短期記憶網(wǎng)絡(luò)模型,借助于Bi-LSTM特性捕獲上下文中的語義信息和詞序信息,可以很好地表示目標(biāo)詞的意義特征。[41]在此基礎(chǔ)上,額外添加了一種注意力機制(Attention)來了解上下文窗口中不同詞對目標(biāo)詞的影響[42],是當(dāng)前學(xué)術(shù)領(lǐng)域的先進(jìn)技術(shù)之一。
2 總結(jié)
地質(zhì)非結(jié)構(gòu)化數(shù)據(jù)抽取技術(shù)的研究,一方面可以便于地質(zhì)工作者對專業(yè)信息需求,和現(xiàn)在以及未來的結(jié)構(gòu)化、系統(tǒng)性的研究,從而可以在需求上大大提高了數(shù)據(jù)獲取、計算、數(shù)據(jù)分析準(zhǔn)確率,各研究部門與人員協(xié)調(diào)配合決定實施與調(diào)整的效率。另一方面也豐富了地質(zhì)學(xué)科的各類數(shù)據(jù)庫,為今后的科學(xué)研究,包括地質(zhì)學(xué)科信息圖譜的建立、找礦行動的建立等提供較為專業(yè)而易于利用的信息來源。本文先后調(diào)研了多篇嚴(yán)格篩選的國內(nèi)外具有創(chuàng)新性的學(xué)術(shù)論文,并對此類成果的主要技術(shù)、模型方法等進(jìn)行了對比總結(jié),發(fā)現(xiàn)傳統(tǒng)的規(guī)則抽取需要具備一定的語言學(xué)水平,并且對特定領(lǐng)域有深入的理解和認(rèn)知;機器學(xué)習(xí)則無法理解語句中的語義關(guān)系。目前來說,主要依靠深度學(xué)習(xí)技術(shù)的BERT處理模型在未來一段時間內(nèi),仍會成為人們關(guān)注的焦點。加之中國地質(zhì)資料的信息抽取研究起步相對較晚,所以各種數(shù)據(jù)庫的工具資料都比較匱乏,對各種資料的格式也沒有統(tǒng)一的規(guī)范,同時也因為中文與英文的語言特點不同,在實際應(yīng)用中的資料處理方式也多種多樣。
上述一些原因在一定程度上影響了有關(guān)科學(xué)研究的進(jìn)行。所以,除了探索各種有效的建模方法,解決其中實際面臨的困難也成為當(dāng)務(wù)之急。在標(biāo)準(zhǔn)和規(guī)范的幫助下,地質(zhì)非結(jié)構(gòu)化資料的信息提取這一研究方向?qū)@得更好的發(fā)展,從傳統(tǒng)地質(zhì)調(diào)查轉(zhuǎn)向人工智能的“尋金之路”。