国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

水文站知識(shí)圖譜構(gòu)建研究

2024-12-28 00:00:00喻鑫張亮張娜劉棪
水利水電快報(bào) 2024年12期
關(guān)鍵詞:知識(shí)圖譜

摘要:在水文新技術(shù)研究與應(yīng)用中,知識(shí)圖譜為水文站非結(jié)構(gòu)化數(shù)據(jù)集成、分析及應(yīng)用等提供了框架,具有較大的應(yīng)用價(jià)值。以國(guó)家基本水文站——寸灘水文站為例,綜合運(yùn)用自然語(yǔ)言處理及人工智能模型,探究水文站知識(shí)圖譜構(gòu)建全過(guò)程。水文命名實(shí)體識(shí)別采用ALBERT+BiLSTM+CRF組合模型,關(guān)系識(shí)別采用ALBERT+BiGRU+ATTENTION組合模型和模式匹配結(jié)合方式,以關(guān)系型數(shù)據(jù)庫(kù)中寸灘水文站信息為補(bǔ)充,通過(guò)模型抽取與人工輔助相結(jié)合的方式,構(gòu)建完成寸灘水文站的三元組信息并存儲(chǔ)到Neo4j圖數(shù)據(jù)庫(kù)中,得到寸灘水文站可視化知識(shí)圖譜。結(jié)果表明:寸灘站可視化知識(shí)圖譜使實(shí)體上下位關(guān)系、屬性及其約束等更加清晰,相關(guān)知識(shí)的查詢更加便利。

關(guān)鍵詞:知識(shí)圖譜; 命名實(shí)體識(shí)別; 關(guān)系識(shí)別; Neo4j; 寸灘水文站

中圖法分類號(hào):TP391

文獻(xiàn)標(biāo)志碼:A

DOI:10.15974/j.cnki.slsdkb.2024.12.023

文章編號(hào):1006-0081(2024)12-0143-06

0 引 言

隨著經(jīng)濟(jì)社會(huì)的快速發(fā)展,萬(wàn)物互聯(lián)的時(shí)代已經(jīng)到來(lái),人們不再局限于關(guān)注數(shù)據(jù)附帶的自身信息,更在于信息之間的關(guān)系。因此,以知識(shí)表示和語(yǔ)義理解為基礎(chǔ)的知識(shí)推理、智能問(wèn)答和輔助決策等智能化知識(shí)服務(wù)成為當(dāng)前人工智能的熱點(diǎn)。同時(shí),非結(jié)構(gòu)化數(shù)據(jù)的噴涌,使自然語(yǔ)言處理應(yīng)用之路更加寬廣,其中,以知識(shí)圖譜、深度學(xué)習(xí)等為代表的技術(shù)發(fā)展和應(yīng)用融合,進(jìn)一步驅(qū)動(dòng)自然語(yǔ)言處理領(lǐng)域的快速發(fā)展與迭代升級(jí)。目前,知識(shí)圖譜已廣泛應(yīng)用于搜索引擎、知識(shí)百科、醫(yī)療決策、社交活動(dòng)等領(lǐng)域。

智慧水利是水利高質(zhì)量發(fā)展的顯著標(biāo)志,智慧水利建設(shè)是推進(jìn)新階段水利高質(zhì)量發(fā)展的六條實(shí)施路徑之一[1]。水文是水利的基礎(chǔ),是國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展的基礎(chǔ)性公益事業(yè),推動(dòng)傳統(tǒng)水文轉(zhuǎn)型升級(jí)和高質(zhì)量發(fā)展,需要人工智能技術(shù)的引用和創(chuàng)新。水文站是水文行業(yè)的基礎(chǔ),水文站知識(shí)圖譜可整合資源,建立聯(lián)系,為水文異構(gòu)數(shù)據(jù)源的數(shù)據(jù)集成、分析和應(yīng)用提供思路,助推水文知識(shí)理解和應(yīng)用,使之更好地服務(wù)于水旱災(zāi)害防御工作,支撐經(jīng)濟(jì)社會(huì)發(fā)展。

目前,關(guān)于知識(shí)圖譜的研究較多,相關(guān)的知識(shí)圖譜綜述系統(tǒng)講解了知識(shí)圖譜概念和技術(shù)[2-3]。知識(shí)圖譜可分為通用性和領(lǐng)域性,把知識(shí)圖譜應(yīng)用到水文行業(yè)屬于領(lǐng)域性知識(shí)圖譜構(gòu)建[4]。知識(shí)圖譜在水文領(lǐng)域尤其水文站中的應(yīng)用不多,以前多使用傳統(tǒng)共現(xiàn)分析文獻(xiàn)計(jì)量可視化分析方法[5]等,而關(guān)于水利信息抽取相關(guān)研究最近開(kāi)始受到關(guān)注,顧乾暉等[6]基于BERT-CRF與對(duì)抗訓(xùn)練對(duì)水利命名實(shí)體進(jìn)行識(shí)別,趙慧子等[7]基于BERT-Base-Chinese、百度LAC自然語(yǔ)言處理工具、模式識(shí)別融合的策略對(duì)水文模型相關(guān)論文進(jìn)行命名實(shí)體識(shí)別,取得了一定成果。知識(shí)圖譜主要依靠信息抽取技術(shù)。從自然語(yǔ)言處理領(lǐng)域來(lái)看,信息抽取相關(guān)技術(shù)主要包括:基于規(guī)則和模板的方法,該方法需要人工編寫規(guī)則和模板來(lái)實(shí)現(xiàn)信息抽取;基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,如隱馬爾可夫模型HMM(Hidden Markov Model)、條件隨機(jī)場(chǎng)CRF(Conditional Random Field)等;基于較為流行的深度學(xué)習(xí)方法,如長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)、門控循環(huán)單元網(wǎng)絡(luò)GRU(Gated Recurrent Unit)等。較多學(xué)者把這些方法進(jìn)行

組合,雖然組合模型較單模型復(fù)雜,但能夠發(fā)揮各自獨(dú)有優(yōu)勢(shì),取得更好的信息抽取效果。段浩等[8]在構(gòu)建水利綜合知識(shí)圖譜中,采用BiLSTM+CRF進(jìn)行實(shí)體識(shí)別,水利關(guān)系識(shí)別中采用模式匹配和共現(xiàn)網(wǎng)絡(luò)分析結(jié)合的方法,實(shí)體對(duì)象抽取準(zhǔn)確率在80%以上。韓娜等[9]使用ALBERT+BiLSTM+CRF模型進(jìn)行事件抽取,在DuEE中文數(shù)據(jù)集驗(yàn)證中對(duì)比同類型模型取得較好準(zhǔn)確率和F1值。黃忠祥等[10]使用ALBERT+BiGRU+ATTENTION模型進(jìn)行多標(biāo)簽文本分類研究,在百度中文數(shù)據(jù)集驗(yàn)證中對(duì)比同類型模型取得較好準(zhǔn)確率,達(dá)到99.68%。

水文站知識(shí)圖譜構(gòu)建主要包括信息抽取、知識(shí)融合和知識(shí)存儲(chǔ)等。本文在實(shí)體識(shí)別和關(guān)系識(shí)別等抽取中分別采用這兩種算法,以寸灘水文站知識(shí)圖譜構(gòu)建為示例,信息抽取中命名實(shí)體識(shí)別采用ALBERT+BiLSTM+CRF組合模型,關(guān)系識(shí)別采用ALBERT+BiGRU+ATTENTION組合模型和模式匹配結(jié)合方式,以關(guān)系型數(shù)據(jù)庫(kù)為補(bǔ)充,構(gòu)建完成三元組信息并存儲(chǔ)到Neo4j圖數(shù)據(jù)庫(kù)中。

1 研究區(qū)域概況

長(zhǎng)江是中國(guó)第一大河,干流全長(zhǎng)僅次于尼羅河與亞馬孫河,居世界第三位。長(zhǎng)江上游流域地域廣闊,支流眾多,線長(zhǎng)面廣,自然地理?xiàng)l件復(fù)雜,水文特性各異。長(zhǎng)江上游流域洪水主要由暴雨形成,而水文站是長(zhǎng)江上游雨水情監(jiān)測(cè)預(yù)報(bào)“三道防線”的重要一環(huán)。寸灘水文站是國(guó)家基本水文站和中央報(bào)汛站,測(cè)驗(yàn)項(xiàng)目多、要求高,防汛測(cè)報(bào)地位極其重要,是長(zhǎng)江、嘉陵江匯合后的水情控制站以及重慶主城區(qū)防汛和三峽入庫(kù)控制站。

2 知識(shí)圖譜構(gòu)建

知識(shí)圖譜[2-3,11]的概念由谷歌公司在2012年提出,并宣布以知識(shí)圖譜為基礎(chǔ),構(gòu)建下一代智能語(yǔ)義搜索引擎。通過(guò)從網(wǎng)頁(yè)中抽取實(shí)體和屬性,構(gòu)建實(shí)體之間的關(guān)系,形成網(wǎng)狀知識(shí)庫(kù),進(jìn)而能夠更好利用相關(guān)知識(shí)實(shí)現(xiàn)知識(shí)分析和語(yǔ)義推理,使信息檢索進(jìn)入知識(shí)圖譜的時(shí)代。因此,知識(shí)圖譜是語(yǔ)義網(wǎng)絡(luò)知識(shí)庫(kù),通過(guò)存儲(chǔ)和組織信息實(shí)體與實(shí)體之間的關(guān)系,實(shí)現(xiàn)復(fù)雜有益的知識(shí)網(wǎng)。知識(shí)圖譜的基礎(chǔ)數(shù)據(jù)就是三元組(實(shí)體,關(guān)系,實(shí)體),把三元組以有向圖的形式表示出來(lái),就形成了可視化的知識(shí)圖譜。水文站知識(shí)圖譜就是把知識(shí)圖譜的概念應(yīng)用到水文領(lǐng)域,實(shí)現(xiàn)水文領(lǐng)域三元組抽取、融合、存儲(chǔ)等管理,構(gòu)建水文站語(yǔ)義網(wǎng)絡(luò)知識(shí)庫(kù),實(shí)現(xiàn)對(duì)水文站水文知識(shí)的組織、管理和理解。

知識(shí)圖譜主要依靠自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的相關(guān)技術(shù)進(jìn)行構(gòu)建,主要包括信息抽取、知識(shí)融合和知識(shí)存儲(chǔ)等。

2.1 信息抽取

知識(shí)圖譜構(gòu)建的關(guān)鍵是從非結(jié)構(gòu)化數(shù)據(jù)中獲取三元組,因此第一步就是信息抽取,信息抽取是從非結(jié)構(gòu)化數(shù)據(jù)中抽取到結(jié)構(gòu)化信息的過(guò)程。信息抽取或稱三元組抽取采用Pipeline管道模型,即先抽取出實(shí)體,再抽取其中的相關(guān)關(guān)系,兩個(gè)抽取過(guò)程相互獨(dú)立。

本文是從文本中抽取三元組,即從文本中抽取其中可能存在的實(shí)體和其中的關(guān)系。信息抽取主要包括命名實(shí)體識(shí)別和關(guān)系識(shí)別。

2.1.1 命名實(shí)體識(shí)別

命名實(shí)體識(shí)別是從文本語(yǔ)料庫(kù)中自動(dòng)識(shí)別出文本中的命名實(shí)體,命名實(shí)體識(shí)別的質(zhì)量直接關(guān)系后續(xù)知識(shí)獲取的質(zhì)量,是自然語(yǔ)言處理實(shí)用化的關(guān)鍵一步[2]。命名實(shí)體識(shí)別的關(guān)鍵在于從文本語(yǔ)句中識(shí)別實(shí)體的邊界和類型,如機(jī)構(gòu)、時(shí)間、地點(diǎn)、人名、數(shù)字、測(cè)驗(yàn)項(xiàng)目、測(cè)量?jī)x器或其他水文專業(yè)術(shù)語(yǔ)等。

命名實(shí)體識(shí)別采用現(xiàn)在較為流行的ALBERT+BiLSTM+CRF組合模型,采用ALBERT進(jìn)行文本特征提取,采用BiLSTM+CRF進(jìn)行序列標(biāo)注,見(jiàn)圖1。文本標(biāo)注中實(shí)體分為主體和客體,分別用SUBJ和OBJ表示,詞標(biāo)注采用BIO方式進(jìn)行標(biāo)簽標(biāo)注(B表示開(kāi)始,I表示中間,O表示不屬于任何實(shí)體)。命名實(shí)體識(shí)別可以簡(jiǎn)單理解成分類問(wèn)題,找到每個(gè)字正確的標(biāo)注標(biāo)簽。

(1) ALBERT模型。ALBERT是預(yù)訓(xùn)練模型,是在BERT(bidirectional encoder representations from transformers)[12-13]模型基礎(chǔ)上進(jìn)行的改進(jìn)。BERT模型是谷歌公司在2018年發(fā)布的預(yù)訓(xùn)練通用語(yǔ)言處理模型。BERT模型使用雙向Transformer編碼器,基于上下文表示詞向量的方法解決多義詞區(qū)分問(wèn)題。但BERT存在訓(xùn)練耗時(shí)和對(duì)內(nèi)存等算力有限制等問(wèn)題,谷歌公司在BERT基礎(chǔ)上提出ALBERT(A Lite BERT)模型。ALBERT在BERT基礎(chǔ)上主要做了3個(gè)方面改進(jìn),采用了嵌入?yún)?shù)因式分解和跨層參數(shù)共享策略減少參數(shù),采用SOP改進(jìn)句間連貫預(yù)測(cè)。

(2) BiLSTM+CRF模型。BiLSTM(Bidirectional LSTM)[14]是雙向長(zhǎng)短期記憶網(wǎng)絡(luò),屬于改進(jìn)后的循環(huán)神經(jīng)網(wǎng)絡(luò),雙向可以將前向和后向向量組合成句子特征。BiLSTM可以預(yù)測(cè)每個(gè)字屬于每個(gè)標(biāo)注標(biāo)簽的概率,通過(guò)softmax激活函數(shù)選出其中概率最大標(biāo)注標(biāo)簽作為該字的預(yù)測(cè)結(jié)果,但是BiLSTM沒(méi)有考慮標(biāo)注標(biāo)簽與標(biāo)簽之間的關(guān)聯(lián)性,具有一定的局限性。CRF[15]條件隨機(jī)場(chǎng)模型是由輸入序列對(duì)輸出序列預(yù)測(cè)的條件概率分布模型。CRF通過(guò)轉(zhuǎn)移矩陣和Viterbi算法來(lái)解決標(biāo)簽之間的關(guān)聯(lián)性問(wèn)題,在BiLSTM輸出層后添加一個(gè)CRF層就較好解決了標(biāo)注標(biāo)簽分類預(yù)測(cè)問(wèn)題。CRF帶來(lái)的實(shí)際約束條件包括句子的開(kāi)頭可能是B或者O,不是I;實(shí)體的開(kāi)頭應(yīng)該是B而不是I等。這種組合模型更加具有魯棒性,在命名實(shí)體識(shí)別中有較好的效果。

2.1.2 關(guān)系識(shí)別

文本語(yǔ)料通過(guò)命名實(shí)體識(shí)別之后,是一系列離散的實(shí)體名稱,較難看出其中實(shí)體的關(guān)系[2]。要想進(jìn)行語(yǔ)義知識(shí)的了解,就必須進(jìn)行關(guān)系識(shí)別。關(guān)系識(shí)別也叫關(guān)系抽取,就是從文檔中抽取關(guān)系事實(shí),因此關(guān)系本身就是知識(shí)的重要部分。關(guān)系有時(shí)不像命名實(shí)體那樣容易識(shí)別,可能隱藏在文本中,尤其是需要上下文聯(lián)動(dòng)的。通過(guò)關(guān)系識(shí)別,實(shí)體之間建立了聯(lián)系,才能夠構(gòu)建有向圖,進(jìn)而構(gòu)建網(wǎng)狀結(jié)構(gòu)形成知識(shí)關(guān)系。關(guān)系識(shí)別是信息抽取中關(guān)鍵一步,本文提到的三元組統(tǒng)一形式(實(shí)體,關(guān)系,實(shí)體)包括(實(shí)體,關(guān)系,實(shí)體)和(實(shí)體,屬性,屬性值)等類型。例如,《lt;站史站志gt;寸灘水文站》中“寸灘水文站設(shè)立于1939年2月”應(yīng)該抽取出“寸灘水文站”和“1939年2月”兩個(gè)實(shí)體,關(guān)系是“成立日期”,三元組即(寸灘水文站,成立日期,1939年2月)。

關(guān)系識(shí)別采用現(xiàn)在較為流行的ALBERT+BiGRU+ATTENTION組合模型。關(guān)系識(shí)別也可以簡(jiǎn)單理解成分類問(wèn)題,根據(jù)命名實(shí)體識(shí)別抽取到的兩個(gè)實(shí)體和實(shí)體所在的句子,判斷實(shí)體之間的關(guān)系。ALBERT功能同上。

(1) BiGRU模型。BiGRU(Bidirectional GRU)是雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò),也屬于改進(jìn)后的循環(huán)神經(jīng)網(wǎng)絡(luò)。BiGRU中門控機(jī)制同時(shí)考慮上下文信息,更好理解句子中的依賴關(guān)系和捕捉長(zhǎng)期依賴性。GRU在LSTM基礎(chǔ)上簡(jiǎn)化了門控單元結(jié)構(gòu),把LSTM網(wǎng)絡(luò)的輸入門、輸出門、遺忘門簡(jiǎn)化為更新門和權(quán)重門,相對(duì)LSTM參數(shù)更少而收斂速度也更快,也避免循環(huán)神經(jīng)網(wǎng)絡(luò)存在的梯度爆炸或消失問(wèn)題。

(2) ATTENTION機(jī)制。BiGRU網(wǎng)絡(luò)輸出層如果直接連接FC全連接層,會(huì)造成特征浪費(fèi)。為解決這個(gè)問(wèn)題,模型在BiGRU網(wǎng)絡(luò)和FC全連接層之間引入ATTENTION 機(jī)制。ATTENTION機(jī)制[15]又叫注意力機(jī)制,是為了模仿人類關(guān)注信息時(shí)候,聚焦關(guān)鍵細(xì)節(jié),忽略非關(guān)鍵必要細(xì)節(jié)的過(guò)程,以提高效率。ATTENTION機(jī)制是一個(gè)Encoder到Decoder的主要框架,主要分為3步:相似度計(jì)算得權(quán)值,權(quán)值歸一化得權(quán)重,最后加權(quán)求和。ATTENTION機(jī)制可提高局部重要信息的捕捉能力,以及組合模型的準(zhǔn)確率和效率。

2.2 知識(shí)融合

知識(shí)融合是將不同數(shù)據(jù)源的數(shù)據(jù)在統(tǒng)一框架下進(jìn)行信息的加工和整合,避免信息冗余。知識(shí)融合主要是兩種:不同實(shí)體的融合和不同數(shù)據(jù)源的融合。

(1) 不同實(shí)體的融合。本文不同實(shí)體的融合主要指的是同指消解問(wèn)題:同一個(gè)識(shí)別出來(lái)的實(shí)體含義是相同的,知識(shí)圖譜中需要合成一個(gè)進(jìn)行理解和展示,如“寸灘水文站”和“寸灘站”,“長(zhǎng)江上游水文水資源勘測(cè)局”和“上游局”,“降水”與“雨量”等。

(2) 不同數(shù)據(jù)源的融合。雖然知識(shí)圖譜構(gòu)建的難點(diǎn)在非結(jié)構(gòu)化數(shù)據(jù)上,但是知識(shí)圖譜也是需要融合多種數(shù)據(jù)源的,其中一個(gè)方便且質(zhì)量高的重要數(shù)據(jù)來(lái)源是關(guān)系型數(shù)據(jù)庫(kù)。水文單位建立有重要核心數(shù)據(jù)庫(kù),融入關(guān)系型數(shù)據(jù)庫(kù)結(jié)構(gòu)化數(shù)據(jù)將提高水文站知識(shí)圖譜構(gòu)建質(zhì)量。

2.3 知識(shí)存儲(chǔ)

Neo4j是較為知名的圖數(shù)據(jù)庫(kù),屬于非關(guān)系型數(shù)據(jù)庫(kù)[16-17]。圖數(shù)據(jù)庫(kù)屬于NoSQL,是以圖的形式對(duì)數(shù)據(jù)建模和存儲(chǔ)的數(shù)據(jù)庫(kù),主要是節(jié)點(diǎn)和邊兩種重要元素,可應(yīng)用于知識(shí)圖譜的構(gòu)建。本文采用的Neo4j是應(yīng)用廣泛的開(kāi)源圖數(shù)據(jù)庫(kù),遵循數(shù)據(jù)庫(kù)ACID規(guī)則,具有較高的數(shù)據(jù)可靠性和安全性,提供了強(qiáng)大的Cypher查詢語(yǔ)言,還可通過(guò)內(nèi)置的瀏覽器Web應(yīng)用程序進(jìn)行圖形數(shù)據(jù)創(chuàng)建、查詢、刪除等。

3 水文站知識(shí)圖譜構(gòu)建實(shí)踐

水文站知識(shí)圖譜的構(gòu)建是把通用性知識(shí)圖譜的技術(shù)應(yīng)用到水文領(lǐng)域中。從圖2中可以看出,水文站知識(shí)圖譜數(shù)據(jù)主要來(lái)自非結(jié)構(gòu)化文本和已建的關(guān)系型數(shù)據(jù)庫(kù),數(shù)據(jù)處理主體是對(duì)非結(jié)構(gòu)化文本進(jìn)行整理、清洗去噪、分句、去掉停用詞等處理,構(gòu)建水文站文本語(yǔ)料庫(kù)。水文站知識(shí)圖譜經(jīng)過(guò)命名實(shí)體識(shí)別、關(guān)系識(shí)別、知識(shí)融合、知識(shí)存儲(chǔ)等操作流程,并采用可視化手段進(jìn)行水文站知識(shí)圖譜的展示。

命名實(shí)體識(shí)別在ALBERT+BiLSTM+CRF組合模型基礎(chǔ)上,需要考慮水文未登錄詞處理,以處理《lt;站史站志gt;寸灘水文站》為例,該文出現(xiàn)較多水文專有名詞,如“單樣含沙量、懸移質(zhì)輸沙率、懸移質(zhì)顆粒分析、卵石推移質(zhì)、沙質(zhì)推移質(zhì)、河床質(zhì)”等詞,還包括一些單位名稱等,若不進(jìn)行未登錄詞處理,這些詞有可能不會(huì)作為一個(gè)實(shí)體詞組識(shí)別出來(lái),進(jìn)而會(huì)影響知識(shí)圖譜實(shí)體的正確識(shí)別。

水文站相關(guān)水文關(guān)系識(shí)別是知識(shí)圖譜構(gòu)建的關(guān)鍵,也是自然語(yǔ)言處理領(lǐng)域的難點(diǎn)。為更好地進(jìn)行水文關(guān)系抽取,在ALBERT+BiGRU+ATTENTION組合模型基礎(chǔ)上,利用模式匹配方式進(jìn)行水文關(guān)系抽取,模式匹配更多依靠積累的句式結(jié)構(gòu),如“寸灘水文站測(cè)驗(yàn)方式為駐測(cè)”,句式結(jié)構(gòu)為(A測(cè)驗(yàn)方式為B),抽取出水文實(shí)體為“寸灘水文站”和“駐測(cè)”,水文特有關(guān)系為“測(cè)驗(yàn)方式”,三元組為(寸灘水文站,測(cè)驗(yàn)方式,駐測(cè))。

本文程序?qū)嶒?yàn)采用python語(yǔ)言,通過(guò)命名實(shí)體識(shí)別和關(guān)系識(shí)別等得到三元組后,融合關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)信息,形成三元組EXCEL表,再通過(guò)程序讀取EXCEL表中每行三元組信息存儲(chǔ)到Neo4j圖數(shù)據(jù)庫(kù)中,以寸灘水文站知識(shí)圖譜的構(gòu)建為示例。通過(guò)網(wǎng)站搜索“寸灘水文站”,檢索到相關(guān)網(wǎng)頁(yè)文章12篇并保存為文本,其中,《lt;站史站志gt;寸灘水文站》一文是相關(guān)性最高和最有價(jià)值的一篇。命名實(shí)體識(shí)別采用ALBERT+BiLSTM+CRF組合模型,關(guān)系識(shí)別采用ALBERT+BiGRU+ATTENTION組合模型和模式匹配結(jié)合的方式,經(jīng)過(guò)知識(shí)融合得到知識(shí)圖譜三元組并存儲(chǔ)到Neo4j圖數(shù)據(jù)庫(kù)中。

本文采用的三元組抽取模型是基于語(yǔ)言與智能技術(shù)競(jìng)賽的中文信息,抽取數(shù)據(jù)集作為基礎(chǔ)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,主要來(lái)自百度百科和百度信息流等文本。在此基礎(chǔ)上進(jìn)行以下數(shù)據(jù)處理:① 做好水文未登錄詞處理、水文實(shí)體融合等有助于水文命名的實(shí)體抽取工作;② 添加水文特有關(guān)系(主要是測(cè)驗(yàn)項(xiàng)目、測(cè)驗(yàn)設(shè)備、測(cè)驗(yàn)方式)等關(guān)系標(biāo)注工作,非結(jié)構(gòu)化文本關(guān)系抽取包括成立日期、位置、職責(zé)、上級(jí)單位、歷史洪水、測(cè)驗(yàn)項(xiàng)目、測(cè)驗(yàn)設(shè)備、測(cè)驗(yàn)方式等;③ 結(jié)合SL 323-2011《實(shí)時(shí)雨水情數(shù)據(jù)庫(kù)表結(jié)構(gòu)與標(biāo)識(shí)符》中測(cè)站基本屬性表(ST_STBPRP_B)和河道站防洪指標(biāo)表(ST_RVFCCH_B),對(duì)寸灘水文站的信息進(jìn)行了補(bǔ)充,其中,關(guān)系型數(shù)據(jù)庫(kù)補(bǔ)充采用字段名作為屬性,表中數(shù)據(jù)作為屬性值,如寸灘水文站站號(hào)(STCD)為60105400,三元組為(寸灘水文站,站號(hào),60105400)。

在實(shí)際抽取過(guò)程中發(fā)現(xiàn),水文領(lǐng)域信息抽取效果還有進(jìn)步的空間,主要是關(guān)系類型設(shè)置較多,抽取復(fù)雜度較大,抽取算法有改進(jìn)空間,而且水文特有關(guān)系標(biāo)注量還不夠,特有實(shí)體之間的關(guān)系沒(méi)能較好抽取出來(lái)。為構(gòu)建完整的知識(shí)圖譜,需人工輔助修改和補(bǔ)充。圖3為寸灘水文站知識(shí)圖譜,Neo4j圖數(shù)據(jù)庫(kù)共存儲(chǔ)39個(gè)實(shí)體節(jié)點(diǎn),39個(gè)相互關(guān)系。從圖3可以看出寸灘水文站的基本情況,實(shí)現(xiàn)了對(duì)寸灘水文站的知識(shí)管理,并使實(shí)體上下位關(guān)系、屬性及其約束等更加清晰,相關(guān)知識(shí)的查詢更加便利。例如,要了解寸灘水文站與上游局之間的關(guān)系,通過(guò)知識(shí)圖譜中(寸灘水文站,上級(jí)單位,江北分局)和(江北分局,上級(jí)單位,上游局)兩個(gè)三元組可知,上游局是寸灘水文站的上級(jí)單位;要了解寸灘水文站雨量采用的雨量計(jì)種類,通過(guò)知識(shí)圖譜中測(cè)驗(yàn)項(xiàng)目和測(cè)驗(yàn)設(shè)備可知,寸灘水文站采用的是翻斗式自記雨量計(jì)。雖然寸灘水文站知識(shí)圖譜看起來(lái)比較簡(jiǎn)單,但為后續(xù)寸灘水文站的自動(dòng)化知識(shí)推理及檢索提供了基礎(chǔ)規(guī)則庫(kù)和知識(shí)庫(kù),而且通過(guò)積少成多,可逐步擴(kuò)大水文站知識(shí)圖譜范圍,使庫(kù)內(nèi)知識(shí)更豐富,為長(zhǎng)江上游水文數(shù)字孿生建設(shè)提供知識(shí)圖譜基礎(chǔ)[18-20]。

4 結(jié) 語(yǔ)

本文對(duì)水文站知識(shí)圖譜構(gòu)建進(jìn)行了探究,對(duì)信息抽取、知識(shí)融合和知識(shí)存儲(chǔ)等知識(shí)圖譜構(gòu)建過(guò)程進(jìn)行了分析,并以國(guó)家基本水文站——寸灘水文站為例,初步構(gòu)建了寸灘水文站的知識(shí)圖譜,未來(lái)可通過(guò)多類水利基礎(chǔ)設(shè)施(包括測(cè)站與測(cè)站、測(cè)站與電站水庫(kù)等)之間相關(guān)關(guān)系,構(gòu)建更大的數(shù)字孿生流域知識(shí)圖譜,為后續(xù)知識(shí)推理、問(wèn)答聊天、輔助決策等應(yīng)用提供強(qiáng)勁動(dòng)力,以達(dá)到知識(shí)圖譜組織、管理和理解信息的要求。

本文采用的Pipeline管道模型中,實(shí)體和關(guān)系先后獨(dú)立抽取,兩個(gè)過(guò)程存在誤差傳遞問(wèn)題,后續(xù)研究可嘗試Joint模型,模型聯(lián)合學(xué)習(xí)兩個(gè)任務(wù),減少誤差傳遞可能帶來(lái)的風(fēng)險(xiǎn)。知識(shí)圖譜實(shí)體抽取融合方面還需要進(jìn)一步研究,例如寸灘水文站位置包括“重慶市江北區(qū)寸灘街道三家灘”“4號(hào)線寸灘站”“長(zhǎng)江和嘉陵江匯合口長(zhǎng)江干流重慶段”,如何自動(dòng)合成完整位置,還需要繼續(xù)自然語(yǔ)言處理研究。

知識(shí)圖譜帶來(lái)的技術(shù)難題和應(yīng)用思考具有極大的挑戰(zhàn)性,可通過(guò)整理專用水文語(yǔ)料庫(kù),包括水文文獻(xiàn)、水文項(xiàng)目報(bào)告等資料,并組織水文語(yǔ)料庫(kù)的人工標(biāo)注,方便模型進(jìn)行訓(xùn)練、測(cè)試和比對(duì)各模型效果。

參考文獻(xiàn):

[1] 蔣云鐘,冶運(yùn)濤,趙紅莉,等.智慧水利解析[J].水利學(xué)報(bào),2021,52(11):1355-1368.

[2] 劉嶠,李楊,段宏,等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.

[3] 張吉祥,張祥森,武長(zhǎng)旭,等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)工程,2022,48(3):23-37.

[4] 馮鈞,杭婷婷,陳菊,等.領(lǐng)域知識(shí)圖譜研究進(jìn)展及其在水利領(lǐng)域的應(yīng)用[J].河海大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,49(1) :26-34.

[5] 金菊良,陳鵬飛,陳夢(mèng)璐,等.水文水資源學(xué)家陳守煜先生學(xué)術(shù)研究的知識(shí)圖譜分析[J].水利學(xué)報(bào),2019,50(10):1282-1290.

[6] 顧乾暉,徐力晨,涂振宇,等.基于BERT-CRF與對(duì)抗訓(xùn)練的水利領(lǐng)域命名實(shí)體識(shí)別[J].南昌工程學(xué)院學(xué)報(bào),2022,41(3):29-34.

[7] 趙慧子,周逸凡,段浩,等.水文模型知識(shí)學(xué)習(xí)的命名實(shí)體識(shí)別方法研究[J].中國(guó)水利水電科學(xué)研究院學(xué)報(bào)(中英文),2023,21(6):574-585.

[8] 段浩,韓昆,趙紅莉,等.水利綜合知識(shí)圖譜構(gòu)建研究[J].水利學(xué)報(bào),2021,52(8):948-958.

[9] 韓娜,張昊洋.基于ALBERT+BiLSTM+CRF的事件抽取模型[J].黑龍江科技大學(xué)學(xué)報(bào),2022(3):412-416.

[10] 黃忠祥,李明.BiGRU結(jié)合注意力機(jī)制的文本分類研究[J].北京聯(lián)合大學(xué)學(xué)報(bào),2021,35(3):47-52.

[11] 王昊奮,漆桂林,陳華鈞.知識(shí)圖譜:方法,實(shí)踐與應(yīng)用[M].北京:電子工業(yè)出版社,2019.

[12] LAN Z,CHEN M,GOODMAN S,et al.ALBERT:A Lite BERT for Self-supervised Learning of Language Representations[C]∥International Conference on Learning Representations.Addis Ababa:dblp,2020.

[13] DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[C]∥Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Minneapolis:ACL,2019.

[14] HUANG Z,XU W,YU K.Bidirectional LSTM-CRF models for sequence tagging[J].Computer Science,2015.

[15] ZHOU P,SHI W,TIAN J,et al.Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification[C]∥Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics.Berlin:ACL,2016.

[16] WEBBER J.A programmatic introduction to Neo4j[C]∥Proceedings of the 3rd Annual Conference on Systems,Programming,and Applications:Software for Humanity.Tucson:SPLASH,2012.

[17] 王余藍(lán).圖形數(shù)據(jù)庫(kù)Neo4j與關(guān)系據(jù)庫(kù)的比較研究[J].現(xiàn)代電子技術(shù),2012,35(20):78-79.

[18] 覃煬揚(yáng),郭俊,劉懿,等.數(shù)字孿生流域知識(shí)圖譜構(gòu)建及其應(yīng)用[J].水利水電快報(bào),2023,44(11) :115-120.

[19] 徐健,趙保成,魏思奇,等.數(shù)字孿生流域可視化技術(shù)研究與實(shí)踐[J].水利水電快報(bào),2023,44(8):127-130.

[20] 馮鈞,朱躍龍,王云峰,等.面向數(shù)字孿生流域的知識(shí)平臺(tái)構(gòu)建關(guān)鍵技術(shù)[J].人民長(zhǎng)江,2023,54(3):229-235.

Research on construction of knowledge graph for hydrological stations

Abstract:

In the research and application of new hydrological technologies,the knowledge graph offers a framework for integrating,analyzing,and applying unstructured data in hydrological stations,and has a significant application value.Taking the Cuntan Hydrological Station,a national basic hydrological station as an example,we comprehensively employed natural language processing and artificial intelligence models to explore the whole process of constructing the knowledge graph for the hydrological station.For hydrological naming entity recognition,the combined model of ALBERT + BiLSTM + CRF was adopted,and for relationship recognition,the combined model of ALBERT + BiGRU + ATTENTION and the pattern matching method were used,supplemented by the information of Cuntan Hydrological Station in the relational database.Through the combination of model extraction and manual assistance,the triple information of Cuntan Hydrological Station was constructed and stored in the Neo4j graph database to obtain a visual knowledge graph.The results demonstrated that the visual knowledge graph of Cuntan Hydrological Station made the relationships,attributes,and constraints among entities clearer and facilitated the querying of related knowledge.

Key words:

knowledge graph; naming entity recognition; relationship recognition; Neo4j; Cuntan Hydrological Station

猜你喜歡
知識(shí)圖譜
國(guó)內(nèi)外智庫(kù)研究態(tài)勢(shì)知識(shí)圖譜對(duì)比分析
國(guó)內(nèi)信息素養(yǎng)研究的知識(shí)圖譜分析
國(guó)內(nèi)圖書館嵌入式服務(wù)研究主題分析
國(guó)內(nèi)外政府信息公開(kāi)研究的脈絡(luò)、流派與趨勢(shì)
近十五年我國(guó)小學(xué)英語(yǔ)教學(xué)研究的熱點(diǎn)、問(wèn)題及對(duì)策
基于知識(shí)圖譜的產(chǎn)業(yè)集群創(chuàng)新績(jī)效可視化分析
基于知識(shí)圖譜的智慧教育研究熱點(diǎn)與趨勢(shì)分析
國(guó)內(nèi)酒店品牌管理研究進(jìn)展的可視化分析
從《ET&S》與《電化教育研究》對(duì)比分析中管窺教育技術(shù)發(fā)展
專家知識(shí)圖譜構(gòu)建研究
志丹县| 灵台县| 陵水| 乌苏市| 纳雍县| 华安县| 阳泉市| 德惠市| 韶关市| 阳城县| 沭阳县| 济宁市| 富民县| 昭平县| 万源市| 祁阳县| 堆龙德庆县| 明溪县| 任丘市| 伊宁市| 仪陇县| 区。| 尼木县| 武宁县| 临夏市| 云阳县| 清流县| 合川市| 军事| 临桂县| 东丽区| 西林县| 铁岭市| 陆良县| 伊通| 淳安县| 桂东县| 邵阳市| 江陵县| 乌兰浩特市| 沁水县|