楊波 廖怡茗
摘?要:[目的/意義]構(gòu)建企業(yè)風(fēng)險知識圖譜,是對大數(shù)據(jù)環(huán)境下企業(yè)知識資源的有效組織和利用。針對現(xiàn)有企業(yè)知識圖譜多為知識的靜態(tài)映射問題,本文引入時間維度來刻畫企業(yè)風(fēng)險事件的動態(tài)性、突發(fā)性和時效性等演化特征。[方法/過程]經(jīng)過企業(yè)風(fēng)險知識的信息抽取、知識融合、本體構(gòu)建以及動態(tài)知識推理等環(huán)節(jié),自底向上系統(tǒng)性地構(gòu)建了企業(yè)動態(tài)風(fēng)險知識圖譜。在企業(yè)風(fēng)險知識融合階段,針對企業(yè)領(lǐng)域數(shù)據(jù)集實體樣本的不平衡分類問題,本文提出ResNet動態(tài)知識推理方法改進了Multi-Net模型的損失平衡函數(shù)。[結(jié)果/結(jié)論]實驗表明該知識推理方法能夠有效提高實體預(yù)測和關(guān)系預(yù)測的準確性,對于企業(yè)領(lǐng)域知識具有良好的適用性,最后本文將該知識圖譜應(yīng)用于一個智能問答系統(tǒng)。
關(guān)鍵詞:企業(yè)動態(tài)風(fēng)險;知識圖譜;知識融合;動態(tài)知識推理
DOI:10.3969/j.issn.1008-0821.2021.03.011
〔中圖分類號〕G203?〔文獻標識碼〕A?〔文章編號〕1008-0821(2021)03-0110-11
Research?on?the?Construction?and?Application?of
Knowledge?Graph?for?Enterprise?Dynamic?Risk
Yang?Bo?Liao?Yiming
(School?of?Information?Management,Jiangxi?University?of?Finance?and?Economics,Nanchang?330013,China)
Abstract:[Purpose/Significance]Constructing?an?enterprise?risk?knowledge?graph?is?an?effective?organization?and?utilization?of?enterprise?knowledge?resources?in?a?big?data?environment.Aiming?at?the?problem?of?static?mapping?of?existing?enterprise?knowledge?graphs,this?paper?introduces?the?time?dimension?to?describe?the?evolutionary?characteristics?of?enterprise?risk?events?such?as?dynamics,suddenness?and?timeliness.[Method/Process]Through?information?extraction,knowledge?fusion,ontology?construction?and?dynamic?knowledge?reasoning?of?enterprise?risk?knowledge,a?bottom-up?enterprise?dynamic?risk?knowledge?graph?was?systematically?constructed.In?the?enterprise?risk?knowledge?fusion?link,aiming?at?the?imbalanced?classification?problem?of?the?entity?samples?of?the?enterprise?domain?data?set,this?paper?proposed?the?ResNet?dynamic?knowledge?reasoning?method?to?improve?the?loss?balance?function?of?the?Multi-Net?model.[Result/Conclusion]Experiments?showed?that?the?new?model?could?effectively?improve?the?accuracy?of?entity?prediction?and?relationship?prediction,which?had?good?applicability?to?enterprise?domain?knowledge.Finally,the?knowledge?graph?was?applied?to?an?intelligent?question?answering?system.
Key?words:enterprise?dynamic?risk;knowledge?graph;knowledge?fusion;dynamic?knowledge?reasoning
隨著Web技術(shù)普及和社會信息化程度的提高,Web技術(shù)正向著基于知識互聯(lián)的語義Web方向發(fā)展,信息的多變性、異構(gòu)性和自治性使得人們難以從海量信息中獲取所需目標資源[1]。知識圖譜以其強大的語義處理能力和開放互聯(lián)能力,讓大數(shù)據(jù)環(huán)境下的知識資源組織和管理更為高效,能夠有效解決智能搜索、智能問答、個性化推薦等基于知識的推理和決策問題。知識圖譜(Knowledge?Graph)的概念最早在2012年由谷歌正式提出,是用于增強其搜索引擎功能的知識庫,在智能搜索、情報分析、社交網(wǎng)絡(luò)、深度問答以及垂直行業(yè)[2-3]等領(lǐng)域取得了廣泛的應(yīng)用,此后各互聯(lián)網(wǎng)公司也紛紛推出各自的知識圖譜產(chǎn)品。當前,國內(nèi)外研究人員開發(fā)了諸多高質(zhì)量大規(guī)模開放知識圖譜,包括DBpedia、Yago、BabelNet、ConceptNet以及Microsoft?Concept?Graph[3]等通用知識圖譜,以及阿里巴巴電商知識圖譜、Linked?Life?Data醫(yī)療項目和Kensho投資咨詢等垂直領(lǐng)域知識圖譜[4]。
大數(shù)據(jù)環(huán)境下,企業(yè)風(fēng)險管理面臨信息爆炸的難題,企業(yè)風(fēng)險知識涉及經(jīng)濟、產(chǎn)業(yè)、投資等覆蓋全行業(yè)的相關(guān)知識,知識圖譜在企業(yè)商業(yè)活動、創(chuàng)投咨詢及證券等金融領(lǐng)域具有重要價值,廣泛應(yīng)用于挖掘潛在客戶、反欺詐、內(nèi)審內(nèi)控、失聯(lián)客戶管理以及風(fēng)險識別和預(yù)警等業(yè)務(wù)[5-6]。例如,建立行業(yè)、企業(yè)、客戶的實體關(guān)聯(lián)關(guān)系,根據(jù)貸款信息、行業(yè)信息建立關(guān)系挖掘模型,及時預(yù)測高風(fēng)險行業(yè)及風(fēng)險事件,企業(yè)可以盡早規(guī)避系統(tǒng)性風(fēng)險;在風(fēng)險預(yù)警中,構(gòu)建基于企業(yè)現(xiàn)金流、經(jīng)營信息等屬性值的實體關(guān)聯(lián),通過深度學(xué)習(xí)方法對屬性值以及其衍生指標進行實時監(jiān)控,可以完善企業(yè)的風(fēng)險預(yù)警系統(tǒng)。因此,研究企業(yè)風(fēng)險知識圖譜具有重要實踐價值和理論意義,是對金融領(lǐng)域知識圖譜的進一步探索和完善。
企業(yè)風(fēng)險事件往往具有動態(tài)性、突發(fā)性和時效性等演化特征,與其發(fā)生時間密切相關(guān),在構(gòu)建企業(yè)風(fēng)險知識圖譜時加入時間信息,對于管理層把控決策風(fēng)向標至關(guān)重要。目前已有學(xué)者構(gòu)建了金融領(lǐng)域知識圖譜,但是面向企業(yè)風(fēng)險的知識圖譜研究仍相對匱乏,且多數(shù)只集中于某一特定環(huán)節(jié),如面向企業(yè)知識圖譜的中文命名實體識別[7]、實體鏈接[8]、關(guān)系抽取[9-10]等技術(shù)過程。盡管陳曉軍等[11]系統(tǒng)地研究了企業(yè)風(fēng)險知識圖譜,并通過智能問答實現(xiàn)了對知識圖譜地檢索和利用,但僅僅構(gòu)建了一個靜態(tài)的企業(yè)知識圖譜,缺乏利用時間信息推理知識圖譜的演化過程,且未考慮到風(fēng)險知識的動態(tài)特征。領(lǐng)域知識圖譜相對于通用知識圖譜來說,知識的廣度、深度和粒度都有更加嚴格的要求,企業(yè)風(fēng)險知識的一個顯著特征是高度動態(tài)性,其知識圖譜的構(gòu)建便需要結(jié)合風(fēng)險知識的時效性。有鑒于此,本文面向企業(yè)動態(tài)風(fēng)險引入時間維度,從信息獲取、知識融合、本體構(gòu)建和動態(tài)知識推理4個環(huán)節(jié)自底向上構(gòu)建企業(yè)風(fēng)險知識圖譜,并基于該企業(yè)動態(tài)風(fēng)險知識圖譜構(gòu)建了一個智能問答系統(tǒng),以可視化的圖譜形式實現(xiàn)用戶對企業(yè)風(fēng)險信息的動態(tài)把控。
1?相關(guān)工作
構(gòu)建面向企業(yè)動態(tài)風(fēng)險的垂直領(lǐng)域知識圖譜,不僅要基于面向企業(yè)風(fēng)險管理的領(lǐng)域知識,也需采用有效的動態(tài)圖譜構(gòu)建技術(shù)模型。本節(jié)將介紹企業(yè)風(fēng)險知識圖譜以及動態(tài)知識圖譜構(gòu)建方法的相關(guān)研究。
1.1?企業(yè)風(fēng)險知識圖譜研究現(xiàn)狀
企業(yè)知識圖譜是指關(guān)注于企業(yè)信息和關(guān)系的垂直領(lǐng)域知識圖譜[10],屬于金融領(lǐng)域,具有巨大的商業(yè)價值,目前國內(nèi)關(guān)于金融領(lǐng)域特別是企業(yè)風(fēng)險領(lǐng)域的知識圖譜研究仍有待展開。王超[7]在經(jīng)典的BiLSTM-CRF命名實體識別模型的基礎(chǔ)上融入Self-Attention機制,提出SA-BiLSTM-CRF模型,將其應(yīng)用于標注語料較少的企業(yè)領(lǐng)域,提出適用于企業(yè)領(lǐng)域的命名實體識別系統(tǒng),并基于此完成了企業(yè)圖譜的構(gòu)建,具有一定的工程應(yīng)用價值。劉波[8]提出了一個結(jié)合上下文匹配和知識庫信息檢索策略的實體指稱擴展方法,根據(jù)候選實體消歧和實體生成方法設(shè)計了一個實體鏈接系統(tǒng),最后使用Neo4j將其應(yīng)用到企業(yè)領(lǐng)域知識圖譜的構(gòu)建中。孫晨等[9]針對企業(yè)知識圖譜在關(guān)系抽取效果上的局限性,提出給予分類的中文實體關(guān)系抽取方法,使用最大熵模型構(gòu)建更為完整的企業(yè)知識圖譜。吳錦鈺[10]提出BiGRU-CNN和BiGRU-Incep兩種基于深度學(xué)習(xí)的關(guān)系抽取模型,并通過注意力機制給不同實例句子分配權(quán)重以提高實體關(guān)系抽取的準確率,構(gòu)建了一個小型的企業(yè)圖譜。然而,這些研究都只關(guān)注于知識圖譜構(gòu)建的某一環(huán)節(jié)而缺少全面性,也忽略了時間信息對風(fēng)險演化的影響。
在風(fēng)控場景中,企業(yè)圖譜可以探查包括客戶風(fēng)險、競爭風(fēng)險、政策風(fēng)險以及市場風(fēng)險等在內(nèi)的企業(yè)外部風(fēng)險,提供探究企業(yè)內(nèi)外主體及關(guān)系鏈的工具,能夠?qū)π袠I(yè)熱點、政策和關(guān)聯(lián)企業(yè)等進行智能分析和風(fēng)險預(yù)警,目前國內(nèi)發(fā)展比較成熟的有阿里云企業(yè)圖譜、百度云企業(yè)圖譜和海致企業(yè)圖譜[11]。在風(fēng)險識別方面,馬海波[12]結(jié)合企業(yè)基本屬性和企業(yè)歷史風(fēng)險中的特征信息,構(gòu)建企業(yè)關(guān)聯(lián)信息知識圖譜,通過分析企業(yè)節(jié)點和低信用列表實體節(jié)點的關(guān)系特征,提高了企業(yè)風(fēng)險識別的能力。一些金融機構(gòu)如浦發(fā)銀行等也將知識圖譜應(yīng)用于風(fēng)險預(yù)測中,但是企業(yè)風(fēng)險知識圖譜的工業(yè)級應(yīng)用研究處于初步階段,如何系統(tǒng)而又全面地構(gòu)建風(fēng)險知識圖譜,提高企業(yè)風(fēng)險管理中領(lǐng)域知識利用效率仍有待探索。
1.2?動態(tài)知識圖譜研究現(xiàn)狀
傳統(tǒng)知識圖譜被認為是對多關(guān)系數(shù)據(jù)的靜態(tài)映射,而基于事件的交互知識除了有多關(guān)系性外,還具有復(fù)雜的時間動態(tài)特征,引起了眾多學(xué)者的廣泛關(guān)注,近年來融合時間維度信息來構(gòu)建動態(tài)知識圖譜的研究也逐漸興起。Trivedi?R等[13]采用隨時間推移的非線性演化的實體表示形式,提出包含時間邊沿的深度進化知識網(wǎng)絡(luò)圖(Know-Evolve),有效地預(yù)測了事實的發(fā)生概率或復(fù)發(fā)時間,但無法解決并發(fā)事件的推理難題。
一些學(xué)者還關(guān)注于研究基于時間信息進行建模的方法。García-Durán等[14]提出時序知識的補全方法(Temporal-Aware?Version?of?Trans?E,TA-Trans?E),利用遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)關(guān)系類型的時間信息表示,緩解了知識在時間表達上的稀疏性和異質(zhì)性。Leblay?J等[15]提出推演知識圖譜的時序方法(Temporal?TransE,TTransE),采用時間間隔注釋實體邊緣以反映實體關(guān)系時間維度的一致性,同時預(yù)測了未注釋邊緣時間有效性的任務(wù)。Dasgupta?S?S等[16]考慮知識圖譜中的關(guān)系事實通常表現(xiàn)出時間動態(tài)特征,提出基于超平面的時間感知知識圖譜嵌入方法(Hyperplane-Based?Temporally?Aware?Knowledge?Graph?Embedding,HyTE),通過把每個時間戳與相應(yīng)的超平面相關(guān)聯(lián),將時間合并到實體關(guān)系空間中。Liu?J等[17]為了彌補演化知識圖譜模態(tài)表征和算法的不足,提出進化知識圖譜(Evolve?Knowledge?Graph,EvolveKG),揭示了跨時間知識交互以及所需的存儲和計算性能,利用歷史影響力來預(yù)測未來的知識。然而這些動態(tài)推理模型都是對單個時間點的處理,沒有捕捉到事實的時間相關(guān)性,只能對某個時間戳的知識圖譜進行處理。
為了實現(xiàn)在全時間域內(nèi)對實體節(jié)點之間的時間、多關(guān)系和并發(fā)交互進行建模,Jin?W等[18]提出對復(fù)雜事件序列進行建模的循環(huán)事件網(wǎng)絡(luò)(Recurrent?Event?Network,RE-NET),解決了對多個時間點高并發(fā)事件的推理難題,以及隨著時間的推移進行多步知識推理。在此基礎(chǔ)上,為了進一步提高動態(tài)圖譜在多關(guān)系對應(yīng)下的推理能力,陳浩等[19]改進了RE-NET的鄰近聚合器,提出多關(guān)系循環(huán)事件的動態(tài)知識圖譜推理方法(Dynamic?Knowledge?Graph?Inference?Based?on?Multiple?Relation?Cyclic?Events,Multi-Net),通過增強對同時間戳內(nèi)多個關(guān)系實體的聚合能力,提高了實體關(guān)系預(yù)測和實體消歧的精準度。綜上所述,目前對于動態(tài)知識圖譜的時間維度建模、時序知識推理的相關(guān)研究已取得了不同程度的進展,然而這些方法主要針對大規(guī)模通用知識圖譜,對于垂直領(lǐng)域特別是企業(yè)風(fēng)險知識圖譜的適用性仍有待探究。
2?企業(yè)動態(tài)風(fēng)險知識圖譜構(gòu)建
知識圖譜主要有自頂向下(Top-down)和自底向上(Bottom-up)兩種技術(shù)構(gòu)建方式[2]。自底向上的構(gòu)建方式首先對實體進行歸納組織形成底層的概念,逐步向上抽取形成上層的概念[4],即從一些開放鏈接數(shù)據(jù)中提取實體,選擇置信度較高的實體加入知識庫中,再構(gòu)建頂層的本體概念模式[2]。隨著知識抽取和知識加工技術(shù)的不斷成熟,目前大多數(shù)知識圖譜采用自底向上的方式構(gòu)建,例如微軟的Satori知識庫和Google的Knowledge?Vault,都是基于公開的海量網(wǎng)頁數(shù)據(jù)自動抽取資源來獲取知識[20]。
垂直領(lǐng)域知識具有極強的專業(yè)性,主要針對專業(yè)領(lǐng)域或行業(yè)的特定數(shù)據(jù)資源,同時考慮企業(yè)風(fēng)險知識體系缺乏完備性的特點,本文采用自底向上的方式[20]構(gòu)建知識圖譜,企業(yè)風(fēng)險知識圖譜的技術(shù)架構(gòu)如圖1所示,主要由4個步驟構(gòu)成,分別是信息抽取、知識融合、企業(yè)本體構(gòu)建和動態(tài)知識推理。
2.1?信息抽取
信息抽取是知識圖譜構(gòu)建的首要環(huán)節(jié),解決如何從多源異構(gòu)信息中自動抽取出候選知識單元的問題,其中面向文本的信息抽取一般包括命名實體識別和關(guān)系抽取兩個任務(wù)。本文選取的實驗數(shù)據(jù)來自人民日報標注語料庫,再通過百科數(shù)據(jù)得到企業(yè)基本信息對原始語料庫進行補充;此外該語料庫屬于新聞領(lǐng)域,而企業(yè)風(fēng)險知識圖譜的構(gòu)建重點關(guān)注于人物及企業(yè)領(lǐng)域的實體,于是又選擇爬取到的3?461條企業(yè)新聞對已有數(shù)據(jù)集進行擴充。首先過濾和篩選了數(shù)據(jù)集中的冗余和不相關(guān)信息,再對這些半結(jié)構(gòu)化和非結(jié)構(gòu)化的風(fēng)險數(shù)據(jù)進行抽取。
1)命名實體識別。命名實體識別又稱實體抽取,是指從非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本信息中提取出多種指定類別的實體,其識別質(zhì)量對于后續(xù)實體鏈接和合并的效率影響極大,是信息抽取中最關(guān)鍵和基礎(chǔ)的環(huán)節(jié)。企業(yè)領(lǐng)域命名實體識別主要關(guān)注于人名、機構(gòu)名和地名實體等專有名詞,以及與動態(tài)風(fēng)險密切相關(guān)的時間實體信息,特別是公司名稱、縮略詞、企業(yè)專有名詞等的識別。
根據(jù)命名實體識別技術(shù)的發(fā)展脈絡(luò),命名實體識別的方法可以分為:基于規(guī)則、基于詞典、基于統(tǒng)計和基于深度學(xué)習(xí)4類?;谝?guī)則的命名實體識別可以根據(jù)不同行業(yè)的文本數(shù)據(jù),制定出與該行業(yè)特點最適用的規(guī)則模型,但是可移植性較差,過于依賴具體領(lǐng)域、語言和文本風(fēng)格;基于詞典的方法根據(jù)文本在預(yù)先構(gòu)建的詞典中的匹配結(jié)果來識別領(lǐng)域?qū)嶓w,由于詞典收錄實體完備性不足且難以更新,一般與基于規(guī)則或基于統(tǒng)計的方法結(jié)合使用;基于統(tǒng)計的常用方法有隱馬爾科夫鏈模型和條件隨機場模型等,前者沒有考慮實際文本處理中的上下文語義問題,對于領(lǐng)域標注的性能不高,條件隨機場模型則需要使用標注好的語料訓(xùn)練模型。由于企業(yè)風(fēng)險知識圖譜的構(gòu)建對知識的準確率有更高的要求,且企業(yè)領(lǐng)域的規(guī)范語料標注較少,本文采用基于遷移學(xué)習(xí)的SA-BiLSTM-CRF模型[7]識別企業(yè)領(lǐng)域?qū)嶓w,遷移學(xué)習(xí)可以使得范圍更廣泛的語料數(shù)據(jù)在企業(yè)領(lǐng)域得到較好的識別效果。
經(jīng)典的BiLSTM-CRF命名實體識別模型包括Embedding層、BiLSTM編碼器和CRF層,其中LSTM網(wǎng)絡(luò)在處理長語句序列中較遠距離的依賴特征時,經(jīng)過多時間步驟的累積才能實現(xiàn)特征間的聯(lián)系,于是加入Self-Attention機制縮短距離來提高這些依賴特征的利用效果,模型結(jié)構(gòu)如圖2所示。其中X={x1,x2,…,xn}是由n個中文字符組成的輸入序列;經(jīng)過Embedding層字符嵌入后,E={Ec,Ep}分別表示字向量Ec,以及兼顧語句中詞序信息的位置向量Ep;字符向量分別以正向和反向順序輸入LSTM網(wǎng)絡(luò),得到含有上下文信息的特征Hi=[i,i];其次在Self-Attention層中通過Softmax函數(shù)歸一化,再加權(quán)求和得到含有正反語義信息的輸出H′i=[i,i,i,i];CRF層的作用在于解決有依賴關(guān)系的標簽分類問題,輸出與輸入序列等長的標簽序列Y={y1,y2,…,yn},最后使用BIEO標注體系對各實體進行標注。
值得注意的是,企業(yè)領(lǐng)域語料標注較少,人民日報語料庫屬于新聞類標注語料庫,直接使用會導(dǎo)致一些企業(yè)領(lǐng)域特征在新聞領(lǐng)域的局限下被忽略,本文通過遷移學(xué)習(xí)來優(yōu)化上述深度學(xué)習(xí)模型。對于提取人名、地名、機構(gòu)名的實體識別來說,企業(yè)和新聞領(lǐng)域的數(shù)據(jù)有極大的相似性,以新聞領(lǐng)域為源領(lǐng)域,企業(yè)領(lǐng)域為目標領(lǐng)域,首先使用人民日報語料庫的新聞?wù)Z料進行預(yù)訓(xùn)練,再基于百科網(wǎng)頁爬取到的1?429條企業(yè)領(lǐng)域標注數(shù)據(jù)進行訓(xùn)練,將前者的SA-BiLSTM-CRF模型的參數(shù)訓(xùn)練結(jié)果分別遷移到后者模型的Embedding層和CRF層上,形成4個參數(shù)各異的對比實驗。從表1的實驗結(jié)果來看,人民日報語料庫與企業(yè)領(lǐng)域數(shù)據(jù)存在一定程度上的相似性,遷移學(xué)習(xí)能夠有效提升SA-BiLSTM-CRF模型的實體識別效果。
2)企業(yè)實體關(guān)系抽取。命名實體識別之后的企業(yè)領(lǐng)域?qū)嶓w是離散的,為了得到企業(yè)實體間的關(guān)聯(lián)關(guān)系,通過關(guān)系抽取則可以獲取語義信息;企業(yè)的屬性一般包括創(chuàng)始人、董事長、高管、成立年份、城市等,通常也將企業(yè)屬性作為實體關(guān)系的一種,因此還需從企業(yè)百科網(wǎng)頁的基本信息中對各企業(yè)進行屬性抽取。此外動態(tài)知識圖譜的實體關(guān)系應(yīng)當包含時序信息,吳錦鈺提出的BiGRU-CNN和BiGRU-Incep關(guān)系抽取方法[10]不僅注重時序信息的提取,而且關(guān)注于位置信息的提取,本文分別采用了這兩種模型進行實驗和比較。在進行關(guān)系特征提取時,將語料句法特征與實體特征相結(jié)合,首先把輸入的關(guān)系實例語句轉(zhuǎn)化為二維特征向量作為主要輸入特征,同時將實體特征如實體的長度、位置、上下文等特征輸入到Softmax分類器進行特征融合,最終輸出Softmax概率最大的節(jié)點即為抽取得到的實體關(guān)系。
實體關(guān)系一般與前后實體形成“<實體1><關(guān)系><實體2>”結(jié)構(gòu)的知識三元組存儲到知識庫中,實體屬性則通過
2.2?知識融合
經(jīng)過信息抽取,獲取了企業(yè)實體和實體間的關(guān)系、屬性以及部分時間信息,盡管優(yōu)化的深度學(xué)習(xí)模型在實體識別和關(guān)系抽取中都存在優(yōu)勢,這些結(jié)果還可能包含大量的冗余和沖突信息,同時為了提升知識的邏輯性和層次性,有必要對知識進行融合,刪除錯誤和冗余的知識,消歧矛盾和沖突知識,從而達到提升企業(yè)風(fēng)險知識質(zhì)量的目的,其中實體鏈接和知識合并是知識融合的兩個主要任務(wù)。
1)實體鏈接。實體鏈接是指將從文本中抽取到的企業(yè)實體對象,鏈接到企業(yè)知識庫中所對應(yīng)的、指向現(xiàn)實世界同一事實的命名實體[20]。由于企業(yè)領(lǐng)域?qū)嶓w指稱復(fù)雜多樣,如“阿里巴巴集團”和“阿里巴巴(中國)有限公司”指向同一實體,此外來源于網(wǎng)絡(luò)的語料和百科數(shù)據(jù)不規(guī)范,通過實體鏈接則可以有效解決企業(yè)實體指稱的多樣性和歧義性。目前實體鏈接的算法主要有無監(jiān)督的和有監(jiān)督的,無監(jiān)督的算法一般基于字典匹配或者相似度計算,對數(shù)據(jù)的規(guī)范化程度要求較高,企業(yè)領(lǐng)域?qū)嶓w數(shù)據(jù)復(fù)雜且不規(guī)范,于是采用融合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和余弦相似度[8]的有監(jiān)督算法進行企業(yè)實體鏈接。
融合CNN和余弦相似度的實體鏈接模型結(jié)構(gòu)主要分為:輸入層、CNN表示層、匹配層和輸出層。根據(jù)實體命名識別的結(jié)果,首先對語料數(shù)據(jù)進行預(yù)處理,把以縮寫、簡稱、別名等存在的企業(yè)實體進行查詢修正,使用上下文匹配和知識庫信息檢索策略對實體指稱進行擴展,得到標準的實體名稱集合M={M1,M2,…,MN},并基于匹配規(guī)則[8]的方法生成候選實體集C={C1,C2,…,CN},使用Google開發(fā)的開源計算工具Word2Vec對候選實體集的詞向量化作為模型的輸入。其次通過CNN表示層計算語義特征,將原始的高維文本特征,映射到低維的語義空間向量中,輸出一個概念向量,再使用經(jīng)典的余弦相似度算法完成對實體概念向量的匹配。為了提高實體排序算法的性能,引入空實體判別機制,若候選實體集為空則認為不存在歧義實體,對于候選實體排序結(jié)果設(shè)定閾值,若相似度小于該閾值也判定為空實體,最后與不使用空實體判別機制的實驗進行了對比。表3所示的實驗結(jié)果表明,與單一的候選實體消歧算法相比,空實體判別能夠有效提升模型的準確率和召回率。
2)知識合并。人民日報語料庫以及企業(yè)新聞數(shù)據(jù)屬于半結(jié)構(gòu)化和非結(jié)構(gòu)化的文本數(shù)據(jù),除此之外第三方知識庫和已有的結(jié)構(gòu)化數(shù)據(jù)可以擴展現(xiàn)有知識庫,于是選取百度百科、維基百科中文版和互動百科知識庫中的部分企業(yè)網(wǎng)頁信息,爬取網(wǎng)頁源代碼中Title=“同義詞”的標簽獲取同義詞作為候選實體集,對其進行實體消歧后得到了企業(yè)的屬性信息,再將這些知識元素經(jīng)實體鏈接后加入到了企業(yè)風(fēng)險知識庫,實現(xiàn)了結(jié)構(gòu)化風(fēng)險知識的合并。
2.3?本體構(gòu)建
知識圖譜從邏輯上可以劃分為數(shù)據(jù)層和模式層[20],知識融合后得到了一系列正確的企業(yè)領(lǐng)域的基本事實表達,然而事實本身并不等同于知識,為了獲取具有邏輯結(jié)構(gòu)的知識體系,還需要進行本體構(gòu)建來建立模式層的概念模板,借助本體庫來規(guī)范企業(yè)實體、關(guān)系以及實體的屬性和類型等對象之間的聯(lián)系。目前常用的本體構(gòu)建工具主要有可視化手工構(gòu)建和半自動化構(gòu)建兩類,尚未出現(xiàn)自動化的構(gòu)建工具,其中基于Java語言的Jena推理機[22]提供了通過程序調(diào)用算法半自動化地構(gòu)建本體的方法,Jena推理機能夠存儲大規(guī)模的RDF數(shù)據(jù),同時提供處理OWL本體語言和RDFS本體的API,大大提高了本體構(gòu)建的效率。數(shù)據(jù)驅(qū)動的半自動化本體構(gòu)建過程[2]主要可以分為3個階段:①概念的并列關(guān)系計算;②實體的上下位關(guān)系抽取,主要是實體隸屬關(guān)系(HasA)的抽取,例如淘寶網(wǎng)和阿里巴巴集團之間屬于隸屬關(guān)系;③生成本體,一般采用層次聚類[23]的方法,對各層次的抽象概念進行聚類并指定公共上位詞來構(gòu)建本體結(jié)構(gòu)。
3?基于動態(tài)知識圖譜的智能問答應(yīng)用
企業(yè)動態(tài)風(fēng)險知識圖譜實現(xiàn)了對融合時間信息的企業(yè)風(fēng)險知識的關(guān)聯(lián)與整合,是對風(fēng)險知識專業(yè)化和結(jié)構(gòu)化的語義表示,然而通過關(guān)鍵詞搜索知識圖譜的結(jié)果,用戶還不能獲得與風(fēng)險防控密切相關(guān)的有效信息,因此本文將企業(yè)動態(tài)風(fēng)險知識圖譜應(yīng)用于風(fēng)險知識智能問答系統(tǒng),進一步提升用戶獲取目標知識的針對性和準確性。問答系統(tǒng)對用戶問題的自然語言理解程度決定了系統(tǒng)生成答案的準確性,多輪問答機制通過多次追問的策略補充用戶問題所缺失的語義系統(tǒng)信息,幫助系統(tǒng)更準確地理解用戶意圖。本文采用多輪自動問答系統(tǒng)框架[26]構(gòu)建了基于企業(yè)動態(tài)風(fēng)險知識圖譜的智能問答系統(tǒng),主要包括問題理解、知識圖譜查詢和問答生成3個模塊,該系統(tǒng)的框架如圖8所示。
如圖8所示,問題理解模塊旨在將非結(jié)構(gòu)化的問題文本轉(zhuǎn)化為結(jié)構(gòu)化的語義表示。本文首先使用Jieba分詞對輸入的問句文本進行中文分詞和詞性標注,以及日期和數(shù)值處理等一系列預(yù)處理,如將“今天”一詞轉(zhuǎn)化為系統(tǒng)當日時間“2020年7月18日”;其次進行風(fēng)險事件識別,風(fēng)險事件實例一般分為4類:研發(fā)風(fēng)險、管理者認知風(fēng)險、產(chǎn)品適應(yīng)性風(fēng)險和社會網(wǎng)絡(luò)風(fēng)險;意圖識別是指對問句文本中用戶提問意圖的識別,與后續(xù)生成問答結(jié)果直接對應(yīng);本體屬性識別則是對問句文本中實體屬性和屬性值的識別。例如,輸入問句“2020年8月14日,餓了么逼迫商戶二選一遭20戶商家聯(lián)名舉報,市場監(jiān)督管理局會罰款多少?”,所識別到的實體為“餓了么”“商戶”和“市場監(jiān)督管理局”,實體關(guān)系和風(fēng)險事件時間為<舉報><2020年8月14日>,風(fēng)險事件實例為管理者認知風(fēng)險,意圖識別結(jié)果為罰款結(jié)果,蘊含的屬性為餓了么平臺的“商戶數(shù)量”,屬性值為“20”。知識圖譜查詢模塊按照預(yù)定義的Cypher查詢模板,輸入問題理解中所識別的風(fēng)險事件、問題意圖、實體屬性和屬性值進行查詢;再對查詢到的子圖譜進行結(jié)果計算,通過將問句文本中識別到的實體屬性集合與子圖譜依次計算差集來完成。若用戶輸入的問句文本語義完整,并且查詢結(jié)果符合答案閾值,則直接將查詢結(jié)果返回給用戶,否則通過Cypher查詢模板對用戶進行缺失語義信息的追問。
本文通過Django實現(xiàn)對該智能問答系統(tǒng)的問答結(jié)果可視化。Django提供的Model-View-Controller開發(fā)框架無需第三方庫和工具便可以創(chuàng)建網(wǎng)站,是一個功能較為全面的Python?Web開發(fā)框架。圖9所示為該智能問答系統(tǒng)輸入“與阿里巴巴創(chuàng)始人相關(guān)的風(fēng)險關(guān)聯(lián)關(guān)系有哪些”等問題的可視化界面。
4?結(jié)?語
針對現(xiàn)有企業(yè)風(fēng)險知識圖譜的構(gòu)建方法大多為靜態(tài)知識映射,缺乏對企業(yè)風(fēng)險的時間動態(tài)特征建模,本文將時間信息融入企業(yè)知識圖譜構(gòu)建。本文詳細闡述了自底向上構(gòu)建面向企業(yè)動態(tài)風(fēng)險知識圖譜的完整過程,首先對企業(yè)風(fēng)險領(lǐng)域的語料文本進行信息抽取;其次通過實體鏈接和知識合并技術(shù),將抽取到的命名實體、關(guān)系和日期或時間信息進行知識融合,并構(gòu)建了企業(yè)風(fēng)險領(lǐng)域本體;針對企業(yè)領(lǐng)域數(shù)據(jù)集實體樣本的不平衡分類問題,本文提出的Multi-Net(ResNet)動態(tài)知識推理方法改進了原模型的損失平衡函數(shù),實驗表明該方法能夠有效提高實體預(yù)測和關(guān)系預(yù)測的準確性;最后構(gòu)建了企業(yè)動態(tài)風(fēng)險知識圖譜,并將該知識圖譜應(yīng)用于智能問答系統(tǒng)。本研究僅僅是面向企業(yè)動態(tài)風(fēng)險知識圖譜構(gòu)建的初步探索,對于模型中知識隨時間演化、轉(zhuǎn)移的完善還需進一步研究。
參考文獻
[1]謝能付.基于語義Web技術(shù)的知識融合和同步方法研究[D].北京:中國科學(xué)院研究生院(計算技術(shù)研究所),2006.
[2]徐增林,盛泳潘,賀麗榮,等.知識圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報,2016,45(4):589-606.
[3]漆桂林,高桓,吳天星.知識圖譜研究進展[J].情報工程,2017,3(1):4-25.
[4]王昊奮,漆桂林,陳華鈞.知識圖譜:方法、實踐與應(yīng)用[M].北京:電子工業(yè)出版社,2019.
[5]姜淵,黃樺,趙奕.知識圖譜在金融行業(yè)的應(yīng)用展望[J].金融電子化,2016,(9):87.
[6]雷豐羽.知識圖譜在金融信貸領(lǐng)域的應(yīng)用[J].現(xiàn)代商業(yè),2018,(10):89-90.
[7]王超.面向企業(yè)圖譜構(gòu)建的中文命名實體識別技術(shù)研究[D].南京:東南大學(xué),2019.
[8]劉波.面向企業(yè)圖譜的實體鏈接技術(shù)的研究[D].南京:東南大學(xué),2019.
[9]孫晨,付英男,程文亮,等.面向企業(yè)知識圖譜構(gòu)建的中文實體關(guān)系抽取[J].華東師范大學(xué)學(xué)報:自然科學(xué)版,2018,(3):55-66.
[10]吳錦鈺.面向企業(yè)圖譜構(gòu)建的關(guān)系抽取技術(shù)研究[D].南京:東南大學(xué),2019.
[11]陳曉軍,向陽.企業(yè)風(fēng)險知識圖譜的構(gòu)建及應(yīng)用[J/OL].計算機科學(xué):1-11.http://kns.cnki.net/kcms/detail/50.1075.TP.20200721.1547.078.html,2020-07-28.
[12]馬海波.面向風(fēng)控的企業(yè)關(guān)聯(lián)信息知識圖譜構(gòu)建與應(yīng)用研究[D].北京:北京工業(yè)大學(xué),2019.
[13]Trivedi?R,Dai?H,Wang?Y,et?al.Know-Evolve:Deep?Temporal?Reasoning?for?Dynamic?Knowledge?Graphs[J].2017.
[14]García-Durán,Alberto,Dumani?S,et?al.Learning?Sequence?Encoders?for?Temporal?Knowledge?Graph?Completion[J].2018.
[15]Leblay?J,Chekol?M?W.Deriving?Validity?Time?in?Knowledge?Graph[C]//Companion?of?the?the?Web?Conference,2018:1771-1776.
[16]Dasgupta?S?S,Ray?S?N,Talukdar?P.HyTE:Hyperplane-based?Temporally?Aware?Knowledge?Graph?Embedding[C]//Proceedings?of?the?2018?Conference?on?Empirical?Methods?in?Natural?Language?Processing,2018.
[17]Liu?J,Zhang?Q,F(xiàn)u?L,et?al.Evolving?Knowledge?Graphs[C]//IEEE?INFOCOM?2019-IEEE?Conference?on?Computer?Communications.IEEE,2019.
[18]Jin?W,Jiang?H,Qu?M,et?al.Recurrent?Event?Network:Global?Structure?Inference?over?Temporal?Knowledge?Graph[J].2019.
[19]陳浩,李永強,馮遠靜.基于多關(guān)系循環(huán)事件的動態(tài)知識圖譜推理[J].模式識別與人工智能,2020,33(4):337-343.
[20]劉嶠,李楊,段宏,等.知識圖譜構(gòu)建技術(shù)綜述[J].計算機研究與發(fā)展,2016,53(3):582-600.
[21]任飛亮,沈繼坤,孫賓賓,等.從文本中構(gòu)建領(lǐng)域本體技術(shù)綜述[J].計算機學(xué)報,2019,42(3):654-676.
[22]王向前,張寶隆,李慧宗.本體研究綜述[J].情報雜志,2016,35(6):163-170.
[23]Wang?C,Danilevsky?M,Desai?N,et?al.A?Phrase?Mining?Framework?for?Recursive?Construction?of?a?Topical?Hierarchy[C]//Proc?of?the?19th?ACM?SIGKDD?Int?Conf?on?Knowledge?Discovery?and?Data?Mining.New?York:ACM,2013:437-445.
[24]黃慶康,宋愷濤,陸建峰.應(yīng)用于不平衡多分類問題的損失平衡函數(shù)[J].智能系統(tǒng)學(xué)報,2019,14(5):953-958.
[25]Bordes?A,Usunier?N,Garcia-Duran?A,et?al.Translating?Embeddings?for?Modeling?Multi-relational?Data//Burges?C?J?C,Bottou?L,Welling?M,et?al.,eds.Advances?in?Neural?Information?Processing?Systems?26.Cambridge,USA:The?MIT?Press,2013:2787-2795.
[26]陳金菊,王義真,歐石燕.基于道路法規(guī)知識圖譜的多輪自動問答研究[J].現(xiàn)代情報,2020,40(8):98-110,120.
[27]劉良.基于領(lǐng)域知識圖譜的智能問答關(guān)鍵技術(shù)研究[D].成都:電子科技大學(xué),2020.
(責任編輯:孫國雷)